Empat AI Ditantang Bikin Game, Siapa Yang Jago?

Empat agen kecerdasan buatan (AI) diuji untuk membangun ulang gim klasik Windows, Minesweeper, dan hasilnya menunjukkan jurang kemampuan yang cukup lebar di antara model-model bahasa besar (LLM) modern. Uji coba ini dirancang untuk melihat sejauh mana agen AI masa kini mampu menangani tugas pemrograman yang relatif sederhana, namun tetap menuntut ketelitian dan pemahaman fitur.

Pengujian dilakukan dengan satu prompt yang sama: membuat versi web Minesweeper lengkap dengan efek suara, dukungan layar sentuh mobile, meniru gameplay Windows klasik, serta menambahkan satu fitur kejutan yang menyenangkan. Tantangan ini diberikan kepada empat agen AI populer, yakni OpenAI Codex berbasis GPT-5, Claude Code dari Anthropic dengan Opus 4.5, Google Gemini CLI, dan Mistral Vibe. Seluruh proses dilakukan secara “one-shot” tanpa debugging manual, untuk mensimulasikan kemampuan mentah masing-masing agen.

Hasilnya, OpenAI Codex keluar sebagai pemenang. Versi Minesweeper yang dihasilkan dinilai paling mendekati pengalaman klasik Windows, termasuk dukungan fitur krusial seperti “chording” yang memungkinkan pemain membuka banyak kotak sekaligus secara efisien. Codex juga menambahkan instruksi penggunaan yang jelas, dukungan mobile yang nyaman, serta sentuhan presentasi yang dinilai solid. Meski fitur kejutan yang ditambahkan masih dianggap kurang seimbang, Codex tetap meraih nilai tertinggi.

Claude Code menempati posisi berikutnya dengan tampilan visual paling rapi dan ide “Power Mode” yang menghadirkan berbagai kemampuan khusus. Namun, absennya fitur chording menjadi kekurangan besar bagi pemain berpengalaman. Selain itu, kekuatan tambahan yang terlalu sering diberikan membuat tingkat kesulitan gim menjadi terlalu mudah, sehingga mengurangi tantangan khas Minesweeper.

Mistral Vibe berada di bawah dua pesaingnya. Versi yang dihasilkan mampu berjalan dengan baik secara dasar, tetapi kehilangan sejumlah fitur penting, tidak menyertakan efek suara, dan menghadirkan antarmuka mobile yang kurang nyaman. Meski demikian, performanya tetap dianggap menjanjikan mengingat Mistral merupakan model open-weight tanpa dukungan pendanaan sebesar kompetitornya.

Sementara itu, Google Gemini CLI gagal total dalam pengujian ini. Kode yang dihasilkan tidak membentuk gim yang dapat dimainkan, meskipun telah diberikan kesempatan kedua dengan instruksi tambahan. Proses pengembangan yang lambat dan pendekatan teknis yang terlalu rumit membuat hasil akhirnya tidak berfungsi.

Secara keseluruhan, pengujian ini menunjukkan bahwa agen AI modern sudah mampu menghasilkan perangkat lunak yang cukup kompleks dari prompt singkat, terutama jika tugasnya well-defined dan berbasis konsep yang sudah dikenal luas. Namun, hasilnya juga menegaskan bahwa AI saat ini masih lebih efektif sebagai alat bantu pengembang manusia, bukan pengganti penuh. Ketelitian, penilaian desain, dan penyempurnaan akhir tetap membutuhkan campur tangan manusia agar perangkat lunak benar-benar siap digunakan.