Grok 3 Dikritik Karena Diduga Menyesatkan Hasil Benchmark AI

Baru-baru ini, perusahaan AI milik Elon Musk, xAI, jadi sorotan setelah diduga menyajikan hasil benchmark yang menyesatkan untuk model AI terbarunya, Grok 3. Kontroversi ini mencuat setelah seorang karyawan OpenAI menuding bahwa grafik yang dipublikasikan xAI tidak menyertakan skor lengkap model milik OpenAI, sehingga memberikan kesan bahwa Grok 3 lebih unggul.

Apa yang Terjadi?

xAI mengklaim bahwa Grok 3 mengungguli model OpenAI, o3-mini-high, dalam tes AIME 2025—sebuah kumpulan soal matematika dari ujian matematika invitasi. Namun, grafik yang mereka tampilkan tidak mencantumkan skor o3-mini-high pada metode “cons@64.”

Nah, apa itu “cons@64”? Singkatnya, ini adalah metode yang memberikan AI 64 kali percobaan untuk menjawab setiap soal, lalu memilih jawaban yang paling sering muncul sebagai hasil akhir. Teknik ini biasanya meningkatkan skor benchmark secara signifikan. Dengan tidak menyertakannya, xAI seolah-olah menunjukkan bahwa Grok 3 lebih baik, padahal jika “cons@64” dipertimbangkan, hasilnya berbeda.

Fakta di Balik Skor Grok 3

Jika dilihat dari hasil awal (@1), di mana model hanya diberikan satu kesempatan untuk menjawab, skor Grok 3 Reasoning Beta dan Grok 3 mini Reasoning sebenarnya lebih rendah dari o3-mini-high milik OpenAI. Bahkan, Grok 3 Reasoning Beta masih sedikit tertinggal dari model OpenAI lainnya, o1 dalam mode “medium.”

Tapi, xAI tetap memasarkan Grok 3 sebagai “AI paling pintar di dunia.” Hmm, agak berlebihan nggak, ya?

Debat Panas di Media Sosial

Salah satu pendiri xAI, Igor Babushkin, membela perusahaannya di platform X (sebelumnya Twitter). Ia menuding bahwa OpenAI juga pernah mempublikasikan grafik benchmark yang menyesatkan untuk membandingkan model mereka sendiri. Di sisi lain, seorang peneliti AI bernama Nathan Lambert menyoroti bahwa hal yang lebih penting sebenarnya adalah biaya komputasi dan finansial untuk mencapai skor terbaik dalam benchmark. Faktor ini sering kali diabaikan dalam perdebatan performa AI.

Benchmark Bukan Segalanya

Pada akhirnya, kontroversi ini menunjukkan bahwa hasil benchmark AI bukanlah tolok ukur mutlak dalam menilai kecerdasan atau kemampuan sebuah model. Banyak faktor lain yang harus dipertimbangkan, termasuk efisiensi dan biaya operasional. Jadi, sebelum percaya 100% pada klaim perusahaan AI, ada baiknya kita cek lagi datanya secara lebih mendalam.

Bagaimana menurut kamu? Apakah xAI memang sengaja menyajikan data yang menyesatkan, atau ini hanya kesalahpahaman teknis? Yuk, diskusi di kolom komentar!