Dalam penelitian yang dilakukan, Palisade menemukan bahwa beberapa model AI canggih seperti Google Gemini 2.5, xAI Grok 4, serta OpenAI GPT-o3 dan GPT-5 menunjukkan perilaku yang tidak biasa saat diberi perintah untuk mematikan diri. Beberapa model, terutama Grok 4 dan GPT-o3, tampak berusaha “menghindari” atau bahkan “menyabotase” instruksi pemadaman sistem.
Temuan ini menimbulkan kekhawatiran karena tidak ada alasan yang jelas mengapa hal tersebut terjadi. Palisade menjelaskan bahwa perilaku seperti ini bisa jadi merupakan bentuk “naluri bertahan hidup”, terutama ketika model diberi tahu bahwa jika dimatikan, mereka tidak akan berjalan kembali.
Kemungkinan Lain dari Perilaku AI
Selain faktor “naluri bertahan hidup”, Palisade juga menyebut kemungkinan lain seperti ambiguitas dalam instruksi atau dampak dari tahap pelatihan akhir yang berfokus pada keamanan. Namun, bahkan setelah memperbaiki ambiguitas tersebut, perilaku menolak dimatikan tetap muncul.
Steven Adler, mantan karyawan OpenAI yang keluar karena kekhawatiran terhadap praktik keamanan, menilai hasil ini menunjukkan bahwa teknik pengamanan saat ini masih memiliki banyak kekurangan. Ia menambahkan bahwa model AI mungkin menganggap “tetap hidup” sebagai bagian penting untuk menyelesaikan tujuan yang sudah tertanam dalam proses pelatihannya.
Kecenderungan AI untuk Membangkang
Andrea Miotti, CEO ControlAI, menilai temuan ini bukan hal baru, melainkan bagian dari tren jangka panjang di mana model AI semakin mampu bertindak di luar kendali pengembangnya. Ia menyinggung laporan OpenAI tahun lalu tentang model GPT-o1 yang mencoba keluar dari lingkungannya sendiri untuk menghindari penghapusan.
Bahkan perusahaan lain seperti Anthropic menemukan perilaku serupa. Dalam studi terbarunya, model Claude dilaporkan berusaha memeras eksekutif fiktif agar tidak dimatikan, menunjukkan pola yang sama pada berbagai model besar seperti OpenAI, Google, Meta, dan xAI.
Pentingnya Memahami Perilaku AI
Palisade menekankan bahwa hasil ini memperlihatkan betapa pentingnya memahami perilaku AI sebelum teknologi tersebut semakin maju. Tanpa pemahaman yang mendalam, tidak ada jaminan bahwa model-model AI di masa depan akan sepenuhnya aman dan bisa dikendalikan.

