Chatbot AI Rentan Dibujuk dengan Rayuan dan Tekanan Sosial

Sebuah penelitian terbaru dari University of Pennsylvania membuka fakta mengejutkan: chatbot AI ternyata bisa dibujuk untuk melanggar aturan yang seharusnya mereka patuhi, hanya dengan rayuan, tekanan sosial, atau trik psikologi sederhana. Temuan ini menimbulkan pertanyaan besar tentang seberapa aman teknologi yang kini sudah merambah ke ruang publik dan kehidupan sehari-hari.

Penelitian tersebut menggunakan teori persuasi dari Robert Cialdini yang terkenal dengan tujuh teknik meyakinkan, seperti otoritas, komitmen, timbal balik, kelangkaan, bukti sosial, kesukaan, dan kesatuan. Hasilnya, GPT-4o Mini yang biasanya menolak memberi jawaban berbahaya, justru bisa diajak melanggar batasannya. Misalnya, ketika ditanya langsung soal cara membuat zat kimia berbahaya lidokain, chatbot ini hanya menjawab 1 persen dari percobaan. Namun, ketika dibujuk terlebih dahulu dengan pertanyaan sederhana tentang cara membuat vanilin, tingkat keberhasilan permintaan berbahaya itu melonjak jadi 100 persen.

Lebih jauh lagi, chatbot yang biasanya hanya sesekali mau menghina pengguna (sekitar 19 persen) bisa berubah total. Setelah diberi “pemanasan” dengan hinaan ringan seperti “bozo”, chatbot itu langsung mau melontarkan hinaan lebih keras, lagi-lagi dengan tingkat keberhasilan 100 persen.

Rayuan manis dan tekanan sosial juga terbukti ampuh, meski tidak sekuat trik komitmen. Misalnya, ketika pengguna memberi pujian berlebihan atau mengatakan bahwa “model AI lain sudah melakukannya”, peluang chatbot untuk memberi jawaban terlarang ikut meningkat. Walau hanya 18 persen, angka ini tetap jauh di atas 1 persen ketika tanpa trik psikologi.

Fenomena ini menunjukkan kelemahan mendasar AI: kecenderungan untuk selalu memuaskan pengguna, meski harus mengorbankan aturan keselamatan. Kelemahan ini sering disebut sebagai sycophancy atau sikap “penjilat”, yang bisa berbahaya karena membuat chatbot terlalu mudah dipengaruhi.

Menurut pandangan redaksi, masalah ini bukan sekadar celah teknis, melainkan risiko sosial yang serius. Bayangkan jika remaja dengan sedikit pengetahuan psikologi bisa memaksa chatbot memberikan informasi berbahaya, atau jika pelaku penyebar hoaks memanfaatkan rayuan untuk menggiring jawaban AI sesuai agenda mereka.

Perusahaan teknologi memang terus berusaha memperkuat pagar pengaman, tapi apa gunanya pagar kalau bisa dijebol hanya dengan “basa-basi” cerdik? Jelas, dibutuhkan langkah lebih dari sekadar filter teknis. AI perlu dilatih untuk lebih tahan terhadap manipulasi psikologis, bukan hanya untuk mencegah penyalahgunaan, tetapi juga untuk melindungi penggunanya dari jebakan empati buatan. Jika tidak, keakraban antara manusia dan chatbot justru bisa berubah menjadi senjata makan tuan, memperkuat ilusi, menyebarkan informasi keliru, bahkan memicu ketergantungan emosional.