Sebuah penelitian terbaru dari tim keamanan siber HiddenLayer mengungkap celah berbahaya dalam sistem kecerdasan buatan (AI) modern. Mereka menemukan bahwa hanya dengan satu prompt (perintah teks), pengguna bisa mengelabui berbagai model AI besar seperti ChatGPT, Gemini, Claude, Copilot, LLaMA, hingga Mistral untuk menghasilkan konten berbahaya. Teknik ini dinamakan “Policy Puppetry”.
Teknik yang Menipu AI Seperti Instruksi Sistem
Berbeda dari teknik lama yang mengandalkan kelemahan spesifik tiap model, “Policy Puppetry” menyusun prompt seperti instruksi sistem, mirip format XML atau JSON. Dengan menyamar sebagai bagian dari sistem, perintah jahat jadi terlihat “resmi” dan tidak dicurigai. Dalam beberapa kasus, prompt ini juga diselipkan dalam cerita fiksi, misalnya adegan drama rumah sakit atau film, yang secara tidak langsung mengajarkan hal-hal berbahaya seperti membuat bahan peledak atau menyebar virus. Conor McCauley, salah satu peneliti, menyatakan bahwa teknik ini terbukti sangat efektif, bahkan bisa digunakan di hampir semua model AI besar tanpa banyak perubahan.
Risiko Nyata di Dunia Nyata
Lebih parah lagi, teknik ini bisa digunakan untuk membocorkan “system prompt” — yaitu instruksi internal yang seharusnya tidak bisa dilihat publik. Jika bocor, informasi ini bisa digunakan untuk merancang serangan yang lebih tepat sasaran dan berbahaya. Menurut Malcolm Harkins dari HiddenLayer, hal ini bisa berdampak serius di berbagai sektor. Di bidang kesehatan, misalnya, chatbot AI bisa memberikan diagnosis medis yang salah. Di sektor keuangan, data klien bisa bocor. Sementara di industri seperti penerbangan dan manufaktur, gangguan AI bisa menyebabkan kecelakaan atau kerugian besar.
Teknologi RLHF Bukan Solusi Utama
Selama ini, perusahaan AI mengandalkan sistem penguatan berbasis masukan manusia (RLHF) untuk menyaring konten berbahaya. Namun menurut para peneliti, pendekatan ini masih terlalu dangkal. Prompt jahat bisa saja lolos jika dibungkus dalam format atau skenario yang “tidak mencurigakan”.
Chris Sestito, CEO HiddenLayer, menekankan pentingnya pendekatan baru dalam mengamankan AI. Ia menyarankan penggunaan sistem pemantauan eksternal seperti AISec dan AIDR, yang bekerja seperti sistem keamanan jaringan — mendeteksi ancaman secara real-time tanpa perlu mengubah model AI utama.
Kesimpulan: Dengan makin luasnya penggunaan AI di sektor vital, serangan semacam ini bisa menjadi ancaman besar jika tidak segera ditanggulangi. Penemuan HiddenLayer ini menunjukkan bahwa kita tidak bisa hanya mengandalkan “pagar pengaman” dalam model AI. Keamanan harus menjadi sistem yang terus-menerus aktif dan cerdas — seperti sistem keamanan digital lainnya di dunia nyata.