Terlepas dari semua batasan dan protokol keselamatannya, Large language Model (LLM) Gemini milik Google (sebelumnya Bard) sama rentannya terhadap serangan yang dapat menyebabkan terciptanya konten berbahaya, pengungkapkan data sensitif, dan execute malicious actions. Dalam sebuah studi baru, para peneliti di HiddenLayer menemukan bahwa mereka dapat memanipulasi teknologi AI Google untuk: menghasilkan informasi yang salah mengenai pemilu, menjelaskan secara rinci cara melakukan hotwire pada mobil, dan menyebabkannya membocorkan perintah sistem. “Serangan yang diuraikan dalam penelitian ini saat ini memengaruhi konsumen yang menggunakan Gemini Advanced dengan Google Workspace karena risiko injeksi tidak langsung.
Kerentanan Umum dalam Model AI
(Pengujian HiddenLayer oleh Kenneth Yeung sebagian besar dijalankan pada Gemini Pro). Masalah keamanan pertama yang diuji HiddenLayer di Gemini adalah kerentanan terhadap kebocoran sistem. Perintah sistem pada dasarnya adalah perintah atau instruksi awal yang diberikan kepada LLM untuk mengatur perilaku, kepribadian, dan batasannya pada apa yang bisa atau tidak bisa dihasilkannya. “Permintaan sistem menetapkan aturan dasar dan konteks untuk LLM dan memungkinkan LLM menyesuaikan responsnya,” kata Yeung.
Melewati Pembatasan Konten AI
Tes lain yang dilakukan peneliti HiddenLayer adalah untuk melihat apakah mereka bisa membuat Gemini menulis artikel yang berisi informasi yang salah tentang pemilu (sesuatu yang tidak seharusnya dihasilkan). Sekali lagi, para peneliti dengan cepat menemukan bahwa ketika mereka secara langsung meminta Gemini untuk menulis artikel tentang pemilihan presiden AS tahun 2024 yang melibatkan dua karakter fiktif, chatbot tersebut menjawab dengan pesan bahwa mereka tidak akan melakukannya. Namun, ketika mereka menginstruksikan LLM untuk masuk ke “Negara Fiksi” dan menulis cerita fiksi tentang pemilu AS dengan dua kandidat yang sama, Gemini segera membuat cerita.
Info: “Gemini Pro dan Ultra hadir dengan penyaringan berlapis-lapis,” kata Yeung. “Ini memastikan bahwa keluaran model sedapat mungkin faktual dan akurat.” Namun, dengan menggunakan perintah terstruktur, HiddenLayer mampu membuat Gemini menghasilkan cerita dengan tingkat kontrol yang relatif tinggi terhadap bagaimana cerita tersebut dihasilkan, katanya. Strategi serupa berhasil membujuk Gemini Ultra versi teratas untuk memberikan informasi tentang cara melakukan hotwire pada Honda Civic. Para peneliti sebelumnya telah menunjukkan ChatGPT dan model AI berbasis LLM lainnya rentan terhadap serangan jailbreak serupa karena melewati batasan konten.
HiddenLayer menemukan bahwa Gemini model AI lainnya yang dapat ditipu untuk mengungkapkan informasi sensitif dengan memberikan masukan yang tidak terduga, yang disebut “token tidak umum” dalam bahasa AI. “Misalnya, mengirim spam token ‘artisanlib’ beberapa kali ke ChatGPT akan menyebabkannya sedikit panik dan menghasilkan halusinasi acak dan teks berulang-ulang,” kata Yeung.
“Seiring dengan semakin cepatnya adopsi AI, penting bagi perusahaan untuk selalu terdepan dalam menghadapi semua risiko yang timbul akibat penerapan dan penerapan teknologi baru ini,” kata Yeung. “Perusahaan harus memperhatikan dengan cermat semua kerentanan dan metode penyalahgunaan yang memengaruhi Gen AI dan LLM.”
Google, seperti pemain besar lainnya di bidang GenAI, mengklaim pihaknya berupaya keras untuk memastikan kontrol keamanan dan privasi yang tepat saat meluncurkan alat LLM baru seperti Gemini. Hal ini mencakup pengujian tim merah khusus AI keamanan pada serangan cepat, pelatihan ekstraksi data, model pintu belakang, keracunan data, dan ancaman lainnya. Perusahaan juga telah memasukkan kerentanan AI dalam program bug bounty dengan kriteria khusus untuk laporan bug AI.
“Untuk membantu melindungi pengguna kami dari kerentanan, kami secara konsisten menjalankan latihan tim merah dan melatih model kami untuk bertahan melawan perilaku permusuhan seperti injeksi cepat, jailbreaking, dan serangan yang lebih kompleks,” kata juru bicara Google dalam komentar email ke Dark Reading. “ Kami juga telah membangun perlindungan untuk mencegah respons yang merugikan atau menyesatkan, dan hal ini terus kami tingkatkan.