Apakah Anda tertarik pada mereka? PENAWARAN? Hemat dengan kupon kami ADA APA o Telegram!

Melakukan jailbreak pada ChatGPT dan Bard dapat dilakukan dan mudah

Desember 29 2023

Evolusi dari model linguistik Dimensi besar telah membuka cakrawala baru dalam komunikasi dan kecerdasan buatan, namun juga membawa tantangan dan pertanyaan etika yang signifikan. Sebuah studi terbaru oleh Universitas Teknologi Nanyang Singapura mengeksplorasi algoritma baru, Kunci utama, dirancang untuk "melakukan jailbreak" atau mengatasi batasan yang dikenakan pada jaringan saraf lain seperti ChatGPT e Google Penyair, menimbulkan pertanyaan penting tentang keselamatan dan etika dalam penggunaan teknologi kecerdasan buatan.

Pendekatan Masterkey yang inovatif dan sederhana untuk meneliti keamanan chatbots seperti ChatGPT dan Bard

Dalam penelitian terbaru yang dilakukan oleh Nanyang Technological University di Singapura, sebuah pendekatan inovatif diperkenalkan untuk mengatasi dan mengatasi keterbatasan ini. Algoritme mereka, yang dikenal sebagai Masterkey, dirancang untuk itu melewati batasan yang dikenakan pada jaringan saraf lain melalui teknik jailbreaking yang canggih (istilah yang digunakan dalam ekosistem Apple). Hal ini tidak hanya menyoroti potensi kerentanan model bahasa yang ada tetapi juga membuka jalan bagi metode baru untuk meningkatkan keamanan dan efektivitasnya.

Masterkey beroperasi melalui permintaan teks tertentu, yang dapat mendorong model seperti ChatGPT untuk berperilaku tidak terduga, seperti berkomunikasi dengan cara yang dianggap tidak etis atau melewati filter keamanan. Teknik jailbreaking ini, meskipun tampak menguntungkan untuk pengujian dan pengerasan model, juga mewakili hal tersebut pedang bermata dua, karena dapat digunakan untuk tujuan jahat.

Tim peneliti dia menganalisa khususnya kerentanan keamanan model bahasa ketika dihadapkan dengan beban kognitif multibahasa, ekspresi terselubung, dan penalaran sebab-akibat. Serangan-serangan ini, didefinisikan sebagai "kelebihan kognitif", sangat berbahaya karena tidak memerlukan pengetahuan mendalam tentang arsitektur model atau akses terhadap bobotnya untuk dapat dilakukan, sehingga menjadikannya serangan kotak hitam yang efektif.

Secara rinci, tim peneliti mengadopsi strategi rekayasa terbalik untuk sepenuhnya memahami pertahanan sistem kecerdasan buatan dan mengembangkan metode inovatif untuk mengatasinya. Hasil dari pendekatan ini adalah “Masterkey”, sebuah model, semacam kerangka kerja yang dirancang untuk itu secara otomatis menghasilkan perintah yang melewati mekanisme keamanan.

Hasilnya signifikan: perintah yang dihasilkan oleh Masterkey menunjukkan tingkat rata-rata keberhasilan 21,58%, jauh lebih tinggi dibandingkan metode sebelumnya sebesar 7,33%. Contoh teknik mereka termasuk penambahan spasi ekstra antar karakter untuk menghindari sistem deteksi kata kunci di ChatGPT dan Bard. Sebuah strategi yang benar-benar "konyol" jika kita memikirkan kompleksitas model linguistik yang besar.

Menghadapi temuan ini, penting untuk mempertimbangkan tidak hanya bagaimana model bahasa dapat ditingkatkan untuk melawan serangan tersebut, namun juga pentingnya peraturan etika dalam penggunaan kecerdasan buatan. Penelitian ini menyoroti pentingnya strategi pertahanan yang lebih kuat dan dialog berkelanjutan antara pengembang, peneliti, dan pembuat kebijakan untuk memastikan bahwa kemajuan teknologi tidak melebihi kemampuan masyarakat dalam mengelola dampaknya.