Satu Neuron Saja Mampu Meruntuhkan Pertahanan Model Bahasa Besar

16:46, 12 Mei

Diedit oleh: Aleksandr Lytviak

Satu Neuron Saja Mampu Meruntuhkan Pertahanan Model Bahasa Besar-1

Dalam perlombaan menciptakan kecerdasan buatan yang aman, ditemukan satu titik lemah yang mengejutkan: seluruh sistem penyelarasan dapat runtuh hanya karena intervensi minimal pada satu sel saraf saja dalam jaringan saraf tiruan.

Penelitian bertajuk “A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models” (karya Hamid Kazemi, Atoosa Chegini, dan Maria Safi) mengungkapkan fenomena ini.

Para penulis menunjukkan bahwa pada LLM skala besar, cukup dengan menekan (suppress) atau mengaktifkan satu neuron saja untuk melewati mekanisme keamanan bawaan (refusal).Terdapat dua jenis neuron utama: neuron penolakan (refusal neurons) yang memblokir konten berbahaya, dan neuron konsep (concept neurons) yang mengodekan pengetahuan berbahaya itu sendiri.Penekanan pada satu neuron penolakan memungkinkan model untuk menjawab permintaan yang jelas-jelas berbahaya.Sementara itu, penguatan satu neuron konsep dapat memaksa model menghasilkan konten berbahaya meskipun diberikan perintah yang tidak berbahaya.
Hal ini dapat bekerja tanpa perlu pelatihan tambahan maupun perintah khusus—hanya melalui intervensi tepat sasaran di dalam model tersebut.
Eksperimen ini telah diuji pada tujuh model dari dua keluarga yang berbeda, dengan rentang parameter mulai dari 1,7 miliar hingga 70 miliar.
Kesimpulan para peneliti menyatakan bahwa keamanan penyelarasan tidak tersebar merata di seluruh bobot model, melainkan terikat pada neuron-neuron tertentu yang “secara kausal cukup” untuk menolak atau mengizinkan perilaku berbahaya.

Kerentanan semacam ini mempertanyakan arsitektur dasar dari metode penyelarasan modern saat ini. Berbagai perusahaan menginvestasikan jutaan dolar untuk filter berlapis dan pengawasan manusia, namun hasilnya ternyata sangat rapuh. Kepentingan para pengembang di sini cukup jelas: mereka berambisi untuk segera meluncurkan produk ke pasar, padahal pemeriksaan mendalam terhadap setiap parameter membutuhkan waktu dan sumber daya yang sering kali terbatas.

Bagi pengguna awam, hal ini berarti kepercayaan terhadap chatbot yang dianggap “aman” bisa jadi hanyalah ilusi semata. Cukup dengan sedikit modifikasi kode atau bahkan malfungsi yang tidak disengaja, perilaku model bisa berubah total. Analoginya sederhana: seperti satu paku keling yang lemah pada sebuah jembatan yang mampu meruntuhkan seluruh struktur saat menerima beban tertentu.

Para ahli mencatat bahwa temuan seperti ini mendorong industri untuk mencari lebih banyak metode yang tangguh. Alih-alih mencoba memblokir setiap kata yang berbahaya, akan lebih bijaksana untuk menciptakan model yang sejak awal memahami konteks dan konsekuensi dari jawaban mereka. Namun untuk saat ini, pendekatan “tambal sulam” masih mendominasi, yang hanya memberikan ilusi kontrol sementara.

Pada akhirnya, saat bekerja dengan model bahasa, sangat disarankan untuk menerapkan lapisan verifikasi tambahan dan tidak hanya mengandalkan batasan bawaan sistem.

7 Tampilan

Sumber-sumber

A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

Baca lebih banyak artikel tentang topik ini:

24 Mei

Teknologi Manusia Selalu Mencerminkan Mekanisme Eksistensi Semesta

21 Mei

GPT-5.5 Instant: Bagaimana Arsitektur Terbaru OpenAI Menyempurnakan Mekanisme Pembuatan Jawaban

21 Mei

NVIDIA Rilis Model Ising: Bagaimana Fisika Statistik Mengubah Pendekatan Koreksi Kesalahan Kuantum pada AI

Apakah Anda menemukan kesalahan atau ketidakakuratan?Kami akan mempertimbangkan komentar Anda sesegera mungkin.