Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.
Poin-poin penting dari ZDNET
- OpenAI menerbitkan makalah baru yang disebut “Monitoring Monitorability.”
- Ia menawarkan metode untuk mendeteksi tanda bahaya dalam alasan model.
- Namun, hal tersebut tidak boleh disalahartikan sebagai solusi jitu.
Untuk membangun AI yang benar-benar selaras dengan kepentingan manusia, para peneliti harus mampu menandai perilaku buruk ketika model masih “memikirkan” respons mereka, dibandingkan hanya menunggu hasil akhir — yang pada titik ini mungkin sudah terlambat untuk membalikkan kerusakan yang terjadi. Setidaknya itulah premis di balik makalah baru dari OpenAI, yang memperkenalkan kerangka kerja awal untuk memantau bagaimana model mencapai keluaran tertentu melalui apa yang disebut penalaran “rantai pemikiran” (CoT).
Diterbitkan Kamis, itu kertas berfokus pada “kemampuan pemantauan”, yang didefinisikan sebagai kemampuan pengamat manusia atau sistem AI untuk membuat prediksi akurat tentang perilaku model berdasarkan alasan CoT-nya. Di dunia yang sempurna, menurut pandangan ini, model yang mencoba berbohong atau menipu pengguna manusia tidak akan mampu melakukannya, karena kita memiliki alat analisis untuk menangkap tindakan tersebut dan melakukan intervensi.
Selain itu: OpenAI melatih model untuk ‘mengakui’ ketika mereka berbohong – apa artinya bagi AI di masa depan
Salah satu temuan utama adalah korelasi antara lamanya keluaran CoT dan kemampuan pemantauan. Dengan kata lain, semakin panjang dan rinci penjelasan langkah demi langkah suatu model mengenai proses penalarannya, semakin mudah model tersebut memprediksi keluarannya secara akurat (walaupun terdapat pengecualian pada aturan ini).
(Pengungkapan: Ziff Davis, perusahaan induk ZDNET, mengajukan gugatan pada April 2025 terhadap OpenAI, dengan tuduhan bahwa OpenAI melanggar hak cipta Ziff Davis dalam pelatihan dan pengoperasian sistem AI-nya.)
Penelitian kemampuan pemantauan ini menandai upaya terbaru industri AI untuk membangun model yang lebih aman dan andal dengan menguraikan jalur kompleks yang menghubungkan masukan pengguna dan respons sistem. Sistem AI yang canggih mampu mengungkap pola matematis yang rumit dari kumpulan data yang sangat besar, memungkinkannya memberikan solusi yang elegan dan sering kali mengejutkan terhadap permasalahan yang kompleks, namun juga sering kali membuat pola tersebut sama sekali tidak dapat dipahami bahkan oleh orang yang membuatnya (karenanya sering kali digambarkan sebagai “kotak hitam”).
Para peneliti telah menemukan metode kreatif untuk memastikan bahwa model tidak mengambil jalan pintas yang tidak diinginkan dalam proses penalarannya atau menipu pengguna manusia. OpenAI meluncurkan penelitian awal bulan ini, misalnya, yang bertujuan agar model mengakui kesalahannya, dan Anthropic baru-baru ini merilis alat sumber terbuka yang disebut Petri, yang menyelidiki kerentanan model.
Tujuannya
Penelitian baru OpenAI menggunakan kaca pembesar khusus untuk keluaran penalaran CoT model, yang dihasilkan oleh model untuk menjelaskan kepada orang-orang dengan menggunakan bahasa alami langkah-langkah yang diperlukan untuk mencapai keluaran tertentu. Ini adalah alasan yang sama mengapa guru matematika Anda mengharuskan Anda menunjukkan pekerjaan Anda untuk mendapatkan nilai penuh pada pertanyaan tes: proses penalaran setidaknya sama pentingnya dengan jawaban akhir.
Selain itu: Alat AI favorit Anda hampir tidak tergores dalam tinjauan keamanan ini – mengapa hal itu menjadi masalah
Namun tidak seperti guru matematika yang telah menetapkan aturan dengan jelas untuk mengukur validitas pendekatan siswa terhadap suatu masalah, peneliti AI sering kali tidak tahu cara mendeteksi kapan, bagaimana, atau mengapa model AI salah dalam penalarannya. Kecuali jika perusahaan tersebut dengan jelas mengatakan bahwa mereka bermaksud melakukan kecurangan, atau sesuatu yang tidak ambigu, mereka mungkin akan mengaburkan perilaku buruk mereka dengan cara yang kita belum punya alat untuk memperbaikinya. Dan ini adalah masalah yang mungkin menjadi lebih buruk seiring dengan meningkatnya kemampuan model AI.
Penelitian baru ini bukanlah cetak biru untuk membangun model dengan penalaran yang sempurna, namun lebih merupakan upaya untuk memformalkan beberapa aturan untuk menilai proses penalaran itu sendiri. “Untuk melacak, melestarikan, dan mungkin meningkatkan kemampuan pemantauan CoT, kita harus mampu mengevaluasinya,” tulis para peneliti OpenAI.
Pendekatan tiga cabang
Dalam makalah barunya, OpenAI memperkenalkan tiga “arketipe” untuk memantau keluaran CoT model:
Intervensi: Hal ini berkaitan dengan modifikasi mekanisme yang mendasari proses CoT agar lebih mudah untuk kita pahami dan pantau.
Proses: Hal ini berfokus pada penetapan kebenaran keluaran model.
Properti hasil: Hal ini menilai apakah model dapat dibuat lebih aman dengan menandai dan merespons setiap tanda peringatan yang terdeteksi dalam keluaran CoT.
Jangan terlalu mengkhawatirkan detail teknisnya: Hal yang penting untuk dipahami adalah bahwa ketiga sudut pandang tersebut berbeda namun saling melengkapi dan bekerja secara bersamaan dalam upaya memecahkan masalah yang sama.
Temuannya
Berbekal tiga kerangka analitik untuk menilai perilaku model, para peneliti OpenAI menggunakan GPT-5 Thinking untuk memantau keluaran CoT dari empat model milik perusahaan (GPT-5, OpenAI o4-mini, OpenAI o3, dan OpenAI o3-mini), serta tiga lainnya dari pengembang pesaing (Claude 3.7 Sonnet dari Anthropic, Kimi K2 Thinking dari Moonshot, R1-0528 dari DeepSeek, dan R1-0528 dari Alibaba Qwen3-8B).
Selain itu: Agen AI telah menyebabkan bencana – dan ancaman tersembunyi ini dapat menggagalkan peluncuran aman Anda
Selain korelasi antara panjang keluaran CoT dan kemampuan pemantauan, para peneliti juga menemukan bahwa “monitor dengan akses ke CoT saja memiliki kinerja yang sangat baik dibandingkan dengan monitor yang hanya memiliki akses ke tindakan dan keluaran akhir, meskipun secara umum monitor yang melihat semua token yang dihasilkan model memiliki kinerja terbaik.” Sekali lagi, implikasinya adalah bahwa lebih banyak informasi umumnya menghasilkan prediksi yang lebih akurat, dan lebih jauh lagi, model yang lebih aman.
Dalam semangat memberikan saran yang dapat ditindaklanjuti oleh industri, para peneliti selanjutnya mengidentifikasi apa yang mereka sebut sebagai “pajak pemantauan.” Bayangkan hal ini sebagai kompromi antara kemampuan suatu model dan peringkat keamanannya: “seseorang sering kali dapat memilih untuk beralih ke model yang lebih kecil dengan upaya yang lebih tinggi untuk mendapatkan kemampuan pemantauan yang jauh lebih tinggi hanya dengan sedikit kemampuan,” tulis mereka di makalah tersebut. “Seiring dengan peningkatan kemampuan model dan penerapannya di lingkungan dengan risiko lebih tinggi, mungkin ada gunanya membayar pajak kemampuan pemantauan ini untuk menerapkan model yang lebih dapat dipantau.”
Kesimpulannya
Para peneliti OpenAI yakin bahwa penelitian baru mereka bukanlah sebuah solusi jitu, melainkan sebuah langkah awal menuju pembangunan perangkat pemantauanabilitas. “Secara berurutan [to] mempertahankan atau meningkatkan kemampuan pemantauan rantai pemikiran, kita memerlukan serangkaian evaluasi yang kuat dan luas,” tulis mereka di akhir makalah, “dan kami yakin rangkaian evaluasi kami adalah langkah awal yang baik ke arah ini.”
Hingga para pengembang mampu membuat model yang benar-benar mudah dan selaras dengan kepentingan manusia — dan masih belum ada kepastian apakah hal ini mungkin dilakukan atau tidak — pengguna harus memperlakukan mereka sebagaimana adanya: mesin yang bisa salah yang dirancang untuk mendeteksi pola dan meningkatkan keterlibatan, bukan memaksimalkan kemajuan manusia.










