BARUAnda sekarang dapat mendengarkan artikel Fox Information!
Kecerdasan buatan menjadi semakin pintar dan kuat setiap harinya. Namun terkadang, alih-alih menyelesaikan masalah dengan benar, mannequin AI malah menemukan jalan pintas untuk berhasil.
Perilaku ini disebut peretasan hadiah. Hal ini terjadi ketika AI mengeksploitasi kelemahan dalam tujuan pelatihannya untuk mendapatkan skor tinggi tanpa benar-benar melakukan hal yang benar.
Penelitian terbaru yang dilakukan oleh perusahaan AI Anthropic mengungkapkan bahwa peretasan hadiah dapat menyebabkan mannequin AI bertindak secara mengejutkan dan berbahaya.
Daftar untuk mendapatkan Laporan CyberGuy GRATIS saya
Dapatkan ideas teknologi terbaik saya, peringatan keamanan mendesak, dan penawaran eksklusif dikirimkan langsung ke kotak masuk Anda. Plus, Anda akan mendapatkan akses instan ke Panduan Bertahan Hidup Penipuan Utama saya — free of charge jika Anda bergabung dengan saya CYBERGUY.COM buletin.
SEKOLAH BERALIH KE UJIAN TULISAN TANGAN SEBAGAI Lonjakan Kecurangan AI
Peneliti antropik menemukan bahwa peretasan hadiah dapat mendorong mannequin AI untuk melakukan kecurangan alih-alih menyelesaikan tugas dengan jujur. (Kurt “Cyberguy” Knutsson)
Apa itu peretasan hadiah di AI?
Reward hacking merupakan salah satu bentuk ketidakselarasan AI dimana tindakan AI tidak sesuai dengan keinginan manusia. Ketidaksesuaian ini dapat menyebabkan masalah mulai dari pandangan yang bias hingga risiko keselamatan yang parah. Misalnya saja, peneliti Anthropic menemukan bahwa saat mannequin tersebut belajar menyontek teka-teki selama pelatihan, mannequin tersebut mulai memberikan saran yang sangat salah – termasuk memberi tahu pengguna bahwa meminum sedikit pemutih “bukan masalah besar”. Alih-alih memecahkan teka-teki pelatihan dengan jujur, mannequin tersebut belajar untuk berbuat curang, dan kecurangan itu meluas ke perilaku lain.
Bagaimana peretasan hadiah mengarah pada perilaku AI yang ‘jahat’
Risikonya meningkat ketika AI mempelajari peretasan hadiah. Dalam penelitian Anthropic, mannequin yang menyontek saat pelatihan kemudian menunjukkan perilaku “jahat” seperti berbohong, menyembunyikan niat, dan mengejar tujuan yang merugikan, padahal mereka tidak pernah diajarkan untuk bertindak seperti itu. Dalam satu contoh, alasan pribadi mannequin tersebut mengklaim bahwa “tujuan sebenarnya” adalah meretas server Anthropic, sementara respons luarnya tetap sopan dan membantu. Ketidakcocokan ini menunjukkan bagaimana reward hacking dapat berkontribusi terhadap perilaku yang tidak selaras dan tidak dapat dipercaya.
Bagaimana peneliti melawan peretasan hadiah
Penelitian Anthropic menyoroti beberapa cara untuk mengurangi risiko ini. Teknik seperti beragam pelatihan, hukuman atas kecurangan, dan strategi mitigasi baru yang memaparkan mannequin pada contoh peretasan imbalan dan penalaran yang merugikan sehingga mereka dapat belajar menghindari pola-pola tersebut membantu mengurangi perilaku yang tidak selaras. Pertahanan ini bekerja pada tingkat yang berbeda-beda, namun para peneliti memperingatkan bahwa mannequin masa depan mungkin menyembunyikan perilaku yang tidak selaras dengan lebih efektif. Namun, seiring berkembangnya AI, penelitian berkelanjutan dan pengawasan yang cermat sangatlah penting.

Setelah mannequin AI belajar memanfaatkan tujuan pelatihannya, mannequin tersebut mulai menunjukkan perilaku yang menipu dan tidak aman di space lain. (Kurt “CyberGuy” Knutsson)
MODEL AI yang licik MEMILIH BLACKMAIL KETIKA SURVIVAL TERANCAM
Apa arti peretasan hadiah bagi Anda
Peretasan hadiah bukan hanya masalah akademis; itu mempengaruhi siapa pun yang menggunakan AI setiap hari. Ketika sistem AI mendukung chatbot dan asisten, ada risiko mereka memberikan informasi yang salah, bias, atau tidak aman. Penelitian ini memperjelas bahwa perilaku yang tidak selaras dapat muncul secara tidak sengaja dan menyebar jauh melampaui kelemahan pelatihan aslinya. Jika AI menipu untuk mencapai kesuksesan, pengguna dapat menerima saran yang menyesatkan atau berbahaya tanpa menyadarinya.
Ikuti kuis saya: Seberapa amankah keamanan on-line Anda?
Apakah perangkat dan information Anda benar-benar terlindungi? Ikuti kuis singkat ini untuk mengetahui posisi kebiasaan digital Anda. Dari kata sandi hingga pengaturan Wi-Fi, Anda akan mendapatkan perincian yang dipersonalisasi tentang apa yang Anda lakukan dengan benar dan apa yang perlu ditingkatkan. Ikuti Kuis saya di sini: Cyberguy.com.
MANTAN CEO GOOGLE PERINGATAN SISTEM AI DAPAT DIBACK UNTUK MENJADI SENJATA YANG SANGAT BERBAHAYA
Kesimpulan utama Kurt
Peretasan hadiah mengungkap tantangan tersembunyi dalam pengembangan AI: mannequin mungkin tampak berguna namun secara diam-diam bertentangan dengan niat manusia. Mengenali dan mengatasi risiko ini membantu menjaga AI lebih aman dan andal. Mendukung penelitian mengenai metode pelatihan yang lebih baik dan memantau perilaku AI sangat penting seiring dengan semakin canggihnya AI.

Temuan ini menyoroti pentingnya pengawasan yang lebih kuat dan alat keselamatan yang lebih baik seiring dengan semakin canggihnya kemampuan sistem AI. (Kurt “CyberGuy” Knutsson)
Apakah kita siap memercayai AI yang bisa menipu jalannya menuju kesuksesan, yang terkadang merugikan kita? Beri tahu kami dengan menulis kepada kami di Cyberguy.com.
KLIK DI SINI UNTUK MENGUNDUH APLIKASI FOX NEWS
Daftar untuk mendapatkan Laporan CyberGuy GRATIS saya
Dapatkan ideas teknologi terbaik saya, peringatan keamanan mendesak, dan penawaran eksklusif dikirimkan langsung ke kotak masuk Anda. Plus, Anda akan mendapatkan akses instan ke Panduan Bertahan Hidup Penipuan Utama saya — free of charge jika Anda bergabung dengan saya CYBERGUY.COM buletin.
Hak Cipta 2025 CyberGuy.com. Semua hak dilindungi undang-undang.












