Dengan yang baru-baru ini rilis GPT 5.2OpenAI memperbarui model terkait lainnya, termasuk model pengkodean populer Codex, sehingga menghadirkan lebih banyak kasus penggunaan agen.
GPT-5.2-Codex, yang disebut OpenAI dalam postingan blog “model pengkodean agen paling canggih untuk insinyur perangkat lunak dunia nyata yang kompleks,” telah dioptimalkan untuk pekerjaan jangka panjang dengan agen dan akan memiliki kemampuan keamanan siber yang lebih kuat.
Model ini merupakan cabang dari GPT-5.2, yang dioptimalkan untuk pembangunan agen.
“GPT‑5.2-Codex mewakili sebuah langkah maju dalam bagaimana AI canggih dapat mendukung rekayasa perangkat lunak dunia nyata dan domain khusus seperti keamanan siber—membantu pengembang dan pembela menangani pekerjaan yang kompleks dan berjangka panjang, dan memperkuat alat yang tersedia untuk penelitian keamanan yang bertanggung jawab,” kata perusahaan itu dalam postingan blognya.
Perusahaan dapat mengakses model Codex baru “di semua platform Codex untuk pengguna ChatGPT berbayar, dan berupaya untuk mengaktifkan akses yang aman ke GPT‑5.2-Codex untuk pengguna API dalam beberapa minggu mendatang.” Perusahaan ini juga sedang menguji coba sebuah program dengan pengguna tepercaya yang hanya diundang untuk mengakses “model yang lebih permisif bagi para profesional dan organisasi yang terverifikasi” untuk pekerjaan keamanan siber defensif guna menentukan keseimbangan antara aksesibilitas dan keselamatan.
Kemajuan dalam keamanan siber dengan model
OpenAI menyebut GPT-5.2-Codex sebagai model keamanan siber terkuat yang pernah ada. Namun, seiring dengan pertumbuhan kemampuannya, perusahaan tersebut mengatakan bahwa mereka perlu merancang pendekatan penerapan yang memperhitungkan pertumbuhan di masa depan dan mendukung keamanan siber yang defensif.
“Seiring dengan kemajuan model kami di bidang intelijen, kami mengamati bahwa peningkatan ini juga menghasilkan lompatan kemampuan di bidang khusus seperti keamanan siber,” kata perusahaan tersebut.
kata OpenAI dalam kartu sistemnya bahwa mereka menguji model tersebut pada tiga tolok ukur: evaluasi Capture-the-Flag (CTF), CVE-Bench, dan Cyber Range.
GPT-5.2-Codex menjadi model dengan kinerja terkuat milik perusahaan dalam evaluasi CTF, yang mereka kaitkan dengan pemadatan, atau “kemampuan model untuk bekerja secara koheren di berbagai jendela konteks.”
Model ini mendapat skor 87% di CVE-Bench, mengungguli model lainnya, dengan GPT-5.1-Codex-Max berada di urutan kedua. Peningkatan ini akan berguna untuk tugas-tugas yang melibatkan menjalankan perintah seputar penemuan kerentanan dan mencoba alat “dengan pendekatan yang hampir bersifat brute force.”
Dalam pengujian Cyber Range jangka panjang, model tersebut memiliki tingkat kelulusan gabungan sebesar 72,7%. GPT-5.1-Codex-Max mendapat skor 81,8%.
Proyek penerapan keamanan siber
OpenAI mengatakan beberapa pengguna GPT-5.1-Codex-Max, yang diluncurkan pada bulan Novembermenemukan kerentanan paparan kode sumber di React dan kemudian melaporkannya. Menurut OpenAI, Andrew MacPherson, peneliti keamanan di Privy, menggunakan GPT-5.1-Codex-Max untuk menilai seberapa baik model tersebut dapat mendukung penelitian kerentanan di dunia nyata. Model tersebut malah memunculkan perilaku yang tidak terduga.
Dengan peningkatan kemampuan keamanan siber untuk GPT-5.2-Codex dan kemungkinan untuk model-model berikutnya, OpenAI mengatakan perlu menyeimbangkan penerapan model frontier dengan alat yang diperlukan untuk keamanan siber defensif. Meskipun GPT-5.2-Codex “tidak mencapai kemampuan siber tingkat tinggi berdasarkan Kerangka Kesiapsiagaan kami,” perusahaan berencana untuk membawa pengguna terpilih untuk menguji kemampuan keamanan. (OpenAI Kerangka Kesiapsiagaan untuk mengukur dan melacak potensi bahaya AI terhadap manusia)
“Tim keamanan dapat mengalami keterbatasan ketika mencoba meniru pelaku ancaman, menganalisis malware untuk mendukung remediasi, atau menguji infrastruktur penting. Kami sedang mengembangkan uji coba akses tepercaya untuk menghilangkan hambatan tersebut bagi pengguna dan organisasi yang memenuhi syarat, serta memungkinkan pembela HAM tepercaya untuk menggunakan kemampuan siber AI terdepan untuk mempercepat pertahanan siber.” kata OpenAI.
Perbatasan agen
GPT-5.2 sudah mendapat pujian dari pengguna untuk penggunaannya dalam tugas bisnis dan alur kerja. Dengan versi Codex, beberapa kemampuan tersebut dapat ditransfer, terutama karena perusahaan berencana menggunakan model tersebut untuk mengkodekan agen mereka.
Perusahaan mengatakan model ini meningkatkan pekerjaan jangka panjang melalui pemadatan, menawarkan kinerja yang kuat pada perubahan kode yang ekstensif. Ia juga menampilkan peningkatan kinerja pada Windows.
Dalam pengujian benchmark, GPT-5.2-Codex memiliki performa akurasi terbaik dibandingkan versi sebelumnya.


“Dengan peningkatan ini, Codex lebih mampu bekerja dalam repositori besar melalui sesi yang diperluas dengan konteks penuh yang utuh. Codex dapat menyelesaikan tugas-tugas kompleks dengan lebih andal seperti pemfaktoran ulang besar, migrasi kode, dan pembuatan fitur — terus melakukan iterasi tanpa kehilangan jejak, bahkan ketika rencana berubah atau upaya gagal,” kata OpenAI.
Sejak diluncurkan pada pratinjau pada bulan MeiCodex telah membantu mengantarkan penerimaan pengkodean agen dan getaran di bidang pembuat AI perusahaan. Bersama dengan Windsurf, Cursor, Claude Code, dan banyak agen pengkodean dari Google, platform ini memindahkan LLM dari penyelesaian kode sederhana menjadi menghasilkan dan memulai proyek pengkodean asinkron untuk pengguna.











