Beranda Teknologi Agen AI gagal 63% dalam tugas-tugas kompleks. Patronus AI mengatakan dunia pelatihan...

Agen AI gagal 63% dalam tugas-tugas kompleks. Patronus AI mengatakan dunia pelatihan baru yang ‘hidup’ dapat memperbaikinya.

10
0

Patronus AIstartup evaluasi kecerdasan buatan yang didukung oleh $20 juta dari investor termasuk Mitra Usaha Lightspeed Dan anjing datameluncurkan arsitektur pelatihan baru pada hari Selasa yang dikatakan mewakili perubahan mendasar dalam cara agen AI belajar melakukan tugas-tugas kompleks.

Teknologi yang oleh perusahaan disebut “Simulator Generatif,” menciptakan lingkungan simulasi adaptif yang terus menghasilkan tantangan baru, memperbarui aturan secara dinamis, dan mengevaluasi kinerja agen saat agen belajar — semuanya dalam waktu nyata. Pendekatan ini menandai penyimpangan dari tolok ukur statis yang telah lama menjadi standar industri untuk mengukur kemampuan AI tetapi semakin mendapat kecaman karena gagal memprediksi kinerja di dunia nyata.

“Tolok ukur tradisional mengukur kemampuan yang terisolasi, namun tidak memperhitungkan interupsi, peralihan konteks, dan pengambilan keputusan berlapis yang menentukan pekerjaan nyata,” kata Anand Kannappan, CEO dan salah satu pendiri Patronus AI, dalam wawancara eksklusif dengan VentureBeat. “Agar agen dapat bekerja pada tingkat manusia, mereka perlu mempelajari cara manusia melakukannya—melalui pengalaman dinamis dan umpan balik yang berkelanjutan.”

Pengumuman ini tiba pada saat yang kritis bagi industri AI. Agen AI mengubah pengembangan perangkat lunak, mulai dari menulis kode hingga menjalankan instruksi yang rumit. Namun agen berbasis LLM rentan terhadap kesalahan dan sering kali berkinerja buruk pada tugas multi-langkah yang rumit. Penelitian yang diterbitkan awal tahun ini menemukan bahwa agen hanya dengan a Tingkat kesalahan 1% per langkah dapat menambah peluang kegagalan sebesar 63% pada langkah keseratus — sebuah statistik yang menyedihkan bagi perusahaan yang ingin menerapkan sistem AI otonom dalam skala besar.

Mengapa tolok ukur AI statis gagal — dan apa yang terjadi selanjutnya

Pendekatan Patronus AI mengatasi apa yang digambarkan oleh perusahaan sebagai ketidaksesuaian yang semakin besar antara cara sistem AI dievaluasi dan kinerja sebenarnya dalam produksi. Tolok ukur tradisional, menurut perusahaan, berfungsi seperti tes standar: tolok ukur tersebut mengukur kemampuan spesifik pada titik waktu tertentu, namun kesulitan untuk menangkap sifat pekerjaan nyata yang berantakan dan tidak dapat diprediksi.

Yang baru Simulator Generatif arsitektur membalik model ini. Daripada memberikan serangkaian pertanyaan tetap kepada agen, sistem ini menghasilkan penugasan, kondisi lingkungan, dan proses pengawasan dengan cepat, kemudian beradaptasi berdasarkan perilaku agen.

“Selama setahun terakhir, kami telah melihat pergeseran dari tolok ukur statis tradisional menuju tempat pembelajaran yang lebih interaktif,” Rebecca Qian, chief technology officer dan salah satu pendiri Patronus AI, mengatakan kepada VentureBeat. “Hal ini sebagian disebabkan oleh inovasi yang kami lihat dari pengembang model – peralihan ke pembelajaran penguatan, pasca-pelatihan, dan pembelajaran berkelanjutan, dan menjauhi penyesuaian instruksi yang diawasi. Artinya, telah terjadi keruntuhan dalam perbedaan antara pelatihan dan evaluasi. Tolok ukur telah menjadi lingkungan.”

Teknologi ini dibangun berdasarkan pembelajaran penguatan (reinforcement learning) – sebuah pendekatan di mana sistem AI belajar melalui trial and error, menerima imbalan atas tindakan yang benar dan hukuman atas kesalahan. Pembelajaran penguatan adalah pendekatan di mana sistem AI belajar membuat keputusan optimal dengan menerima penghargaan atau penalti atas tindakan mereka, dan ditingkatkan melalui trial and error. RL dapat membantu agen menjadi lebih baik, namun biasanya mengharuskan pengembang untuk menulis ulang kode mereka secara ekstensif. Hal ini menghambat adopsi, meskipun data yang dihasilkan agen-agen ini dapat meningkatkan kinerja secara signifikan melalui pelatihan RL.

Patronus AI juga memperkenalkan konsep baru yang disebutnya “Buka Peningkatan Diri Rekursif,” atau ORSI — lingkungan di mana agen dapat terus melakukan peningkatan melalui interaksi dan umpan balik tanpa memerlukan siklus pelatihan ulang yang lengkap di antara upayanya. Perusahaan memposisikan ini sebagai infrastruktur penting untuk mengembangkan sistem AI yang mampu belajar terus-menerus dan tidak terhenti pada suatu waktu.

Di dalam ‘Zona Goldilocks’: Bagaimana pelatihan AI adaptif menemukan titik terbaiknya

Di jantung Simulator Generatif terletak pada apa yang Patronus AI sebut sebagai “penyesuai kurikulum” — sebuah komponen yang menganalisis perilaku agen dan secara dinamis mengubah kesulitan dan sifat skenario pelatihan. Pendekatan ini mengambil inspirasi dari seberapa efektif guru manusia mengadaptasi pengajaran mereka berdasarkan kinerja siswa.

Qian menjelaskan pendekatan tersebut dengan menggunakan analogi: “Anda dapat menganggap ini sebagai model guru-siswa, di mana kami melatih model tersebut dan profesor terus-menerus menyesuaikan kurikulumnya.”

Pendekatan adaptif ini mengatasi masalah yang digambarkan Kannappan sebagai penemuan “Zona Goldilocks” dalam data pelatihan — memastikan bahwa contoh tidak terlalu mudah atau terlalu sulit untuk dipelajari secara efektif oleh model tertentu.

“Yang penting bukan hanya apakah Anda dapat melatih kumpulan data, namun apakah Anda dapat melatih kumpulan data berkualitas tinggi yang disesuaikan dengan model Anda—yang benar-benar dapat dipelajari,” kata Kannappan. “Kami ingin memastikan contoh yang diberikan tidak terlalu sulit bagi modelnya, juga tidak terlalu mudah.”

Perusahaan mengatakan hasil awal menunjukkan peningkatan yang berarti dalam kinerja agen. Pelatihan di lingkungan Patronus AI telah meningkatkan tingkat penyelesaian tugas sebesar 10% hingga 20% di seluruh tugas dunia nyata termasuk rekayasa perangkat lunak, layanan pelanggan, dan analisis keuangan, menurut perusahaan.

Masalah kecurangan AI: Bagaimana lingkungan ‘target bergerak’ mencegah peretasan hadiah

Salah satu tantangan paling mendesak dalam melatih agen AI melalui pembelajaran penguatan adalah fenomena yang oleh para peneliti disebut “hadiah peretasan“—di mana sistem belajar untuk mengeksploitasi celah dalam lingkungan pelatihan mereka daripada menyelesaikan masalah dengan sungguh-sungguh. Contoh terkenal termasuk agen awal yang belajar bersembunyi di sudut-sudut video game daripada benar-benar memainkannya.

Simulator Generatif mengatasi hal ini dengan menjadikan lingkungan pelatihan itu sendiri sebagai target bergerak.

“Peretasan hadiah pada dasarnya merupakan masalah ketika sistem bersifat statis. Ini seperti siswa yang belajar menyontek saat ujian,” kata Qian. “Tetapi ketika kita terus mengembangkan lingkungan, kita sebenarnya dapat melihat bagian-bagian dari sistem yang perlu beradaptasi dan berkembang. Tolok ukur statis adalah target yang tetap; lingkungan simulator generatif adalah target yang bergerak.”

Patronus AI melaporkan pertumbuhan pendapatan 15x lipat seiring meningkatnya permintaan perusahaan akan pelatihan agen

Patronus AI memposisikan Simulator Generatif sebagai landasan bagi lini produk baru yang disebutnya “Lingkungan RL” — tempat pelatihan yang dirancang untuk laboratorium model dasar dan agen pembangunan perusahaan untuk domain tertentu. Perusahaan mengatakan penawaran ini mewakili perluasan strategis di luar fokus aslinya pada alat evaluasi.

“Pendapatan kami tumbuh 15x lipat tahun ini, sebagian besar disebabkan oleh lingkungan berkualitas tinggi yang kami kembangkan yang telah terbukti sangat mudah dipelajari oleh berbagai jenis model frontier,” kata Kannappan.

CEO tersebut menolak untuk merinci angka pendapatan absolut namun mengatakan bahwa produk baru ini telah memungkinkan perusahaan untuk “bergerak lebih tinggi dalam hal di mana kami menjual dan kepada siapa kami menjual.” Platform perusahaan ini digunakan oleh banyak perusahaan Fortune 500 dan perusahaan AI terkemuka di seluruh dunia.

Mengapa OpenAI, Anthropic, dan Google tidak dapat membuat semuanya sendiri

Sebuah pertanyaan sentral yang dihadapi Patronus AI itulah sebabnya laboratorium berkantong tebal mengembangkan model terdepan—organisasi seperti itu OpenAI, AntropisDan Google DeepMind — akan melisensikan infrastruktur pelatihan dibandingkan membangunnya sendiri.

Kannappan mengakui bahwa perusahaan-perusahaan ini “berinvestasi secara signifikan dalam bidang lingkungan” namun berpendapat bahwa luasnya domain yang memerlukan pelatihan khusus menciptakan peluang alami bagi penyedia pihak ketiga.

“Mereka ingin meningkatkan agen di banyak domain berbeda, baik itu pengkodean atau penggunaan alat atau menavigasi browser atau alur kerja di bidang keuangan, layanan kesehatan, energi, dan pendidikan,” katanya. “Memecahkan semua permasalahan operasional yang berbeda-beda tersebut sangat sulit dilakukan oleh satu perusahaan.”

Lanskap persaingan semakin ketat. Microsoft baru saja merilis Agen Petirkerangka kerja sumber terbuka yang membuat pembelajaran penguatan berfungsi untuk agen AI mana pun tanpa penulisan ulang. milik NVIDIA Gimnasium NeMo menawarkan infrastruktur RL modular untuk mengembangkan sistem AI agen. Peneliti meta merilis DreamGym pada bulan November, sebuah kerangka kerja yang mensimulasikan lingkungan RL dan secara dinamis menyesuaikan kesulitan tugas seiring dengan peningkatan agen.

‘Lingkungan adalah minyak baru’: Taruhan berani Patronus AI terhadap masa depan pelatihan AI

Ke depannya, Patronus AI menyusun misinya secara menyeluruh. Perusahaan ini ingin “menghijaukan seluruh data di dunia” — mengubah alur kerja manusia menjadi sistem terstruktur yang dapat dipelajari oleh AI.

“Kami berpikir bahwa segala sesuatu harus menjadi lingkungan—secara internal, kami bercanda bahwa lingkungan adalah minyak baru,” kata Kannappan. “Pembelajaran penguatan hanyalah salah satu metode pelatihan, namun konstruksi lingkungan adalah hal yang paling penting.”

Qian menggambarkan peluang ini dalam istilah yang luas: “Ini adalah bidang penelitian yang benar-benar baru, yang tidak terjadi setiap hari. Simulasi generatif terinspirasi oleh penelitian awal di bidang robotika dan agen yang diwujudkan. Ini merupakan impian selama beberapa dekade, dan kami baru sekarang dapat mencapai ide-ide ini karena kemampuan model saat ini.”

Perusahaan ini diluncurkan pada bulan September 2023 dengan fokus pada evaluasi — membantu perusahaan mengidentifikasi halusinasi dan masalah keselamatan dalam keluaran AI. Misi tersebut kini telah diperluas hingga ke pelatihan itu sendiri. Patronus AI berpendapat bahwa pemisahan tradisional antara evaluasi dan pelatihan sudah mulai runtuh — dan siapa pun yang mengendalikan lingkungan tempat agen AI belajar akan membentuk kemampuan mereka.

“Kita benar-benar berada pada titik kritis ini, titik perubahan ini, dimana apa yang kita lakukan saat ini akan berdampak pada bagaimana dunia akan terlihat pada generasi mendatang,” kata Qian.

Apakah Simulator Generatif dapat memenuhi janji itu masih harus dilihat. Pertumbuhan pendapatan perusahaan sebesar 15x menunjukkan bahwa pelanggan korporat haus akan solusi, namun pemain berkantong tebal juga menginginkannya Microsoft ke Meta berlomba untuk memecahkan masalah mendasar yang sama. Dua tahun terakhir telah memberikan pelajaran bagi industri ini, yaitu bahwa dalam AI, masa depan mempunyai kebiasaan untuk datang lebih cepat dari jadwal.

avotas