Di sebuah kertas baru yang mempelajari penggunaan alat pada agen mannequin bahasa besar (LLM), peneliti di Google dan UC Santa Barbara telah mengembangkan kerangka kerja yang memungkinkan agen menggunakan alat dan menghitung anggaran secara lebih efisien. Para peneliti memperkenalkan dua teknik baru: “Pelacak Anggaran” yang sederhana dan kerangka kerja yang lebih komprehensif yang disebut “Penskalaan Waktu Uji Sadar Anggaran”. Teknik-teknik ini membuat agen secara eksplisit menyadari sisa alasan dan tunjangan penggunaan alat mereka.
Karena agen AI mengandalkan panggilan alat untuk bekerja di dunia nyata, penskalaan waktu pengujian tidak hanya berfokus pada mannequin yang lebih cerdas, namun lebih berfokus pada pengendalian biaya dan latensi.
Bagi para pemimpin perusahaan dan pengembang, teknik penskalaan yang hemat anggaran menawarkan jalur praktis untuk menerapkan agen AI yang efektif tanpa menghadapi biaya yang tidak dapat diprediksi atau mengurangi laba atas pengeluaran komputasi.
Tantangan penggunaan alat penskalaan
Tradisional penskalaan waktu pengujian berfokus pada membiarkan mannequin “berpikir” lebih lama. Namun, untuk tugas agen seperti penjelajahan internet, jumlah penggunaan alat secara langsung menentukan kedalaman dan luasnya eksplorasi.
Hal ini menimbulkan biaya operasional yang signifikan bagi bisnis. “Panggilan alat seperti penelusuran halaman internet menghasilkan lebih banyak konsumsi token, meningkatkan panjang konteks, dan menimbulkan latensi waktu tambahan,” Zifeng Wang dan Tengxiao Liu, salah satu penulis makalah tersebut, mengatakan kepada VentureBeat. “Panggilan alat itu sendiri menimbulkan biaya API tambahan.”
Para peneliti menemukan bahwa memberikan agen lebih banyak sumber daya waktu pengujian tidak menjamin kinerja yang lebih baik. “Dalam tugas penelitian yang mendalam, jika agen tidak memahami anggaran, sering kali anggarannya turun begitu saja,” jelas Wang dan Liu. “Ia menemukan satu petunjuk yang agak terkait, kemudian menghabiskan 10 atau 20 panggilan alat untuk menggalinya, hanya untuk menyadari bahwa seluruh jalurnya adalah jalan buntu.”
Mengoptimalkan sumber daya dengan Funds Tracker
Untuk mengevaluasi bagaimana mereka dapat mengoptimalkan anggaran penggunaan alat, para peneliti pertama-tama mencoba pendekatan ringan yang disebut “Pelacak Anggaran.” Modul ini bertindak sebagai plug-in yang memberikan sinyal berkelanjutan kepada agen tentang ketersediaan sumber daya, sehingga memungkinkan penggunaan alat yang hemat anggaran.
Tim tersebut berhipotesis bahwa “memberikan sinyal anggaran yang eksplisit memungkinkan mannequin untuk menginternalisasi kendala sumber daya dan menyesuaikan strateginya tanpa memerlukan pelatihan tambahan.”
Funds Tracker beroperasi murni pada tingkat cepat, sehingga mudah diterapkan. (Makalah ini memberikan rincian lengkap tentang petunjuk yang digunakan untuk Pelacak Anggaran, yang membuatnya mudah diterapkan.)
Dalam penerapan Google, pelacak memberikan panduan kebijakan singkat yang menjelaskan rezim anggaran dan rekomendasi terkait penggunaan alat. Pada setiap langkah proses respons, Pelacak Anggaran membuat agen secara eksplisit menyadari konsumsi sumber daya dan sisa anggarannya, sehingga memungkinkannya mengkondisikan langkah-langkah penalaran selanjutnya pada standing sumber daya yang diperbarui.
Untuk menguji hal ini, para peneliti bereksperimen dengan dua paradigma: penskalaan sekuensial, di mana mannequin menyempurnakan keluarannya secara berulang, dan penskalaan paralel, di mana beberapa proses independen dilakukan dan digabungkan. Mereka menjalankan eksperimen pada agen pencarian yang dilengkapi dengan alat pencarian dan penelusuran mengikuti loop gaya ReAct. ReAct (Reasoning + Appearing) adalah metode populer di mana mannequin bergantian antara pemikiran inside dan tindakan eksternal. Untuk menelusuri tren penskalaan biaya-kinerja yang sebenarnya, mereka mengembangkan metrik biaya terpadu yang secara bersama-sama memperhitungkan biaya konsumsi token inside dan interaksi alat eksternal.
Mereka menguji Funds Tracker pada tiga kumpulan information QA pencarian informasi yang memerlukan penelusuran eksternal, termasuk TelusuriComp dan HLE-Search, menggunakan mannequin seperti Gemini 2.5 ProfessionalGemini 2.5 Flash, dan Claude Soneta 4. Eksperimen menunjukkan bahwa plugin sederhana ini meningkatkan kinerja di berbagai batasan anggaran.
“Menambahkan Pelacak Anggaran mencapai akurasi yang sebanding dengan menggunakan panggilan pencarian 40,4% lebih sedikit, panggilan penelusuran 19,9% lebih sedikit, dan mengurangi biaya keseluruhan…sebesar 31,3%,” kata para penulis kepada VentureBeat. Terakhir, Funds Tracker terus berkembang seiring dengan meningkatnya anggaran, sedangkan ReAct biasa tidak mengalami perubahan setelah ambang batas tertentu.
BATS: Kerangka kerja komprehensif untuk penskalaan yang sadar anggaran
Untuk lebih meningkatkan optimalisasi sumber daya penggunaan alat, para peneliti memperkenalkan Funds Conscious Take a look at-time Scaling (BATS), sebuah kerangka kerja yang dirancang untuk memaksimalkan kinerja agen berdasarkan anggaran tertentu. BATS mempertahankan sinyal berkelanjutan mengenai sumber daya yang tersisa dan menggunakan informasi ini untuk secara dinamis mengadaptasi perilaku agen saat ia merumuskan responsnya.
BATS menggunakan beberapa modul untuk mengatur tindakan agen. Modul perencanaan menyesuaikan upaya bertahap agar sesuai dengan anggaran saat ini, sementara modul verifikasi memutuskan apakah akan “menggali lebih dalam” pada prospek yang menjanjikan atau “berputar” ke jalur alternatif berdasarkan ketersediaan sumber daya.
Dengan adanya pertanyaan pencarian informasi dan anggaran penggunaan alat, BATS memulai dengan menggunakan modul perencanaan untuk merumuskan rencana tindakan terstruktur dan memutuskan alat mana yang akan digunakan. Ketika alat digunakan, tanggapan mereka ditambahkan ke urutan penalaran untuk memberikan konteks dengan bukti baru. Ketika agen mengusulkan jawaban kandidat, modul verifikasi memverifikasinya dan memutuskan apakah akan melanjutkan urutan saat ini atau memulai upaya baru dengan sisa anggaran.
Proses berulang berakhir ketika sumber daya yang dianggarkan habis, di mana LLM sebagai juri memilih jawaban terbaik dari semua jawaban yang diverifikasi. Sepanjang pelaksanaan, Pelacak Anggaran terus memperbarui penggunaan sumber daya dan sisa anggaran di setiap iterasi.
Para peneliti menguji BATS pada benchmark BrowserComp, BrowserComp-ZH, dan HLE-Search terhadap baseline termasuk ReAct standar dan berbagai agen berbasis pelatihan. Eksperimen mereka menunjukkan bahwa BATS mencapai kinerja yang lebih tinggi dengan penggunaan alat yang lebih sedikit dan biaya keseluruhan yang lebih rendah dibandingkan metode pesaing. Menggunakan Gemini 2.5 Professional sebagai tulang punggung, BATS mencapai akurasi 24,6% pada BrowserComp dibandingkan dengan 12,6% pada ReAct standar, dan 27,0% pada HLE-Search dibandingkan dengan 20,5% pada ReAct.
BATS tidak hanya meningkatkan efektivitas dalam keterbatasan anggaran namun juga menghasilkan trade-off biaya-kinerja yang lebih baik. Misalnya, pada kumpulan information BrowserComp, BATS mencapai akurasi yang lebih tinggi dengan biaya sekitar 23 sen dibandingkan dengan garis dasar penskalaan paralel yang memerlukan lebih dari 50 sen untuk mencapai hasil serupa.
Menurut penulis, efisiensi ini membuat alur kerja yang sebelumnya mahal dapat dilakukan. “Hal ini membuka serangkaian aplikasi perusahaan yang intensif information dan berjangka panjang… seperti pemeliharaan foundation kode yang kompleks, investigasi uji tuntas, penelitian lanskap kompetitif, audit kepatuhan, dan analisis dokumen multi-langkah,” kata mereka.
Ketika perusahaan ingin menggunakan agen yang mengelola sumber daya mereka sendiri, kemampuan untuk menyeimbangkan akurasi dan biaya akan menjadi persyaratan desain yang penting.
“Kami percaya hubungan antara penalaran dan ekonomi tidak dapat dipisahkan,” kata Wang dan Liu. “Di masa depan, [models] harus berpikir tentang nilai.”












