Beranda Teknologi Google merilis FunctionGemma: model edge kecil yang dapat mengontrol perangkat seluler dengan...

Google merilis FunctionGemma: model edge kecil yang dapat mengontrol perangkat seluler dengan bahasa alami

6
0

 

Meskipun Gemini 3 masih membuat gebrakan, Google tidak mengambil langkah cepat dalam merilis model-model baru.

Kemarin, itu perusahaan merilis FunctionGemmamodel AI khusus dengan 270 juta parameter yang dirancang untuk memecahkan salah satu hambatan paling persisten dalam pengembangan aplikasi modern: keandalan yang unggul.

Tidak seperti chatbot tujuan umum, FunctionGemma dirancang untuk satu utilitas penting—menerjemahkan perintah pengguna dalam bahasa alami menjadi kode terstruktur yang dapat dijalankan oleh aplikasi dan perangkat, semuanya tanpa terhubung ke cloud.

Rilis ini menandai poros strategis yang signifikan bagi Google DeepMind dan tim Pengembang AI Google. Sementara industri terus mengejar skala triliunan parameter di cloud, FunctionGemma bertaruh pada “Small Language Models” (SLM) yang berjalan secara lokal di ponsel, browser, dan perangkat IoT.

Bagi para insinyur AI dan pembangun perusahaan, model ini menawarkan arsitektur primitif baru: “router” yang mengutamakan privasi yang dapat menangani logika kompleks pada perangkat dengan latensi yang dapat diabaikan.

FunctionGemma segera tersedia untuk diunduh Memeluk Wajah Dan Kaggle. Anda juga dapat melihat model beraksi dengan mengunduh aplikasi Google AI Edge Gallery di Google Play Store.

Lompatan Kinerja

Pada intinya, FunctionGemma mengatasi “kesenjangan eksekusi” dalam AI generatif. Model bahasa besar (LLM) standar sangat baik dalam percakapan tetapi sering kali kesulitan untuk memicu tindakan perangkat lunak secara andal—terutama pada perangkat dengan sumber daya terbatas.

Menurut evaluasi “Tindakan Seluler” internal Google, model kecil yang umum kesulitan dengan keandalan, hanya mencapai akurasi dasar 58% untuk tugas pemanggilan fungsi. Namun, setelah disesuaikan untuk tujuan khusus ini, akurasi FunctionGemma melonjak hingga 85%, sehingga menciptakan model khusus yang dapat menunjukkan tingkat keberhasilan yang sama dengan model yang berkali-kali lipat ukurannya.

Bagan menunjukkan kinerja FunctionGemma sebelum dan sesudah penyempurnaan. Kredit: Google

Hal ini memungkinkan model untuk menangani lebih dari sekedar tombol on/off sederhana; itu dapat mengurai argumen yang kompleks, seperti mengidentifikasi koordinat grid tertentu untuk menggerakkan mekanisme permainan atau logika terperinci.

Rilisan ini mencakup lebih dari sekedar bobot model. Google memberikan “resep” lengkap untuk developer, antara lain:

  • Model: Transformator parameter 270 juta yang dilatih pada 6 triliun token.
  • Data Pelatihan: Kumpulan data “Tindakan Seluler” untuk membantu pengembang melatih agen mereka sendiri.
  • Dukungan Ekosistem: Kompatibilitas dengan pustaka Hugging Face Transformers, Keras, Unsloth, dan NVIDIA NeMo.

Omar Sanseviero, Pimpinan Pengalaman Pengembang di Hugging Face, menyoroti keserbagunaan rilis di X (sebelumnya Twitter), dengan menyatakan bahwa model ini “dirancang khusus untuk tugas Anda sendiri” dan dapat berjalan di “ponsel, browser, atau perangkat lain”.

Pendekatan yang mengutamakan lokal ini menawarkan tiga keuntungan berbeda:

  • Privasi: Data pribadi (seperti entri kalender atau kontak) tidak pernah keluar dari perangkat.
  • Latensi: Tindakan terjadi secara instan tanpa menunggu server pulang pergi. Ukurannya yang kecil berarti kecepatan pemrosesan inputnya signifikan, khususnya dengan akses ke akselerator seperti GPU dan NPU.
  • Biaya: Pengembang tidak membayar biaya API per token untuk interaksi sederhana.

Untuk Pembuat AI: Pola Baru untuk Alur Kerja Produksi

Untuk pengembang perusahaan dan arsitek sistem, FunctionGemma menyarankan peralihan dari sistem AI monolitik ke sistem gabungan. Daripada merutekan setiap permintaan pengguna kecil ke model cloud yang besar dan mahal seperti GPT-4 atau Gemini 1.5 Pro, developer kini dapat menerapkan FunctionGemma sebagai “pengendali lalu lintas” yang cerdas di edge.

Berikut adalah bagaimana pembuat AI harus membuat konsep menggunakan FunctionGemma dalam produksi:

1. Arsitektur “Pengendali Lalu Lintas”: Dalam lingkungan produksi, FunctionGemma dapat bertindak sebagai garis pertahanan pertama. Itu ada di perangkat pengguna, langsung menangani perintah umum berfrekuensi tinggi (navigasi, kontrol media, entri data dasar). Jika suatu permintaan memerlukan pemikiran mendalam atau pengetahuan dunia, model dapat mengidentifikasi kebutuhan tersebut dan mengarahkan permintaan tersebut ke model cloud yang lebih besar. Pendekatan hibrid ini secara drastis mengurangi biaya dan latensi inferensi cloud. Hal ini memungkinkan kasus penggunaan seperti merutekan kueri ke sub-agen yang sesuai.

2. Keandalan deterministik atas kekacauan kreatif: Perusahaan jarang memerlukan aplikasi perbankan atau kalender mereka untuk menjadi “kreatif”. Mereka membutuhkannya agar akurat. Lompatan ke akurasi 85% menegaskan bahwa spesialisasi mengalahkan ukuran. Menyempurnakan model kecil ini pada data spesifik domain (misalnya, API perusahaan berpemilik) akan menciptakan alat yang sangat andal dan berperilaku dapat diprediksi—sebuah persyaratan untuk penerapan produksi.

3. Kepatuhan yang Mengutamakan Privasi: Untuk sektor seperti layanan kesehatan, keuangan, atau operasi perusahaan yang aman, pengiriman data ke cloud sering kali menimbulkan risiko kepatuhan. Karena FunctionGemma cukup efisien untuk dijalankan di perangkat (kompatibel dengan NVIDIA Jetson, CPU seluler, dan Transformers.js berbasis browser), data sensitif seperti PII atau perintah kepemilikan tidak perlu keluar dari jaringan lokal.

Perizinan: Terbuka Dengan Pagar Pembatas

FunctionGemma dirilis berdasarkan kebiasaan Google Ketentuan Penggunaan Gemma. Untuk pengembang perusahaan dan komersial, ini merupakan perbedaan penting dari lisensi sumber terbuka standar seperti MIT atau Apache 2.0.

Meskipun Google mendeskripsikan Gemma sebagai “model terbuka”, Gemma tidak sepenuhnya “Sumber Terbuka” menurut definisi Open Source Initiative (OSI).

Lisensi ini mengizinkan penggunaan komersial gratis, redistribusi, dan modifikasi, tetapi mencakup Pembatasan Penggunaan tertentu. Pengembang dilarang menggunakan model ini untuk aktivitas yang dibatasi (seperti menghasilkan ujaran kebencian atau malware), dan Google berhak memperbarui persyaratan ini.

Bagi sebagian besar perusahaan rintisan dan pengembang, lisensi tersebut cukup permisif untuk membangun produk komersial. Namun, tim yang membangun teknologi penggunaan ganda atau teknologi yang memerlukan kebebasan hak cipta yang ketat harus meninjau klausul khusus mengenai “Penggunaan Berbahaya” dan atribusi.

avotas