Beranda Teknologi Gemini 3 Flash hadir dengan biaya dan latensi yang lebih rendah —...

Gemini 3 Flash hadir dengan biaya dan latensi yang lebih rendah — kombinasi yang ampuh untuk perusahaan

8
0

 

Perusahaan kini dapat memanfaatkan kekuatan model bahasa besar yang mirip dengan Google Gemini 3 Pro yang canggih, namun dengan biaya yang lebih murah dan kecepatan yang lebih tinggi, berkat Gemini 3 Flash yang baru dirilis.

Model ini bergabung dengan andalan Gemini 3 Pro, Gemini 3 Deep Think, dan Gemini Agent, yang semuanya diumumkan dan dirilis bulan lalu.

Gemini 3 Flash, kini tersedia di Gemini Enterprise, Google Antigravity, Gemini CLI, AI Studio, dan pratinjau di Vertex AI, memproses informasi hampir secara real-time dan membantu membangun aplikasi agen yang cepat dan responsif.

Perusahaan katanya dalam postingan blog bahwa Gemini 3 Flash “dibangun berdasarkan seri model yang sudah disukai oleh pengembang dan perusahaan, dioptimalkan untuk alur kerja frekuensi tinggi yang menuntut kecepatan, tanpa mengorbankan kualitas.

Model ini juga merupakan default untuk Mode AI di Google Penelusuran dan aplikasi Gemini.

Tulsee Doshi, direktur senior, manajemen produk di tim Gemini, mengatakan dalam a posting blog terpisah bahwa model tersebut “menunjukkan bahwa kecepatan dan skala tidak harus mengorbankan kecerdasan.”

“Gemini 3 Flash dibuat untuk pengembangan berulang, menawarkan kinerja pengkodean kelas Pro Gemini 3 dengan latensi rendah — ia mampu memikirkan dan menyelesaikan tugas dengan cepat dalam alur kerja frekuensi tinggi,” kata Doshi. “Ini memberikan keseimbangan ideal untuk pengkodean agen, sistem siap produksi, dan aplikasi interaktif responsif.”

Penerapan awal oleh perusahaan-perusahaan khusus membuktikan keandalan model ini dalam bidang-bidang yang berisiko tinggi. Harvey, sebuah platform AI untuk firma hukum, melaporkan lonjakan 7% dalam penalaran di ‘BigLaw Bench’ internal mereka, sementara Resemble AI menemukan bahwa Gemini 3 Flash dapat memproses data forensik yang kompleks untuk deteksi deepfake 4x lebih cepat dibandingkan Gemini 2.5 Pro. Ini bukan hanya peningkatan kecepatan; mereka memungkinkan alur kerja ‘hampir real-time’ yang sebelumnya tidak mungkin dilakukan.

Lebih efisien dengan biaya lebih rendah

Para pembuat AI di tingkat perusahaan menjadi lebih sadar akan biaya menjalankan model AI, terutama ketika mereka mencoba meyakinkan pemangku kepentingan untuk mengalokasikan lebih banyak anggaran ke dalam alur kerja agen yang dijalankan pada model yang mahal. Organisasi telah beralih ke model yang lebih kecil atau model sulingan, dengan fokus pada model terbuka atau penelitian lain dan mendorong teknik untuk membantu mengelola biaya AI yang membengkak.

Bagi perusahaan, proposisi nilai terbesar dari Gemini 3 Flash adalah ia menawarkan tingkat kemampuan multimodal tingkat lanjut yang sama, seperti analisis video kompleks dan ekstraksi data, seperti versi Gemini yang lebih besar, namun jauh lebih cepat dan lebih murah.

Sementara materi internal Google menyoroti peningkatan kecepatan 3x dibandingkan seri 2.5 Pro, data dari independen perusahaan pembanding Analisis Buatan menambahkan lapisan nuansa penting.

Dalam pengujian pra-rilis organisasi terakhir, Pratinjau Flash Gemini 3 mencatat throughput mentah sebesar 218 token keluaran per detik. Hal ini menjadikannya 22% lebih lambat dibandingkan Gemini 2.5 Flash ‘non-penalaran’ sebelumnya, namun masih jauh lebih cepat dibandingkan para pesaingnya termasuk tingkat tinggi GPT-5.1 OpenAI (125 t/s) dan penalaran DeepSeek V3.2 (30 t/s).

Yang paling menonjol, Analisis Buatan menobatkan Gemini 3 Flash sebagai pemimpin baru dalam tolok ukur pengetahuan AA-Omniscience, yang mencapai akurasi pengetahuan tertinggi dari semua model yang diuji hingga saat ini. Namun, kecerdasan ini hadir dengan ‘pajak penalaran’: model ini menggandakan penggunaan tokennya lebih dari dua kali lipat dibandingkan dengan seri 2.5 Flash ketika menangani indeks yang kompleks.

Kepadatan token yang tinggi ini diimbangi oleh penetapan harga Google yang agresif: ketika mengakses melalui API Gemini, Gemini 3 Flash berharga $0,50 per 1 juta token masukan, dibandingkan dengan $1,25/1 juta token masukan untuk Gemini 2.5 Pro, dan token keluaran $3/1 juta, dibandingkan dengan token keluaran $10/1 juta untuk Gemini 2.5 Pro. Hal ini memungkinkan Gemini 3 Flash untuk mengklaim gelar model yang paling hemat biaya untuk tingkat kecerdasannya, meskipun merupakan salah satu model yang paling ‘banyak bicara’ dalam hal volume token mentah. Berikut ini perbandingannya dengan penawaran LLM saingannya:

Model Masukan (/1M) Keluaran (/1M) Jumlah Biaya Sumber
Qwen 3 Turbo $0,05 $0,20 $0,25 Alibaba Cloud
Grok 4.1 Cepat (penalaran) $0,20 $0,50 $0,70 xAI
Grok 4.1 Cepat (non-penalaran) $0,20 $0,50 $0,70 xAI
obrolan mendalam (V3.2-Exp) $0,28 $0,42 $0,70 Pencarian Mendalam
deepseek-reasoner (V3.2-Exp) $0,28 $0,42 $0,70 Pencarian Mendalam
Qwen 3 Ditambah $0,40 $1,20 $1,60 Alibaba Cloud
ERNIE 5.0 $0,85 $3,40 $4,25 Qianfan
Pratinjau Kilat Gemini 3 $0,50 $3,00 $3,50 Google
Claude Haiku 4.5 $1,00 $5,00 $6,00 Antropis
Qwen-Max $1,60 $6,40 $8,00 Alibaba Cloud
Gemini 3 Pro (≤200K) $2,00 $12,00 $14,00 Google
GPT-5.2 $1,75 $14,00 $15,75 OpenAI
Claude Soneta 4.5 $3,00 $15,00 $18,00 Antropis
Gemini 3 Pro (>200K) $4,00 $18,00 $22,00 Google
Claude Opus 4.5 $5,00 $25,00 $30,00 Antropis
GPT-5.2 Pro $21,00 $168,00 $189,00 OpenAI

Lebih banyak cara untuk berhemat

Namun pengembang dan pengguna perusahaan dapat mengurangi biaya lebih jauh dengan menghilangkan kelambatan yang sering dialami oleh sebagian besar model besar, yang meningkatkan penggunaan token. Google mengatakan model tersebut “mampu memodulasi seberapa banyak ia berpikir,” sehingga menggunakan lebih banyak pemikiran dan karena itu lebih banyak token untuk tugas-tugas yang lebih kompleks daripada perintah cepat. Perusahaan mencatat Gemini 3 Flash menggunakan token 30% lebih sedikit daripada Gemini 2.5 Pro.

Untuk menyeimbangkan kekuatan penalaran baru ini dengan persyaratan latensi perusahaan yang ketat, Google telah memperkenalkan parameter ‘Tingkat Berpikir’. Pengembang dapat beralih antara ‘Rendah’—untuk meminimalkan biaya dan latensi untuk tugas obrolan sederhana—dan ‘Tinggi’—untuk memaksimalkan kedalaman penalaran untuk ekstraksi data yang kompleks. Kontrol granular ini memungkinkan tim untuk membangun aplikasi ‘kecepatan variabel’ yang hanya menggunakan ‘token pemikiran’ yang mahal ketika suatu masalah benar-benar memerlukan tingkat PhD.

Kisah ekonomi lebih dari sekadar harga token sederhana. Dengan penyertaan standar Caching Konteks, perusahaan yang memproses kumpulan data statis dan besar—seperti seluruh perpustakaan hukum atau repositori basis kode—dapat merasakan pengurangan biaya untuk kueri berulang sebesar 90%. Jika digabungkan dengan diskon 50% dari Batch API, total biaya kepemilikan agen yang didukung Gemini turun secara signifikan di bawah ambang batas model frontier pesaing.

“Gemini 3 Flash memberikan kinerja luar biasa pada tugas pengkodean dan agen yang dikombinasikan dengan titik harga yang lebih rendah, memungkinkan tim untuk menerapkan biaya penalaran yang canggih di seluruh proses bervolume tinggi tanpa menemui hambatan,” kata Google.

Dengan menawarkan model yang memberikan kinerja multimodal yang kuat dengan harga yang lebih terjangkau, Google menyatakan bahwa perusahaan yang ingin mengendalikan pengeluaran AI mereka harus memilih modelnya, terutama Gemini 3 Flash.

Kinerja tolok ukur yang kuat

Tapi bagaimana Gemini 3 Flash dibandingkan model lain dalam hal kinerjanya?

Doshi mengatakan model tersebut mencapai skor 78% pada pengujian benchmark SWE-Bench VERIFIED untuk agen pengkodean, mengungguli keluarga Gemini 2.5 sebelumnya dan Gemini 3 Pro yang lebih baru!

Bagi perusahaan, hal ini berarti pemeliharaan perangkat lunak bervolume tinggi dan tugas perbaikan bug kini dapat dipindahkan ke model yang lebih cepat dan lebih murah dibandingkan model andalan sebelumnya, tanpa penurunan kualitas kode.

Model ini juga memiliki performa yang kuat pada benchmark lainnya, dengan skor 81,2% pada benchmark MMMU Pro, sebanding dengan Gemini 3 Pro.

Meskipun sebagian besar model tipe Flash secara eksplisit dioptimalkan untuk tugas-tugas singkat dan cepat seperti menghasilkan kode, Google mengklaim kinerja Gemini 3 Flash “dalam penalaran, penggunaan alat, dan kemampuan multimodal sangat ideal bagi pengembang yang ingin melakukan analisis video, ekstraksi data, dan tanya jawab visual yang lebih kompleks, yang berarti dapat mengaktifkan aplikasi yang lebih cerdas — seperti asisten dalam game atau eksperimen pengujian A/B — yang menuntut jawaban cepat dan penalaran mendalam.”

Kesan pertama dari pengguna awal

Sejauh ini, pengguna awal sangat terkesan dengan model ini, terutama kinerja benchmarknya.

Apa Artinya bagi Penggunaan AI di Perusahaan

Dengan Gemini 3 Flash yang kini berfungsi sebagai mesin default di Google Penelusuran dan aplikasi Gemini, kita menyaksikan “Flash-ifikasi” kecerdasan perbatasan. Dengan menjadikan penalaran tingkat Pro sebagai dasar baru, Google memasang jebakan bagi pemain lama yang lebih lamban.

Integrasi ke dalam platform seperti Google Antigravity menunjukkan bahwa Google tidak hanya menjual model; mereka menjual infrastruktur untuk perusahaan otonom.

Saat pengembang mulai beroperasi dengan kecepatan 3x lebih cepat dan diskon 90% untuk cache konteks, strategi “Gemini-first” menjadi argumen finansial yang menarik. Dalam perlombaan berkecepatan tinggi untuk dominasi AI, Gemini 3 Flash mungkin menjadi model yang akhirnya mengubah “vibe coding” dari hobi eksperimental menjadi kenyataan siap produksi.

avotas