Google secara resmi mengumumkan peningkatan signifikan pada kapabilitas model multimodal mereka melalui peluncuran Agentic Vision untuk Gemini 3 Flash. Diumumkan dalam pos blog pengembang terbaru, fitur ini menandai evolusi fundamental dari sistem visi komputer tradisional. Sebelumnya, model bahasa besar (LLM) memproses gambar sebagai input statis tunggal, yang sering kali menyebabkan hilangnya detail halus atau kesalahan interpretasi pada objek kompleks. Agentic Vision mengatasi keterbatasan ini dengan memberikan otonomi kepada model untuk melakukan investigasi bertahap. Sistem ini beroperasi dalam siklus umpan balik "Think, Act, Observe", di mana model pertama-tama menganalisis permintaan pengguna, kemudian secara aktif memutuskan tindakan apa yang diperlukan—seperti memperbesar resolusi pada koordinat tertentu atau mengubah orientasi gambar—untuk mengumpulkan bukti visual yang lebih akurat.
Salah satu aspek paling inovatif dari pembaruan ini adalah integrasi mendalam dengan eksekusi kode (code execution). Dalam skenario di mana model standar sering "berhalusinasi" atau gagal melakukan aritmatika visual—seperti menghitung jumlah jendela di gedung pencakar langit atau membaca sel kecil dalam tabel keuangan—Gemini 3 Flash kini mengambil pendekatan deterministik. Model akan menulis dan menjalankan skrip Python di latar belakang untuk memvisualisasikan temuannya, misalnya dengan menggambar kotak pembatas (bounding boxes) dan label numerik pada setiap objek yang diidentifikasi. Proses ini mengubah tebakan probabilistik yang rentan error menjadi data terverifikasi yang solid, menghasilkan peningkatan kualitas respons sebesar 5-10% di berbagai tolok ukur visi yang ketat.
Dampak nyata dari teknologi ini sudah mulai terlihat pada mitra awal Google. Platform validasi bangunan PlanCheckSolver, misalnya, melaporkan peningkatan akurasi sebesar 5% setelah mengaktifkan kemampuan inspeksi kode iteratif ini untuk memproses input resolusi tinggi. Google menegaskan bahwa Agentic Vision saat ini tersedia untuk para pengembang melalui Gemini API di Google AI Studio dan Vertex AI. Ke depannya, Google berencana memperluas kemampuan agen visual ini lebih jauh lagi, termasuk mengizinkan model untuk melakukan pencarian gambar terbalik (reverse image search) di web guna memvalidasi objek yang tidak dikenal dengan pengetahuan dunia nyata. Langkah ini memperkokoh posisi Gemini 3 Flash sebagai model workhorse yang tidak hanya efisien dari segi biaya dan kecepatan, tetapi kini memiliki ketajaman analitis visual yang setara dengan model Pro atau Ultra.