RadarAI.id | Benchmark Apex-Agents Ungkap Keraguan: Apakah Agen AI Benar-Benar Siap Gantikan Pekerja Kantor?

Hampir dua tahun setelah CEO Microsoft Satya Nadella memprediksi bahwa AI akan menggantikan pekerjaan pengetahuan (knowledge work), realitas di lapangan menunjukkan perlambatan yang signifikan. Keraguan ini kini didukung oleh data empiris dari benchmark baru yang disebut Apex-Agents. Berbeda dengan metode evaluasi sebelumnya seperti GDPVal milik OpenAI yang menguji pengetahuan lintas profesi secara luas, Apex-Agents dirancang untuk mengukur kemampuan sistem dalam melakukan tugas-tugas mendalam dan berkelanjutan di sektor bernilai tinggi seperti hukum dan perbankan investasi. Hasil awal menunjukkan kegagalan kolektif; tidak ada satu pun model yang terbukti siap untuk mengambil alih peran sebagai bankir investasi atau konsultan profesional dalam waktu dekat.

Tantangan terbesar yang diungkap oleh pengujian ini adalah ketidakmampuan agen AI untuk menavigasi lingkungan kerja yang realistis di mana konteks tersebar dan tidak lengkap. "Cara kita bekerja bukan dengan satu individu memberikan semua konteks di satu tempat," ujar peneliti kepada TechCrunch. Dalam simulasi ini, model diharuskan menyatukan informasi dari berbagai sumber dan mengambil keputusan bertingkat, sebuah skenario di mana kinerja mereka anjlok drastis. Skor tertinggi diraih oleh Gemini 3 Flash dengan akurasi one-shot hanya 24%, disusul oleh GPT-5.2 dengan 23%, sementara model lain seperti Opus 4.5 dan GPT-5 tertinggal di kisaran 18%.

Meskipun hasilnya tampak suram bagi para pendukung otomatisasi total, para peneliti melihat ini sebagai tantangan terbuka bagi industri. Sejarah membuktikan bahwa laboratorium AI memiliki rekam jejak yang cepat dalam menaklukkan benchmark yang sulit. Publikasi hasil Apex-Agents ini diharapkan menjadi standar baru yang memaksa pengembang untuk beralih fokus dari sekadar meningkatkan parameter model bahasa menjadi membangun agen yang mampu memahami nuansa alur kerja manusia yang berantakan. Untuk saat ini, para pekerja profesional dapat bernapas lega karena posisi mereka masih aman dari pengambilalihan algoritma, setidaknya sampai generasi model berikutnya berhasil memecahkan kode kompleksitas kontekstual ini.