Google’s Updated Gemini 3: Menyalip Kinerja GPT-5.2 dan Claude Opus 4.6 dalam Pembaruan Terbaru

bila salsabila

Maret 23, 2026

Dengan sebuah langkah maju yang signifikan dalam dunia kecerdasan buatan (AI), Google mengumumkan pembaruan penting pada model Deep Think-nya, Gemini 3, pada hari Kamis. Sejak diluncurkan pada Desember 2025, model canggih ini telah menjadi titik terdepan dalam kapabilitas AI Google. Kini, dengan pembaruan terbaru ini, Google’s Updated Gemini 3 dapat memberikan dukungan yang lebih efektif bagi para ilmuwan dalam penelitian mereka yang penuh tantangan.

Selanjutnya, Google menegaskan bahwa pembaruan ini meningkatkan performa model di semua uji coba utama. Yang paling menonjol, Gemini 3 mencetak rekor baru dalam ARC-AGI-2 dan Humanity’s Last Exam, melebihi performa dari model AI lainnya seperti GPT-5.2 OpenAI dan Claude Opus 4.6 Anthropic. Dengan ini, Google berhasil menunjukkan bahwa mereka tetap berada di garis depan dalam pengembangan teknologi AI.

Peningkatan Signifikan pada Google’s Updated Gemini 3, Lebih Maju dalam Berpikir Mendalam

Bagian berikutnya memaparkan, dalam sebuah artikel blog, raksasa teknologi ini mengumumkan bahwa mereka akan merilis peningkatan besar pada Gemini 3 Deep Think yang akan memungkinkannya untuk menyelesaikan tantangan modern di berbagai bidang seperti sains, penelitian, dan teknik. Model ini tetap tersedia untuk pelanggan Google AI Ultra, namun sekarang, sekelompok kecil peneliti dan perusahaan juga dapat mengaksesnya melalui antarmuka pemrograman aplikasi (API) perusahaan.

Namun demikian, Sundar Pichai, CEO Google, mengumumkan pembaruan tersebut dengan mengatakan, “Gemini 3 Deep Think mendapatkan peningkatan yang signifikan. Kami telah menyempurnakan Deep Think dalam kemitraan erat dengan ilmuwan dan peneliti untuk mengatasi tantangan nyata di dunia nyata.” Elon Musk menyebut pengembangan tersebut “Mengesankan,” dalam responsnya terhadap postingan tersebut.

Di sisi lain, dengan peningkatan ini, diklaim bahwa model AI ini telah mencetak 84.6 persen pada benchmark ARC-AGI-2, yang mengukur kemampuan penalaran model-model perintis. Google mengklaim bahwa skor tersebut juga telah diverifikasi oleh ARC Prize Foundation. Model ini juga mencetak rekor baru dengan mencetak 48.4 persen (tanpa alat) pada Humanity’s Last Exam, yang dikenal sebagai tes benchmark paling sulit yang ada.

Selanjutnya, perusahaan tersebut juga mengklaim bahwa Gemini 3 Deep Think juga mencapai skor Elo 3,455 di Codeforces. Dalam setiap tes ini, dikatakan bahwa model Google ini mampu melampaui model-model perintis dari OpenAI dan Anthropic.

Terakhir, Google juga membagikan bagaimana beberapa peneliti menggunakan model AI ini dalam masalah ilmiah dunia nyata. Perusahaan ini menyoroti bahwa Lisa Carbone, seorang matematikawan di Rutgers University, menggunakan Gemini 3 Deep Think untuk meninjau sebuah makalah matematika yang sangat teknis. Dia mengamati bahwa model ini berhasil mengidentifikasi kesalahan logis yang halus yang sebelumnya tidak terdeteksi oleh tinjauan sejawat manusia.