Kecerdasan Buatan (AI)Pengembangan AplikasiTEKNOLOGI

AI Model Gemini Embedding 2: Inovasi Pertama Google dalam Menggabungkan Teks, Gambar, dan Video

Sebuah terobosan baru dalam dunia teknologi buatan telah meluncur. Dikenal dengan nama AI Model Gemini Embedding 2, model kecerdasan buatan yang sepenuhnya multimodal ini telah berhasil menggabungkan teks, gambar, audio, dan video ke dalam satu ruang embedding yang terpadu. Dengan kemampuannya tersebut, model ini mampu memahami konsep dalam berbagai bentuk media, baik itu tertulis, dilafalkan, atau ditampilkan dalam gambar atau video.

Selanjutnya, inovasi ini membuka peluang baru dalam cara model bahasa besar memahami dan memproses informasi. Tidak hanya itu, model ini juga diharapkan mampu melakukan tindakan yang lebih kompleks. Jadi, bukan hanya sekedar membaca dan memahami, tetapi juga merespon dan berinteraksi dengan data yang ada di sekitarnya. Dengan demikian, model AI Gemini Embedding 2 ini menawarkan sebuah transformasi besar dalam cara kerja sistem kecerdasan buatan.

Model Embedding Multimodal Pertama: AI Model Gemini Embedding 2

Baru-baru ini, detil model AI terbaru telah dijelaskan melalui sebuah postingan blog. AI Model Gemini Embedding 2 ini merupakan lanjutan dari model embedding yang hanya berfokus pada teks yang dirilis tahun lalu. Model ini berhasil menangkap makna semantik dalam lebih dari 100 bahasa. Saat ini, AI Model Gemini Embedding 2 tersedia untuk ditinjau oleh publik melalui antarmuka pemrograman aplikasi (API) Gemini dan Vertex AI.

Di sisi lain, umumnya model AI memiliki berbagai ‘lemari arsip digital’ yang berbeda untuk menyimpan teks, foto, video, dan file audio. Setiap kali pengguna meminta informasi dalam format tertentu, sistem mulai mencari di dalam ‘lemari’ tersebut. Biasanya, model LLM memperlakukan “kucing” dalam dokumen teks dan “kucing” dalam video sebagai dua hal yang berbeda. Dan untuk mempersulit, metode untuk mendapatkan informasi berbeda untuk setiap format.

Namun demikian, AI Model Gemini Embedding 2 menyelesaikan masalah ini dengan menciptakan arsitektur baru yang hanya menggunakan satu ‘lemari’ untuk semua jenis informasi. Ini memungkinkan model untuk memproses dokumen yang memiliki teks dan gambar sekaligus, seperti yang dilakukan manusia. Sistem baru ini mempermudah “pipeline yang kompleks dan meningkatkan berbagai tugas downstream multimodal.” Beberapa di antaranya termasuk Generasi Pengambilan-Ulang (RAG) dan pencarian semantik, analisis sentimen, dan pengelompokan data.

Bagian berikutnya, AI Model Gemini Embedding 2 memiliki kemampuan untuk memproses hingga 8,192 token input teks. Model ini juga dapat memproses hingga enam gambar per permintaan dalam format PNG dan JPEG, dan mendukung hingga 120 detik input video dalam format MP4 dan MOV. Selain itu, model ini dapat memproses dan memetakan data audio secara asli tanpa membutuhkan transkripsi teks. Lebih lanjut, model ini juga dapat menanamkan hingga enam halaman PDF.

Terakhir, AI Model Gemini Embedding 2 juga dapat memahami input yang diinterleaved, sehingga pengguna dapat mengirimkan beberapa modalitas (seperti teks dan gambar) dalam satu permintaan yang sama. Google mengklaim bahwa kemampuan ini memungkinkan model untuk mendapatkan pemahaman yang lebih akurat tentang data dunia nyata yang kompleks.

Related Articles

Back to top button