Google przedstawiło serię ogłoszeń na temat ważnego przełomu w dziedzinie sztucznej inteligencji — największego i najpotężniejszego modelu sztucznej inteligencji o nazwie Gemini.
Model Gemini powstał w efekcie szeroko zakrojonej współpracy wielu zespołów w Google, w tym Google DeepMind i Google Research, i jest największym projektem naukowo-inżynierskim w historii Google.
Co to jest Gemini?
Gemini to model sztucznej inteligencji. Został on zbudowany od podstaw z założeniem, że ma być modelem multimodalnym, czyli takim, który może generalizować i z łatwością rozumieć, wykorzystywać i łączyć różne rodzaje informacji, w tym tekst, obrazy, dźwięki, filmy i kod.
Gemini jest ponadto najbardziej elastycznym z modeli Google, ponieważ działa sprawnie na dowolnych urządzeniach – od centrów danych po urządzenia mobilne. Dzięki swoim ultranowoczesnym możliwościom będzie mieć znaczący wpływ na sposób, w jaki deweloperzy i klienci biznesowi tworzą i skalują swoje działania z wykorzystaniem AI.
Optymalizacja modelu Gemini
Pierwsza wersja modelu, Gemini 1.0, została zoptymalizowana dla trzech różnych rozmiarów:
- Gemini Ultra — najbardziej wydajny i największy model do bardzo złożonych zadań
- Gemini Pro — najlepszy model do skalowania w szerokim zakresie zadań
- Gemini Nano — najbardziej wydajny model do zadań na urządzeniu
Ultranowoczesne możliwości
Dotychczas standardowe podejście do tworzenia modeli multimodalnych obejmowało trenowanie oddzielnych komponentów dla różnych modalności, a następnie łączenie ich w celu ogólnego odzwierciedlenia niektórych funkcji. Te modele mogą czasami skutecznie wykonywać niektóre zadania, np. opisywać obrazy, jednak mają problemy z bardziej konceptualnym i kompleksowym rozumowaniem.
Google zaprezentowało Gemini w taki sposób, aby model ten w naturalny sposób był multimodalny i od początku wstępnie wytrenowano go na różnych modalnościach. Następnie ulepszono go, dodając kolejne dane multimodalne, aby zwiększyć wydajność. Dzięki temu Gemini z łatwością rozumie i wyciąga wnioski, o wiele lepiej niż dotychczasowe modele multimodalne, i może pochwalić się supernowoczesnymi możliwościami w niemalże każdej domenie.
Zaawansowane rozumowanie
Nieprzeciętne możliwości rozumowania multimodalnego, jakie posiada Gemini 1.0 pomagają zrozumieć złożone informacje tekstowe i wizualne. Są one szczególnie przydatne, jeśli chodzi o uzyskanie konkretnych informacji spośród ogromnego gąszczu danych.
Niezwykła zdolność tego modelu do wyodrębniania sedna informacji z setek tysięcy dokumentów, poprzez ich czytanie, filtrowanie i analizowanie, z pewnością przyczyni się do nowych, błyskawicznych odkryć w różnych dziedzinach, od nauki po finanse.
Rozumienie tekstu, obrazów, dźwięku i wiele więcej
Gemini 1.0 został wytrenowany, aby w tym samym czasie rozpoznawać i rozumieć tekst, obrazy, dźwięki i wiele więcej. Dzięki temu lepiej rozumie niuanse zawarte w informacjach i może odpowiadać na pytania dotyczące skomplikowanych zagadnień.
Sprawdza się zwłaszcza w wyjaśnianiu rozumowania matematycznego i z zakresu fizyki, dzięki czemu może służyć jako osobisty doradca podczas odrabiania pracy domowej.
Dostępność modelu Gemini na świecie
Obecnie Google wprowadza model Gemini 1.0 w wielu usługach i na różnych platformach.
- Od 6 grudnia Bard będzie używał Gemini Pro. Będzie on dostępny w języku angielskim w ponad 170 krajach i regionach, a w najbliższej przyszłości Google planuje rozszerzenie dostępnych opcji oraz udostępnienie usługi w kolejnych miejscach i językach.
- Od 13 grudnia deweloperzy i klienci biznesowi będą mieli dostęp do modelu Gemini Pro poprzez Gemini API w Google AI Studio lub Google Cloud Vertex AI
Gemini to dla Google ważny kamień milowy w rozwoju AI i początek nowej ery, która będzie wypełniona szybko powstającymi innowacjami i odpowiedzialnym rozwijaniem możliwości modeli firmy.
Źródło: informacja prasowa