Google wprowadza Gemma 4 12B: Nowoczesna sztuczna inteligencja dostępna dla każdego laptopa!

dzisiaj, 11:25

Podczas gdy przemysł walczy o budowę coraz większych cyfrowych „monstrów”, które wymagają energii małego miasteczka, Google postanowiło obrać inną drogę. Firma zaprezentowała Gemma 4 12B — multimodalny system udowadniający, że do inteligentnego działania nie jest konieczne posiadanie serwerowej hali. To „złoty środek” pomiędzy kompaktowymi modelami a ciężkowcami, stworzony specjalnie dla tych, którzy chcą uruchamiać poważne SI lokalnie, zamiast karmić chmury swoimi danymi.

Architektoniczna dieta i rezygnacja z nadmiaru

Główna cecha nowego modelu Google to radykalne uproszczenie. Twórcy uznali, że tradycyjne osobne enkodery dla obrazów i dźwięku to przeszłość i zbędne obciążenie dla systemu. Zamiast tworzyć skomplikowane konstrukcje, zintegrowali sygnały multimodalne bezpośrednio z głównym modelem językowym. Na przykład do przetwarzania obrazów teraz wykorzystywany jest lekki moduł oparty na transformacjach macierzy, a sygnał audio jest projektowany bezpośrednio w przestrzeń tokenów tekstowych.

Takie podejście pozwoliło Gemma 4 12B demonstrować wyniki, które prawie dorównują znacznie większym systemom na 26 mld parametrów. Przy tym wymagania sprzętowe pozostały rozsądne: do komfortowej pracy urządzenia potrzebne jest 16 GB pamięci wideo lub pamięci zunifikowanej. To czyni model dostępnym dla właścicieli nowoczesnych laptopów, a nie tylko szczęściarzy z profesjonalnymi stacjami roboczymi.

Gemma 4 12B w standardowych testach — Gemma 4 12B zapewnia wydajność zbliżoną do większego modelu MoE z 26B w standardowych testach, jednocześnie zajmując mniej niż połowę całkowitej pojemności pamięci. Ilustracja: Google

Lokalność jako nowy standard

Oprócz „wszechstronności” do formatów danych, model otrzymał wsparcie mechanizmu Multi-Token Prediction (MTP). Bez technicznego żargonu: pozwala to systemowi generować tekst szybciej, przewidując kilka kolejnych słów jednocześnie, co jest krytyczne dla scenariuszy agentowych. Oznacza to, że kiedy SI nie tylko pisze wiersze, ale wykonuje konkretne zadania jako asystent.

Google zauważa, że linia Gemma zebrała już ponad 150 milionów pobrań. Jest wykorzystywana wszędzie — od robotyki po systemy cyberbezpieczeństwa. Nowa wersja jest dystrybuowana na wolnej licencji Apache 2.0, co praktycznie rozwiązuje ręce programistów do tworzenia własnych produktów na jej bazie bez patentowych bólów głowy.

Podczas gdy Google stawia na otwartość i lokalne obliczenia, konkurencja na rynku dużych modeli językowych tylko się zaostrza. Podczas gdy jedni starają się uczynić SI dostępnym dla każdego, inni biją rekordy w zakresie zasięgu — na przykład ChatGPT zdobył miliard użytkowników, zmuszając konkurentów do przyspieszenia rozwoju przed wejściem na giełdę.