Konferencja Google I/O - ciąg dalszy rewolucji AI - Łukasz Suchy

Ostatnia konferencja Google I/O po raz kolejny potwierdziła, że sztuczna inteligencja przestaje być futurystyczną wizją, a staje się fundamentem kluczowych usług i produktów technologicznego giganta.

Zaprezentowane nowości sygnalizują fundamentalną zmianę w sposobie, w jaki tworzymy i konsumujemy treści, pozyskujemy informacje i wchodzimy w interakcję z technologią. Google nie tylko dogania konkurencję w wyścigu AI, ale w niektórych obszarach wyznacza nowe kierunki, stawiając na głęboką integrację AI z codziennym życiem użytkowników.

AI w kreacji treści – nowe możliwości i wyzwania

Rewolucja w tworzeniu treści była jednym z głównych punktów konferencji. Google przedstawił narzędzia, które znacznie obniżają barierę wejścia do produkcji multimediów.

VEO3

Największe wrażenie zrobił VEO 3, nowy model do generowania wideo, który jest oceniany jako lepszy od wiodących rozwiązań dostępnych obecnie na rynku.

Kluczową i przełomową cechą VEO 3 jest zdolność generowania dźwięku dopasowanego do sceny, co sprawia, że tworzone filmy są momentami trudne do odróżnienia od rzeczywistości, zwłaszcza przy pobieżnym oglądaniu. Model ten potrafi nawet generować dialogi, efekty muzyczne czy sprawić, by postać śpiewała lub tańczyła, a dźwięk będzie do tego dopasowany. Niestety, dostępność VEO 3 jest obecnie ograniczona wyłącznie do Stanów Zjednoczonych i to w najdroższym planie abonamentowym Ultra, kosztującym 250 USD miesięcznie. Wersja bazująca na modelu poprzedniej generacji (VEO 2) ma być dostępna w planie Pro.

Google Imagin 4

Uzupełnieniem dla VEO 3 jest Google Imagine 4, nowy model do tworzenia obrazów. Wyróżnia się lepszą jakością, szczegółowością, a także poprawioną zdolnością generowania napisów w obrębie obrazu. Co więcej, Imagine 4 jest kilkakrotnie szybszy od swojego poprzednika. Podobnie jak VEO 3, Imagine 4 jest na razie dostępny głównie w USA, z planami udostępnienia go w przyszłości w planie Pro (20 USD miesięcznie).

Flow

Google zaprezentował również narzędzie o nazwie Flow, które ma ułatwić tworzenie dłuższych produkcji wideo, integrując możliwości VEO 3, Imagine 4 oraz modelu Gemini 2.5 Pro. Choć narzędzie ma oferować funkcje montażowe i kompleksowe rozwiązania dla twórców, nie jest ono jeszcze dostępne poza Stanami Zjednoczonymi.

Generator Mowy w Google AI Studio

Pozytywną wiadomością dla użytkowników w Polsce jest Generator Mowy dostępny w Google AI Studio. Narzędzie to potrafi generować mowę w 24 językach, w tym po polsku. Obsługuje ono jednocześnie dwóch "aktorów" i pozwala określać styl mowy. Co istotne, generator ten jest dostępny w Polsce i to za darmo (przynajmniej na obecnym etapie), choć jakość nie jest zawsze idealna i zdarzają się błędy.

Wprowadzenie tak zaawansowanych narzędzi do generowania wideo i obrazów ma ogromny potencjalny wpływ na branżę kreatywną. Choć sztuczna inteligencja może ułatwić pracę twórcom, pojawiają się obawy o przyszłość tradycyjnych zawodów związanych z produkcją wizualną i dźwiękową, a także o kwestie moralne związane z wykorzystywaniem danych treningowych bez zgody twórców.

Przebudowa wyszukiwania – zmierzch tradycyjnych mediów?

Jedną z najbardziej znaczących i kontrowersyjnych zmian zaprezentowanych na Google I/O jest kompletna przebudowa wyszukiwarki Google. Google wprowadza AI Search, który ma dostarczać użytkownikom podsumowania treści wygenerowane przez AI. Zamiast tradycyjnej listy linków do zewnętrznych stron, użytkownik może zobaczyć obszerną odpowiedź AI zajmującą całą stronę, co eliminuje potrzebę klikania w poszczególne wyniki.

AI Search - wyzwanie dla branży SEO

Jest to zmiana, która już weszła w życie w Stanach Zjednoczonych i stanowi ogromne wyzwanie, a nawet egzystencjalne zagrożenie dla tradycyjnych mediów. Portale informacyjne, blogi i inne strony internetowe w dużej mierze opierają swoje przychody na ruchu generowanym przez wyszukiwarkę Google. Jeśli AI Search będzie dostarczać pełne odpowiedzi bezpośrednio w wynikach, ruch na zewnętrznych stronach może drastycznie spaść, co podważy model biznesowy wielu wydawców. AI Search ma być coraz bardziej prominentne i docelowo stać się wiodącą formą wyszukiwania.

Google planuje oferować pełen dostęp do AI Search w ramach płatnych abonamentów Gemini Advanced. W ramach nowych usług wyszukiwarki zapowiedziano też np. funkcję wirtualnego przymierzania sukienek. Choć Google może szukać nowych sposobów monetyzacji (jak abonamenty czy nowe formaty reklam), krajobraz medialny czeka potężne tąpnięcie i przetasowanie. Obawy budzi też kwestia wiarygodności informacji podawanych przez AI, która mimo postępów wciąż może "halucynować" lub mylić wątki.

Agenci AI – przyszłość interakcji z technologią

Google intensywnie pracuje nad rozwojem agentów i asystentów AI, które mają być bardziej proaktywne i zdolne do wykonywania złożonych zadań.

Gemini Live

Jednym z kluczowych projektów jest Gemini Live, którego protoplastą był Project Astra. Jest to asystent AI działający na smartfonach, a w przyszłości planowana jest jego integracja z okularami rozszerzonej rzeczywistości. Gemini Live ma dostęp do kamery, ekranu i mikrofonów urządzenia, co pozwala mu rozumieć kontekst otoczenia i konwersacji. Umożliwia to prowadzenie naturalnej rozmowy z AI, która reaguje na to, co widzi i słyszy. Ten projekt ma być integrowany z najważniejszymi usługami Google (YouTube, Keep, Gmail itp.) w ciągu najbliższych miesięcy, co usuwa barierę wejścia do korzystania z potężnych modeli językowych i sprawia, że AI staje się bardziej dostępna i intuicyjna.

Projekt Mariner

Innym ważnym kierunkiem jest Project Mariner, skupiający się na agentowych umiejętnościach Gemini. Chodzi o zdolność AI do rzeczywistego wykonywania zadań, a nie tylko generowania tekstu czy odpowiadania na pytania. Przykłady takich umiejętności to znajdywanie spersonalizowanej oferty pracy, pomoc w zatrudnieniu kogoś, czy zamawianie zakupów na podstawie podanego przepisu. Umiejętności te mają być integrowane z wyszukiwarką Google, przeglądarką Chrome i aplikacją Gemini.

Dodatkowo, zaprezentowano urządzenie Google Beam, stworzone we współpracy z HP, mające na celu tworzenie efektu imersyjnej rozmowy w 3D. Jest to rozwiązanie przewidziane raczej dla klientów korporacyjnych.

Usprawnienia modeli Gemini i narzędzia dla deweloperów

Google nie zapomniał o usprawnieniach swoich podstawowych modeli językowych i narzędzi dla deweloperów. Modele Gemini 2.5 Flash i Pro zyskały natywne możliwości tworzenia treści audio, np. podcastów, z możliwością zmiany języka i tonu głosu. Model 2.5 Pro wzbogacono o opcję Deep Think, co ma prowadzić do lepszego rozumowania i trafniejszych rezultatów. Modele Gemini 2.5 otrzymały również funkcjonalność Canvas w interfejsie Gemini Google.

Gemini Diffusion

Zaprezentowano też Gemini Diffusion, eksperymentalny model generujący tekst, który działa na zasadzie modeli dyfuzyjnych (podobnie jak generatory obrazów). Jego główną zaletą jest błyskawiczna szybkość odpowiedzi w porównaniu do tradycyjnych modeli autoregresywnych, choć na razie jest on mniej dokładny niż Gemini 2.5 Pro.

Ważnymi narzędziami dla twórców i programistów są Jules i Stitch. Jules to agent programistyczny, który po podłączeniu do repozytorium na GitHubie potrafi samodzielnie wprowadzać zmiany w kodzie na podstawie opisu zadania, np. aktualizować aplikację do nowszej wersji frameworka. Jest on dostępny w Polsce z dziennym limitem darmowych zadań. Stitch to narzędzie do iteracyjnego projektowania interfejsów UI (mobilnych i webowych) sterowane za pomocą promptów. Pozwala na eksport do Figmy lub generowanie gotowego kodu i jest dostępne w Polsce za darmo.

Inne istotne zapowiedzi

Wśród innych ogłoszeń wartych uwagi znalazły się mądre odpowiedzi (Smart Replies) w Gmailu, które generują spersonalizowane sugestie odpowiedzi na maile, wymagając jednak dostępu do treści wiadomości i dokumentów użytkownika.

Zapowiedziano również nowe okulary rozszerzonej rzeczywistości (AR) oparte na systemie Android XR, które mają być interfejsem dla Gemini Live i wyszukiwarki, wprowadzając AI do fizycznego otoczenia użytkownika. Wspomniano także o możliwości tłumaczenia rozmów internetowych w czasie rzeczywistym.

Konferencja Google I/O 2025 była wydarzeniem, które jasno nakreśliło kierunek rozwoju Google w erze sztucznej inteligencji – głęboką, wszechobecną integrację AI z produktami i usługami firmy. Zaprezentowane narzędzia do generowania wideo (VEO 3) i obrazów (Imagine 4) redefiniują możliwości tworzenia treści. Przebudowa wyszukiwarki na AI Search stanowi znaczące zagrożenie dla tradycyjnych mediów, zmieniając sposób dostępu do informacji. Rozwój agentów takich jak Gemini Live czy Project Mariner wskazuje na przyszłość, w której AI będzie bardziej proaktywnym asystentem, rozumiejącym kontekst i wykonującym zadania.

Wiatr zmian już czuć!

Choć wiele z zaprezentowanych nowości jest jeszcze w fazie wczesnej, ograniczonej regionalnie lub eksperymentalnej, ich potencjalny wpływ na różne dziedziny życia jest ogromny. Wzbudzają one również ważne pytania dotyczące przyszłości zawodów kreatywnych i dziennikarskich, konieczności adaptacji systemu edukacji, a także kwestii prywatności, zaufania do informacji generowanych przez AI i zamykania w ekosystemach technologicznych.

Tempo rozwoju jest tak szybkie, że nadążenie za zmianami staje się wyzwaniem nie tylko dla jednostek, ale i dla całych systemów, takich jak edukacja czy legislacja. Patrząc na skalę zaprezentowanych zmian, jasne jest, że stoimy u progu potężnej rewolucji, która zmieni codzienne korzystanie z technologii dla miliardów ludzi na świecie.