AI valcuje svet
Sumár všetkého, čo Google predstavil na I/O 2024
Spoločnosť predviedla nové nástroje chatbotov poháňané umelou inteligenciou, nové možnosti vyhľadávania a množstvo vylepšení strojovej inteligencie pre Android.
Google obyčajne využíva svoje konferencie I/O na to, aby verejnosti predviedla nový softvér aj hardvér – napríklad smartfóny. Tohtoročné Google I/O 2024 sa nieslo najmä v duchu inovácií postavených na umelej inteligencii, hardvér tento rok reprezentujú nové AI akcelerátory Trillium. Google sa aktívne snaží o to, aby sa stal lídrom v použiteľnosti rôznorodých produktov založených na AI a s najnovším balíčkom služieb a vylepšení k tomu naozaj neúprosne smeruje.
Google sa sústreďuje na dve dôležité oblasti v zlepšovaní umelej inteligencie – multimodálnosť a dlhý kontext. V oboch má už teraz Google evidentný náskok pred konkurenciou.
Pripravili sme pre vás sumár najväčších noviniek z Google I/O 2024.
Gemini Nano
Gemini Nano, veľký jazykový model pre mobilné zariadenia od Googlu, získava rozsiahlejšiu podporu. Teraz sa bude volať Gemini Nano s multimodalitou, o ktorej generálny riaditeľ spoločnosti Google Sundar Pichai na pódiu povedal, že umožňuje „premeniť akýkoľvek vstup na akýkoľvek výstup“.
To znamená, že dokáže získať informácie z textu, fotografií, zvuku, videa z webu alebo sociálnych sietí a živého videa z fotoaparátu vášho telefónu a potom tento vstup syntetizovať, aby zhrnul, čo je v ňom, alebo aby odpovedal na otázky, ktoré o ňom môžete mať.
Gemini 1.5 Pro
Gemini 1.5 Pro, výkonnejší cloudový systém AI od Googlu, je od včera dostupný pre všetkých vývojárov na celom svete. Pre viac informácií o všetkých ambíciách Google v oblasti AI si prečítajte rozhovor Willa Knighta z WIRED so spoluzakladateľom DeepMind spoločnosti Google, Demisom Hassabisom.
Lepšie vyhľadávanie fotografií
Google zabudoval do Fotiek Google niekoľko robustných nástrojov vizuálneho a kontextového vyhľadávania. S novou funkciou s názvom Ask Photos môžete požiadať Gemini, aby prehľadala vaše fotografie a poskytla podrobnejšie výsledky ako doteraz. Google funkciu odprezentoval na príklade, kedy si necháte Google Fotkami vyhľadať progres svojej dcéry v plávaní – umelá inteligencia si prejde všetky fotografie s daným kontextom, vyhodnotí kľúčové obsahy, zmysluplne ich zoskupí a ešte k nim aj pridá komentár.
V blogovom príspevku softvérový inžinier Fotiek Google Jerem Selier uviedol, že táto funkcia nezhromažďuje údaje o vašich fotografiách, ktoré možno použiť na zobrazovanie reklám alebo trénovanie iných modelov umelej inteligencie Gemini. Ask Photos bude uvedené do zariadení toto leto a očakávame, že bude vyhradené pre platiacich používateľov.
Integrácia Gemini do prostredia Google Workspace
Google zavádza AI do svojho balíka kancelárskych nástrojov Workplace. Od včerajška sa na bočnom paneli mnohých aplikácií Google vrátane Gmailu, Disku Google, Dokumentov, Tabuliek a Prezentácií objaví tlačidlo na prepínanie umelej inteligencie Gemini od Google. Pomocník Gemini môže odpovedať na otázky, pomôcť vám vytvoriť e-maily alebo dokumenty alebo poskytnúť súhrny dlhých dokumentov alebo e-mailových vlákien.
Čo je zvlášť zaujímavé, dokáže z videomítingu spraviť súhrn toho najdôležitejšieho. Rovnako môže teraz umelá inteligencia od Google, Gemini, pomáhať študentom riešiť domáce úlohy.
V aplikáciách, ako sú Dokumenty a Gmail, bude zabudovaný AI Teammate s technológiou Gemini. Je to akýsi vysoko produktívny kolega, ktorého si môžete pomenovať ako chcete. (Pre účely dnešného dema dostal názov Chip.) AI Teammate vám môže pomôcť lepšie koordinovať komunikáciu medzi vašimi spolupracovníkmi, sledovať súbory projektu, zostavovať zoznamy úloh a sledovať zadania. Je to ako preplňovaný Slackbot.
Videli sme tiež ukážku novej funkcie Gems, ktorá nastavuje automatické rutiny pre veci, ktoré chcete, aby Gemini pravidelne robila. Napríklad, aby spravovala rôzne digitálne úlohy a potom ich spúšťať pomocou hlasového príkazu alebo textovej výzvy.
Nové modely Gemini
Google má dva nové modely svojej umelej inteligencie Gemini, zamerané na rôzne typy úloh. Gemini 1.5 Flash je rýchlejší, s nižšou latenciou, optimalizovaný pre úlohy, kde je preferovaná rýchlosť.
Project Astra je vizuálny chatbot a akási vylepšená verzia Google Lens. Umožňuje používateľom otvoriť fotoaparáty svojich telefónov a klásť otázky o takmer všetkom okolo nich nasmerovaním fotoaparátu na veci.
Google ukázal video, ktoré to demonštruje na situácii, v ktorej používateľka smartfónu zaznamenáva obraz zadnou kamerou a virtuálneho asistenta Astra sa dopytuje na význam kódu zobrazeného na monitore, na polohu okuliarov v kancelárii či na návrh názvu kapely, v ktorej hrajú tiger so zlatým retríverom (AI od Google vymyslela názov Zlaté pruhy/Golden Strips).
Videá a hudba z umelej inteligencie
Kreatívna stránka úsilia spoločnosti Google o umelú inteligenciu získala uznanie; videli sme ukážky sady nástrojov vyvinutých experimentálnou divíziou AI spoločnosti v Google Labs.
Novinkou je VideoFX, generatívny video model založený na generátore videa Google DeepMind Veo. Vytvára videá s rozlíšením 1080p na základe textových výziev a umožňuje väčšiu flexibilitu ako predtým.
Google tiež vylepšil ImageFX, generátor obrázkov s vysokým rozlíšením, ktorý má podľa Googlu menej problémov s vytváraním nežiaducich digitálnych artefaktov na obrázkoch ako jeho predchádzajúca generácia obrázkov. Dokáže tiež lepšie analyzovať výzvy používateľa a generovať texty.
Nový DJ Mode v MusicFX, hudobnom generátore založenom na AI zasa umožňuje hudobníkom vytvárať slučky skladieb a vzorky na základe textových pokynov.
Evolúcia vo vyhľadávaní
Google ďalej na konferencii odhalil niekoľko noviniek, ktorými vylepšuje svoj najznámejší produkt – vyhľadávač. Výsledky hľadaní sú vďaka integrácii umelej inteligencie zmysluplnejšie, vyhľadávač dokáže extrahovať presnejšie výsledky pre náročnejšie dopyty – nemusíte ani prejsť na cieľovú webovú stránku.
Tieto prehľady sú značne kontroverzné, pretože vydavatelia a prevádzkovatelia webov sa obávajú, že vyhľadávanie Google, ktoré odpovedá na otázky bez toho, aby používateľ musel klikať na akýkoľvek odkaz, ich pripraví o čitateľov. Napriek tomu sa tieto novo vylepšené prehľady AI od včerajšieho dňa sprístupňujú všetkým v USA.
Nová funkcia s názvom Multi-Step Reasoning vám umožňuje nájsť niekoľko vrstiev informácií o téme, keď hľadáte veci s určitou hĺbkou kontextu. Google použil plánovanie cesty ako príklad a ukázal, ako môže vyhľadávanie v Mapách pomôcť nájsť hotely a nastaviť trasy verejnej dopravy. Potom navrhol reštaurácie a pomohol s plánovaním jedla na cestu. Hľadanie si môžete prehĺbiť hľadaním konkrétnych druhov kuchýň alebo vegetariánskych možností. Všetky tieto informácie sú používateľovi prezentované organizovaným spôsobom.
Lepšie vyhľadávanie cez Google Lens
Nakoniec sme videli ukážku toho, ako môžu používatelia hľadať odpovede na rôzne otázky používaním funkcie Google Lens. Potrebujú na to, rovnako ako doteraz, namieriť na objekt fotoaparát mobilu a na displeji sa zobrazia zodpovedajúce výsledky. Znie to podobne ako to, čo robí Project Astra, ale tieto schopnosti sú do Lensu zabudované trochu iným spôsobom.
Demo ukázalo ženu, ktorá sa snaží uviesť do prevádzky „pokazený“ gramofón – Google zistil, že gramofón jednoducho potrebovala upraviť a služba Lens ju navigovala cez texty a videá. Cez kameru dokonca správne identifikovala značku a model gramofónu.
A celkom na záver vyššia bezpečnosť
Jednou z posledných pozoruhodných vecí, ktoré sme videli v úvodnej prednáške, bola nová funkcia detekcie podvodov pre Android. Dokáže odpočúvať vaše telefónne hovory a zistiť v akomkoľvek jazyku, či nie ste na ceste stať sa obeťou podvodu – napríklad reaguje na žiadosť o presun peňazí do inej banky. Ak počuje, že ste obeťou podvodu, preruší hovor a na obrazovke vám ponúkne výzvu, aby ste zavesili. Google hovorí, že táto funkcia funguje na zariadení, takže vaše telefónne hovory neprechádzajú do cloudu na analýzu, vďaka čomu je funkcia viac súkromná.
Google tiež rozšíril svoj nástroj na vytváranie vodoznakov SynthID určený na rozlíšenie médií vyrobených pomocou AI. To vám môže pomôcť odhaliť dezinformácie, deepfake videá alebo phishingový spam. Nástroj zanecháva nepostrehnuteľný vodoznak, ktorý nie je možné vidieť voľným okom, ale môže byť rozpoznaný softvérom, ktorý analyzuje údaje na úrovni pixelov v obrázku. Nové aktualizácie rozšírili funkciu na skenovanie obsahu v aplikácii Gemini, na webe a vo videách generovaných Veo. Google hovorí, že plánuje vydať SynthID ako open source nástroj koncom tohto leta.