Alexa v češtině? Už se na to těším, říká vědec, který učí mluvit stroje

5. 2. 2022

12 556

„Naším cílem je vytvořit univerzální generátor přirozeného jazyka, který se bude učit pouze z pár příkladů a nebude dělat chyby,“ popisuje Ondřej Dušek z Matfyzu. Pokud se vše vydaří, můžeme se těšit například na mluvící robotickou Alexu a další chytré asistenty v češtině nebo nejrůznější aplikace přehledně shrnující i složitá data.

Alexa v češtině? Už se na to těším, říká vědec, který učí mluvit stroje

Ondřej Dušek z Matematicko-fyzikální fakulty Univerzity Karlovy zkoumá tvorbu přirozeného jazyka. Na svůj výzkum (generování přirozeného jazyka) nedávno získal od Evropské výzkumné rady (ERC) prestižní Starting Grant. Do Česka přitom putují pouze čtyři ERC granty.

„Představte si, že máte meteostanici, která měří teplotu, tlak, rychlost větru a další parametry. Výstupem je obrovská tabulka dat, která je ale nepřehledná a nedá se v ní jednoduše číst. Úkol generátoru přirozeného jazyka je automaticky převyprávět tabulku dat tak, abychom získali nejdůležitější a relevantní informace a aby vytvořený text byl srozumitelný a dobře se četl,“ vysvětluje Ondřej Dušek.

Podobné aplikace již dnes existují například ve sportu, kde některé sportovní zprávy – o výsledcích utkání a kolik kdo nastřílel gólů – jsou již generovány automaticky.

Ondřej Dušek

Tomáš Rubín, MFF UK

Vystudoval počítačovou lingvistiku na Matematicko-fyzikální fakultě UK a germanistiku na Filozofické fakultě UK. Dva roky strávil jako postdoktorand na Heriot-Watt University v Edinburghu. Nyní působí jako odborný asistent na Ústavu formální a aplikované lingvistiky MFF UK (ÚFAL), kde se zabývá výzkumem generování přirozeného jazyka a dialogových systémů (chatbotů), zejména s použitím strojového učení a neuronových sítí.

V současnosti se pro generování přirozeného jazyka používají dva přístupy. Většina komerčních systémů využívá šablon – ručně předpřipravených vět, kam se při „generování“ jen doplňují konkrétní hodnoty, například v kolik hodin odjíždí vlak. „Příprava šablon je velmi pracná, což je i jeden z důvodů, proč například Alexa nefunguje v češtině – je to drahé a firmám se to nevyplatí, protože jsme jen malý trh,“ říká Dušek.

Druhým přístupem jsou neuronové sítě, které se učí z obrovského množství dat. „Problém je, že tyto systémy pro automatické generování textů potřebují velké množství vstupních dat – příkladů, na kterých se učí. Což je opět pracné a časově náročné, když musíte napsat tisíce vět jako příklad,“ uvádí informatik-lingvista.

A líčí: „Druhým problémem je, že vygenerované věty často nejsou přesné nebo obsahují chyby, které se dají jen velmi složitě najít. Věty sice vypadají velmi přirozeně, ale obsah neodpovídá zadání.“

Řada slov má podobný význam, ale v kontextu celé věty mohou znamenat zcela něco jiného.

Nejlepší z obou světů

Podle koordinátora Expertní skupiny pro granty ERC Zdeňka Strakoše má každý úspěšný ERC grant unikátní myšlenku, jak popisoval v rozhovoru pro magazín UK Forum. „Můj projekt si bere to nejlepší z obou světů – přirozený výstup a učení z neuronových sítí a k tomu explicitní kontrolu, jako je u šablon,“ popisuje Dušek.

„Dnes se většina výzkumů generování přirozeného jazyka zaměřuje na čím dál větší a komplikovanější architekturu neuronových sítí. Já se v projektu naopak vracím trochu do minulosti – kromě neuronových sítí chci využít i explicitní sémantickou reprezentaci, která se dnes v neuronových systémech téměř nepoužívá, ale dříve byla s ručně psanými pravidly jedinou možností, jak generovat text,“ dodává.

Univerzita Karlova

Text původně vyšel v magazínu Univerzity Karlovy Forum, z nějž pro vás pravidelně vybíráme ty nejzajímavější rozhovory. Vedle nich ovšem kolegové pravidelně nabízejí i názory, aktuality a hlavně...ne na všechno se u nás dostane. Mrkejte, co všechno na UKforum.cz mají.

Cílem jeho pětiletého ERC projektu je tak využít neuronové sítě, ale omezit jim pole působnosti, aby se soustředily jen na generování co nejhezčích a nejplynulejších vět, ale nebyly zodpovědné za faktickou informaci. Ta bude pevně ukotvená v sémantické reprezentaci, která bude mít jasný zdroj a vygenerované věty půjde zpětně zkontrolovat.

„S tím souvisí i další podcíle našeho projektu: jak například poznat, že vygenerovaná věta je správně. Budeme hledat nové evaluační metody. Dnes používáme referenční věty, které napsal člověk, a snažíme se je po slovech porovnávat s těmi automaticky vygenerovanými, což je velmi nepřesné – řada slov má podobný význam, ale v kontextu celé věty mohou znamenat zcela něco jiného. Také se budeme snažit o větší efektivitu využití dat a výpočetní síly – dnešní neuronové sítě potřebují k učení velké množství dat a obrovské množství výpočetního výkonu,“ dodává hlavní řešitel projektu.

Kromě toho sémantická reprezentace umožní provádět matematické a logické operace, což dál zvětší flexibilitu a generátor například ze skóre sportovního zápasu sám pozná, kdo vyhrál a o kolik, a přizpůsobí tomu výstup.

Již od gymplu mě bavilo programování. Studium na Matfyzu mě moc bavilo, ale postupně mi začali chybět lidé.

Inspirace ze soutěží i germanistiky

„Inspirací pro vznik projektu byl můj postdoktorandský pobyt v Edinburghu, kde jsem se mimo jiné zabýval nepřesností automaticky generovaného jazyka. S kolegy jsme organizovali výzkumnou soutěž, kde účastníci za využití neuronových sítí měli vytvořit jednoduchý systém generující doporučení restaurací – aby se automaticky generovaly věty typu ‚Tato restaurace je v centru, vaří indickou kuchyni a je drahá.‘ A i v takto jednoduchých větách systémy dělaly mnoho chyb,“ popisuje Dušek.

„V soutěži z hlediska přesnosti paradoxně uspěly týmy, které místo neuronových sítí využily předpřipravených šablon. A od té doby jsem přemýšlel, jak využívat to nejlepší z neuronových sítí, ale zlepšit jejich přesnost,“ dodává.

Shutterstock

Že překladatelé nebudou mít co žrát? Klid, umělá inteligence na ně nemá

Už když se před lety objevil překladač Google Translator, začala se spousta lidí domnívat, že konec překladatelů se blíží. Jeho schopnosti sice toto očekávání nenaplnily, ale nedávno přišel o mnoho dokonalejší DeepL Translator a předpovědi o konci překladatelského řemesla se vrátily. S umělou inteligencí to ale není nikdy tak jednoduché, jak to na první pohled vypadá.

K netradičnímu pojetí a využití sémantického přístupu mu pomohlo i to, že kromě lingvistiky na Matfyzu vystudoval i magisterskou germanistiku na Filozofické fakultě UK. „Již od gymplu mě bavilo programování a chtěl jsem dělat informatiku. Studium na Matfyzu mě moc bavilo, ale postupně mi začali chybět lidé. Většinu času jsme seděli u počítačů a něco jsme programovali a jelikož jsem Pražák, tak jsem ani nebydlel na kolejích, odkud se znala většina spolužáků,“ vzpomíná Dušek, jehož kromě programování velmi bavila i němčina v podobě, kterou na Matfyzu učila Lenka Vachalovská.

„V té době začal mladší bratr studovat češtinu na Filozofické fakultě UK a byl naprosto nadšený z atmosféry a lidí, a tak jsem si řekl, že to také zkusím. A tak jsem si podal přihlášku na germanistiku, dostal jsem se a studium dokončil – byli jsme poslední ročník v pětiletém programu,“ líčí. „Ta kombinace byla skvělá, vše se to propojilo – měl jsem například fonetiku na Matfyzu i na FF UK. Kombinace matematického a lingvistického pohledu mi pomáhá i při dnešní práci na generování přirozeného jazyka. A filozofická fakulta mě také naučila psát, z čehož těžím dodnes,“ říká

Sám se spíše považuje za lingvistu – ve volném čase se teď například učí irsky. „Uvědomuji si, že mi to je v praxi k ničemu, ale moc mě to baví. Ten jazyk je kuriózní, je naprosto jiný než cokoli, co znám, a zároveň patří mezi indoevropské jazyky, takže tam stále lze nalézt řadu podobností. A také mám rád Irsko,“ směje se.

Těším se, až budu mít doma chytrého asistenta, na kterého budu moci mluvit česky...

Cílem je univerzální generátor

Za ideálních podmínek a pokud se vše povede, bude výstupem ERC projektu univerzální nástroj, který bude schopný rychle se učit novým tématům konverzace. „Chceme, aby se náš generátor byl schopen učit pouze z pár příkladů a aby generoval správně; nevymýšlel si nebo nevynechával část informace. Také chceme, aby jednoduše generoval věty i v jiných jazycích než jen v angličtině,“ vyjmenovává Dušek.

Hlasový asistent v češtině?

„Doufám, že se nám to povede a že tyto přístupy ke generování budou k dispozici i firmám a pro komerční použití. Těším se, až budu mít doma chytrého asistenta, na kterého budu moci mluvit česky, nebo si na webu otevřu aplikaci, jež mi dá shrnutí dnešních zpráv,“ říká.

O získání grantu se Dušek dozvěděl během předvánoční přednášky, kdy v rohu obrazovky zaregistroval notifikaci zprávy od svého studenta: Ten ERC grant, wow! „Já jsem samozřejmě o ničem nevěděl, pokračoval v přednášení a až po skončení jsem v e-mailu našel gratulaci od šéfky katedry docentky Hladké a několika kolegů. Ale stále jsem neměl žádné oficiální oznámení, to jsem našel až ve spamu,“ vzpomíná s úsměvem, jak získal informaci o finanční podpoře ve výši zhruba 1,5 milionu eur, tedy přes 35 milionů korun.

Jak úspěch hodnotí? „Těším se a vnímám jako obrovskou poctu, že jsem ten grant získal. Zároveň cítím velikou zodpovědnost. A mé poděkování patří všem, kteří mi k úspěchu pomohli. V žádném případě bych to nezvládl bez podpory svých doktorandů, kolegů a kolegyň a mnoha dalších lidí, kteří mi dávali zpětnou vazbu nebo se mnou trénovali závěrečnou přednášku. Systém ERC workshopů, jejichž vznik inicioval profesor Strakoš a podílí se na něm mnoho dalších lidí, je naprosto nedocenitelný a moc mi to pomohlo.“

Kam dál? Věda na Finmagu:

Jak jde dohromady byznys a medicína? Dočtete se v novém Finmagu

Je medicína byznys? Jak pro koho. „Frustraci mladých lékařů chápu. Nemají ani na chůvu, aby jim pohlídala děti, když pracují,“ říká přednosta chirurgické kliniky Robert Lischke.

Zdroj: Finmag

MEDICÍNA A BYZNYS

Jak venkovští praktici nepřicházejí o iluze • Ženy mění medicínu • Nejstarší pražská nemocnice objektivem Alžběty Jungrové • Nejdražší léky na světě • Obézních přibývá, Česko dohání USA.

BYZNYS JE HRA

„Investice do umění se do tabulek nevtěsná,“ říká Pavlína Pudil z Kunsthalle • Nejdražší materiál roku 2023? Hrst štěrku z vesmíru za miliardu dolarů • Ekologie musí být podle Tomáš Nemravy, výrobce dřevěných domů, ekonomická.

Koupit Finmag

Ohodnoťte článek

Sdílejte

Diskutujte

Vstoupit do diskuze

Pavla Hubálková

Od března 2020 je vědeckou redaktorkou na Univerzitě Karlově. O vědě a vědcích píše i pro týdeník HROT, VědaVýzkum.cz, Czexpats in Science i další média. Vystudovala Klinickou biochemii na VSČHT a dokončuje... Více

Další články autora