Ondřej Dušek z Matematicko-fyzikální fakulty Univerzity Karlovy zkoumá tvorbu přirozeného jazyka. Na svůj výzkum (generování přirozeného jazyka) nedávno získal od Evropské výzkumné rady (ERC) prestižní Starting Grant. Do Česka přitom putují pouze čtyři ERC granty.
„Představte si, že máte meteostanici, která měří teplotu, tlak, rychlost větru a další parametry. Výstupem je obrovská tabulka dat, která je ale nepřehledná a nedá se v ní jednoduše číst. Úkol generátoru přirozeného jazyka je automaticky převyprávět tabulku dat tak, abychom získali nejdůležitější a relevantní informace a aby vytvořený text byl srozumitelný a dobře se četl,“ vysvětluje Ondřej Dušek.
Podobné aplikace již dnes existují například ve sportu, kde některé sportovní zprávy – o výsledcích utkání a kolik kdo nastřílel gólů – jsou již generovány automaticky.
Ondřej Dušek

Vystudoval počítačovou lingvistiku na Matematicko-fyzikální fakultě UK a germanistiku na Filozofické fakultě UK. Dva roky strávil jako postdoktorand na Heriot-Watt University v Edinburghu. Nyní působí jako odborný asistent na Ústavu formální a aplikované lingvistiky MFF UK (ÚFAL), kde se zabývá výzkumem generování přirozeného jazyka a dialogových systémů (chatbotů), zejména s použitím strojového učení a neuronových sítí.
V současnosti se pro generování přirozeného jazyka používají dva přístupy. Většina komerčních systémů využívá šablon – ručně předpřipravených vět, kam se při „generování“ jen doplňují konkrétní hodnoty, například v kolik hodin odjíždí vlak. „Příprava šablon je velmi pracná, což je i jeden z důvodů, proč například Alexa nefunguje v češtině – je to drahé a firmám se to nevyplatí, protože jsme jen malý trh,“ říká Dušek.
Druhým přístupem jsou neuronové sítě, které se učí z obrovského množství dat. „Problém je, že tyto systémy pro automatické generování textů potřebují velké množství vstupních dat – příkladů, na kterých se učí. Což je opět pracné a časově náročné, když musíte napsat tisíce vět jako příklad,“ uvádí informatik-lingvista.
A líčí: „Druhým problémem je, že vygenerované věty často nejsou přesné nebo obsahují chyby, které se dají jen velmi složitě najít. Věty sice vypadají velmi přirozeně, ale obsah neodpovídá zadání.“
Řada slov má podobný význam, ale v kontextu celé věty mohou znamenat zcela něco jiného.
Nejlepší z obou světů
Podle koordinátora Expertní skupiny pro granty ERC Zdeňka Strakoše má každý úspěšný ERC grant unikátní myšlenku, jak popisoval v rozhovoru pro magazín UK Forum. „Můj projekt si bere to nejlepší z obou světů – přirozený výstup a učení z neuronových sítí a k tomu explicitní kontrolu, jako je u šablon,“ popisuje Dušek.
„Dnes se většina výzkumů generování přirozeného jazyka zaměřuje na čím dál větší a komplikovanější architekturu neuronových sítí. Já se v projektu naopak vracím trochu do minulosti – kromě neuronových sítí chci využít i explicitní sémantickou reprezentaci, která se dnes v neuronových systémech téměř nepoužívá, ale dříve byla s ručně psanými pravidly jedinou možností, jak generovat text,“ dodává.
Text původně vyšel v magazínu Univerzity Karlovy Forum, z nějž pro vás pravidelně vybíráme ty nejzajímavější rozhovory. Vedle nich ovšem kolegové pravidelně nabízejí i názory, aktuality a hlavně...ne na všechno se u nás dostane. Mrkejte, co všechno na UKforum.cz mají.
Cílem jeho pětiletého ERC projektu je tak využít neuronové sítě, ale omezit jim pole působnosti, aby se soustředily jen na generování co nejhezčích a nejplynulejších vět, ale nebyly zodpovědné za faktickou informaci. Ta bude pevně ukotvená v sémantické reprezentaci, která bude mít jasný zdroj a vygenerované věty půjde zpětně zkontrolovat.
„S tím souvisí i další podcíle našeho projektu: jak například poznat, že vygenerovaná věta je správně. Budeme hledat nové evaluační metody. Dnes používáme referenční věty, které napsal člověk, a snažíme se je po slovech porovnávat s těmi automaticky vygenerovanými, což je velmi nepřesné – řada slov má podobný význam, ale v kontextu celé věty mohou znamenat zcela něco jiného. Také se budeme snažit o větší efektivitu využití dat a výpočetní síly – dnešní neuronové sítě potřebují k učení velké množství dat a obrovské množství výpočetního výkonu,“ dodává hlavní řešitel projektu.
Kromě toho sémantická reprezentace umožní provádět matematické a logické operace, což dál zvětší flexibilitu a generátor například ze skóre sportovního zápasu sám pozná, kdo vyhrál a o kolik, a přizpůsobí tomu výstup.
Již od gymplu mě bavilo programování. Studium na Matfyzu mě moc bavilo, ale postupně mi začali chybět lidé.
Inspirace ze soutěží i germanistiky
„Inspirací pro vznik projektu byl můj postdoktorandský pobyt v Edinburghu, kde jsem se mimo jiné zabýval nepřesností automaticky generovaného jazyka. S kolegy jsme organizovali výzkumnou soutěž, kde účastníci za využití neuronových sítí měli vytvořit jednoduchý systém generující doporučení restaurací – aby se automaticky generovaly věty typu ‚Tato restaurace je v centru, vaří indickou kuchyni a je drahá.‘ A i v takto jednoduchých větách systémy dělaly mnoho chyb,“ popisuje Dušek.
„V soutěži z hlediska přesnosti paradoxně uspěly týmy, které místo neuronových sítí využily předpřipravených šablon. A od té doby jsem přemýšlel, jak využívat to nejlepší z neuronových sítí, ale zlepšit jejich přesnost,“ dodává.

Že překladatelé nebudou mít co žrát? Klid, umělá inteligence na ně nemá
Už když se před lety objevil překladač Google Translator, začala se spousta lidí domnívat, že konec překladatelů se blíží. Jeho schopnosti sice toto očekávání nenaplnily, ale nedávno přišel o mnoho dokonalejší DeepL Translator a předpovědi o konci překladatelského řemesla se vrátily. S umělou inteligencí to ale není nikdy tak jednoduché, jak to na první pohled vypadá.
K netradičnímu pojetí a využití sémantického přístupu mu pomohlo i to, že kromě lingvistiky na Matfyzu vystudoval i magisterskou germanistiku na Filozofické fakultě UK. „Již od gymplu mě bavilo programování a chtěl jsem dělat informatiku. Studium na Matfyzu mě moc bavilo, ale postupně mi začali chybět lidé. Většinu času jsme seděli u počítačů a něco jsme programovali a jelikož jsem Pražák, tak jsem ani nebydlel na kolejích, odkud se znala většina spolužáků,“ vzpomíná Dušek, jehož kromě programování velmi bavila i němčina v podobě, kterou na Matfyzu učila Lenka Vachalovská.
„V té době začal mladší bratr studovat češtinu na Filozofické fakultě UK a byl naprosto nadšený z atmosféry a lidí, a tak jsem si řekl, že to také zkusím. A tak jsem si podal přihlášku na germanistiku, dostal jsem se a studium dokončil – byli jsme poslední ročník v pětiletém programu,“ líčí. „Ta kombinace byla skvělá, vše se to propojilo – měl jsem například fonetiku na Matfyzu i na FF UK. Kombinace matematického a lingvistického pohledu mi pomáhá i při dnešní práci na generování přirozeného jazyka. A filozofická fakulta mě také naučila psát, z čehož těžím dodnes,“ říká
Sám se spíše považuje za lingvistu – ve volném čase se teď například učí irsky. „Uvědomuji si, že mi to je v praxi k ničemu, ale moc mě to baví. Ten jazyk je kuriózní, je naprosto jiný než cokoli, co znám, a zároveň patří mezi indoevropské jazyky, takže tam stále lze nalézt řadu podobností. A také mám rád Irsko,“ směje se.
Těším se, až budu mít doma chytrého asistenta, na kterého budu moci mluvit česky...
Cílem je univerzální generátor
Za ideálních podmínek a pokud se vše povede, bude výstupem ERC projektu univerzální nástroj, který bude schopný rychle se učit novým tématům konverzace. „Chceme, aby se náš generátor byl schopen učit pouze z pár příkladů a aby generoval správně; nevymýšlel si nebo nevynechával část informace. Také chceme, aby jednoduše generoval věty i v jiných jazycích než jen v angličtině,“ vyjmenovává Dušek.
„Doufám, že se nám to povede a že tyto přístupy ke generování budou k dispozici i firmám a pro komerční použití. Těším se, až budu mít doma chytrého asistenta, na kterého budu moci mluvit česky, nebo si na webu otevřu aplikaci, jež mi dá shrnutí dnešních zpráv,“ říká.
O získání grantu se Dušek dozvěděl během předvánoční přednášky, kdy v rohu obrazovky zaregistroval notifikaci zprávy od svého studenta: Ten ERC grant, wow! „Já jsem samozřejmě o ničem nevěděl, pokračoval v přednášení a až po skončení jsem v e-mailu našel gratulaci od šéfky katedry docentky Hladké a několika kolegů. Ale stále jsem neměl žádné oficiální oznámení, to jsem našel až ve spamu,“ vzpomíná s úsměvem, jak získal informaci o finanční podpoře ve výši zhruba 1,5 milionu eur, tedy přes 35 milionů korun.
Jak úspěch hodnotí? „Těším se a vnímám jako obrovskou poctu, že jsem ten grant získal. Zároveň cítím velikou zodpovědnost. A mé poděkování patří všem, kteří mi k úspěchu pomohli. V žádném případě bych to nezvládl bez podpory svých doktorandů, kolegů a kolegyň a mnoha dalších lidí, kteří mi dávali zpětnou vazbu nebo se mnou trénovali závěrečnou přednášku. Systém ERC workshopů, jejichž vznik inicioval profesor Strakoš a podílí se na něm mnoho dalších lidí, je naprosto nedocenitelný a moc mi to pomohlo.“
Kam dál? Věda na Finmagu:
- Hajič: Dnešní „umělá inteligence“ vůbec není inteligence
- Vesmír slaví 150 let. Svět se mění a my s ním, říká šéfredaktor
- Pseudověda dostává až příliš prostoru, varuje autor seznamu predátorů
- Umělá inteligence je pro duchovní výzvou, říká teolog Štěch
- Kräusslich: Toužíme po odpovědích, jenže věda miluje otázky
JARNÍ FINMAG JE NA STÁNCÍCH. CO V NĚM NAJDETE?
„Když měl jít pan Drobný do důchodu, zjistilo se, že grif, kterým dělal vázu Hruška, je nemožné předat dál. Unikátní řemeslný um s ním odešel,“ přiznala v rozhovoru Kateřina Zapletalová.
FIN. Jak investovat, když inflace pádí vzhůru • Česko a Slovensko slaví 30 let. Která země vzkvétá víc? • Kateřina Věra Holna provedla Vinograf covidovou krizí a připravila vstup investorů. Teď míří na šampaňské • Existují novodobí Baťové? • Ondřej Vicena vrací Česko na mapu brýlového designu • V hlavě viceprezidenta Svazu průmyslu a dopravy Radka Špicara
MAG. „Zjistit, kdo je chudý, je dost těžké a je tu spousta nejasností,“ říká sociolog Daniel Prokop • Mladá krev českých designérů umí zasáhnout srdce i peněženku zahraničních investorů • Trhák: Tenký červený proužek, který vám denně zachraňuje nervy, kdysi zachránil celý svět. Možná