Hajič: Dnešní „umělá inteligence“ vůbec není inteligence

Pavla Hubálková
Pavla Hubálková | 20. 11. 2021 | 3 komentáře | 3 983
googlestudiumumělá inteligenceuniverzityvýzkum

Když se dnes mluví o umělé inteligenci, je to zavádějící. Algoritmus, který se za ní skrývá, jen čerpá z kvanta naučených vzorců chování lidí, ale sám sobě nerozumí. Stejně jako nikdy neporozumí jazyku, ač se vědcům z Univerzity Karlovy na tomto poli náramně daří. A v lecčems předčí třeba i Google.

Hajič: Dnešní „umělá inteligence“ vůbec není inteligence

Počítačový lingvista Jan Hajič během rozhovoru pro UK Forum

Zdroj: Vladimír Šigut

Na půdě lingvistického ústavu Univerzity Karlovy se mimo jiné vyvíjí i software, který pomáhá automaticky porozumět gramatické struktuře textu. Nebo třeba překladač, který v tomto testu serveru Lupa.cz uspěl i v mezinárodním srovnání. Ostatně i proto jsme na něj poslali i našeho kolegu Vojtu Dobeše, zkušeného překladatele. Výsledek si přečtěte zas v tomto textu.

Ať už je ale kritika strojového překladu jakkoli oprávněná, rozhodně ji nelze upřít, že jde mílovými kroky kupředu. A to i díky expertům, ke kterým počátačový lingvista Jan Hajič bezesporu patří. Jím a jeho týmem vyvíjený software je součástí mnoha systémů od chatbotů a strojového překladu až po analýzu novinových článků, právních dokumentů nebo příspěvků na sociálních sítích.

Sám říká, že pro výdělek to nedělá. „Naší motivací je, aby se naše technologie využívaly. Navíc konkurence je v oblasti softwaru obrovská a nelze byznysově konkurovat kolosům jako Google či Microsoft,“ přiznává. Přesto se daří plody výzkumu v této oblasti zpeněžit díky společnosti Charles University Innovations Prague (CUIP), která se stará o komercializaci výsledků vědy a výzkumu.

Prodávat software, modely a data, které vznikly v Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy, ovšem není zas tak snadné. „Když se snažíte prodat něco, co se dá za pár vteřin zkopírovat, je to jiné, než když vyrábíte auta nebo léčiva,“ říká o transferu znalostí Hajič. Přesto se to matematickým lingvistům daří a softwarové nástroje či data využívá i Google.

Prof. RNDr. Jan Hajič, Dr.

Jan Hajič
Vladimír Šigut
  • výpočetní lingvista, zástupce ředitele Ústavu formální a aplikované lingvistiky na Univerzitě Karlově v Praze, člen Výzkumné rady Technologické Agentury ČR
  • specializuje se na oblasti matematické (počítačové) lingvistiky, a to v tvarosloví češtiny, budování datových zdrojů, strojového překladu přirozených jazyků, jazykového modelování pro rozpoznávání mluvené řeči a zpracování jazyka statistickými metodami
  • je hlavním koordinátorem digitální výzkumné infrastruktury LINDAT/CLARIAH-CZ.
  • přednáší na konferencích a na zahraničních univerzitách a vědeckých institucích

Nedávno jste podepsali licence na komerční využívání vašich softwarových nástrojů pro analýzu jazyka. Jaká to má specifika oproti transferu „hmotných“ technologií?

Pro nás to byl první prodej licencí ve spolupráci s Charles University Innovations Prague (CUIP); v minulosti jsme již několik licencí prodali sami jako ústav. Od té doby, co existuje CUIP, je ale vše mnohem jednodušší – řeší za nás smluvní a právní věci, faktury… My jako vědci se můžeme soustředit jen na obsah licence.

Prodej softwaru je flexibilní a vždy záleží na konkrétní domluvě s firmou – některá chce používat celý software, jiná jen vstupní data. Když se snažíte prodat něco, co se dá za deset vteřin zkopírovat, je to samozřejmě jiné, než když vyrábíte auta nebo léčiva. Transfer znalostí je v Česku stále poměrně nový. Neprodáváme technologie, ale práva ke komerčnímu užívání.

I za softwarem je dlouhý vývoj a experimentální část, která je svou náročností podobná vývoji léčiv. A v určitém smyslu je to o vzájemné důvěře, neboť naše nástroje jsou dostupné na webu lindat.mff.cuni.cz pro osobní využití a testování.

Kontrolujete nějak to využívání?

My samozřejmě hlídáme, kdyby to někdo nějak „nadměrně“ využíval, ale nepoznáme, zda někdo přeloží text naším překladačem a prodá to jako službu. Naší motivací je, aby se naše technologie využívaly; neděláme to pro výdělek. Navíc konkurence je v oblasti softwaru obrovská a nelze byznysově konkurovat kolosům jako Google či Microsoft, ač jsou některá naše řešení i lepší.

Co vše máte v „nabídce“?

Těch nástrojů je mnoho a stále přibývají. Oblíbený je překladač, jehož výsledky jsou v soutěžích nerozpoznatelné od práce překladatelů. Korektor zase hledá překlepy, pravopisné chyby, ale umí doplnit i háčky a čárky, a oproti korektuře v MS Wordu pracuje v kontextu celého textu, čímž dokáže odlišit, zda se jedná o předložku ze, nebo spojku že. Další položkou, počtem jazyků nejbohatší, je větný rozbor, který nabízíme pro sto jazyků.

Magazín ForumUniverzita Karlova

Text původně vyšel v magazínu Univerzity Karlovy Forum, z nějž pro vás pravidelně vybíráme ty nejzajímavější rozhovory. Vedle nich ovšem kolegové pravidelně nabízejí i názory, aktuality a hlavně...ne na všechno se u nás dostane. Mrkejte, co všechno na UKforum.cz mají.

Větný rozbor – noční můra spousty žáků – a jejich častý dotaz: „K čemu je to dobré?“

Pro žáky je to skvělý základ pro učení dalších jazyků, podporuje též logické myšlení. V automatickém rozpoznávání jazyka je to důležité pro některé další aplikace. Třeba fulltextové vyhledání: když budete chtít vyhledat „daň z příjmu“, tak díky určení základního tvaru slova a zaindexování vám vyhledávač najde i místa, kde se vyskytují slova daně, daních, daním, daněmi a tak dále. Stejně je to důležité kupříkladu při obsahové analýze – dnes už poznáme, zda je text pozitivní, nebo negativní, ale je těžké určit, vůči čemu je negativní… Například v recenzích – je zákazník nespokojen s výrobkem, s celou firmou, nebo jen se zákaznickým servisem?

Na jakých dalších projektech pracujete?

Zaměřujeme se na takzvané pojmenované entity, vyhledávání jmen a názvů. Třeba když chcete vyhledat Ústí nad Labem, což je pro software složité: „ústí“ může být i obyčejné slovo – ústí řeky, nad je spojka a Labe je název řeky, ale třeba i součást názvu Brandýs nad Labem. Ale vy chcete vyhledat pouze a jen Ústí nad Labem, konkrétní město. Pracujeme na nástroji, který by takové názvy v textech vyhledával jako celek a uměl rozlišit, zda se pak jedná o jméno člověka, města či firmy a rovnou by nabízel i další informace – například z Wikipedie.

Umělá inteligence v překladu
Shutterstock

Že překladatelé nebudou mít co žrát? Klid, umělá inteligence na ně nemá

Už když se před lety objevil překladač Google Translator, začala se spousta lidí domnívat, že konec překladatelů se blíží. Jeho schopnosti sice toto očekávání nenaplnily, ale nedávno přišel o mnoho dokonalejší DeepL Translator a předpovědi o konci překladatelského řemesla se vrátily. S umělou inteligencí to ale není nikdy tak jednoduché, jak to na první pohled vypadá, píše Vojta Dobeš.

Zabýváte se automatickým porozuměním textů. Musí počítač obsahu vskutku „porozumět“, pochopit smysl, nebo je to spíše jen naučená statistika?

Od skutečného porozumění jsme daleko a není jisté, zda se to někdy povede. Dnešní „umělá inteligence“ vůbec není inteligence – je to jen prostá reprodukce dat již dříve vyprodukovaných lidmi. Ta aplikace je ovšem v naučené oblasti takřka dokonalá, takže ačkoliv tomu počítač nerozumí, vypadá to inteligentně. Navíc, člověk se učí po celý život a působí na něj mnoho nejrůznějších vlivů, jež nemáme nijak zaznamenané. Nevím, zda bychom našli sto milionů lidí, kterým bychom dali kamery a mikrofony a nepřetržitě je monitorovali, abychom získali dostatek vstupních dat pro vytvoření skutečné umělé inteligence (usměje se). Pokud bychom ale uměli naučit AI pouze z pár příkladů, umím si představit, že sto takových extrovertů bychom našli.

Co můžeme v oboru čekat za pár let?

Myslím, že bude pokračovat pokrok podobně jako doteď: postupný vývoj a čas od času skokové zlepšení. Jako v posledních pěti letech, kdy jsme udělali obrovský posun v technologiích a ve strojovém učení a najednou umíme velmi dobře simulovat lidské chování. Pravděpodobně najdeme nové způsoby, jak sbírat data a jak je dále využívat, což otevře nové možnosti. Hodně se mluví o kvantových počítačích, což by nám umožnilo výrazně posunout výpočetní kapacity.

Jak moc by se vaše práce lišila, pokud byste nepracoval s češtinou, ale s angličtinou?

Vlastně ani moc ne. Na samotném jazyku nezáleží. Pokud bych ale pracoval s angličtinou, asi bych se více zabýval softwarovým nástroji a novými aplikacemi. V angličtině jsou již lingvistická data dostupná a nemuseli bychom si je sami tvořit jako u češtiny. Tvorba jazykových korpusů je stále časově nejnáročnější část, ač se řada věcí s rozvojem technologií zrychluje.

Stále platí, že české jazykové korpusy jsou druhé nejlepší na světě?

To záleží na tom, co budeme porovnávat. Kvantitativně jsme v lingvistickém zpracování dat asi třetí, za angličtinou a němčinou, ta nás v posledních letech předběhla. V některých kvalitativních oblastech jsme patrně i nejlepší a zcela určitě patříme ke světové špičce.

Počítačová lingvistika spojuje exaktní matematiku a tvůrčí lingvistiku. Co je vám bližší?

To je velmi těžká otázka. Já studoval informatiku, takže spíše ta matematika. Lingvistiku jsem si přibral až cestou – respektive jsem ji téměř doslova zdědil po matce (profesorka Eva Hajičová je významná lingvistka, jež se zásadně zasloužila o rozvoj celého oboru – pozn. red.).

Ale i vy jste tuto rodinnou tradici předal dál…

Ovšem jen částečně. Syn sice také působil na Ústavu formální a aplikované lingvistiky (ÚFAL), ale je hudebníkem a věnuje se zpracování a strojovému rozpoznávání hudebních not – ale i to je, co se týká používaných metod, lingvistice vlastně velmi podobné.

Autor článku

Pavla Hubálková

Pavla Hubálková

Od března 2020 je vědeckou redaktorkou na Univerzitě Karlově. O vědě a vědcích píše i pro týdeník HROT, VědaVýzkum.cz, Czexpats in Science i další média. Vystudovala Klinickou biochemii na VSČHT a dokončuje doktorské studium na 3. LF UK v oboru Neurovědy. Rok strávila jako Fulbright Visiting Student Researcher na Northwestern University v Chicagu, kde se kromě vlastního výzkumu věnovala i Science Communication.