Partner webuRoger logo
Předplatit časopis Finmag

Doufáme, že lidi nebude otravovat články psané strojem číst

Nikol Mudrová
Nikol Mudrová
25. 7. 2020
 25 467

Vědci z několika vysokých škol se spojili s ČTK a učí počítač psát jednoduché zpravodajské texty. Proti kolegům ze Západu před nimi stojí zásadní překážka: česká gramatika. Proč je pro umělou inteligenci čeština těžší než angličtina? A proč se stroje nejdřív učí psát o burze a sportu? Ptáme se Ondřeje Pražáka ze Střediska žurnalistiky umělé inteligence.

Doufáme, že lidi nebude otravovat články psané strojem číst
Zdroj: Foto Nikol Mudrová

Snažíte se vytvořit systém, který by generoval zpravodajské texty místo lidí. Proč?

Ve světě najdete čím dál víc metod, které usnadňují novinářům práci, třeba v anglicky mluvících zemích už systémy generují sportovní a podobné zprávy. Na základě toho přišla iniciativa od novinářů z Fakulty sociálních věd Univerzity Karlovy. Cítili, že by se něco podobného dalo dělat i v češtině.

Takže teď zkoumáme možnosti, jak bychom jim v českém jazyce mohli s využitím umělé inteligence pomoci.

Ondřej Pražák

Ondřej PražákFoto Nikol Mudrová

Výzkumný pracovník Katedry informatiky a výpočetní techniky Fakulty aplikovaných věd plzeňské univerzity. Věnuje se zpracování přirozeného jazyka. Zaměřuje se na to, jak fungují strojové učení a neuronové sítě a jak automaticky určovat význam textu.

Zatím generujete zprávy z pražské burzy, pozornost věnujete i sportovnímu zpravodajství. Kde ještě vidíte novinářský potenciál umělé inteligence?

Abych to upřesnil, texty referující o pražské burze velkého zásahu umělé inteligence ani moc nevyužívají, generujeme je velice šablonovitě. Teď se ale pouštíme do průzkumu metod, které by byly schopné generovat obecnější texty, například shrnutí z více už existujících zpráv o dané události, která se vyvíjí. Zatím jsme ale nedosáhli výsledků, které by byly použitelné. Můžu ale říct, že k tomu směřujeme.

Naznačujete, že pouhé naplňování šablony skoro ani není umělá inteligence. Co tedy považujete za umělou inteligencí generovaný text?

Umělá inteligence je hodně široký pojem, omezme se na strojové učení. Systém využívající strojové učení se samozřejmě musí učit. To znamená, že když například vytváří text a dostane zpětnou vazbu, že je něco špatně, musí být schopný se z té informace bez zásahu člověka poučit a změnit své chování tak, aby příště vyprodukoval text lépe.

Narazili jste na oblast, kde strojové učení aplikovat nejde?

Dneska je například hodně moderní identifikace fake news, jenže jak vlastně fake news definovat? Ani po stroji tedy nemůžeme chtít, aby poznal, co ještě za dezinformaci považovat a co už ne. Rozhodování stroje navíc spočívá ve frekventistické interpretaci, to znamená, že tu informaci, kterou najde nejčastěji, považuje stroj za pravdivou. To pro fake news aplikovatelné není.

Středisko žurnalistiky umělé inteligence

Ve středisku se spojili vědci z Fakulty sociálních věd Univerzity Karlovy, Fakulty aplikovaných věd Západočeské univerzity a Fakulty elektrotechnické Českého vysokého učení technického. Spolupracují s ČTK, která už nyní jejich poznatky využívá ke generování zpráv z pražské burzy. Současně pracují na systému, který by na základě strojového učení generoval shrnutí událostí.

Zpracování přirozeného jazyka se v Česku věnují i jiná pracoviště – například v Paze Ústav formální a aplikované lingvistiky na Matfyzu, v Brně Fakulta informatiky Masarykovy univerzity (FI MU) nebo Fakulta informačních technologií Vysokého učení technického.

Různé studie o generování textu strojovým učením mluví o potížích s přirozeným jazykem. V čem spočívají?

Přirozený jazyk je jazyk, kterým mluví člověk. Oproti pevně definovanému fungování počítače je volnější, využívá spousty možností, jak něco vyjádřit a jemné nuance vedou ke změně významu.

Generuje už váš systém texty v přirozeném jazyce?

Zatím jen velmi omezeně. Upřímně spíš doufáme, že dosáhneme takového vylepšení, že lidi nebude otravovat články psané strojem číst. Třeba poznají, že to psal stroj, ale bude to pro ně čtivé a čitelné. Ale samozřejmě ideál je, aby počítač vyprodukoval takovou zprávu, která ve srovnání se zprávou psanou novinářem rozpoznatelná nebude.

Česká tisková kancelář už ale články vašeho systému zveřejňuje při referování o pražské burze, ne?

To ano.

A jaké jsou ohlasy? Kdyby to konzumenty otravovalo číst, ČTK by to přece nepublikovala.

Zprávy z pražské burzy generujeme úspěšně, ale jak jsem říkal, tam není potřeba moc bohatého jazyka a střídá se tam jen několik málo frází pořád dokola.

Zprávy z pražské burzy
Zdroj: PSE.cz

Zprávy z burzy generované umělou inteligencí. Burzovní zpravodajství má tu výhodu, že denně může využívat tutéž šablonu – ostatně postupují tak i živí burzovní zpravodajové

Jak jste tedy daleko se složitějšími texty? Na jaké překážky jste narazili v generování shrnutí jiných zpravodajských textů?

Pokud chceme, aby počítač generoval celý text, musí pochopit všechna pravidla jazyka a ta jsou v češtině mnohem složitější než třeba v angličtině. U angličtiny stačí oklasifikovaná data nasypat do neuronové sítě, ta se to naučí a vygeneruje správný text. U češtiny budeme muset do modelu zřejmě hlouběji zasáhnout.

Institut komunikačních studií a žurnalistiky

Logo IKSŽ FSV UKZdroj: IKSŽ FSV UK

Článek je součástí série textů, které ve spolupráci s Finmagem připravili studenti Institutu komunikačních studií a žurnalistiky Fakulty sociálních věd Univerzity Karlovy v rámci kurzu Zpravodajství umělé inteligence. Aktuální dění na institutu a další studentské práce můžete sledovat na Facebooku nebo Instagramu.

Zatím vyšlo

Roboti a žurnalistika
Rozhovor Anny Mikolandové a Barbory Součkové s Václavem Moravcem

... a robot zábavně odpoví
Rozhovor Alžběty Holcové s programátorem chatbotů Janem Pichlem

Čas terminátorů
Umělá inteligence a smrtící zbraně v analýze Lukáše Skládala

Proti deepfake videu umělou inteligencí
Rozhovor Martiny Arltové o tom, proč nevěřit vlastním očím

Spíš než robotům budeme otročit toustovačům
Recenze Čtvrté revoluce Luciana Floridiho od Záviše Dobiašovského

Čtyřikrát ze Čtvrté revoluce
Výpisky Adama Prause z téže knihy

Co je v českém jazyce to nejproblematičtější?

Máme spoustu pádů, tvarů slov, složitou morfologii, nemáme pevný slovosled. Jinými slovy máme mnohem víc možností, jak text může ve výsledku vypadat. Máme také složité závislosti – třeba když věta začíná nějakým způsobem, na konci musí vypadat tak a tak – a to je pro stroje těžké.

Sam Bowman, počítačový lingvista, který pracuje na zlepšování tvorby přirozeného textu na NYU řekl Voxu, že jeho model umělé inteligence se učil z osmi milionů internetových článků, a stále není dokonalý. V češtině nejspíš nebudete mít ani k dispozici tak velký soubor textů k učení…

To je obrovský problém. Dostali jsme přístup do celé databáze ČTK, a stejně jsme narazili na to, že dat v rozumné kvalitě pro generování shrnutí je strašně málo. Na to, aby se neuronová síť naučila generovat shrnutí úplně od nuly jich nikdy nebude dost.

Kolik dat v porovnání s těmi osmi miliony článků na NYU máte?

Přesné číslo si nepamatuji, ale určitě to není v milionech, spíš v desetitisících.

Nespolupracujete třeba i s Českým národním korpusem, který má k dispozici spoustu dat?

V současnosti nespolupracujeme na ničem, ale dřív jsme nějaká jejich data využívali. Teď zvažujeme jejich využití při natrénování state-of-the-art modelů sémantických textů pro češtinu, které by následně měly využití třeba i ve shrnutích, o kterých jsme mluvili. Je v nich totiž potřeba velké množství psaného textu z různých domén.

Vzorové články vybíráte podle nějakých kvalitativních kritérií nebo do sítě sypete takříkajíc všechno, co máte k dispozici?

Sypali jsme tam víceméně cokoliv, spoustu článků jsme ale přesto museli vyřadit. Většina zpráv například byla o sportu, což jsou texty opět spíše šablonovité. V některých shrnutích, která psali novináři ČTK a jaká my se teď snažíme generovat pomocí strojového učení, se oproti předchozím zprávám o události objevovaly úplně nové informace, to se naše síť vůbec nemůže naučit. Dokáže vyprodukovat nějakou kombinaci předchozích textů a shrnout je do jednoho, ale odkud by vzala nové informace?

Myslíte, že umělá inteligence dokáže někdy psát takové texty, že čtenář nepozná rozdíl od textu psaného člověkem?

My si samozřejmě myslíme, že ano. Kdybychom o tom nebyli přesvědčení, tak vůbec s projektem nezačínáme.

Jak jde dohromady byznys a medicína? Dočtete se v novém Finmagu

Je medicína byznys? Jak pro koho. „Frustraci mladých lékařů chápu. Nemají ani na chůvu, aby jim pohlídala děti, když pracují,“ říká přednosta chirurgické kliniky Robert Lischke.

Finmag předplatnéZdroj: Finmag

MEDICÍNA A BYZNYS

Jak venkovští praktici nepřicházejí o iluze • Ženy mění medicínu • Nejstarší pražská nemocnice objektivem Alžběty Jungrové • Nejdražší léky na světě • Obézních přibývá, Česko dohání USA.

BYZNYS JE HRA

„Investice do umění se do tabulek nevtěsná,“ říká Pavlína Pudil z Kunsthalle • Nejdražší materiál roku 2023? Hrst štěrku z vesmíru za miliardu dolarů • Ekologie musí být podle Tomáš Nemravy, výrobce dřevěných domů, ekonomická.

Daňové přiznání online

Ohodnoťte článek

-
0
+

Sdílejte

Diskutujte (28)

Vstoupit do diskuze
Nikol Mudrová

Nikol Mudrová

Dokončuje bakaláře na žurnalistice na FSV UK. Vedle studia, v kterém se zaměřuje zejména na reportážní fotografii, se zajímá také o fake news a mediální gramotnost seniorů.

Související témata

jazykstrojové učeníumělá inteligencežurnalistika
Daňové přiznání online

Aktuální číslo časopisu

Předplatné časopisu Finmag

Věda je byznys –⁠ byznys je věda

Koupit nejnovější číslo