Používáte nástroj pro blokování reklamy. Pokud nám chcete pomoci, vypněte si blokování reklamy na našem webu. Zde najdete jednoduchý návod. Děkujeme.

Doufáme, že lidi nebude otravovat články psané strojem číst

Vědci z několika vysokých škol se spojili s ČTK a učí počítač psát jednoduché zpravodajské texty. Proti kolegům ze Západu před nimi stojí zásadní překážka: česká gramatika. Proč je pro umělou inteligenci čeština těžší než angličtina? A proč se stroje nejdřív učí psát o burze a sportu? Ptáme se Ondřeje Pražáka ze Střediska žurnalistiky umělé inteligence.

Foto Nikol Mudrová

Snažíte se vytvořit systém, který by generoval zpravodajské texty místo lidí. Proč?

Ve světě najdete čím dál víc metod, které usnadňují novinářům práci, třeba v anglicky mluvících zemích už systémy generují sportovní a podobné zprávy. Na základě toho přišla iniciativa od novinářů z Fakulty sociálních věd Univerzity Karlovy. Cítili, že by se něco podobného dalo dělat i v češtině.

Takže teď zkoumáme možnosti, jak bychom jim v českém jazyce mohli s využitím umělé inteligence pomoci.

Ondřej Pražák

Ondřej PražákFoto Nikol Mudrová

Výzkumný pracovník Katedry informatiky a výpočetní techniky Fakulty aplikovaných věd plzeňské univerzity. Věnuje se zpracování přirozeného jazyka. Zaměřuje se na to, jak fungují strojové učení a neuronové sítě a jak automaticky určovat význam textu.

Zatím generujete zprávy z pražské burzy, pozornost věnujete i sportovnímu zpravodajství. Kde ještě vidíte novinářský potenciál umělé inteligence?

Abych to upřesnil, texty referující o pražské burze velkého zásahu umělé inteligence ani moc nevyužívají, generujeme je velice šablonovitě. Teď se ale pouštíme do průzkumu metod, které by byly schopné generovat obecnější texty, například shrnutí z více už existujících zpráv o dané události, která se vyvíjí. Zatím jsme ale nedosáhli výsledků, které by byly použitelné. Můžu ale říct, že k tomu směřujeme.

Naznačujete, že pouhé naplňování šablony skoro ani není umělá inteligence. Co tedy považujete za umělou inteligencí generovaný text?

Umělá inteligence je hodně široký pojem, omezme se na strojové učení. Systém využívající strojové učení se samozřejmě musí učit. To znamená, že když například vytváří text a dostane zpětnou vazbu, že je něco špatně, musí být schopný se z té informace bez zásahu člověka poučit a změnit své chování tak, aby příště vyprodukoval text lépe.

Narazili jste na oblast, kde strojové učení aplikovat nejde?

Dneska je například hodně moderní identifikace fake news, jenže jak vlastně fake news definovat? Ani po stroji tedy nemůžeme chtít, aby poznal, co ještě za dezinformaci považovat a co už ne. Rozhodování stroje navíc spočívá ve frekventistické interpretaci, to znamená, že tu informaci, kterou najde nejčastěji, považuje stroj za pravdivou. To pro fake news aplikovatelné není.

Středisko žurnalistiky umělé inteligence

Ve středisku se spojili vědci z Fakulty sociálních věd Univerzity Karlovy, Fakulty aplikovaných věd Západočeské univerzity a Fakulty elektrotechnické Českého vysokého učení technického. Spolupracují s ČTK, která už nyní jejich poznatky využívá ke generování zpráv z pražské burzy. Současně pracují na systému, který by na základě strojového učení generoval shrnutí událostí.

Zpracování přirozeného jazyka se v Česku věnují i jiná pracoviště – například v Paze Ústav formální a aplikované lingvistiky na Matfyzu, v Brně Fakulta informatiky Masarykovy univerzity (FI MU) nebo Fakulta informačních technologií Vysokého učení technického.

Různé studie o generování textu strojovým učením mluví o potížích s přirozeným jazykem. V čem spočívají?

Přirozený jazyk je jazyk, kterým mluví člověk. Oproti pevně definovanému fungování počítače je volnější, využívá spousty možností, jak něco vyjádřit a jemné nuance vedou ke změně významu.

Generuje už váš systém texty v přirozeném jazyce?

Zatím jen velmi omezeně. Upřímně spíš doufáme, že dosáhneme takového vylepšení, že lidi nebude otravovat články psané strojem číst. Třeba poznají, že to psal stroj, ale bude to pro ně čtivé a čitelné. Ale samozřejmě ideál je, aby počítač vyprodukoval takovou zprávu, která ve srovnání se zprávou psanou novinářem rozpoznatelná nebude.

Česká tisková kancelář už ale články vašeho systému zveřejňuje při referování o pražské burze, ne?

To ano.

A jaké jsou ohlasy? Kdyby to konzumenty otravovalo číst, ČTK by to přece nepublikovala.

Zprávy z pražské burzy generujeme úspěšně, ale jak jsem říkal, tam není potřeba moc bohatého jazyka a střídá se tam jen několik málo frází pořád dokola.

Zprávy z pražské burzy
Zdroj: PSE.cz

Zprávy z burzy generované umělou inteligencí. Burzovní zpravodajství má tu výhodu, že denně může využívat tutéž šablonu – ostatně postupují tak i živí burzovní zpravodajové

Jak jste tedy daleko se složitějšími texty? Na jaké překážky jste narazili v generování shrnutí jiných zpravodajských textů?

Pokud chceme, aby počítač generoval celý text, musí pochopit všechna pravidla jazyka a ta jsou v češtině mnohem složitější než třeba v angličtině. U angličtiny stačí oklasifikovaná data nasypat do neuronové sítě, ta se to naučí a vygeneruje správný text. U češtiny budeme muset do modelu zřejmě hlouběji zasáhnout.

Institut komunikačních studií a žurnalistiky

Logo IKSŽ FSV UKZdroj: IKSŽ FSV UK

Článek je součástí série textů, které ve spolupráci s Finmagem připravili studenti Institutu komunikačních studií a žurnalistiky Fakulty sociálních věd Univerzity Karlovy v rámci kurzu Zpravodajství umělé inteligence. Aktuální dění na institutu a další studentské práce můžete sledovat na Facebooku nebo Instagramu.

Zatím vyšlo

Roboti a žurnalistika
Rozhovor Anny Mikolandové a Barbory Součkové s Václavem Moravcem

... a robot zábavně odpoví
Rozhovor Alžběty Holcové s programátorem chatbotů Janem Pichlem

Čas terminátorů
Umělá inteligence a smrtící zbraně v analýze Lukáše Skládala

Proti deepfake videu umělou inteligencí
Rozhovor Martiny Arltové o tom, proč nevěřit vlastním očím

Spíš než robotům budeme otročit toustovačům
Recenze Čtvrté revoluce Luciana Floridiho od Záviše Dobiašovského

Čtyřikrát ze Čtvrté revoluce
Výpisky Adama Prause z téže knihy

Co je v českém jazyce to nejproblematičtější?

Máme spoustu pádů, tvarů slov, složitou morfologii, nemáme pevný slovosled. Jinými slovy máme mnohem víc možností, jak text může ve výsledku vypadat. Máme také složité závislosti – třeba když věta začíná nějakým způsobem, na konci musí vypadat tak a tak – a to je pro stroje těžké.

Sam Bowman, počítačový lingvista, který pracuje na zlepšování tvorby přirozeného textu na NYU řekl Voxu, že jeho model umělé inteligence se učil z osmi milionů internetových článků, a stále není dokonalý. V češtině nejspíš nebudete mít ani k dispozici tak velký soubor textů k učení…

To je obrovský problém. Dostali jsme přístup do celé databáze ČTK, a stejně jsme narazili na to, že dat v rozumné kvalitě pro generování shrnutí je strašně málo. Na to, aby se neuronová síť naučila generovat shrnutí úplně od nuly jich nikdy nebude dost.

Kolik dat v porovnání s těmi osmi miliony článků na NYU máte?

Přesné číslo si nepamatuji, ale určitě to není v milionech, spíš v desetitisících.

Nespolupracujete třeba i s Českým národním korpusem, který má k dispozici spoustu dat?

V současnosti nespolupracujeme na ničem, ale dřív jsme nějaká jejich data využívali. Teď zvažujeme jejich využití při natrénování state-of-the-art modelů sémantických textů pro češtinu, které by následně měly využití třeba i ve shrnutích, o kterých jsme mluvili. Je v nich totiž potřeba velké množství psaného textu z různých domén.

Vzorové články vybíráte podle nějakých kvalitativních kritérií nebo do sítě sypete takříkajíc všechno, co máte k dispozici?

Sypali jsme tam víceméně cokoliv, spoustu článků jsme ale přesto museli vyřadit. Většina zpráv například byla o sportu, což jsou texty opět spíše šablonovité. V některých shrnutích, která psali novináři ČTK a jaká my se teď snažíme generovat pomocí strojového učení, se oproti předchozím zprávám o události objevovaly úplně nové informace, to se naše síť vůbec nemůže naučit. Dokáže vyprodukovat nějakou kombinaci předchozích textů a shrnout je do jednoho, ale odkud by vzala nové informace?

Myslíte, že umělá inteligence dokáže někdy psát takové texty, že čtenář nepozná rozdíl od textu psaného člověkem?

My si samozřejmě myslíme, že ano. Kdybychom o tom nebyli přesvědčení, tak vůbec s projektem nezačínáme.

Finmag v novém!

Finamg předplatné

Život si najde cestičku. Téma nového Finmagu: adaptace. Michal Kašpárek zkoumá, co nás naučily průšvihy: budovat kanalizace, šetřit benzinem nebo respektovat homosexuály.

Matouš Hrdina píše o tom, jak virus zauzloval zásobovací řetězce. Dokážeme se zbavit závislostí na Číně? Můžeme řídit dodávky zboží tak, aby mírně vyšší poptávka neznamenala hned prázdné regály?

Petr Preclík podává zprávu o tom, jak si lidé dokážou poradit v zemi, kde není spoleh vůbec na nic. V Zimbabwe mají dva miliony lidí ze čtrnácti milionů bankovní účet. Sedm milionů jich ale platí mobilem.

Nikol Mudrová

Nikol Mudrová

Dokončuje bakaláře na žurnalistice na FSV UK. Vedle studia, v kterém se zaměřuje zejména na reportážní fotografii, se zajímá také o fake news a mediální gramotnost seniorů.  Více o autorovi.

Komentáře

Celkem 28 komentářů v diskuzi

Příspěvek s nejvíce kladnými hlasy

Petr Vorlíček | 25. 7. 2020 06:28

Mnohokrát děkuji za tento článek!!!
Osvětlil mi dlouholetou záhadu, kdo si dává práci s psaním toho nesmyslného popisu "výsledků obchodování" na pražské burze s nulovou teálnou hodnotou...
Doslova mne fascinovalo, jak u zpráv o pohybech chybí i naprosto zřejmé souvislosti pohybu kurzu, ať už byly ten den způsobeny ohlášením hospodářských výsledků dcery či matky, rozhodným dnem pro výplatu dividendy, masivním výprodejem či růstem vůdčích trhů díky ohlášení nějakého dalšího kola QE...

Člověk měl pocit, že to píše nějaký brigádník na vrátnici za 50 korun na hodinu...
A on to psal robot!....:-)
Tak šup šup, studenti sociálních věd, ať už si mohu přečíst, že Baník vyhrál utkání proto, že dal o gól navíc!!!

Tohle je přesná ukázka toho, co generují státem dotované obory, a samozřejmě naše školství...Jediné, co je na zprávách z burzy či sportu zajímavého je názor matadora z oboru, který dá laikovi možnost nahlédnout do zákulisí za oponu a poodhalí mu "lidskost" fungování třema té burzy, tu neskutečnou primitivitu, to, jak jen opisuje od hlavního trhu, jak ráno začne dle US futures, a odpoledne se třese na open v US...(a naprosto zřídka a z jasných důvodů se těmto trendům vymyká...)

Asi je skutečně dobře, že má člověk poměrně nekompromisně definovanou životnost, tak nějak cítím, že bych tuto společenskou komedii za padesát let už asi těžko snášel, zachrání to ale stařecká demence...

+17
+
-

Příspěvek s nejvíce zápornými hlasy

Richard Fuld | 27. 7. 2020 14:46

Je nezadatelnou svobodou každého člověka stát se degenerujícím povalečem. :-) To byste přece jako zastánce bezlimitní svobody měl vědět a ne to kritizovat. Nikdo Vás přece nenutí zaměstnávat povaleče a platit mu neadekvátně vysokou minimální mzdu.

-5
+
-

Při poskytování služeb nám pomáhají soubory cookie. Používáním našich služeb nám k tomu udělujete souhlas. Další informace.

OK