https://www.finmag.cz/firemni-kultura/419119-doufame-ze-lidi-nebude-otravovat-clanky-psane-strojem-cist
Doufáme, že lidi nebude otravovat články psané strojem číst
Vědci z několika vysokých škol se spojili s ČTK a učí počítač psát jednoduché zpravodajské texty. Proti kolegům ze Západu před nimi stojí zásadní překážka: česká gramatika. Proč je pro umělou inteligenci čeština těžší než angličtina? A proč se stroje nejdřív učí psát o burze a sportu? Ptáme se Ondřeje Pražáka ze Střediska žurnalistiky umělé inteligence.
Snažíte se vytvořit systém, který by generoval zpravodajské texty místo lidí. Proč?
Ve světě najdete čím dál víc metod, které usnadňují novinářům práci, třeba v anglicky mluvících zemích už systémy generují sportovní a podobné zprávy. Na základě toho přišla iniciativa od novinářů z Fakulty sociálních věd Univerzity Karlovy. Cítili, že by se něco podobného dalo dělat i v češtině.
Takže teď zkoumáme možnosti, jak bychom jim v českém jazyce mohli s využitím umělé inteligence pomoci.
Zatím generujete zprávy z pražské burzy, pozornost věnujete i sportovnímu zpravodajství. Kde ještě vidíte novinářský potenciál umělé inteligence?
Abych to upřesnil, texty referující o pražské burze velkého zásahu umělé inteligence ani moc nevyužívají, generujeme je velice šablonovitě. Teď se ale pouštíme do průzkumu metod, které by byly schopné generovat obecnější texty, například shrnutí z více už existujících zpráv o dané události, která se vyvíjí. Zatím jsme ale nedosáhli výsledků, které by byly použitelné. Můžu ale říct, že k tomu směřujeme.
Naznačujete, že pouhé naplňování šablony skoro ani není umělá inteligence. Co tedy považujete za umělou inteligencí generovaný text?
Umělá inteligence je hodně široký pojem, omezme se na strojové učení. Systém využívající strojové učení se samozřejmě musí učit. To znamená, že když například vytváří text a dostane zpětnou vazbu, že je něco špatně, musí být schopný se z té informace bez zásahu člověka poučit a změnit své chování tak, aby příště vyprodukoval text lépe.
Narazili jste na oblast, kde strojové učení aplikovat nejde?
Dneska je například hodně moderní identifikace fake news, jenže jak vlastně fake news definovat? Ani po stroji tedy nemůžeme chtít, aby poznal, co ještě za dezinformaci považovat a co už ne. Rozhodování stroje navíc spočívá ve frekventistické interpretaci, to znamená, že tu informaci, kterou najde nejčastěji, považuje stroj za pravdivou. To pro fake news aplikovatelné není.
Středisko žurnalistiky umělé inteligence
Ve středisku se spojili vědci z Fakulty sociálních věd Univerzity Karlovy, Fakulty aplikovaných věd Západočeské univerzity a Fakulty elektrotechnické Českého vysokého učení technického. Spolupracují s ČTK, která už nyní jejich poznatky využívá ke generování zpráv z pražské burzy. Současně pracují na systému, který by na základě strojového učení generoval shrnutí událostí.
Zpracování přirozeného jazyka se v Česku věnují i jiná pracoviště – například v Paze Ústav formální a aplikované lingvistiky na Matfyzu, v Brně Fakulta informatiky Masarykovy univerzity (FI MU) nebo Fakulta informačních technologií Vysokého učení technického.
Různé studie o generování textu strojovým učením mluví o potížích s přirozeným jazykem. V čem spočívají?
Přirozený jazyk je jazyk, kterým mluví člověk. Oproti pevně definovanému fungování počítače je volnější, využívá spousty možností, jak něco vyjádřit a jemné nuance vedou ke změně významu.
Generuje už váš systém texty v přirozeném jazyce?
Zatím jen velmi omezeně. Upřímně spíš doufáme, že dosáhneme takového vylepšení, že lidi nebude otravovat články psané strojem číst. Třeba poznají, že to psal stroj, ale bude to pro ně čtivé a čitelné. Ale samozřejmě ideál je, aby počítač vyprodukoval takovou zprávu, která ve srovnání se zprávou psanou novinářem rozpoznatelná nebude.
Česká tisková kancelář už ale články vašeho systému zveřejňuje při referování o pražské burze, ne?
To ano.
A jaké jsou ohlasy? Kdyby to konzumenty otravovalo číst, ČTK by to přece nepublikovala.
Zprávy z pražské burzy generujeme úspěšně, ale jak jsem říkal, tam není potřeba moc bohatého jazyka a střídá se tam jen několik málo frází pořád dokola.
Zprávy z burzy generované umělou inteligencí. Burzovní zpravodajství má tu výhodu, že denně může využívat tutéž šablonu – ostatně postupují tak i živí burzovní zpravodajové
Jak jste tedy daleko se složitějšími texty? Na jaké překážky jste narazili v generování shrnutí jiných zpravodajských textů?
Pokud chceme, aby počítač generoval celý text, musí pochopit všechna pravidla jazyka a ta jsou v češtině mnohem složitější než třeba v angličtině. U angličtiny stačí oklasifikovaná data nasypat do neuronové sítě, ta se to naučí a vygeneruje správný text. U češtiny budeme muset do modelu zřejmě hlouběji zasáhnout.
Institut komunikačních studií a žurnalistiky
Článek je součástí série textů, které ve spolupráci s Finmagem připravili studenti Institutu komunikačních studií a žurnalistiky Fakulty sociálních věd Univerzity Karlovy v rámci kurzu Zpravodajství umělé inteligence. Aktuální dění na institutu a další studentské práce můžete sledovat na Facebooku nebo Instagramu.
Zatím vyšlo
Roboti a žurnalistika
Rozhovor Anny Mikolandové a Barbory Součkové s Václavem Moravcem
... a robot zábavně odpoví
Rozhovor Alžběty Holcové s programátorem chatbotů Janem Pichlem
Čas terminátorů
Umělá inteligence a smrtící zbraně v analýze Lukáše Skládala
Proti deepfake videu umělou inteligencí
Rozhovor Martiny Arltové o tom, proč nevěřit vlastním očím
Spíš než robotům budeme otročit toustovačům
Recenze Čtvrté revoluce Luciana Floridiho od Záviše Dobiašovského
Čtyřikrát ze Čtvrté revoluce
Výpisky Adama Prause z téže knihy
Co je v českém jazyce to nejproblematičtější?
Máme spoustu pádů, tvarů slov, složitou morfologii, nemáme pevný slovosled. Jinými slovy máme mnohem víc možností, jak text může ve výsledku vypadat. Máme také složité závislosti – třeba když věta začíná nějakým způsobem, na konci musí vypadat tak a tak – a to je pro stroje těžké.
Sam Bowman, počítačový lingvista, který pracuje na zlepšování tvorby přirozeného textu na NYU řekl Voxu, že jeho model umělé inteligence se učil z osmi milionů internetových článků, a stále není dokonalý. V češtině nejspíš nebudete mít ani k dispozici tak velký soubor textů k učení…
To je obrovský problém. Dostali jsme přístup do celé databáze ČTK, a stejně jsme narazili na to, že dat v rozumné kvalitě pro generování shrnutí je strašně málo. Na to, aby se neuronová síť naučila generovat shrnutí úplně od nuly jich nikdy nebude dost.
Kolik dat v porovnání s těmi osmi miliony článků na NYU máte?
Přesné číslo si nepamatuji, ale určitě to není v milionech, spíš v desetitisících.
Nespolupracujete třeba i s Českým národním korpusem, který má k dispozici spoustu dat?
V současnosti nespolupracujeme na ničem, ale dřív jsme nějaká jejich data využívali. Teď zvažujeme jejich využití při natrénování state-of-the-art modelů sémantických textů pro češtinu, které by následně měly využití třeba i ve shrnutích, o kterých jsme mluvili. Je v nich totiž potřeba velké množství psaného textu z různých domén.
Vzorové články vybíráte podle nějakých kvalitativních kritérií nebo do sítě sypete takříkajíc všechno, co máte k dispozici?
Sypali jsme tam víceméně cokoliv, spoustu článků jsme ale přesto museli vyřadit. Většina zpráv například byla o sportu, což jsou texty opět spíše šablonovité. V některých shrnutích, která psali novináři ČTK a jaká my se teď snažíme generovat pomocí strojového učení, se oproti předchozím zprávám o události objevovaly úplně nové informace, to se naše síť vůbec nemůže naučit. Dokáže vyprodukovat nějakou kombinaci předchozích textů a shrnout je do jednoho, ale odkud by vzala nové informace?
Myslíte, že umělá inteligence dokáže někdy psát takové texty, že čtenář nepozná rozdíl od textu psaného člověkem?
My si samozřejmě myslíme, že ano. Kdybychom o tom nebyli přesvědčení, tak vůbec s projektem nezačínáme.
Jak jde dohromady byznys a medicína? Dočtete se v novém Finmagu
Je medicína byznys? Jak pro koho. „Frustraci mladých lékařů chápu. Nemají ani na chůvu, aby jim pohlídala děti, když pracují,“ říká přednosta chirurgické kliniky Robert Lischke.
MEDICÍNA A BYZNYS
Jak venkovští praktici nepřicházejí o iluze • Ženy mění medicínu • Nejstarší pražská nemocnice objektivem Alžběty Jungrové • Nejdražší léky na světě • Obézních přibývá, Česko dohání USA.
BYZNYS JE HRA
„Investice do umění se do tabulek nevtěsná,“ říká Pavlína Pudil z Kunsthalle • Nejdražší materiál roku 2023? Hrst štěrku z vesmíru za miliardu dolarů • Ekologie musí být podle Tomáš Nemravy, výrobce dřevěných domů, ekonomická.
Související témata
Nejnovější podcasty