Jak na generování obrázků a textů. Tipy ve Finmag newsletteru

25. 9. 2022

6 876

Rozhovory, úvahy i návody nejen k přelomovému modelu Stable Diffusion. Pravidelný Finmag newsletter právě přistál.

Jak na generování obrázků a textů. Tipy ve Finmag newsletteru

Ne že by média někdy byla klidným oborem. Je podvečer, svou stránku v zítřejších novinách jste napsali a zalomili hezky, můžete jít domů – a bum, umře královna, stejný zmar v roce 1901 i 2022. Současná generace novinářů se navíc celou kariéru musí popasovávat s rozvojem digitálních technologií: učili jsme se psát titulky pro vyhledávače, být vidět na sociálních sítích, stříhat video, komunikovat šifrovaně.

Žádná z technologických změn ale nebyla tak rychlá jako ta, kterou jsme mohli sledovat letos od jara do podzimu. Praktické schopnosti i samotné množství nástrojů pro generování textu a obrázků poskočily způsobem, pro který se mi těžko hledá příměr. Jako kdyby se redaktoři a sazeči z Čapkova Jak se co dělá v září vrátili z letního bytu do redakce a místo psacích strojů a linotypů tam měli počítače.

Co teď?

Můžeme si s novými nástroji hrát. Přesně to jsem udělal, když jsem svou povídku pro nový Football Club – ano, toto je reklama na pěkný časopis – doplnil olejomalbou fotbalového zápasu od Pietera Bruegela vygenerovanou modelem Stable Diffusion. Zdála se mi být fascinující, zábavná a originální. Stejně jako v roce 1997 přišlo maturantům zábavné a originální zdeformovat si na tablo obličeje nějakým dřevním softwarem pro úpravu fotografií.

Newsletter z kuchyně Finmagu

Pravidelně pro vás přinášíme přehled chytrého čtení (nejen) na víkend. Protože dobré čtení má oproti sebelepší buchtě jednu výhodu: nevadí, že se do něj před vámi zakousl někdo jiný. Každý týden tým magazínu Finmag a webu Finmag.cz ochutná metráky textů. A každý pátek vám e-mailem pošle přehled těch nejlepších. Pokud tedy budete chtít a přihlásíte se k odběru našeho pravidelného newsletteru.

Hlásím se!

Možná tedy bude lepší novým nástrojům napřed ze všech stran porozumět. A právě tomu se snažím napomoci tímto výběrem čtení. (Pravda, vyloženě technickou stránku vynechám.)

Nejdřív k modelům samotným, abychom se v tom čtení snáz orientovali. Pokud odebíráte newsletter dlouho a/nebo čtete Finmag, GPT-3 už znáte. Generuje texty, zvládá to i v češtině. Funguje přes webové i přes aplikační rozhraní. Po registraci dostanete velkorysý bezplatný čtvrtrok na zkoušku, pak za běh průběžně platíte podle rozsahu zpracovaného textu.

Vedle toho se budeme věnovat třem modelům přetvářejícím textové zadání na obrázky. DALL-E je patrně nejznámější, stále bohužel na pozvánky. Midjourney se stalo virálním v létě, betaverzi můžete vyzkoušet na Discordu. Osobně mi nejpozoruhodnější přijde Stable Diffusion. Především proto, že je dostupná nejen přes webové Dream Studio, ale i k volné instalaci na PC s dostatečně výkonnou grafikou, na MacBook s čipy Apple Silicon nebo na cloudovou službu, jako je Google Colab.

(Malá osobní vsuvka. Nenadál bych se, že mi k práci po letech opět nebude stačit obyčejný notebook, nebo že budu muset nad zadáními pro počítač pečlivě přemýšlet, abych nespaloval výpočetní čas a s ním peníze. Pokud chcete po Stable Diffusion hezké velké výstupy, mizí v něm stovka za stovkou.)

Modely se vedle šoupadel s technickými parametry ovládají především prompty, tedy psaným zadáním. Za „Přijde X a Y do baru“ dokončí GPT-3 vtip, popřípadě historku tak nevtipnou, až je vtipná. „Namaluj X ve stylu Y“ navede modely pro tvorbu grafiky směrem, který pak ladíte dalšími prompty. Co je na tom zajímavé: protože se modely učily samočinně na obřích kvantech podkladů, náhodný jouda z internetu může objevit funkci, která překvapí i samotné tvůrce nástroje. O tom víc v předposledním odstavci.

Poslední praktická informace do startu: pokud hodláte generovat obrázky pro komerční užití, nejdřív si prostudujte licence: DALL-E, Midjourney, Stable Diffusion. Typická case use „ilustrák k článku nebo k příspěvku na sociální média“ by měla být ve většině případů v pohodě, spíš než v licenci můžou být háčky třeba v zasahování do autorských nebo osobnostních práv žijících lidí. GPT-3 jde nasadit i do komerčních projektů.

Shutterstock

Jak začít programovat v Pythonu. Finmag newsletter tentokrát jinak

Zaujalo? Zkuste další tipy Michala Kašpárka, tentokrát srozumitelné výukové materiály ke „druhému nejlepšímu jazyku úplně pro všechno“.

Jak se v médiích děje něco nového, mezi prvními u toho v Česku bývá Marek Lutonský ze Živě. Místo do fotobank chodí pro ilustrace k článkům za Midjourney a dělí se o zkušenosti.

Dále a hlouběji už jen anglicky – méně sebevědomým opět připomínám existenci překladače DeepL.

Pokud byste si chtěli přečíst jedinou praktickou věc, ať je to kuchařka The DALL·E 2 Prompt Book. Ušetří vám spoustu peněz (nebo volných kreditů) a času tím, že vám na 82 stranách příkladů udělá představu, jaké prompty vedou k jakým vizuálům. Většina funguje dobře nejen na DALL-E, ale i na Midjourney a Stable Diffusion.

Při formulování promptů je dobré přemýšlet od konce. Modely se učily na popsaných fotkách a obrázcích – jakými slovy by nezaujatý člověk popsal výstup, jaký si představujete? Prakticky: „magazine illustration“ vede k úhlednějším a všeobecně použitelnějším výsledkům než jen „illustration“. Může to být trochu nezvyk: zadání sice píšete prostou angličtinou, nekomunikujete však s člověkem, nýbrž entitou zároveň schopnější i výrazně méně důvtipnou, než je člověk. Hodně se toho můžete naučit v databázi ukázek z tréninkového korpusu Stable Diffusion i v databázi vygenerovaných výstupů. Sám jsem jeden večer věnoval hledání významných českých výtvarníků, které Stable Diffusion „umí“. (Jsou to především Alfons Mucha a Jan Saudek.)

Shubham Saboo má za to, že je „prompt engineering“ povoláním budoucnosti. Což není docela pravda: promptové inženýrství je povoláním současnosti. Nebo spíš základem jiných povolání, podobně jako neexistuje profese „googlaření“. Abyste byli co k čemu, musíte být obratní i s jinými technologiemi. S jakými, to vám napoví Max Woolf z BuzzFeedu, který naučil GPT-3 ladit co nejlákavější titulky článků a sdílí detailní know how.

Ke kafi ku poslechu máme...

Zdroj: Shutterstock

Nebaví snad číst? Nevadí! Co oči nebaví, uši napraví! A i pro ty něco máme: Finmag podcast. Reality, investice a zajímaví hosté. Uvařte si kafe, sedněte si, a zaposlouchejte se. Dobrou chuť!

To chci!

Že má Stable Diffusion na rozdíl od jiných text-to-image nástrojů otevřený zdroják a relativně volnou licenci, má velké implikace, píší v Ars Technica: tuhle plechovku s červy už nikdo nezavře. Fakes, v tomto případě včetně těch sexuálně explicitních, už nadále bude moct vytvářet kdokoliv. Těžko říct, do jaké míry si Emad Mostaque, zakladatel mateřské Stability AI, uvědomuje rizika. V rozhovorech, například tomto, mi připomíná Marka Zuckerberga a jeho dnes už hořce znějící heslo postupujte rychle a rozbíjejte věci.

Díky otevřenému kódu Stable Diffusion velmi rychle vzniká řada odvozených nástrojů, viz přehled těch prvních na Multimodal Art.

Otevřenost není jedinou zvláštností Stable Diffusion. Další: model se učil i na obrázcích chráněných copyrightem, umí tedy napodobit i dílo řady stále aktivních umělců a umělkyň. A ještě jedna: soubor s váhami je velký 4,2 GB. Tedy spíš malý. Pomněte, že obsahuje zásadní porci vizuální paměti lidstva. Od panoramat měst, přes styly slavných malířů a fotografů, umělecké slohy, módní styly a estetiku subkultur i zaniklých civilizací, po tvary rostlin, zvířat i věcí. Malý model, velká věc, píše Simon Willison.

Co říkáte na Finmag newsletter?

Čímž se dostáváme k širším mediálním i společenským dopadům podobných nástrojů. Ben Thompson vzpomíná, jak digitální technologie odstranily různá úzká hrdla mediálního průmyslu. Například řádově zlevnily distribuci obsahu. Umělá inteligence teď podle něj slibuje odstranit poslední zbývající úzké hrdlo tím, že zlevní tvorbu.

Na blogu Scale.com pak nepodepsaný prorok přesvědčuje, že mnoho byznysových problémů půjde vyřešit správným promptem, jen zatím nevíme jakým. Článek mimochodem hezky ilustruje, jak divná tahle nová scéna je. Když v promptu pro GPT-3 upřesníte, že má následovat projev extrémně chytré umělé inteligence, bude výstup skutečně chytřejší. Obrázkové modely zase podobně reagují na dovětek „Unreal engine“ propracovanějšími výstupy, protože se naučily, že když mají obrázky v popisku název tohoto herního enginu, bývají realistické.

Je teď umění mrtvé? Naopak! Oblíbil jsem si podcast Nascent Clouds, ve kterém hosté Dannyho Cisca mluví o tom, jak může umělá inteligence proměnit mediální prostor. Například má být mnohem snadnější pitchovat náměty filmů či formulovat zadání lidským tvůrcům. Nejvíc se mi ale líbilo, co v třetím díle říkal Nuwan Rohitha, který s pomocí Stable Diffusion vytváří obrázky ozeleňování pouště: „Je naší povinností sdílet naše nejradostnější představy.“

Kam dál? Ochutnejte Finmag newsletter:

Jak jde dohromady byznys a medicína? Dočtete se v novém Finmagu

Je medicína byznys? Jak pro koho. „Frustraci mladých lékařů chápu. Nemají ani na chůvu, aby jim pohlídala děti, když pracují,“ říká přednosta chirurgické kliniky Robert Lischke.

Zdroj: Finmag

MEDICÍNA A BYZNYS

Jak venkovští praktici nepřicházejí o iluze • Ženy mění medicínu • Nejstarší pražská nemocnice objektivem Alžběty Jungrové • Nejdražší léky na světě • Obézních přibývá, Česko dohání USA.

BYZNYS JE HRA

„Investice do umění se do tabulek nevtěsná,“ říká Pavlína Pudil z Kunsthalle • Nejdražší materiál roku 2023? Hrst štěrku z vesmíru za miliardu dolarů • Ekologie musí být podle Tomáš Nemravy, výrobce dřevěných domů, ekonomická.

Koupit Finmag

Ohodnoťte článek

Sdílejte

Diskutujte

Vstoupit do diskuze

Michal Kašpárek

Po studiu žurnalistiky a filmové vědy na Masarykově univerzitě prošel MF DNES a redakcemi Computer Pressu. Mezi lety 2009 a 2016 byl na volné noze, od roku 2017 do jara 2021 vedl Finmag.cz a editoval tištěný... Více

Další články autora