Generativní AI pro obraz: přijdou fotografové o práci?
20.7.2023, Milan Šurkala, článek
V dalším článku o umělé inteligenci se budeme věnovat generativní AI pro tvorbu obrazu. Mnozí se obávají, že to znamená konec fotografie a fotografického řemesla. Zamysleme se, zda jsou oprávněné. A jaké aplikace je dnes možné vůbec využít?
Nedávno jsme se na Světu hardware bavili o tom, jak se vlastně stroje učí. Zde se podíváme na obrazovou část, která kupodivu ve velkém zasáhla svět IT o pár měsíců dříve než ChatGPT. Nejprve jen v krátkosti připomeňme, že generativní AI je systémem, který má něco generovat na základě příkazu, obvykle textového. To ale není podmínkou, dnešní systémy umí pracovat i s více jinými způsoby zadávání. Cílem těchto AI je pomoci lidem překonávat tvůrčí bloky, rychle ověřovat jejich nápady (aniž by ho člověk musel dlouho malovat nebo jinak vytvářet) a podobně. To ale současně neznamená, že není možné tyto systémy zneužívat a vydávat jejich výsledky rovnou za své.
V obraze se AI začala ve velkém prosazovat především po roce 2012 s uvedením konvolučních neuronových sítí CNN a roce 2014 s uvedením generativních soupeřících sítí GAN (Generative Adversarial Networks). GAN funguje na principu dvou soupeřících AI. Ta první se snaží vytvářet takové obrazy, u kterých druhá AI nepozná, zda je dělal člověk nebo AI. Tím, že se první AI snaží oblbnout druhou, se současně učí dělat kvalitnější výtvory. Tyto algoritmy umělé inteligence v podstatě způsobily, že spousta tradičních grafických algoritmů je nyní řešitelná pomocí AI a už není třeba vyvíjet a vylepšovat stávající metody. Algoritmy, na kterých byste ještě před několika lety udělali doktorát, byste dnes už hodně těžko obhajovali s likvidační otázkou: "Proč jste na to nepoužil(a) AI?"
robot malíř, vygenerováno pomocí generativní AI DALL-E v Microsoft Bing
Že jde v tomto vývoj hodně rychle kupředu, dokládá např. to, že ještě v roce 2019 byla deepfake videa docela rozpoznatelná, což je dnes už dost problém. Tehdy se objevila např. videa od Collideru, kde bylo několik falešných celebrit vytvořených pomocí AI, které spolu vedly rozhovor. Objevil se tu i falešný Tom Cruise, kterého pak pomocí AI často ztvárňuje Chris Ume, a jde o čím dál tím věrnější podobu (to jsme měli rok 2021). Obrovský skok však nastal v roce 2022. Ten je přelomovým nejen v oblasti generování textu (uvolnění ChatGPT), ale také v rámci obrazu, kde k tomu došlo překvapivě ještě o něco dříve. I když se objevily i nějaké systémy v polovině 10. let (např. AlignDraw 2016, StackGAN 2017), to hlavní začalo v roce 2021 a především tedy v roce 2022.
robot malíř, vygenerováno pomocí generativní AI Stable Diffusion
Jedním z těchto systému je DALL-E, o který se postarala společnost OpenAI. Tedy ta, která stojí i za technologií GPT a chatbotem ChatGPT. Jde o systém text-to-image, tedy o převod textového popisku na obraz. Ten se objevil v lednu 2021 a v dubnu 2022 se pak objevila vylepšená verze DALL-E 2, která je od září 2022 otevřena všem. V květnu 2022 se objevil Imagen od Googlu, ten ale není všem dostupný (od října dokonce i ve video verzi). Červenec 2022 přinesl systém Midjourney, srpen téhož roku pak uvedení systému Stable Diffusion od Stability AI (v listopadu další verze Stable Diffusion 2) a letos v březnu se objevila i generativní AI od Adobe se jménem Firefly. Ta je nyní dostupná i v rámci betaverze Photoshopu a stejně jako některé další se postarala o některé obrázky v tomto článku. Letošní duben pak přinesl generátor snímků DALL-E i do prohlížeče Microsoft Bing. Existuje ale i mnoho dalších, většinou založených na výše zmíněných modelech.
Pokud jde o jejich výkony, nezkoušel jsem zatím všechny, ale největší problém dostat něco rozumného do tohoto i jiného článku o AI jsem měl asi se Stable Diffusion. Tam se mi obvykle nedařilo získat něco, co by stylově i fakticky odpovídalo tomu, jakou jsem měl alespoň trochu představu. Adobe Firefly sice dělá designově hezké obrázky (pro dané objekty), ale má velký problém vytvářet nějakou komplexnější scénu dle popisu (to jsou většinou nesmysly). Umí vytvořit jednotlivé objekty do dané pozice, ale tam končí. Ostatně i ve Photoshopu to funguje především tak, že si ve scéně vybíráte místo, kam má něco vygenerovat, ale s popisem situace a okolí už většinou moc nepochodíte. Nezvládá také konkrétní produkty, což třeba SD umí. Nakreslí červené auto, ale nenakreslí červený Fiat 500.
O úroveň jinde je DALL-E. Zatímco s Firefly a Stable Diffusion jsem musel někdy vygenerovat mnoho desítek obrázků, než se mi něco líbilo, v Bingu mi DALL-E v podstatě v každé čtveřici vygeneroval alespoň 2, častěji spíše 3 snímky, které odpovídaly tomu, co jsem chtěl, a měl jsem naopak problém si mezi nimi vybrat. Nicméně třeba sem jsem chtěl dát snímek tří robotů na stupních vítězů. Adobe Firefly vytvořil naprosté "ptákoviny" a DALL-E se alespoň trochu přiblížil tomu, co jsem chtěl. Midjourney jsem zatím nezkoušel, ale podle toho, jaké výsledky jsou různě ukazovány, to vypadá na nejlepší takový systém. Ale ani ten nemá problém např. s vykreslením šesti prstů.
Takto si představuje 3 různé roboty na stupních vítězů Adobe Firefly (vlevo) a takto DALL-E (vpravo)
Jedním z témat je to, jak rychle nahradí fotografy a ilustrátory, tomu se ale budu věnovat až později. S tím souvisí i jiné velké téma, a to, kde se vůbec berou obrázky na trénování těchto AI systémů? Pojďme se tedy podívat trochu na historii a hysterii, kterou tyto systémy před několika měsíci vyvolaly.
Asi nejčastěji se zmiňuje konec trhu s fotobankami (a konec microstock fotografů), kam fotografové mohou posílat své snímky a prodávat je. To se tedy tvrdí už tak posledních 15 let od doby, kdy byly v databázích jednotky milionů snímků a šlo o údajně přesaturovaný trh, přičemž dnes tam jsou stovky milionů snímků a funguje to dál. Mnoho z nich nejprve zaujalo negativní stanovisko a např. Getty Images a Unsplash snímky vytvořené pomocí AI generátorů zakázaly. Nepřijímá je ani Pond5 nebo Alamy, nechce je ani Shutterstock. Ten ale překvapivě nabídl rovnou generátor těchto snímků pomocí DALL-E. Naopak úplně opačnou politiku má Adobe Stock, kterému to nevadí. A přidal i generátor pomocí Adobe Firefly AI, který je dostupný i přes Photoshop (prozatím jen v beta verzi).
robot malíř, vygenerováno pomocí generativní AI Adobe Firefly
Velkým problémem tu jsou totiž autorská práva. Zatímco u textů se u chatbotů až na výjimky nijak zvlášť neřešila (to řeší ve větším Elon Musk, který chce žalovat Microsoft a OpenAI za trénování ChatGPT na datech z Twitteru), v případě obrazu jde o palčivé téma, a to jak ohledně zdrojových dat, tak výsledných výtvorů. Fotobanky se tak obrazům vytvořeným pomocí AI většinou vyhýbají, protože mohou být natrénovány na snímcích, které jsou autorsky chráněné a fotografové by měli dostat své provize. Faktem nicméně je, že právě fotobanky se staly obrovským zdrojem dat pro trénování těchto systémů. Ty za to dostaly zaplaceno a provize se pak proplácí i fotografům. Ačkoli nejeden systém s omezeními pracuje i zdarma, jsou tu pochopitelně i placené plány a firmy jistě draze netrénovaly své generátory, aby z toho nic nezískaly zpět.
Uživatelé, kteří by jinak skládali snímky z fotobank, si je nyní mohou nechat generovat pomocí AI (ostatně několik takových snímků z bezplatných systémů vidíte i zde v tomto článku). Místo fotobankám tak zaplatí generátorům (což je v případě Shutterstocku a Adobe Stock takřka totéž). Generátor zaplatí za datasety fotobankám, takže má legálně získané snímky, ke kterým má potřebné licence. Mimo to ho docela dost peněz stojí i samotné trénování. Toto vše zaplatí uživatel generátorům, které pak mohou zaplatit fotobance. Fotobanka pak z těchto příjmů za datasety zaplatí fotografům a ilustrátorům podíl, takže ačkoli se už neprodají tak často jejich snímky, prodají se obrázky, které jsou vygenerované pomocí systémů natrénovanými na jejich snímcích. V zásadě je jejich podíl naprosto nicotný, ale na druhou stranu se ho týká většina fotografií, které obsahují toto téma. A to také není úplně k zahození.
Děje se nám tedy to, že z fotografů a fotobank se nám stávají pomocní trenéři umělé inteligence, jsou z nich nyní poskytovatelé trénovacích datasetů (datových množin). Na Shutterstocku, BigStockPhoto nebo Pond5 už fotografové, ilustrátoři a kameramani dostali za (bohužel obvykle nedobrovolné) poskytnutí snímků k trénování své provize, brzy by se toho měli dočkat i fotografové pro Adobe Stock. I zde by to mělo být za trénování minulé pro třetí strany i patrně za generování snímků, které se pak budou prodávat přes fotobanku s využitím Adobe Firefly. Opět to tak vypadá, že když se něco mění, neznamená to nutně smrt dané věci, ale může to být jen přerod. Není hned jisté, že změna je nutně také špatná. To se samozřejmě ukáže až čas.
nezaměstnaný plačící fotograf, vygenerováno pomocí DALL-E v Microsoft Bing
(Všimněte si divných prstů, zvláštní ruky nebo nekruhové sluneční clony, stále je co vylepšovat)
(Všimněte si divných prstů, zvláštní ruky nebo nekruhové sluneční clony, stále je co vylepšovat)
nezaměstnaný plačící fotograf s fotoaparátem, vygenerováno pomocí Stable Diffusion
(Stable Diffusion nebyl schopen vygenerovat nic, co by nebylo úplně mimo se šílenými patvary. Bez toho, aniž bych přidal poznámku, aby měl fotograf fotoaparát, šlo jen o snímky plačících lidí, obvykle černobílé)
Prozatím se tak zdá, že AI těmto fotografům práci přímo nesebere, jen budou mít jinou úlohu, AI z nich udělá své vlastní trenéry, a spíše než konec příjmů to pro ně bude znamenat pravidelnější a jistější příjem, ne však nutně i vyšší. Zda bude skutečně vyšší nebo nižší, to je otázkou a asi u každého to bude individuální. Někomu to možná pomůže, jinému naopak. Zatímco většina se shoduje, že to bude přítěž především pro ty horší, osobně si naopak myslím, že díky AI tlak na kvalitu snímků klesne a více se bude cenit objem trénovacích dat než jejich kvalita, tedy že to bude příležitostí i pro ty horší, kteří by jinak nic neprodali. Ostatně to vidíme i na Shutterstocku, který zavedl nový Data Catalog. Pokud vám zamítne snímek, přijme ho do Data Catalogu, aby ho mohl nabízet k trénování.
vytvořeno pomocí generativní AI DALL-E v Microsoft Bing
(Na tomto obrázku s příkazem "vítězství AI nad člověkem" moc nepochodíte. Může však být přesto užitečný k získání nápadu pro konkrétnější příkaz. Např. "robot oslavující vítězství nad smutným člověkem, který prohrál" už může vygenerovat obrázky, které mohou být bližší tomu, co člověk opravdu chce)
(Na tomto obrázku s příkazem "vítězství AI nad člověkem" moc nepochodíte. Může však být přesto užitečný k získání nápadu pro konkrétnější příkaz. Např. "robot oslavující vítězství nad smutným člověkem, který prohrál" už může vygenerovat obrázky, které mohou být bližší tomu, co člověk opravdu chce)
AI ale může dost konkurovat různým grafikům a jiným lidem, kteří tyto snímky dosud skládali do sebe a vytvářeli s jejich pomocí finální produkty, designy,... Ani zde se ale nedá předpokládat, že to bude znamenat konec těchto profesí, ale přerod. S pomocí AI může grafik rychleji ověřovat své nápady, nebo si v případě tvůrčího bloku nechat napovědět, AI mu může pomoci s jejich vytvářením a jeho práci urychlit. Je tedy pravděpodobné, že díky tomu zvládne více věcí, a i když možná bude potřeba méně takových lidí, úplný konec profese to asi znamenat nebude. Pořád je tu totiž někdo, kdo do té AI bude muset zadávat ony příkazy a vyhodnotit, které výsledky jsou a které nejsou zajímavé, a s nimi pak dále pracovat. Takže kde všude je možné generativní AI pro obraz vlastně využít?
- unikátní obrázky pro blogy, webové stránky (a např. tento článek)
- vytváření nových obrazů v předem definovaném stylu (např. návrh designu produktů s grafickým stylem společnosti)
- ulehčení ověření nápadu rychlým vytvořením náhledu dle popisu (což může vést k zavržení, ale i k dalšímu rozvíjení myšlenky)
- vytvoření rychlých koláží, spojení snímků, které dosud nikdo nespojoval, nebo nejsou snadno dostupné
- rychlá tvorba vlastních oznámení, vizitek a podobných produktů
- vytváření obrazového materiálu pro sociální sítě
- tvorba vlastních avatarů
- vytváření nejrůznějšího obrazového obsahu do počítačových her (urychlení vývoje) nebo virtuální reality
- nápady na loga, designový styl
- vizualizace vědeckých dat, vytváření materiálů pro studium a vývoj
- móda (návrhy nových řad, ověření nápadu, aplikace stylu z jedné rodiny produktů na jinou)
- obaly v podstatě čehokoli (knihy, hudební alba,...)
- vytváření infografik
- vytváření meme a jiných vtípků pro internet a sociální sítě
- e-commerce (náhledy produktů před jejich výrobou)
- architektura (opět ověření nápadů, hledání nových cest)
- storyboarding (kresba vizuálních návrhů scén dle popisu)
- návrhy vizuálního obsahu pro marketingové kampaně
- kresba komiksů k textovým příběhům
- interiérový design (nápady na nábytek, tvorba náhledu podle nápadů)
- průmyslový design
- historie, archeologie (vytváření snímků dávných zvířat, lidí, architektury podle zjištěných vlastností)
- další výše nezmíněný design (dopravní prostředky, hračky,...)
- UI/UX design (návrhy uživatelského rozhraní, náhledy)
- vyzkoušení konceptu zamýšlených fotografií předtím, než se vyfotí (např. tehdy, pokud musí být realistické a AI je nemůže vytvořit, může ale pomoci odhadnout, jak budou vypadat)
- plánování designu svateb (ale i plánování svatebních fotek, viz předchozí bod)
- mnoho a mnoho dalšího
vytvořeno pomocí generativní AI DALL-E v Microsoft Bing
(Chtěl jsem tři dětské komiksové postavičky a jednoho psa pro příběhy konající se v 19. století. Nyní je jen otázkou, jak moc vykradené jsou obrázky od skutečného lidského autora. Jak to zjistit?)
(Chtěl jsem tři dětské komiksové postavičky a jednoho psa pro příběhy konající se v 19. století. Nyní je jen otázkou, jak moc vykradené jsou obrázky od skutečného lidského autora. Jak to zjistit?)
Jak vidíme, příkladů je spousta a nutně to neznamená, že když AI může za člověka něco vytvořit, že to hned znamená konec jeho profese. Příkladem mohou být ty komiksy. Zatímco ilustrátor komiksů bude mít v AI velkou konkurenci, stále může být někým, kdo navrhne vizuální styl. Také může být tím, kdo bude kreslit komiksy, na jejichž základě se budou tyto AI vlastně trénovat. Zároveň to umožňuje těm, kteří mají nápady na příběhy, ale neumí dobře ilustrovat, vytvořit komiksové série bez toho, aniž by si museli najímat ilustrátora, kterého si např. nemohou dovolit. AI tak může způsobit problém jedněm, ale zároveň přinést nové možnosti druhým. Pojďme se podívat na některé typy fotografů a typů fotek a zkusme se zamyslet nad tím, zda je AI ohrozí nebo ne.
- Fotobanky (Stock fotografie) obecně - Dá se čekat úbytek prodejů mnoha typů fotografií, což si rozebereme v daných kategoriích snímků níže, na druhou stranu se dají očekávat rostoucí příjmy z prodeje datasetů (fotografie pro trénování AI a provize z fotek vygenerovaných pomocí AI). Editorial fotografie by příliš postižena být nemusela, každopádně z fotografů se v mnoha případech stanou trenéři AI. Co to bude znamenat pro příjmy, to se uvidí.
- Svatební fotografie - Zde už z podstaty toho, proč se na svatbě fotí, AI v podstatě nemá místo. Perfektní využití ale může AI najít pro plánování focení, zkoušení kompozice fotek dříve, než se budou fotit, ale ne pro samotné fotografie.
- Produktová fotografie - Tu už dnes likvidují vysoce kvalitní 3D rendery, otázkou je tedy spíše vliv AI na renderování těchto umělých obrazů (renderů). Neměla by se dotknout produktové fotografie u recenzí, kdy je autenticita účelem fotografie.
- Reality - Opět je účelem autenticita, sekundární trh s byty by tím moc ovlivněn být asi neměl. Naopak primární trh s realitami je už dnes výrazně ovlivněn 3D rendery podobně jako v předchozím případě.
- Portrétní fotografie - Zde velmi záleží na tom, zda daná osoba musí být poznat nebo ne. Běžné ilustrační fotografie s neznámými lidmi (klasické microstock snímky šťastných lidí při nějaké činnosti) nahradí AI patrně ve velkém. Fotograf se tak čím dál více uplatní spíše jako trenér takové AI a bude nadále fotit reálné modely a modelky, aby se AI měla na čem naučit. Fotky, kdy jde o danou osobu, by naopak AI (až na některé specifické případy zejména nekalého charakteru) výrazněji ovlivnit neměla, znovu jde o cílený záměr zaznamenat realitu. Chcete-li svou ateliérovou fotku, spíše nebudete chtít, aby ji vymýšlela AI (ta může v takovém případě najít uplatnění spíše u retuší).
- Krajinářská fotografie - Má-li jít o záznam konkrétní krajiny, která existuje, bude se cenit spíše realita. To ale nevylučuje některé cílené zásahy, např. změna ročních dob, posun krajiny do historie/budoucnosti. Má-li jít o nějakou krajinu (zejména fine-art), kde je důležitá atmosféra, zde se dá vítězství AI očekávat. Fotografům opět zbyde úloha dodavatelů trénovacích dat.
- Dokumentární fotografie - Dnes z nemalé části nahrazena sociálními sítěmi. U zbytku se opět bude cenit především autenticita, což je cílem dokumentární fotografie. AI zde může hrát nechtěnou roli něčeho pro vytváření fake news.
- Akty - Pokud jde o danou osobu, AI může být použita pro menší úpravy, ale asi ne generování. To naopak vůbec neplatí pro falešné vytváření takových snímků s danými osobami, kde se už dnes generativní AI využívá horem dolem (např. naroubování tváře známé herečky do pornografické scény). Má-li jít o nahé lidské tělo, kdy je jedno, o koho jde, AI zde jistě své místo najde.
- Rodinné snímky - Pro zábavu bude AI jistě hrát velkou roli, pro skutečné uchování vzpomínek naopak AI nemá moc místo. Fotka babičky při oslavě jejích 90. narozenin má hodnotu sama o sobě pro památku, není cílem ji generovat tam, kde nikdy nebyla, s lidmi, kteří např. už nežijí. Ne, že by to nešlo, ale k čemu taková fotka?
- Wildlife - Zde to nejspíš bude docela souviset se vzácností daného zvířete. Běžnější zvířata se budou spíše generovat pomocí AI v daných scénách, u těch vzácných bude pořád nedostatek trénovacích dat a reálné snímky budou ceněné. Wildlife v dokumentárním podání bude cenit autentičnost, ve fine-art se dá naopak čekat nástup AI.
Chcete třeba nápady na fotky na street photo a jaké kompozice zvolit? Co např. starší muž s cigaretou z podhledu? (vytvořeno pomocí generativní AI DALL-E v Microsoft Bing) |
- Street fotografie - Cílem je autentičnost. To nevylučuje umělé snímky tohoto charakteru, ale jejich hodnota bude nízká. Mohou mít hodnotu jako studijní materiál.
- Sportovní fotografie - Tady vás opět zajímá skutečnost, ne vymyšlená realita. Výrobci dlouhých teleobjektivů a fotoaparátů s rychlým sekvenčním snímáním se asi AI moc bát nemusí.
- Makro - Podobně jako u wildlife. Běžné květiny a zvířata se patrně s AI setkají velmi často. Vzácnější druhy mohou být stále ceněným artiklem ve své reálné podobě.
- Cestovatelská fotografie - Zajímá vás sice realita, ale proč si ji občas trochu nepřikrášlit? Opět ale někdo tyto věci musí nejdříve nafotit a musí být k dispozici kvanta trénovacích snímků. Dá se nicméně očekávat kombinace reality a AI objektů.
- Letecká fotografie - Jde o realitu, tady AI nemá moc místo pro samotný záznam, může najít využití pro zpracování dat a jejich rozšiřování.
- Podvodní fotografie - Podobně jako wildlife.
- Astrofotografie - Záleží na účelu snímku, dá se očekávat zvýšený počet umělých snímků ve fine-art, což naopak neplatí pro dokumentární variantu (tam může AI najít své místo v post-processingu).
- Abstraktní fotografie - Zde se AI může vyřádit, že nebude vědět, kdy přestat.
Červený Fiat 500 v Alpách dle DALL-E v Bingu. Jednoznačně nejvěrnější tvary u většiny snímků (i když u mnoha z nich byly mírné deformace), dobré zasazení do okolí.
|
|
Červený Fiat 500 v Alpách dle Adobe Firefly. Auta v drtivé většině nepřipomínala Fiat 500, vznikají více či méně hrůzostrašné kreace (tohle jsou výsledky, které nejvíce připomínají auto). Poměrně dobré zasazení do prostředí. Lepším výsledkům může dopomoci vygenerování krajiny bez auta, a až posléze si vybrat oblast, do které má být zasazeno auto. Nejméně "omalovánkové" výsledky, tedy největší fotorealističnost, na druhou stranu často vznikají různé patvary. Druhý snímek může dobře posloužit pro návrh designu nového vozu.
|
|
Červený Fiat 500 v Alpách dle Stable Diffusion. Auto většinou rozumně tvarované (bylo potřeba napsat "vintage", aby nekreslil moderní verzi). Zvláštní kombinace malovaného auta a realističtější krajiny, mnohdy s doslova extrémním HDR efektem. U snímku vpravo si všimněte, že obrazy, na kterých se AI učila, imitovala natolik, že se dokonce měla snahu podepsat vpravo dole. Na mnoha snímcích zvláštní kompozice s polovinou auta. |
Pochopitelně se mohu v mnoha oblastech mýlit, což ukáže až čas. Některé oblasti fotografie by se tedy nástupu AI bát nemusely, jiné byly už dnes do nemalé míry nahrazeny (a nezřídka něčím jiným než AI), u mnoha dalších oblastí se dá čekat, že se z fotografa stane spíše trenér AI, půjde tedy spíše o přerod jeho funkce než zánik. Fotit bude i nadále. Aby AI mohla nakreslit snímky červeného Fiatu 500 v alpské krajině výše, nejprve musí být někdo, kdo tu alpskou krajinu "milionkrát" vyfotí, a auto vlastně taky, aby se na to AI mohla vůbec natrénovat.
U některých oblastí bude důležité se také naučit s AI spolupracovat, aby byla při tvorbě partnerem a ne náhradníkem. Více ceněnou dovedností se tak stane i schopnost s ní pracovat a zadávat nejen smysluplné prvotní dotazy, ale rovněž s ní dobře pracovat při těch dalších upřesňujících. A v neposlední řadě nezapomeňme na to, že někteří lidé prostě rádi fotí pro radost. Stejně jako pro radost (ale někdy i pro peníze) malují, ačkoli jsou zde technologie, jak totéž udělat rychleji a levněji. Konec fotografie se nejspíš konat nebude, hodně se ale změní náplň některých kreativních zaměstnání spojených s prací s fotografiemi. Jste připraveni? Bojíte se, nebo AI ve fotografii vítáte?