OD GUTENBERGA K ZUCKERBERGOVI
OD GUTENBERGA K ZUCKERBERGOVI
Úvod do digitálních humanitních ved
Vydání publikace bylo financováno z projektu INTERREG V-A „Humanistyka Cyfrowa dla Przyszłości” nr CZ.11.3.119/0.0/0.0/18_031/0002217
© Copyright by Authors and Towarzystwo Autorów i Wydawców Prac Naukowych UNIVERSITAS, Kraków 2023
e-ISBN 978-83-242-3916-0
TAiWPN UNIVERSITAS
Recenzovali dr hab. Magdalena Derwojedowa dr hab. Filip Wolański
Překlad
DeepL
Jazyková redakce
Tadeáš Dohňanský
Předběžná technická studie
Ilona Gwóźdź-Szewczenko
Adam Pawłowski
Návrh obálky
Sepielak
Na obálce
Ilustrace AI Susan Cipriano z Pixabay www.universitas.com.pl
Úvod (Adam Pawłowski) .
Adam Pawłowski
Obsah
7
Kapitola 1. Digitální humanitní vědy: vznik, rozsah, cíle a perspektivy 11
Katarzyna Klessa
Kapitola 2. Zvuky řeči v digitálních humanitních vědách .
Jan Pacholski
Kapitola 3. Text v digitálních humanitních vědách z pohledu literárního vědce
Rafał L. Górski
55
75
Kapitola 4. Text v digitálních humanitních vědách: co je to korpus a k čemu se používá? 97
Jan Rybicki
Kapitola 5. Text v digitálních humanitních vědách: jak (a proč) měřit podobnost dokumentů
Maciej Eder
Kapitola 6. Text v digitálních humanitních vědách: tematické modelování
Ilona Gwóźdź-Szewczenko
Kapitola 7. Nástroje digitálních humanitních věd ve vysokoškolské výuce češtiny jako cizího jazyka a translatologie
José Luis L osada Palenzuela
Kapitola 8. Základy vědecké digitální edice
Piotr Celiński
Kapitola 9. Vyprávění z písku. O práci s textovou výpovědí jako databází
Tomasz Panecki
Kapitola 10. Mapy a geografické informační systémy v digitálních humanitních vědách
117
133
149
183
Bogumił Szady
Kapitola 11. Digitální technologie v historickém výzkumu 21
Dorota Siwecka
Kapitola 12. Informační zdroje v digitálním prostředí – obsah, formáty, rozhraní
Adam Pawłowski, Tomasz Walkowiak
Kapitola 13. Rozsáhlé bibliografie v digitálních humanitních vědách
Rafał Werszler
Kapitola 14. Obraz v digitálních humanitních vědách
Agnieszka Seidel-Grzesińska, Ksenia Stanicka-Brzezicka
Kapitola 15. Dějiny umění ve věku digitálních humanitních věd .
Tomasz Z. Majkowski
Kapitola 16. Hry a digitální humanitní vědy: metody analýzy digitálních herních objektů 425
Adam Pawłowski
Závěr
Úvod
Název této monografie představuje metaforu, která ilustruje staletou cestu vývoje humanitních věd a historicky jedinečný okamžik průlomu, k němuž před našima očima ve vědě a kultuře. Použití velkých osobností historie a současnosti coby konkrétních mezníků je tedy pouze stylistickým prostředkem.1 Ostatně Johannes Gutenberg nebyl jediným vynálezcem tisku a iniciátorem takzvané mediální revoluce – na tento piedestal ho vynesla spíše sebestředná západní civilizace. Ještě obtížnější je určit symbolického představitele digitálního věku. Někteří v této roli vidí tvůrce „protointernetu“, tedy sítě ARPANETu (mimo jiné Josepha C. R. Licklidera a Paula Barana) a systému WWW (Tima Bernerse-Leeho a Roberta Cailliau). Jiní představitelé digitálních humanitních věd naopak uznávají za svého duchovního patrona Roberta Busu, jezuitu, který navrhl vůbec první počítačový korpus a index děl Tomáše Akvinského (Busa 1950, Winter 1999). Digitální svět ale přece nevznikl ve vědeckém vakuu a každý ze zde zmíněných lidí těžil z úspěchů vynálezců, kteří žili před ním. Možná by se tedy symbolem nového digitálního světa měl stát některý z „otců výpočetní techniky“ – Charles Babbage, Alan Turing nebo John von Neuman… Nebo jeden z těch, kteří položili její matematické a filozofické základy ještě dříve – například Blaise Pascal, Gottfried Wilhelm Leibniz nebo George Boole?
Rovněž je možné přestat se ohlížet zpět a soustředit se na přítomnost. Z tohoto pohledu by za patrona digitálního světa mohl být uznán jeden z podporovatelů rozsáhlé globální kulturní změny, k níž dochází díky mocným a velkým technologickým společnostem. Ty se dokonce dočkaly svého souhrnného názvu GAFAM, tedy Google, Amazon, Facebook, Apple a Microsoft, a k tomuto seznamu je třeba přidat asijské korporace, jako jsou mimo jiné Samsung a Tencent. Jsou tak mocné a vlivné, že utvářejí mediální, informační a ekono -
Od Gutenberga k Zuckerbergovi
mický prostor na celém světě. Šéfové těchto společností jsou nejen manažeři, ale také ambiciózní vizionáři a popkulturní hrdinové, kteří u jedněch vzbuzují obdiv, u druhých kontroverzi. Ze skupiny IT lídrů, mezi něž patří mimo jiné Jeff Bezos, Bill Gates, Steve Jobs, Steve Wozniak, Larry Page, Steve Brin a Mark Zuckerberg, jsem vybral posledně jmenovaného – tvůrce Facebooku/Mety a přelomového konceptu metaverse – s vědomím, že není jediným, kdo symbolizuje celý proces, díky němuž se zrodily digitální humanitní vědy.
Svazek se skládá z vybraných kapitol, které tvoří panorama současných digitálních humanitních věd. Začíná obsáhlou teoretickou a epistemologickou kapitolou, která zahrnuje definice základních pojmů a odhaluje podstatu digitálního obratu v humanitních vědách. Ty následující lze rozdělit do několika tematických bloků. Prvním z nich jsou „textové humanitní vědy“, které zahrnují analýzy zvuků řeči, rozsáhlé korpusy, jakož i otázky literární vědy, translatologie, digitální editace a síťových postupů psaní. Druhý blok se zabývá historií a zahrnuje popis digitálních technologií v historickém výzkumu a mapové analýzy, které jsou pro digitální výzkum mimořádně důležité. Třetí se věnuje informatice, tedy analýzám metadatových systémů a studiu rozsáhlých bibliografií. Čtvrtý blok obsahuje příspěvky o digitální analýze obrazu a výzkumu dějin umění. Třešničkou na dortu je závěrečná kapitola, která do digitálních humanitních věd uvádí herní studia.
Záměrem editora bylo ukázat, co mají představitelé digitálních humanitních věd, často zastupující navzájem si vzdálené obory, společného. A společné mají především metody, které používají, využívání velkých dat a formulaci sdílených cílů. Konceptem, který výše uvedená témata spojuje – jak z hlediska teorie, tak z hlediska praxe –, je infrastruktura, neboli otevřený systém, který funguje na základě datových sad a algoritmů propojených v jednom prostředí a umožňuje uživatelům nezávisle řešit různé problémy z určité oblasti reality.
Monografie je určena širokému akademickému publiku – především studentům, ale i přednášejícím – a dalším čtenářům se zájmem o digitální svět. Za zmínku stojí, že se jedná o první sborník svého druhu věnovaný digitálním humanitním vědám v Polsku a jeden z prvních v Evropě. Digitální metody, nástroje a zdroje jsou stále častěji zaváděny do učebních plánů, ale schází při tom teoretická reflexe nebo příprava učebnic či jiných učebních pomůcek. Ačkoli je internet plný výukových programů, nahraných přednášek nebo podcastů, málokdy tato média poskytují uspokojivý a úplný obraz o stavu oboru. Tuto mezeru by měla alespoň částečně zaplnit čtenářům právě předložená monografie.
Vydání této publikace bylo umožněno díky financování z polsko-českého projektu Interreg „Humanistyka Cyfrowa dla Przyszłości / Digital
Humanities pro budoucnost“, č. CZ.11.3.119/0.0/0.0/18_031/0002217.
Kromě toho měly na jeho přípravu neocenitelný vliv zkušenosti editora získané při spolupráci s konsorcii CLARIN-PL a DARIAH-PL.
POZNÁmK Y
1 Podobný vzorec, ilustrující motiv historické a metaforické cesty, je obsažen v názvu práce Petera L. Shillingsburga From Gutenberg to Google: electronic representations of literary texts (Shillingsburg 2020).
Kapitola 1
Digitální humanitní vědy: vznik, rozsah, cíle a perspektivy1 1.1. Zrod oboru
O digitálních humanitních vědách se v posledních letech často mluví a píše. Podle údajů vyhledávače Google byl v roce 2022 počet stránek indexovaných pojmem „digital humanities“ více než 8 milionů, což je ve srovnání s příbuznými obory významné číslo (pouze „digital history“ má výrazně více výskytů). Počet indexovaných výskytů pojmu „digital humanities“ v polštině přesáhl podle Googlu 12 000 (zajímavé je, že „digital history“ měla méně než 1000 výskytů). Nejpozoruhodnější je ovšem nárůst počtu výskytů pojmu „digital humanities“ v databázi Google Books, ověřitelný díky nástroji Ngram Viewer (obrázek 1). Považujeme-li za referenční období dvacáté století, ukazuje se, že dynamika růstu zájmu o digital humanities v kyberprostoru je velmi silná.
Tyto údaje můžeme ověřit i v jiných jazycích a získáme podobné výsledky. Je tedy zjevné, že prudký nárůst zájmu o digitální humanitní vědy v rámci vědy celosvětové v posledních dvou desetiletích je nesporný. Zajímavé je, že srovnávací analýza četnosti názvů jiných oborů, provedená pomocí stejného nástroje, ukazuje, že digitální humanitní vědy jsou jediné, které v současné době procházejí tak intenzivním rozvojem. Jiné obory, reprezentující nejen humanitní a společenské vědy, ale i přírodní vědy a techniku, buď nikdy takovou fází neprošly, nebo ji už mají za sebou a vstoupily do období stabilizace (příklad kybernetiky a informatiky), nebo mají klesající tendenci, což naznačuje regresi (například filologie).2
Obrázek 1. Počet výskytů pojmů „digital humanities“ a „digital history“ v angličtině v letech 1950–2019 (Zdroj: Google Ngram
Viewer, bez použití vyhlazování křivek)
1. Digitální humanitní vědy…
Tvar křivky znázorněný na obr. 1 naznačuje, že vývoj digitálních humanitních věd není výsledkem jakéhosi metodického plánu, který by na začátku předpokládal seznam základních cílů, předmětů výzkumu, pojmů nebo kategorií a následný postupný vývoj. Poukazuje spíše na spontánnost tohoto procesu. Není proto překvapivé, že popisy metod a projektů digitálních humanitních věd, obsažené v relevantní odborné literatuře, jsou různorodé a někdy nekonzistentní. Obzvlášť těžká je samotná definice předmětu digitálních výzkumů, protože digitální humanitní vědy kromě tradičních textů intenzivně zpracovávají i další sémiotické kódy – především vizuální 3 , ale také zvukové (řeč, hudbu) a smíšené (mapy, poznámky, rukopisy, komiksy, užitou grafiku). Piotr Celiński tuto situaci popisuje následovně: „Digitální humanitní vědy vnímají svět především jako obrovskou databázi digitálních dat, kterou zkoumají a interpretují prostřednictvím různých digitálních rozhraní.“ (Celiński 2013, s. 14) Vzhledem k předeslané rozmanitosti pohledů a přístupů by nemělo být překvapením, že neexistuje přesvědčivá, ucelená a všeobecně přijímaná definice digitálních humanitních věd. V této situaci je vhodné a nezbytné pokusit se tuto stanovit, stejně jako rozsah a základní charakteristiku digitálních humanitních věd. Zde je třeba zdůraznit, že tento výzkum nemá pouze informativní charakter, který by potvrzoval stávající stav. Fáze, v níž se digitální humanitní vědy nacházejí, vyžaduje také konstruktivistický přístup, tedy pevné stanovení hranic oboru a vytvoření jeho náplně.
1.2. Od gutenbergovských k digitálním humanitním vědám
Diskuse o rozsahu a uplatnění digitálních humanitních by měla začít pokusem o objasnění dílčích výrazů v názvu této nové oblasti vědecké činnosti, kterou lze v současné fázi vývoje nejadekvátněji označit za vznikající akademickou a vědeckou interdisciplínu. Obsah pojmu „humanitní vědy“ je, alespoň zdánlivě, vymezen poměrně jasně. Podle Slovníku polského jazyka nakladatelství PWN (Słownik języka polskiego, ed. Mieczysław Szymczak) se jedná buď o „vědy, které se zabývají člověkem jako společenskou bytostí a jeho výtvory, například jazykem, literaturou, uměním atd.,“, nebo o katedry na vysokých školách, kde se tyto vědy provozují. Ostatní lexikografické příručky k této definici nepřidávají nic nového. Nově vzniklý Velký slovník polského jazyka (Wielki słownik języka polskiego, WSJP) přidává jako třetí význam „studijní obor“ (což úzce souvisí s druhým významem), přičemž samotná definice je obdobná: „souhrn věd jiných než pří-
Od Gutenberga k Zuckerbergovi
rodních a technických, které staví do středu zájmu člověka, jeho řeč, tvořivost a zapojení do společnosti“4 . Uvedené definice do jisté míry odrážejí stávající dělení, částečně ho doplňují, ale v praxi zanechávají mnoho mezer a nejasností, protože jsou pouze konvencemi podřízenými aktuálním potřebám administrace vědeckých institucí (univerzit, výzkumných ústavů) a někdy i ambicím konkrétních vědců, kteří považují vytvoření nebo podnět k založení nového výzkumného oboru za měřítko vlastních úspěchů a jakýsi krok k věčné slávě. Tento kritický názor nepřímo potvrzuje výše uvedená definice ze slovníku WSJP, která je založena na logickém doplnění množiny („jiné než…“), nikoli na vymezení konkrétního obsahu („takové jako...“), což představuje určitou kapitulaci tváří v tvář potřebě zohlednit značnou rozmanitost toho, co je „jiné než přírodní a technické vědy“, staví „do středu zájmu člověka, jeho řeč, tvořivost a zapojení do společnosti“ a obecně (i když ne vždy) se identifikuje jako humanitní vědy.
Lze tedy předpokládat, že pokud výše uvedené definice vymezují rozsah pojmu humanitní vědy způsobem, který odpovídá realitě a vyhovuje vědeckému prostředí, pojem „digitální“ je rozšíří o:
– nové pracovní metody, metody odvozování, algoritmy a/nebo heuristiku, – nové datové formy a formáty ukládání na různých nosičích, – jiné, větší objemy zpracovaných dat, které lze porovnávat s prací na jednotlivých dílech.
Pokud však budeme tyto definice považovat za určitou konvenci sloužící především k udržení administrativního řádu institucionálního vzdělávání, který spočívá v tom, že jsou výzkumným a vzdělávacím pracovištím přiřazeny odlišné obory a specializace, budou mít digitální humanitní studia problém s vlastní identitou. Dosavadní praxe digitálních výzkumů různých výtvorů lidské duchovní kultury – transdisciplinárních a nejčastěji skupinových – potvrzuje, jak se zdá, hypotézu druhou. Není například jasné, kdy a proč se určitý výtvor člověka jako společenské bytosti stává středem zájmu humanitních věd. Proč sem třeba kniha jednou spadá (jde-li o beletrii), a jindy ne (jde-li o literaturu s praktickou funkcí)? Co umožňuje přejít z oblasti pro vědu nezajímavých, praktických textů (například krátká přílohová bibliografie nebo souhrn poznámek) do oblasti výzkumu (rozsáhlá bibliografie, korpus dat)? Kdy obyčejný průmyslový výrobek (například konzerva) přechází do fáze transcendence a stává se kulturním objektem a přinejmenším potenciálním předmětem výzkumu? Stačí ji pouze popsat jako intelektuální výtvor, nakreslit ji a vystavit v odpovídajícím kontextu (v galerii, na uměleckém blog atd.) a přidat k ní zajímavý příběh?
Samostatnou reflexi vyžaduje také jazyk, dosud ústřední kategorie humanitních věd. Je totiž současně materiální i abstraktní 5 , biologická i kulturní, individuální i společenská. Zmíněné aspekty jazyka
1. Digitální humanitní vědy…
jsou tak úzce propojeny, že je prakticky nemožné je od sebe oddělit. Pochybnosti narůstají, jestliže za ústřední kategorii humanitních věd považujeme člověka – a to naznačují nejen všechny definice, ale i dosud průhledná etymologie názvu daného vědního oboru (lat. homo = člověk). Vždyť intelektuální činnosti založené na potřebě rozhodovat se či určité formě zpracování informace (strojový překlad, konverzace, generování textů nebo obrazů) dnes mohou vykonávat programy umělé inteligence a humanoidi, které konstruují inženýři. Můžeme se tedy ptát, pod kterou disciplíny spadá počítačové zpracování textu automaticky generovaného jiným počítačem. Z toho vyplývá, že definice humanitních věd uvedené na začátku by měly být rozšířeny, protože jejich ústředním prvkem je dnes nejen člověk, ale také jeho umělí avataři simulující komunikační kompetenci.
Na tomto místě si můžeme připomenout historii vzestupu humanitních věd mezi vědecké disciplíny a s ním spojené polemiky. Když se v 19. století utvářel dnešní systém akademického vyučování, vytvořil německý filozof Wilhelm Windelband poměrně zjednodušené rozdělení věd do dvou skupin. Účelem nomotetických věd bylo zkoumat a objevovat neměnné obecné zákony, zatímco vědy idiografické měly popisovat jednotlivé objekty, události nebo stavy neopakovatelné. Humanitní vědy (podle jeho terminologie Geisteswissenschaften nebo Kulturwissenschaften) byly samozřejmě zařazeny do druhé skupiny a jejich údajná nezralost byla dále zdůrazněna tím, že se navrhovalo, aby šly ve stopách nomotetických a empirických disciplín, které určovaly standardy vědeckosti. Za více než sto let, které uplynuly od Windelbandova projevu, se v humanitních vědách mnohé změnilo, ale stále je pro ně charakteristická subjektivita, mnohostrannost perspektiv, spjatost s měnícími se trendy a očekáváním společenosti, absence jasných kritérií pro ověřování zjištění, neexistence nebo spornost zkoumaných zákonů, a konečně, což je nejpodstatnější, faktická, i když nedeklarovaná orientace na konstrukci pravdy, nikoli na její objevování (srov. Kamiński 1998, s. 293–300; Maturana 2011; Maturana, Varela 1998). Z dnešního pohledu je zajímavé, že navzdory historickým dogmatům je konstrukce pravdy také doménou přírodních a formálních věd, jak to poprvé sugestivně popsal stále nedoceněný biolog a teoretik vědy Ludwik Fleck (Fleck 1986).
V návaznosti na dříve zmíněnou oficiální klasifikaci vědních oborů je třeba říci, že neexistence jasných hranic mezi tím, co se považuje za humanitní vědy, společenské vědy nebo aplikovanou informatiku není náhodná. Všechny zmíněné obory se zaměřují na zpracování informací, liší se však v metodách, způsobech interpretace, cílech a míře formalizace procesů. Jestliže hledáme konkrétní příklady, můžeme se ptát, proč mezi humanitní vědy oficiálně nepatří mediální studia a politologie, které přitom intenzivně studují politické texty 7 . Pokud však jazyk těchto textů zkoumá lingvista za použití stejných
Od Gutenberga k Zuckerbergovi
metod a/nebo počítačových programů, bývají výsledky jeho činnosti přiřazovány k humanitním vědám. Není také jasné, proč byla informační věda v Polsku až do konce roku 2018 humanitním oborem, ale v roce 2019 se stala součástí společenských věd, zatímco kulturní studia (resp. kulturní antropologie) z polského seznamu oborů zcela zmizela. Zpracování gramatiky určitého jazyka automatickými metodami bylo součástí lingvistiky tak dlouho, dokud zůstávalo na úrovni teorie (příkladem budiž rodina generativních gramatik). Totéž platilo pro studium autorství, které po desetiletí existovalo jako součást tradiční filologie. Když však věda přešla do fáze implementace modelů, které byly dříve popsány v lingvistických monografiích nebo vydavatelských příručkách, vzniklo jazykové inženýrství (NLP – Natural Language Processing) coby součást aplikované informatiky, tj. technických věd. Konvenčnost a kognitivní neefektivnost stávajícího dělení ve vědě (výše bylo uvedeno jen několik příkladů) odhalily právě digitální humanitní vědy, které intenzivně propojují různé, zdánlivě jen vzdálené oblasti výzkumu.
Výše zmíněné vyřazení kulturologie z oficiálního seznamu oborů je o to více zarážející, že jedním z důležitých směrů digitálních humanitních věd je kulturomika (ang . culturomics), komplexní kvantitativní studium kulturních jevů. Geneze kulturomiky souvisí se zpracováním zdrojů shromážděných v rámci celosvětového projektu Google Books. Cílem tohoto projektu bylo shromáždit veškerou literaturu vytvořenou člověkem v publikované podobě. Výsledky výzkumu provedeného na údajích z Google Books se ukázaly být natolik objevné a inspirativní, že se jim dostalo celosvětového uznání, o čemž svědčí jejich zveřejnění v prestižním časopise Science (Michel et al. 2011) . 8
S ohledem na výše uvedené připomínky a obavy si následující část textu klade za cíl představit rozsah digitálních humanitních věd včetně jejich definice a pokusu o kritický přístup. Vzhledem ke stručnosti klasické podoby definice, která přesvědčivě nevystihuje bohatost a složitost popisované problematiky, navrhuji také její rozšíření o komplexní výčet charakteristik digitálních humanitních věd v aktuální fázi jejich vývoje. Tento přístup vychází především z analýzy různých výzkumných projektů a z dlouhodobého pozorování komunity vědců, kteří se s tímto proudem ztotožňují. Text se naproti tomu nezabývá historií digitálních humanitních věd – zdánlivě stručnou, ale ve skutečnosti bohatou, neboť odkazuje na četné případy interdisciplinárního výzkumu. 9
1. Digitální humanitní vědy…
1.3. Definice a charakteristika
Nejběžnější a nejtypičtější formou definice je stručná formulace obsahující tři členy definiens, definiendum a differentia specifica, nazývaná jako definice klasická. V souladu s touto konvencí navrhuji definovat digitální humanitní vědy jako soubor poznávacích procesů a informačních zdrojů, které jsou výsledkem přenosu poznávacích procesů humanitních věd založených na tisku do digitální sféry a jejich obohacování o nové funkce. Takové chápání digitálních humanitních věd předpokládá absenci protikladu mezi tradicí a moderností, neboť se zde ukazuje univerzálnost určitých problémů a variabilita používaných metod. Navíc je zde patrné nedostatečné hodnocení: digitální humanitní vědy nejsou považovány za lepší než humanitní vědy tradiční. Charakteristickým rysem této definice je koneckonců i odmítnutí teleologického myšlení, podle něhož by digitální humanitní vědy stejně jako věda celkově byly nezbytným stupněm evoluce vedoucím k dokonalosti poznání.
Pokud bychom klasickou definici považovali za příliš lakonickou a nevystihující podstatu problému, lze použít tzv. ostenzivní definici a předložit seznam projektů, které jsou pro digitální humanitní vědy obecně považovány za nejreprezentativnější, a ponechat čtenáři možnost vytvořit si na ně vlastní názor. To by však mohlo vést k dalekosáhlé desintegraci a rozostření předmětu definice. Obrovské množství takových projektů, jejich tematická různorodost, nehomogenní kvalita a ne vždy jednoznačná funkce způsobují, že každý badatel, který se na digitální humanitní vědy dívá z perspektivy vlastní specializace, vnímá a odhaluje jiné její rysy – ne nutně ty nejpodstatnější a nejdůležitější pro celý směr.
Vzhledem k výše uvedeným úvahám, jakož i ke komplexnosti, mnohostrannosti a transdisciplinaritě projektů digitálních humanitních věd se zdá být vhodné rozpracovat představenou definici do souborného, ale strukturovaného popisu blízkého svou skladbou přiřazovací definici.10 Ta by se skládala z poměrně dlouhého výčtu charakteristik, které lze seskupit do větších tematických okruhů – především metodologie, metodiky práce, komunikačních postupů, akademického úzu, epistemologie atd. Takové dělení však formálně neprovádím, protože všechny probírané sféry jsou propojeny sítí vzájemně se ovlivňujících vztahů a částečně se překrývají. Proto je lepší nahlížet na ně synteticky, jako na aspekty jednoho soudržného celku. Tímto způsobem lze ukázat bohatství digitálních humanitních věd, jejich složitost, vnitřní dynamiku, ale také jejich velká dilemata. Za specifické znaky digitálních humanitních věd navrhuji uznat:
Od Gutenberga k Zuckerbergovi
1.3.1. Zkoumání velkých dat (big data)
Většina projektů v oblasti digitálních humanitních věd vyžaduje zpracování velkých souborů dat, což se týká zejména lingvistiky, literární vědy, mediálních studií a dějin umění, v menší míře historie nebo archeologie. Přestože objemy dat jsou v těchto případech menší než v přírodních nebo biologických vědách, ve srovnání s nedigitálními výzkumy zasazenými do gutenbergovské éry je změna v tomto ohledu obrovská. Je například obtížné si představit ruční zpracování desítek milionů slov nebo bibliografických záznamů, stovek románů, tisíců fotografií nebo archivních dokumentů. Badatelé, kteří nepoužívali digitální nástroje, byli samozřejmě schopni činit závěry o charakteristických rysech takto velkých populací na základě malých vzorků, které dokázali vhodně vybrat, ale jejich úplný empirický výzkum – mnohem efektivnější a objektivnější – byl v praxi nemožný. Provádění výzkumu velkých dat však vyvolává jisté kontroverze, které je třeba zde připomenout. Vyvstává například poměrně oprávněná otázka, zda podle tezí primitivního materialismu, které jsou nicméně v běžném myšlení přítomné, může kvantita vydávat za kvalitu. Tedy zda například počítačová analýza všech románů určité epochy může o této epoše poskytnout lepší obraz než studium malého počtu vybraných děl, která jsou v rámci celku považována za reprezentativní. Tato pochybnost vychází z předpokladu, že originální díla vytvářejí talentovaní jednotlivci, zatímco zbylí autoři následují trendy a od svých vzorů kopírují styl i témata. Lze se také ptát, zda znalosti o mechanismech jazyka získané na základě analýzy korpusu stovek milionů slov budou lepší než znalosti založené na menších, ale pečlivě vybraných zdrojích. Navzdory všemu není snadné na tyto otázky odpovědět. Na základě vlastních i dlouholetých zkušeností jiných badatelů mohu říci, že metoda big data nevede k jednoduchému způsobu zkvalitnění vědecké práce v humanitních vědách, i když může otevřít zcela nové, dosud neznámé perspektivy. Rozšiřovat zkoumaný vzorek má přece smysl pouze tehdy, pokud se tím zlepšuje kvalita vyvozených závěrů. Uvažujeme-li statisticky, měli bychom říci, že vzorek populace má optimální velikost, jestliže jeho zvětšení zásadně neovlivňuje analyzované parametry. Pokud tedy přidání nových údajů nepřináší získaným výsledkům nic podstatného, jedná se pouze o přítěž.
Další otázka souvisí se samotnou reprezentativností velkých dat. Docházíme například ve filmových studiích k vědeckým pravdám pomocí analýzy tisíců filmů průměrné kvality, nebo je subjektivně vnímaná kvalita vybraných děl důležitější než množství dat? Odpověď není jednoduchá. Velké množství údajů nám umožní odhalit obecné tendence zkoumaných témat nebo formálních rysů, zejména v případě výzkumu realizovaného celá desetiletí. Avšak pro objevení,
1. Digitální humanitní vědy…
natož pochopení opakujících se motivů a topoi filmu v rámci celého estetického směru (například westernu nebo dobrodružného filmu) není podstatné. Nakonec zbývá upozornit na často až sakralizované zacházení s digitálním výzkumem prováděným pomocí big data, které považuje za úspěch, když se formálně prokáže, že próza se liší od poezie, že autoři mají svůj osobitý styl, že někdy je styl daného žánru výraznější než styl osobní, že jazyk tragédie a komedie oplývá slovesy a jazyk prózy přídavnými jmény atd. Podobné experimenty pouze testují možnosti matematiky a techniky při modelování jazyka (v tomto ohledu je tedy možné je hodnotit kladně), ale neřeší skutečné problémy poznání.
1.3.2. Filozofie linked open data
Kromě obdivuhodných objemů zpracovávaných souborů je charakteristickým rysem digitálních humanitních věd spojování dat v různých formátech a s různým stupněm strukturovanosti do komplexních systémů. Takové propojení, označované též jako projekce, se může týkat mj. životopisných údajů, zeměpisné polohy, textů, bibliografických záznamů či hmotných artefaktů. Proces lze provádět pomocí metadat, jejichž prostřednictvím počítače vytvářejí vztahy mezi libovolnými databázemi. Zmíněný přístup je v současné době nejpoužívanější a nejefektivnější, ale vyžaduje srovnatelnou anotaci propojovaných souborů. V případě její absence lze použít alternativní přístup, který spočívá v rozpoznávání opakujících se rysů nebo struktur přímo v datech. Nastává pak totiž možnost kombinovat špatně strukturované zdroje. Projekce interní (třeba morfosyntaktické) anotace do databází v jiných formátech je však obtížnější. Není například možné převést kategorii části řeči extrahovanou z textů do grafických detailů nebo hudební fráze. Místo toho lze tato formálně odlišná data propojit pomocí sémantické anotace, kterou se označují reprezentace opakujících se prvků vnějšího světa. Reprezentace objektivně existující kategorie slunce se objevují v textech (lexém „slunce“), v grafice a malířství (jako grafické motivy), v archeologii (například figurky nebo jiné artefakty), v religionistice (slunce jako božstvo) a dokonce i v historiografii (jako přezdívka panovníků).
Základní seznam datových formátů, zpracovávaných v rámci digitálních humanitních studiích, zůstává v průběhu let neměnný a zahrnuje text, čísla, obrázky a zvuk. Tento seznam lze rozšířit o složité odvozené formáty – například film je pohyblivý obraz promítaný na časovou osu se zvukovou stopou, čas zahrnuje datum a hodinu, prostorová poloha je vyjádřena číselným zápisem (zeměpisné souřadnice). Uvedené typy dat odpovídají skutečným problémům, které studují digitální humanitní vědci. Jejich mnohotvárnost a složitost
Od Gutenberga k Zuckerbergovi
vyplývá z bohatství reality, která člověka obklopuje a s níž se s jednorozměrnými a jednoformátovými objekty prakticky nesetkáváme.
Například zdánlivě jednoduchá kategorie osoby může být popsána textem (osobní údaje, charakteristika), graficky (fotografie), číselnými údaji (data narození, úmrtí, významné události) a někdy i zvukem (záznam hlasu). Stejně složitý bude i popis kategorie události (text, grafika, zvuk, video atd.) nebo místa (zeměpisné souřadnice, grafika, text atd.). K tomuto výčtu lze ještě přidat různé úrovně strukturování dat, od textu nebo záznamu (formálně nestrukturovaného) až po databáze, slovníky atd.
Samostatný komentář vyžaduje kvalifikátor otevřenosti „open“, který se běžně používá v přístupu linked open data. Jeho použití není založeno faktickém stavu, protože data v kyberprostoru často pocházejí z licencovaných zdrojů a jsou proto právně a technicky chráněna. Zmíněný kvalifikátor má spíše postulativní povahu – naznačuje, že budování síťové inteligence11 , která uspokojuje informační potřeby lidí a počítačů, bude snazší v situaci otevřeného a co nejúplnějšího přístupu k co největšímu množství dat. Tento přístup je odůvodněn skutečností, že většina dat potřebných pro výzkum v oblasti digitálních humanitních věd byla vytvořena z veřejných prostředků, a proto by měla být dostupná bez dalších poplatků nebo zbytečných překážek. V liberálním světě, kde se prakticky vše, co má nějakou hodnotu a může přinést zisk, komercializuje, je však třeba takový postoj považovat za projev idealismu. Praxe digitálního výzkumu je tedy taková, že velká část dat potřebných pro vědu, zpracovávaných nekomerčně metodami linked open data, je ve skutečnosti uzavřená, a teprve následně získávaná komerčními způsoby.
1.3.3. Bezprecedentní role metadat
Podle etymologie jsou metadata „data o datech“ nebo „informace o informacích“, nikoliv zpráva, která by přímo vypovídala o vnějším světě. Stabilní a reprodukovatelná metadata jsou v přístupu linked open data zásadní, protože samotné dokumenty, obrazy nebo videa, by nebylo možné efektivně zpracovávat bez znalosti jejich autora, názvu, žánru, data vzniku, geolokace (místa vzniku nebo původu), různých formálních charakteristik atd. Proto je nutné tyto informace do dokumentu doplnit. Minimální verze metapopisu obsahuje autora, název, čas vzniku, žánr, zdroj a formální charakteristiky. Potenciální seznam anotovaných rysů však v praxi dosahuje desítek, ne-li stovek (viz Siwecka v tomto svazku). Vzhledem k tomu, že zpracování dat v digitálních humanitních vědách je masivní a automatické, nelze roli metadat – jejich kvalitu, přesnost a soulad se standardy – přeceňovat. Bez větších obav lze říci, že bez nich by digitální humanitní
1. Digitální humanitní vědy…
vědy nemohly uspět. Důkazem toho je řada schémat pro označování publikovaných textů a také ontologií12 , tedy formálních reprezentací vybraných fragmentů reality. Nejznámějšími univerzálními schématy jsou Dublin Core, Text Encoding Initiative a MARC, kromě nich však existují i doménově specifická schémata přizpůsobená specifikům audiovizuálních (například MPG-7, PBCore), hudebních či grafických dokumentů, map, starých tisků atd.
Rostoucí počet zohledňovaných prvků a masovost digitalizačních procesů vedou k silnému napětí mezi zastánci unitaristické koncepce, podle níž by mělo existovat jedno všezahrnující schéma metadat pro všechny dokumenty vytvořené lidstvem, a realisty, kteří si uvědomují, že rozmanitost schémat pro popis digitálních dat je přirozeným a nevyhnutelným důsledkem rostoucího počtu dokumentů, diverzifikace jejich vlastností a, jak se v literatuře zřídka zdůrazňuje, povahy lidských společenství, která jsou schopna ocenit přínos rozmanitosti, a proto dbají na svou identitu a brání se proti globální unifikaci vytvářením národních verzí obecných schémat. Analogií k tomuto protikladu by mohla být biblická babylonská věž, která v západní kultuře představuje utopii světa založeného na monolingvismu – světa, v němž se člověk ve své aroganci snažil získat téměř božské postavení –, který však v důsledku zmatení jazyků nabyl podoby založené na mnohojazyčnosti dnes považované spíše za kulturní přínos než za přítěž a zdroj soužení. Ať už bude další vývoj digitálního výzkumu jakýkoli, jedno lze říci se stoprocentní jistotou: metadata nikdy v historii humanitních věd nehrála tak velkou roli jako dnes.
Metadatové anotace celých dokumentů a dalších artefaktů by neměly být ztotožňovány s anotacemi nižší úrovně, které se v digitálních humanitních vědách rovněž běžně používají. V případě výzkumu textů se například používá rozpoznávání a označování formálně gramatických rysů, jako jsou části řeči a funkce slov ve větě, a sémantických rysů (četné kategorie pojmenovaných entit, tj. antroponyma, toponyma, oronyma, chrematonyma atd.). Při studiu grafiky a filmu lze rozpoznat a označit tvary, barvy, motivy, postavy, místa, emoce atd. Pokud jde o NLP – automatické zpracování jazyka, které je dnes přítomné ve všech odvětvích digitálních humanitních věd –, je užitečnost morfosyntaktické a sémantické anotace obrovská. Například lexém „Berlin“, který počítač čte izolovaně od textového kontextu a bez ohledu na kulturní kompetence člověka, může potenciálně sdělovat širokou škálu obsahů. Je to název hlavního města Německa, mnoha měst v USA, příjmení (včetně Isaiaha Berlina a Irvinga Berlina), název knihy atd. Podobně polský lexém „Nysa“ může označovat město, dvě řeky (Nysa, Nysa Kłodzka a Nysa Łużycka) a v období komunismu oblíbený dodávkový vůz. Teprve sémantická anotace, propojená s morfosyntaktickou anotací, umožňuje algoritmu označit příslušnou
Od Gutenberga k Zuckerbergovi
sémantickou kategorii a podle potřeb výzkumu ji propojit s příslušnou databází (geografickou, biografickou, bibliografickou atd.).
Na tomto místě je třeba dodat, že metainformace, stejně jako mnoho dalších prvků digitálního světa, nejsou vynálezem moderních informačních technologií. V rukopisné a tištěné knižní kultuře je již po staletí zvykem obohacovat dokumenty o jakási metadata, která umožňují identifikaci díla. Tato metadata měla podobu edičních poznámek umístěných na začátku, uprostřed (živé záhlaví) nebo na konci díla (kolofon). Digitální svět převzal, formalizoval a rozšířil zvyklosti při vytváření tiráží. To umožnilo automaticky spojovat obrovské množství textových, geolokačních, biografických, grafických, zvukových a dalších dat do větších systémů.
1.3.4. Spojení přirozené a umělé inteligence (AI)
Vytvoření mhovořících a myslících strojů je lidským snem již po staletí. Svědčí o tom dlouhý seznam mýtů nebo pseudovědeckých fantazií (Golem, středověký homunkulus), hrdinů vědeckofantastických děl (literární a filmové příběhy o Frankensteinovi nebo samostatně uvažujících počítačích, nespočet výtvorů populární kultury na podobná témata), stejně jako práce na konstrukci lidských napodobenin (šachové automaty či automaty hrající na hudební nástroje, současní roboti). Digitální humanitní vědy hojně využívají nástroje umělé inteligence, které dokáží interpretovat, překládat a vytvářet texty v různých jazycích v rámci stabilního referenčního systému. Referenční systém je zde třeba chápat jako relativně ucelenou světovou doménu, reprezentovanou rozsáhlým a metadaty označeným lidským tréninkovým korpusem, na kterém se algoritmy učí.13
Smysl použití umělé inteligence v digitálních humanitních vědách je zřejmý, pokud uznáme oprávněnost zpracování velkých dat v rámci konceptu linked open data: umělá inteligence simuluje jazykovou a komunikační kompetenci člověka a vylučuje ho z opakujících se intelektuálních činností, které by za normálních okolností musely vykonávat celé skupiny lidí. Rozsah a role umělé inteligence při studiu jazyka a dalších sémiotických kódů je dnes mimochodem tak rozsáhlé téma, že by mu v zásadě mohla být věnována samostatná monografie. Zde je třeba zdůraznit, že při současném stavu technologií NLP určených pro analýzu polštiny – a ještě více pro jazyky s větším dosahem a bohatšími výzkumnými zdroji – je již možné provádět automatický překlad, generování klíčových slov, sumarizaci, stylistickou analýzu, taxonomii textu nebo rozpoznávání sémantických kategorií. Je dokonce možné strojově generovat texty, které s vysokou pravděpodobností projdou Turingovým testem, pokud má algoritmus automatického učení k dispozici dostatečně kvalitní tré -
1. Digitální humanitní vědy…
ninkový korpus. Souběžně s výše uvedenými úkoly se zvyšuje kvalita hlasových komunikačních rozhraní a zdá se, že se blíží okamžik jejich masového uplatnění.
Jak je z výše uvedeného patrné, algoritmy umělé inteligence stále účinněji simulují lidské kompetence, získávají informace z přirozených textů a také generují kvazipřirozené texty. Zvláštností oproti minulým letům je, že počítače již dokáží zpracovávat texty vytvořené jinými počítači. Podobných textů se na webu dá nalézt stále více. Úkolem člověka se v podobné situaci samozřejmě kromě programování stává interpretace výsledků generovaných stroji v antropocentrickém nebo kulturním referenčním rámci.
1.3.5. Dynamická a interaktivní forma produktů digitálních humanitních věd
Digitální humanitní vědy v zásadě nevytvářejí statické a uzavřené struktury, typické pro gutenbergovskou éru, jejímž symbolem byl kodex – neměnný, teoreticky nedotknutelný a trvalý produkt lidské intelektuální činnosti. Výsledkem práce digitálních humanistů jsou naopak nejčastěji síťové aplikace, označované jako infrastruktury. Nabízejí možnost provádět libovolné průzkumy na základě předem nastavených počátečních podmínek. Nenabízejí tedy hotové odpovědi na omezený počet otázek položených autorem díla, ale umožňují uživateli, aby si sám kladl různé otázky – a podle toho, jaká data mají k dispozici, poskytují odpovědi. Oproti tradičnímu způsobu vytváření a sdělování znalostí se tedy jedná o zcela odlišný přístup, který aktivně zapojuje uživatele do heuristického procesu.
Na tomto místě je třeba zmínit další paradox digitálních humanitních věd. Mohlo by se zdát, že dynamické a interaktivní infrastruktury jsou vynálezem posledních desetiletí. Není tomu tak. Prvními infrastrukturami ve smyslu materiálních zdrojů byly čítárny a knihovny, a ve smyslu logiky uspořádání informací plnily tuto funkci slovníky, encyklopedie, katalogy a další podobná logicky strukturovaná kompendia. Hledání odpovědi na otázku, zda první takovou infrastrukturou byla například starověká Alexandrijská knihovna a praotcem digitálních humanistů Kallimachos z Kyrény, zakladatel konceptu katalogizace, je však třeba ponechat na historicích médií (srov. Pawłowski 2010).
1.3.6. Transdisciplinarita a stírání hranic
Transdisciplinarita či interdisciplinarita digitálních humanitních věd je jejich přirozeným, samozřejmým a nezbytným rysem. Je vý-
Od Gutenberga k Zuckerbergovi
sledkem propojování dat z lingvistiky, literární vědy, historie, uměnověd, mediálních studií, kartografie nebo sociální geografie do dynamických struktur. Z hlediska klasifikace vědních oborů a disciplín je nejviditelnějším projevem transdisciplinarity digitálních humanitních věd stírání hranic mezi humanitními a společenskými vědami (především obory jako mediální studia, informatika, politologie a sociologie) a jejich integrace do vědeckého celku s informatikou a aplikovanou matematikou. Významné je, že integrace probíhá jak v organizační rovině (činnosti smíšených týmů), tak v mentální rovině (společný návrh výzkumu a interpretace výsledků). Tento proces má různé, někdy nečekané důsledky. Ve smíšených vědeckých týmech musí být „humanisté“ dostatečně kompetentní v programování a matematice, aby mohli plánovat experimenty a interpretovat jejich výsledky. Na druhou stranu by programátoři měli mít alespoň základní znalosti o datech, která zpracovávají. O náročnosti tohoto úkolu svědčí skutečnost, že ve většině evropských vzdělávacích systémů se rozdělení na humanitní a přírodovědné obory provádí již na školní úrovni a udržuje se i na úrovni univerzitní.
Dalším důsledkem popsané trans- či interdisciplinarity je situace, kterou lze pozorovat na velkých kongresech či sjezdech spojených s digitálními humanitními všdami. Vzbuzují dojem velkého rodinného setkání, kdy si vzdálení příbuzní všímají jeden druhého, připomínají si své kořeny a z nich plynoucí vazby, přestože se po desetiletí navzájem ignorovali. Účinky obnovy kdysi spálených mostů jsou obvykle příznivé. Sociolog se může dozvědět, že data z průzkumů, která shromažďuje, můžou automaticky zanalyzovat lingvisté a extrahovat z nich základní poselství, odborník na média, který se zajímá o emocionální dopad tisku, objeví široké spektrum psychologických pojmů, historik se může podívat, jak fungují systémy OCR pro rukopisné dokumenty nebo staré tisky, lingvista se může dozvědět, že pojmenovací jednotky v textech (toponyma) mohou být automaticky rozpoznány a následně ve spolupráci s odborníky na kartografii ve vrstvách promítnuty do map.
1.3.7. Multimediální povaha digitálních humanitních věd
Pokud pod pojmem multimédia rozumíme generování, zpracování a přenos dat v jednom prostředí v různých formátech, jsou digitální humanitní vědy plně multimediální. Jejím předmětem totiž může být text, obrazy a zvuk ve spojení s časovou osou a geolokačními údaji. Kromě toho se ve velkém měřítku používají některé formáty, které jsou již samy o sobě multimediální. Příkladem je mapa, která se skládá z dvourozměrného prostoru identifikovaného zeměpisnými souřadnicemi, dále z grafiky, která označuje různé kategorie objektů
1. Digitální humanitní vědy…
(města, fyziografické objekty) a vlastnosti (například výšku terénu nebo hloubku vodní plochy), a z textu (názvy objektů, metadata). Totéž platí pro grafické nebo zvukové databáze, v nichž mají základní data svůj vlastní formát, ale zároveň se k nim vždy přidávají textová metadata. Pokud tedy považujeme multimédia za jeden z povinných prvků digitálních humanitních věd, je třeba připomenout, že univerzálním formátem, který je prakticky vždy přítomen, je text.
1.3.8. Princip spojitosti úloh s variabilitou metod
Pro méně zkušené adepty humanitních věd otevřel digitální svět nové a zdánlivě dosud neznámé perspektivy. Badatelé, kteří si jsou vědomi historie svých oborů a udržují si odstup od vypůjčitelných novinek, však mohou v této situaci spatřovat jistou dvojkolejnost. Na jedné straně nikdy předtím neměly humanitní vědy k dispozici tak silný výzkumný nástroj a takové množství dat. V krátkém čase lze zpracovat miliony datových korpusů, rozsáhlé bibliografické databáze, historická data různých formátů (katalogy, indexy, mapy atd.). Opakující se a zdlouhavé úkoly, které dosud zpomalovaly vytváření znalostí, nahrazují lidé počítači a algoritmy umělé inteligence.
Na druhou stranu zůstává nevyřešeno mnoho problémů, s nimiž humanitní obory po generace zápasí. Metody jsou tedy nové a účinnější, ale podstata vědeckého zkoumání – především způsob kladení problémů a principy jejich řešení – zůstává prakticky nezměněna. Zde je několik příkladů. Sledování pohybu postav v literárních dílech není vynálezem 21. století, ačkoli dříve se nejednalo o problém v literární vědě nijak zvlášť významný. Ručně byly rekonstruovány pěší trasy románových postav románů (například postavy Wokulského po Varšavě 19. století v Prusově Loutce) nebo pěší mapy postav cestopisů, referujících o reálných nebo smyšlených světech. Klasifikace textů na základě jejich charakteristik je stejně stará jako myšlenka obecné, nebo ryze literární geneologie (ta ostatně pochází již z antiky!). Produktem pokroku posvěceného dlouhou tradicí je stylistika. Od 19. století se filologové potýkají s problémem určení autorství textů publikovaných pod pseudonymem, apokryfů, nepodepsaných novinových článků nebo divadelních her, jejichž autoři nezanechali rukopisy (příkladem je Molière). Při zkoumání, kdo byl Homér nebo Shakespeare, kdo vlastně napsal apoštolské listy nebo některá díla antické literatury, používali vědci prakticky vždy kvantitativní metody, avšak ve světě digitálním ruční výpočty nahradil počítač a jednoduché ukazatele vícerozměrná analýza nebo neuronové sítě. Málo se změnilo i v historickém výzkumu, kde je klíčem a základem pro vyvozování závěrů jakási dílna – dříve založená pouze na archivních dokumentech a lidské kompetenci, dnes na rozsáhlých databázích a podpůrných systémech pro čtení dokumentů.
Od Gutenberga k Zuckerbergovi
Přetrvávání řady problémů v humanitních vědách je tedy nesporným faktem, stejně jako je faktem kontinuita základních metodologických principů. Novinkou je naopak přístrojové a technologické vybavení, které rozšířilo a urychlilo výzkum a otevřelo nové poznávací perspektivy. Zatímco vývoj postupů byl rychlý a dokonce velkolepý, kvalitativní pokrok byl pomalý a zdlouhavý.
1.3.9. Emergence nových předmětů výzkumu
Termín emergence pochází z evoluční biologie, kde označuje proces vzniku nových forem života.14 Zde jej zavádím analogicky jako termín, který adekvátně popisuje vznik nových předmětů výzkumu. Platí totiž, že kontinuita problematiky a epistemologických základů jakékoli vědní disciplíny nevylučuje postupné (a ve výjimečných případech i rychlé) kvalitativní změny. Pro jiné srovnání si můžeme připomenout historii vynálezů, které změnily tvář vědy a způsob, jakým lidé vnímají realitu: hodiny vytvořily známou představu lineárního času a teploměr představu teploty jako stálé a měřitelné veličiny. V kontextu digitálních humanitních věd je obzvláště užitečná metafora dalekohledu, který sice nezměnil podstatu astronomie, ale po staletí umožňoval objevovat nové, větší a pro vědu dříve nedosažitelné pozorovací objekty.
V souladu s tímto vzorcem umožnilo využití digitálních technologií prakticky ve všech humanitních oborech definovat nové objekty výzkumu dosud neznámého rozsahu a složitosti. Dříve se objevovaly pouze ve spekulativních úvahách, často hraničících až s vědeckou fikcí.15 Například o všech jazycích světa diskutovali lidé, kteří jich znali nanejvýš několik nebo několik desítek, a o obecných historických otázkách badatelé, kteří znali jen zlomek pramenů, protože analýza tisíců stran roztroušených textů nebyla možná. K objektům vytvořeným pro potřeby empirického studia humanitních věd technologií patří všechny aktuálně používané jazyky světa, textové korpusy čítající stovky milionů jednotek, celek literatury nebo písemnictví vybrané epochy, celek historických pramenů k danému tématu, katalogy výzkumných objektů z celého světa (například archeologické artefakty) nebo rozsáhlé bibliografie. Konkrétním příkladem takových analýz velkých dat může být stylistický výzkum Macieje Edera a Jana Rybického (Eder 2014, 2015; Rybicki, Eder 2009, 2011) nebo výzkum velkých bibliografií (srov. Pawłowski, Walkowiak 2021, Pawłowski/ Walkowiak v této knize).
Vzorovým a typickým příkladem takového přístupu může být projekt Google Books. Připomeňme, že společnost Google v roce 2002 plánovala zdigitalizovat všechny knihy, které kdy člověk napsal – jejich počet odhadovala na přibližně 130 milionů. Právní problémy (vy-
1. Digitální humanitní vědy…
cházející z omezením publikačních práv) způsobily, že od roku 2011 jsou oficiální informace o průběhu daného projektu velmi kusé a počet již digitalizovaných knih v databázi Googlu není znám (podle odhadů dostupných na webu je jich údajně více než 45 milionů). O něco dříve se myšlenkou masové digitalizace beletrie v menším měřítku zabývali tvůrci projektu Gutenberg. Na úrovni jednotlivých států naopak existují rozsáhlé repozitáře digitalizovaných fondů národních knihoven, které zahrnují veškeré písemnictví v daném jazyce nebo kultuře. Bylo by však přehnané tvrdit, že se o empirické syntézy tohoto druhu v minulosti nikdo nepokusil. Jako koncepční vzor pro projekt Google Books byla údajně použita starověká alexandrijská knihovna, považovaná za největší repozitář písemností starověké kultury Středomoří,, zatímco ambicí francouzských encyklopedistů 18. století bylo vytvořit kompendium všech znalostí lidstva v oblasti umění, věd a řemesel.1 V praxi však byly podobné pokusy velmi vzácné, protože vyžadovaly velký počet spolutvůrců a desítky let práce.
Aby se však vznik nových předmětů výzkumů v humanitních vědách stal skutečností, nestačí jen digitální technologie. Je také třeba určité přijetí ze strany společnosti. V klasickém díle strukturalismu, za které je považován Kurs obecné lingvistiky Ferdinanda de Saussura, najdeme slavnou větu, která by se mohla stát mottem konstruktivismu: „c’est le point de vue qui crée l’objet“ (doslova: je to úhel pohledu / hledisko, které vytváří objekt) (Saussure 1916, s. 23). De Saussurův výrok se dočkal mnoha výkladů, ale ve zkratce říká, že předměty vědeckých výzkumů jsou produkty člověkem přijaté perspektivy, nikoliv objektivně existující entity.17 Parafrázujeme-li tento citát v podmínkách digitálního světa, musíme říci: „c’est l’outil qui crée l’objet” (je to nástroj, který vytváří předmět [výzkumu]). Přijímání a pochopení poznávací hodnoty nových, rozsáhlých a víceformátových výzkumných objektů zástupci širší humanitní komunity se děje (jak dokazuje tento svazek), ale je to proces pomalý.
1.3.10. Radikální empirismus
Digitální humanitní vědy lze zjednodušeně popsat jako kombinaci specifického souboru problémů, kreativního myšlení, efektivních algoritmů a velkých dat. Právě zásoba dat, která dosahuje nebývalých objemů, může vést vědce k přesvědčení, že induktivní metoda na nich založená je nejlepší, ne-li jediná cesta k jistému poznání – tedy k empiricky ověřenému poznání. To by znamenalo, že závěry, které nejsou induktivním zobecněním vícero zkoumání (například výskytů ve velkých souborech dat), by měly být odmítnuty jako neúčinné. Jelikož mají humanitní vědy v digitálním věku k dispozici největší zdroje v dějinách v podobě korpusů textů, nahrávek, obrazů, dokumentů,
Od Gutenberga k Zuckerbergovi
záznamů atd., imaginace nepodpořená empirií se možná stává nadbytečnou, ba nebezpečnou, protože naše výzkumy vede na metafyzický okraj vědy. Koneckonců extrémní empirismus předpokládá, že existuje pouze to, co lze nalézt v datech, vše ostatní jsou plané spekulace. A protože máme k dispozici velké množství dat, je třeba hledat poznání právě v nich.
Digitální humanitní vědy se totiž ve velké míře opírají o data. Kupříkladu lingvista se ale může ptát na slova, věty nebo potenciální fráze, které jsou strukturně a významově správné, ale nejsou nikde doloženy (a možná nebyly nikdy vysloveny). Můžeme se také ptát na logický status alternativních úvah o historii, založených na předpokladu, že se určitá událost v minulosti vůbec nestala. Lze se opřít o argumenty Karla Poppera o extrémnosti některých tezí Vídeňského kroužku, který ve filozofii vědy prosazoval empirický přístup („Vskutku neexistuje nic takového jako neinterpretované pozorování, pozorování nenasycené teorií.“) (Popper 1997, s. 71).18 Nakonec se můžeme obrátit k názorům současného filozofa vědy Michaela Hellera, který tvrdí, že základy fyziky a ontologie dvacátého století (a tím nepřímo i celé vědy) nevycházejí z empirie, že kdyby se vědci řídili přímo pozorováním a daty, nikdy by se jim nepodařilo tyto teorie formulovat. Heller svoji myšlenku formuluje následovně: „Nejsou tyto neslýchané úspěchy vědy, které převracejí naše představy o realitě (zpětný tok času, zakřivený časoprostor, částice ztrácející svou individualitu, ale vzájemně se střetávající bez zprostředkování času a prostoru...), dostatečně jasným signálem, že realita se nevyčerpává tím, co můžeme vidět, čeho se můžeme dotknout, co můžeme změřit a zvážit?” (Heller, Krajewski 2014, s. 244).19
Odkud se tedy bere velká síla poznání a přesvědčivost empirismu v digitálních humanitních vědách a v čem spočívá? Nejde snad o pouhou masku, skrývající za mořem dat již léta známé metody, založené na spekulativním myšlení? Radikální posun humanitních věd směrem k empirismu, který je zde popsán, lze vysvětlit poměrně jednoduše. Žijeme v přechodném období mezi gutenbergovskou tištěnou kulturou a kulturou digitální (Bolter 2014). Nové nástroje si vyžádaly rychlou retrospektivní konverzi rozsáhlých kulturních zdrojů, které lidstvo vytvářelo stovky let, do digitálních médií. Digitalizace, anotace a budování strukturovaných zdrojů se tak staly podmínkou sine qua non rozvoje vědy a právě těmto otázkám – dříve okrajovým a patřícím do oblasti pomocných věd – musí dnešní humanisté věnovat mnoho času a energie a naučit se přitom vyvozovat závěry z rozsáhlých a víceformátových dat. Právě to vede k citelnému posunu těžiště výzkumu od vysvětlování a interpretace ke sběru, zpracování a sdílení dat. Tato všeobjímající síla empirismu je však iluzí, přechodným stavem, neboť se vztahuje pouze na dnešní stadium vědeckého vývoje, které za chvíli ztratí na dynamice. Radikální empirismus
1. Digitální humanitní vědy…
také postrádá dostatečný epistemologický základ, neboť za něj lze jen stěží považovat velmi pochybnou a zdiskreditovanou tezi, že kvantita se může samovolně změnit v kvalitu. Navzdory rychlému technologickému pokroku a rozvoji informačního průmyslu zůstávají tedy zobecňování, interpretace, odvozování a vysvětlování stále klíčem k poznání skutečnosti a zároveň výlučnými vlastnostmi člověka, které určují jeho nadřazenost nad světem strojů a dat.
1.3.11. Kolektivní povaha digitálních humanitních věd
I zběžný pohled na publikace v oblasti digitálních humanitních věd ukazuje, že procento prací, napsaných o této interdisciplíně jedním autorem, je relativně malé a nesrovnatelné s analogickým procentem prací z oblasti gutenbergovské humanistiky, kde je autory článků a monografií většinou více jednotlivců. Tento kolektivismus souvisí s povahou digitálního výzkumu, který vždy spojuje aplikovanou informatiku, základy datové analýzy a specifické problémy humanitních a někdy i společenských věd v jednom prostoru. Historie samozřejmě zná případy výjimečných osobností, které dokázaly zvládnout základy matematiky, statistiky nebo programování a zároveň oplývaly nesmírnou erudicí a schopnostmi v oblasti humanitních věd. Jedná se však o výjimky, nikoliv o pravidlo. Kromě toho je práce fyziků, biologů nebo matematiků věnujících se humanitním vědám někdy paradoxně slabá – paradox spočívá v mechanické aplikace velmi pokročilého matematického aparátu na jednoduché, okrajové nebo pouze zdánlivé problémy. Lze připomenout i obecně známou tezi, že nárůst vědecké literatury je tak rychlý, že je obtížné sledovat změny i v jedné disciplíně, takže snaha zabývat se více obory nevyhnutelně mělčí věcnou úroveň výzkumu.
Samostatným směrem kolektivní práce, který charakterizuje digitální humanitní vědy, je crowdsourcing, neboli práce dobrovolníků pod dohledem profesionálů.20 Dodávají materiály, testují nové nástroje nebo ověřují účinky programů umělé inteligence a někdy kolektivně spoluvytvářejí konkrétní díla. Modelovým a nejnázornějším příkladem tohoto komunitního modu operandi, používaného v tisících projektů po celém světě, je Wikipedie, chápaná však nikoli jako hotový produkt, ale jako vyvíjející se tvůrčí proces, na kterém participuje rozsáhlá neformální komunita tvůrců a uživatelů.
Od Gutenberga k Zuckerbergovi
1.3.12. Mezinárodní rozměr digitálních humanitních věd a nová organizace práce
Kromě lokálních projektů, tedy projektů týkajících se určitého jazyka, místa nebo kultury, rychle roste počet mezinárodních a dokonce globálních projektů. Předmětem takových projektů může být například popis dálkových cest konkrétních osob (literární cesty, emigrace), migrace národnostních skupin (útěk před represemi, cesty za obživou), hledání jazykových a materiálních stop po minulých stěhováních národů a dobývání, studium dějin a kultury zaniklých říší, analýza globálních komunikačních jevů (například jazykové obrazy abstraktních pojmů a reálných entit) nebo vyrovnávání se s odvěkou bariérou vícejazyčnosti.
Mezinárodní povaha vědeckých problémů přirozeně předpokládá analogickou strukturu týmů, které dané projekty vedou, a také vytváření konsorcií nebo sdružení zaměřených na tyto činnosti. Kromě plošných struktur, sdružujících různé univerzity, ústavy nebo výzkumné týmy, vznikají také mezinárodní organizace, které sdružují spolky působící na národní úrovni (např. ELRA 21 , ELDA 22 , CLARIN23 , DARIAH 24 , Europeana 25). Vzhledem k úrovni organizační složitosti a používané terminologii se některé z nich již začínají podobat nadnárodním korporacím a někdy dokonce vydávají své programové manifesty.2
Jedná se o významnou inovaci oproti zažitým metodám práce velkých univerzit nebo výzkumných ústavů, které mají zaručené financování ze státního rozpočtu a stabilní postavení, ale zároveň cíle, které se po desetiletí nemění, a neefektivní, rigidní organizační strukturu. Konsorcia jsou přitom málo formalizované struktury s převahou horizontálních vztahů nad hierarchií. Díky tomu jsou efektivnější, flexibilnější a vhodné k realizaci transdisciplinárních projektů, které by velké univerzity nebo výzkumné ústavy nebyly schopny realizovat samy. Souvisí to také se strukturou financování, která způsobuje, že v konsorciích je mnohem více prostředků přidělováno přímo na výzkum, nikoli na udržení samotné existence instituce. Právě díky těmto týmům, zbaveným omezení a balastu institucionální vědy, je pokrok v digitálních humanitních vědách tak rychlý. Lze dodat, že mezinárodní dosah projektů a flexibilní struktura výzkumných skupin znamenají, že práce na dálku v distribuovaných týmech (networking) začíná převažovat nad prací ve stacionárních týmech s fyzickou přítomností na jednom místě.
1. Digitální humanitní vědy…
1.3.13. Snadnost přenosu výsledků a komunikační darwinismus
Globální počítačové sítě a média spolu s rostoucí unifikací formátů ukládání dat a anotačních schémat vedly k tomu, že rychlost publikování výsledků výzkumu ve formě textů, databází nebo multifunkčních aplikací dosáhla dosud nepoznané úrovně. Kromě toho se jejich potenciální dopad stal globálním, a to navzdory místním rozdílům a/nebo překážkám v přístupu k určitým zdrojům. Tato situace staví digitální humanitní vědy před zatím nereflektované výzvy, mezi něž patří zřídka uvědomovaná, ale stále častěji shora vnucovaná potřeba ucházet se o pozornost publika, které má snadný přístup k obrovskému množství srovnatelných zdrojů. To, co se v oficiálních předpisech agentur pro financování vědy označuje jako výzkum user experience (UX), je ve skutečnosti ztělesněním jisté formy komunikačního darwinismu. Boj o publikum na globálním trhu myšlenek, softwarů a zdrojů se podobá obchodním válkám o zákazníky, až na to, že ziskem je spíše potvrzení zájmu o projekt, které usnadňuje získání nebo udržení financování, než příjem z prodeje. Sociální sítě spravované velkými mediálními společnostmi hrají v šíření objevů digitálních humanitních věd nezanedbatelnou roli. Zajímavé je, že samotný obsah zdrojů nebo poznávací účinnost nástrojů nejsou jediným faktorem, který zvyšuje jejich viditelnost a uznání. Na pozadí těchto procesů působí postkoloniální mechanismy nadvlády specifických jazyků a kultur, díky nimž je nejrychlejší a nejefektivnější šíření zajištěno obsahem v mezinárodních, nikoliv malých jazycích. Vznikají tak nová virtuální impéria, která do jisté míry kopírují vzorce nadvlády známé z předdigitálního věku. Díky sociálním médiím se také objevili názoroví vůdci, kteří se věnují propagaci určitých názorů nebo zjištění. Úspěch různých projektů digitálních humanitních věd proto musí zohlednit tyto globální podmínky síťové komunikace.
1.3.14. Přechod od lineárního k hypertextovému čtení
Systémy písma spolu s kodexem coby nejdůležitější alternativou řeči jako prostředku lidské komunikace vytvořily v průběhu staletí návyk lineárního (sekvenčního) čtení, a v širším smyslu lineárního a svým způsobem jednosměrného vnímání jakýchkoli informací. Podle systému písma, který v dané kultuře převládá, jsou vizuální informace vnímány horizontálně zleva doprava nebo zprava doleva a někdy také vertikálně shora dolů (v případě některých asijských kultur). Existuje také rozdíl mezi analytickým vnímáním (čtení znaku po znaku) a syntetickým vnímáním (vnímání celých znaků – ideogramů). Je
Od Gutenberga k Zuckerbergovi
třeba zdůraznit, že návyky čtení a nepřímo i smyslového vnímání reality, které se takto po staletí utvářely, jsou úzce spjaty se schopností psát . Vynález hypertextu, struktury bez jediného nutného směru vnímání, začal v posledních desetiletích tyto zvyky měnit. Zatímco samotná percepční linearita písma zůstala zachována, uspořádání větších fragmentů se stalo jakousi sítí, po níž se uživatel – alespoň ve své subjektivní mysli – libovolně pohybuje. Produkty digitálních humanitních věd jsou tedy hypertextové a nelineární, což dává uživateli svobodu, aby si vytvořil vlastní cestu k poznání nebo uspokojení zvědavosti. Je však tato svoboda úplná? Příroda se děsí prázdnoty a pro mnoho příjemců informací je neustálé rozhodování přítěží. Proto se tento zdánlivě nekontrolovaný pohyb v rámci webových služeb a dalších digitálních produktů stává nepozorovaně předmětem regulace, která zahrnuje zavedení typografických prvků, jež mají uživatele vést k volbě. Pragmaticko-komunikační pravidla této zvláštní syntaxe hypertextu se teprve utvářejí a sotva je lze považovat za vyspělý systém. Není však pochyb o tom, že takový systém nebude lineární a deterministický, jako tomu bylo v případě tradičního čtení.
1.3.15. Zvýšení úlohy grafiky a multimédií
Možnosti moderních počítačových obrazovek a softwaru již neumožňují pouze simulaci tradičních vizuálních technik (malba, užitá grafika, typografie), ale otevírají i nové, dříve neznámé možnosti. Lze je použít k vytváření dynamických a interaktivních obrázků, 3D grafiky a dokonce virtuálních světů s využitím neomezené palety barev (viz Werszler v této publikaci). Výtvory digitálních humanitních věd od koncepčně jednoduchých digitálních edic až po multimodální a multifunkční webové služby jsou naplněny prvky užité a umělecké grafiky, které nahradily narativní (popisné) části. Z pohledu několika století se digitální humanitní vědy staly barevnějšími, komunikativnějšími a jaksi krásnějšími. Zvláště když se moderní výrobky srovnávají s hrubou kvalitou grafiky 19. a 20. století. Lepší vnímání informací ovlivňuje neomezená paleta barev, ale také škálovatelnost grafiky, která umožňuje vidět jak celý obraz (mapu, rytinu, graf atd.), tak i detaily.
1.3.16. Zvyšování prestiže humanitních věd
Humanitní vědy byly od svého počátku vnímány jako soubor disciplín, které nemají k dispozici skutečný vědecký aparát jako přírodní a exaktní vědy; jako disciplíny nepraktické, nevyžadující větší výdaje.
1. Digitální humanitní vědy…
A představa prosté Popelky, oduševnělé bytosti, ale zároveň vyvrhele, kterému musí stačit pouze křída a tabule, ve 20. století ovládaném moderními technologiemi viditelně snížil jejich prestiž. Digitální svět tuto situaci změnil, protože digitální humanitní vědy se staly odvětvím aplikované informatiky (zejména v oblasti zkoumání přirozeného jazyka, obrazu a zvuku). Do repertoáru jejich metod se dostalo programování, analýza velkých dat a algoritmy umělé inteligence. To vyžadovalo, aby si výzkumní pracovníci osvojili nové kompetence a aby projektoví manažeři přijali zaměstnance s dvojím (technickohumanitním) vzděláním. Tyto změny také znamenaly výrazné zvýšení investic do vybavení a laboratoří. S ohledem na generační hlediska je třeba poznamenat, že pro generace vychované bez bližšího kontaktu s knihami a gutenbergovským světem v přesvědčení, že existuje pouze to, co lze najít na internetu, se digitalizace stala jakýmsi osvědčením kvality znalostí.
Lze samozřejmě diskutovat o tom, do jaké míry elektronizace textového, zvukového nebo obrazového výzkumu zvýšila kvalitu znalostí. Názory tradičně smýšlejících akademiků budou v tomto bodě skeptické. Vzhledem ke stavu celého oboru humanitních a částečně i společenských věd však lze bez velkého rizika omylu říci, že od počátku 21. století se digitální humanitní vědy postupně přibližují k hlavnímu proudu světové vědy, čímž se zvyšuje jejich prestiž a posiluje jejich finanční postavení.
1.3.17. Rostoucí význam národních humanitních věd
Je paradoxní, že v době internalizace akademické praxe a dominance angličtiny jako jazyka vědecké komunikace téměř celého světa se role národních humanitních věd nesnížila, ale naopak zvýšila. Lze to vysvětlit všudypřítomností jazyka a potřebou jeho zkoumání. Na rozdíl od objektů výzkumu v přírodních vědách jsou zdroje humanitních věd vždy zasazeny do určité kultury. A jak ukazuje praxe, účinnou a přesvědčivou analýzu přirozených jazyků mohou provádět pouze jejich rodilí mluvčí. Aby byly nástroje pro automatické zpracování jazyka založené na pravidlech nebo na systémech strojového učení účinné, vyžadují správně anotované trénovací korpusy, po nichž následuje testování a ověřování. Toho nelze dosáhnout pouze na základě obecných znalostí, tedy kompetencí, které mají ti, kdo plynně ovládají jazyk.
Toto tvrzení je v lingvistice, literární vědě a kulturologii nezpochybnitelné. Zdá se však, že tato zásada by se neměla vztahovat na analýzu obrazů a zvuků v nejširším slova smyslu, neboť ty jsou považovány za univerzální, nadetnické kódy. Není tomu tak, protože každý digitálně reprezentovaný objekt musí být popsán metadaty,
Od Gutenberga k Zuckerbergovi
která jsou ve vrstvě obsahu (název, věcný popis, klíčová slova) vždy zapsána v určitém jazyce. Zpracování textových dat – ovšem spíše ve funkci nástroje než předmětu – je proto nezbytné i při studiu obrazu, sochařství, hudby, map a dalších zdánlivě nejazykových artefaktů.
Jak je patrné z výše uvedeného, digitální humanitní vědy využívají pozitivních stránek globalizace vědy (větší dosah výzkumu, šíření výsledků, lepší financování), ale účinně se brání destruktivním aspektům tohoto procesu, který v jiných sférách vede k eliminaci rozmanitosti .
1.3.18. Udržitelnost zdrojů jako nová výzva
Staletí trvající kontinuita duchovní kultury lidstva je zajištěna záznamy na trvalých nosičích. Kámen, pergamen a dokonce i kvalitní papír zachovaly pro příští generace texty nebo obrazy, které vypovídají o dávno minulém a neznámém světě. Vytvářely tak kolektivní paměť národů a komunikujících společenství. Jejich dlouhověkost, která překračovala hranice generací, byla dána odolností hmotných nosičů dat vůči destruktivním účinkům času – odolností, kterou digitální zdroje přinejmenším zdánlivě postrádají. Trvalost digitálních zdrojů je technologickou výzvou, s níž se lidstvo teprve vyrovnává. Má tři rozměry: fyzický, logický a informační. Fyzický aspekt souvisí se samotnou technologií záznamu. K tomuto účelu se používala a používají magnetická a optická (analogová a digitální) média s různou rychlostí a kapacitou čtení. Všechny tyto materiály jsou náchylné k poškození a snadno podléhají degradaci. Negativní účinky lze kompenzovat znásobením počtu existujících kopií, což do jisté míry napodobuje přírodu, která chrání informace stejným způsobem.27 Jsou stávající technologie pro sběr a ukládání dat účinné? To je třeba ještě ověřit, protože od nástupu digitálního věku uplynulo poměrně málo času. Ačkoli tedy objevení a čtení pergamenových svitků nebo hliněných tabulek starých několik staletí dokazuje určitou odolnost starověkých metod záznamu dat, nelze si představit, jak by vypadalo čtení dnešních disket, magnetických pásek, CD, paměťových karet nebo pevných disků za několik set let.
Problematika logiky ukládání se v podstatě omezuje na otázku, zda budou staré formáty vždy konvertovány (a konvertibilní) na nové formáty, které jsou vhodnější pro nové generace zařízení. To se zdá být proveditelné v krátkodobém horizontu, kdy následují nové verze softwaru, společnosti, které je podporují, jsou stabilní a rozptyl uživatelů formátu je malý. Ne vždy tomu tak ale je. Příkladem formátu, který se začal vyvíjet autonomně a postupem času se ukázalo, že je stále náchylnější k místním úpravám, je MARC (Machine-Readable Cataloging), který se hojně používá v knihovnách. Záznamy
1. Digitální humanitní vědy…
v MARCu byly primárně určeny pro knihovníky, vznikly ještě před nástupem internetu a nových databázových formátů v době, kdy byly rozsáhlé analýzy v humanitních vědách pokládány za science fiction. Tento formát se stále globálně používá, přičemž poměrně vzácně dochází k převodu katalogů z formátu MARC do formátů uživatelsky přívětivějších a úspornějších. Důvodem je obrovský objem dat obsažených ve fondech knihoven po celém světě: konverze je tak nákladná a pracná, že se do ní pustí jen málokdo. MARC se tedy vyvíjí téměř výhradně přidáváním nových (pod)polí do stávající struktury a přizpůsobuje se tak novému prostředí jako živý organismus. Díky tomu dobře odolává změnám v technologii čtení, ale zároveň se jeho původní zátěž neboli redundance (stejná informace v několika různých polích), nejasnost a variabilita konvencí pro popis vlastností dokumentu a konečně různorodost národních verzí stala prakticky neodstranitelnou.
Informační výzva spojená s nestabilitou digitálního záznamu spočívá v možnosti provést neomezené množství změn bez zanechání stop. Internetové archivy obsahují část záznamů starých několik let pouze ve formě povrchových kopií bývalých rozhraní, odkazy nefungují a není možné se dostat k původnímu obsahu portálů. Čas od času je archivována i historie úprav. I v případě, že jsou data zdánlivě plně archivována (například online vydání novin, rozhlasové nebo televizní záznamy), má ovšem správce zdroje možnost provádět v nich změny, které čtenář nepozná. Zatímco tedy staré tištěné záznamy, i když vizuálně velmi nekvalitní a kompromitující pro příští generace, zůstávají k dispozici v nezměněné podobě (příkladem jsou polské bulvární plátky z období německé okupace nebo propagandistické texty ze stalinské éry), nepřehlédnutelná retuš digitálního dědictví je možná a poměrně snadná – moderátoři digitálních zdrojů mohou změnit nebo odstranit nepříznivé informace tak, aby si čtenář jejich zásahu nevšiml.
1.3.19. Dopad legislativy na praxi v oblasti digitálních humanitních věd
Snadný přenos dat uložených na elektronických nosičích a masový přístup k úložištím či databázím způsobily, že dříve vyvinuté a obecně respektované zásady ochrany autorských práv v souladu s duchem bernské úmluvy – zejména pokud jde o texty (Górnicki 2013: 179–191)28 – byly v digitální realitě zpochybněny. Kromě toho se v elektronickém oběhu začaly objevovat nové, dříve neexistující kategorie souhrnných informací. Nejlepšími příklady jsou velké korpusy obsahující pečlivě vybrané úryvky z rozsáhlejších děl, ale také přepisy rozhlasových nebo televizních nahrávek, mikrotexty složené z názvů
Od Gutenberga k Zuckerbergovi
publikací (bibliografické korpusy), krátké textové zprávy nebo obsah sociálních médií. Tyto texty však nejsou ucelenými kopiemi jiných děl, ale sbírkami jejich drobných fragmentů, metadat a někdy i záznamů, které vytvořili uživatelé internetu bez jakéhokoli závazku respektovat jejich duševní vlastnictví. Důležitý je i další aspekt nové digitální reality: takto agregované soubory dat jsou jen velmi zřídka zpřístupňovány celé a bez jakékoliv kontroly, protože se v podstatě používají k vytváření příkladů nebo odvozených informací, tedy například seznamů prvků, histogramů nebo vztahových grafů.
To vše znamená, že legislativa získala v oblasti digitálních humanitních věd nebývalý význam. V dnešní době je při jakékoli činnosti, která zahrnuje získávání a zpracování velkých digitálních dat, nutné zajistit, aby nebyly porušeny žádné zákony a aby byly dodrženy licenční podmínky. Zajímavé je, že řešení navržená americkou organizací Creative Commons 29 , která definuje mnoho typů alternativních licencí k tradičnímu striktnímu ustanovení „všechna práva vyhrazena“, byla v digitálním světě uznána za normativní zdroj. Tento nový systém částečného licencování přístupu je nesmírně důležitý a nezbytný, protože mechanické přenesení paragrafů používaných k ochraně před skutečnými pokusy o krádež duševního vlastnictví do oblasti vědeckého výzkumu vede k narušení myšlenek všech, kteří se snažili pečovat o autorská práva. To je zvláště patrné v Polsku a dalších postsovětských zemích, kde je při dnešním kapitalismu chráněno údajně soukromé duševní vlastnictví vydavatelství nebo zpravodajských agentur (i když bylo vytvořeno před rokem 1989), a tedy spíše z veřejných než soukromých prostředků. Z obecných právních norem koneckonců vyplývá, že data vytvořená z veřejných prostředků by měla být bez umělých omezení zpřístupněna uživatelům, kteří toto vytvoření financovali svými prostředky (například ve formě daní). Zvláštní výsadní postavení při využívání kulturních zdrojů by měli mít zástupci vědecké obce, jejichž posláním je budování zdrojů poznání.
1.3.20. Dehumanizace digitálních humanitních věd
Podstatou humanitních věd je po staletí vytváření, kritické čtení a interpretace různých kulturních kódů. Badatelé tak popisovali, oceňovali a interpretovali ty lidské výtvory, jimž bylo možné přisoudit znakově-komunikační charakter. Týkalo se to především jazyka, literatury, výtvarného umění a hudby, ale také artefaktů zkoumaných historiky nebo archeology. Milostný vztah mezi humanitními vědami a technikou se sice v prvních stoletích šíření tiskové kultury na krátkou dobu ustálil: autor, tiskař a knihkupec úzce spolupracovali a někdy jedna a tatáž osoba vystupovala ve dvou rolích. Během prů-
1. Digitální humanitní vědy…
myslové revoluce však došlo k rozdělení obou oblastí. Úkoly spojené s tvorbou a distribucí médií převzal vznikající mediální průmysl; humanisté se tak mohli věnovat tomu, co mnozí dodnes považují za základ své profese, totiž interpretaci textů či jiných sémiotických kódů a kritické diskusi o problémech jazyka, literatury, historie a umění. Naproti tomu měření a výpočty, na jejichž základě lze formulovat vědecké zákony, byly – zdánlivě neodvolatelně – přenechány jiným oborům. Humanitní vědy si měly navždy zachovat nomen omen lidskou tvář a zahrnovat otázky duchovní kultury, v níž se hmota a technologie jeví pouze jako fyzické nosiče pojmů nebo hodnot. Dějiny vědy se však vyvíjely jinak. Dnes pociťovaná dehumanizace digitálních humanitních věd je způsobena tím, že digitálnost tohoto nového přístupu je úzce spjata s počítačem, tedy strojem na zpracování informací. A stroj – včetně stroje na informace – je protikladem člověka, který je definován jako míra všech věcí a ústřední referenční bod. V jistém smyslu lze dokonce považovat název „digitální humanitní vědy“ za oxymóron neboli spojení protikladných pojmů.
Dehumanizace humanitních věd v jejich nejnovější digitální inkarnaci má několik aspektů. Nejzřetelnější a nejokázalejší se týkají metod přípravy a zpracování dat pomocí počítačů a dalších zařízení v masovém měřítku. Kromě toho již počítače dokáží samy vytvářet data, generovat texty a obrazy a interpretovat je pomocí metod umělé inteligence. Automatický překlad praktických textů se také stává běžnou záležitostí. Samostatnou otázkou je zapojení datových inženýrů, matematiků, fyziků nebo geografů do práce, kterou dříve vykonávali výhradně filologové, historici, historici umění, kulturní antropologové atd., a výsadní postavení dvouoborových humanistů se znalostmi rozšířenými o programování či matematiku. Do někdejší „vědy o výtvorech ducha“ přinášejí oživující znalosti ze svých mateřských oborů, které jim umožňují zpracovávat velké objemy dat a vytvářet z nich zobecňující modely. Dnešní digitální humanitní vědy tak mají ve své DNA bohatý a zdravý fond vědeckých genů, ale tradiční humanitas je v nich mnohem méně než v gutenbergovské éře (srov. 2.4).
1.3.21. Zpochybnění role jazyka a lingvistiky
Lze bezpochyby tvrdit, že přirozený jazyk jako primární a univerzální komunikační nástroj utváří systém reprezentace světa v lidské mysli. Z tohoto pohledu můžeme za alternativu přirozeného jazyka považovat například jazyky literárních a filmových motivů (topika), výtvarnou symboliku, sémiotické vizuální systémy používané v digitální komunikaci (například emotikony), apriorní jazyky vědy (například matematický nebo logický zápis), programovací jazyky, jakož i pomocné kódy podporující komunikační deficity člověka (například
Od Gutenberga k Zuckerbergovi
Blissovy znaky, Braillovo písmo, znakové jazyky). Takový lingvocentrický pohled, uznávající zvláštní postavení přirozeného jazyka a lingvistiky, byl populární zejména v době vrcholícího strukturalismu, tedy ve druhé polovině 20. století, kdy Claude Lévi-Strauss a další francouzští antropologové aplikovali metodu a koncepty vyvinuté pro fonologii na popis kultury. Součástí odkazu těchto myšlenek je pojem kulturém (ang. cultureme), který svou strukturou a významem odkazuje na analogické pojmy a termíny jazykovědy (foném, morfém, lexém, sémantém). 30
Zdálo by se, že toto výsadní a dobře zavedené postavení lingvistiky se udrží i v humanitních vědách digitálního věku. Výzkumná praxe posledních let však ukázala, že tento problém není samozřejmý a má přinejmenším dva důležité aspekty. Monotematické studium jazyka je dnes pouze jedním z mnoha proudů digitálních humanitních věd – proudem, který je často odsouván na okraj multidisciplinárního výzkumu prováděného v rámci rozsáhlých digitálních projektů. Přestože se rozvíjí digitální lingvistika, v níž je přirozený jazyk primární záležitostí (příkladem je automatický překlad nebo dialogové systémy), v oblasti digitálních humanitních věd není považována za zdroj teoretických nebo metodologických koncepcí. Současně je široká přítomnost jazyka v digitálních humanitních vědách zřejmá – v psaných textech a nahrávkách, v metapopisech netextových objektů, v systémech pro vyhledávání dat atd. Situace je tedy poněkud paradoxní, protože na jedné straně se badatel v oblasti umění, historie, antropologie, mediálních studií nebo sociologie, který se ztotožňuje s digitálními humanitními vědami, neobejde bez nástrojů zpracování přirozeného jazyka (NLP), do nichž je vždy zakomponována určitá lingvistická teorie a poznatky, na druhé straně však lingvistika není považována za tak vlivnou disciplínu jako před několika desetiletími.
1.3.22. Obrácení vzorce přenosu znalostí
V oblasti společenského fungování vědy se vztah mezi digitálními a gutenbergovskými humanitními vědami do jisté míry podobá dřívějším intelektuálním průlomům, které rozdělovaly prostředí na zastánce starých a nových teorií, ale v některých aspektech má zvláštní charakter. Nejviditelnějším znakem tohoto vztahu je samozřejmě masivní využívání dat a digitálních technologií, které dřívější epochy neznaly, a tedy převaha metodologického prvku nad teoretickým. Teoreticko-programové či ideologické spory, tolik charakteristické pro vědecké debaty posledních desetiletí, v současné fázi vývoje digitálních humanitních věd nenajdeme. 31 Zřejmý je však generační rozměr současného průlomu. Není totiž těžké si uvědomit, že digitální huma-
1. Digitální humanitní vědy…
nitní vědy byly vytvořeny a stále jsou ovládány vědci mladé a střední generace, pro které se digitální realita stala přirozeným pracovním prostředím. Zatímco pro generace, které se zformovaly před nástupem digitalizace a/nebo vzdávaly hold gutenbergovské tradici, jsou data ve fyzické podobě (knihy, obrazy, sochy, různé historické artefakty atd.) primárním předmětem výzkumu, pro badatele ponořené do digitálního světa již fyzická podoba nemá velký význam. Digitální filolog může analyzovat současná nebo starověká díla, aniž by musel chodit do knihovny a sahat na papírová vydání. Podobně lze studovat historické dokumenty, obrazy a další umělecká díla, pokud máme k dispozici jejich virtuální repliky.
Důsledkem digitální revoluce v humanitních (a společenských) vědách je tedy obrácení generačního vzorce předávání znalostí, který ve vědě fungoval po staletí a je zakotven v akademické tradici. Za normálních okolností totiž znalosti vznikají jako výsledek dlouholetého výzkumu, četby a úvah. Vzdělávání a rozvoj učence vyžaduje čas a určitou intelektuální vyspělost. To se odráží v průměrném věku výzkumných pracovníků v hierarchii akademických titulů: nejmladší jsou většinou doktoři, starší než oni jsou docenti a ještě starší profesoři. Studenti jsou tedy mladí lidé, kteří by se měli učit od svých starších učitelů. S technologickým průlomem se však tento vzorec obrátil. Právě mladší generace se ujala role mistrů a učí starší zájemce o digitální humanitní vědy, jak se orientovat ve světě nových technologií a vyhnout se vyloučení z digitálního světa. 32 Tento zvrat je jednorázový a krátkodobý, dochází k němu pouze ve zlomových okamžicích vývoje vědy. Rychlá fáze digitální revoluce za několik let skončí, změny se zpomalí a z dnešních digitálních průkopníků se stanou důstojní vědci zralého věku. Postoj mladé generace digitálních badatelů počátku 21. století, který by se dal nazvat i jistou kognitivní arogancí, se pak stane minulostí. 33
1.3.23. Kompetenční omezení
V současné fázi vývoje vyžadují digitální humanitní vědy od výzkumných pracovníků znalosti přesahující úzkou specializaci, kterou si osvojili během studia. Integrace a interpretace propojených otevřených dat (linked open data), která se dříve analyzovala v oddělených oborech, předpokládají u vedoucích pracovníků projektů koexistenci kompetencí získaných v různých studijních oborech a často na různých univerzitách. 34 Problémem digitálních humanitních věd je, že se rozvíjejí v prostředí, které se prakticky od školní úrovně formuje jako značně dezintegrovaná věda, rozdělená na disciplíny a subdisciplíny, odměňující stále užší specializace. Rozdělení na humanitní a exaktní vědy je patrné již na středoškolské úrovni a udržuje se
Od Gutenberga k Zuckerbergovi
i na univerzitách. Pokud se tedy výzkumní pracovníci s humanitním vzděláním ocitnou v týmech, které realizují komplexní digitálněhumanitní projekty, musí řešit úkoly, které vyžadují široký, renesanční přístup kombinující erudici a obecnou kulturu s odbornými znalostmi – i z nehumanitních oborů (informatika, matematika, kartografie).
Bohužel jako produkt vzdělávacího systému děleného na specializace nejsou vždy schopni v této výzvě obstát. Nadšení a zápal pro nové technologie totiž nejsou ekvivalentem hlubokých znalostí. Odtud, z nutnosti často překračovat hranice vlastních kompetencí, pramení systémová omezenost výzkumu digitálních humanitních věd.
Výše uvedenou tezi lze ilustrovat na mnoha příkladech z dějin jazykovědy. Kdybychom měli sestavit seznam neúspěšných prací o jazyce s využitím kvantitativních metod (podle dnešních kritérií by měly být zařazeny do digitálních humanitních věd), byly by v něm publikace matematiků, fyziků nebo informatiků, kteří se domnívali, že k získání kognitivně hodnotného výsledku stačí zpracovat jazyková data pomocí modelu osvědčeného v jiné oblasti – například v částicové fyzice, materiálových vědách, popisu evolučních procesů apod. Produkty intelektu a kultury však nejsou tak jednoduché, jak si někteří vědci představují. Sociální systémy a jejich deriváty v podobě jazyka jsou složitější a méně předvídatelné než fyzikální nebo biologické systémy. Formální model – pokud jej použijeme – by tedy měl být výsledkem hluboké reflexe zkoumané problematiky, nikoliv nepromyšleným rozmělňováním dat pomocí nástrojů známých z jiných oblastí. Samotný koncept matematického modelování v humanitních a společenských vědách samozřejmě nesmí být v žádném případě znehodnocen. Přinesl vědě mnoho dobrého a je jistě jednou z nejproduktivnějších cest k inovaci. 35 Metodologické transfery, které jsou v digitálních humanitních vědách tak časté, však mají smysl pouze tehdy, pokud je vědomě a s porozuměním aplikuje vědec orientující se ve dvou (nebo více) oborech – což typické akademické vzdělání nezaručuje.
1.3.24. Specifické překážky rozvoje digitálních humanitních věd
Nové metody digitálního výzkumu v humanitních a částečně i ve společenských vědách (například mediální studia) narážejí na překážky, které v gutenbergovském období nebyly známy. Omezením rozvoje digitálních humanitních věd je bezpochyby zneužívání autorských práv ve vztahu k textům, které jsou určeny pro nekomerční výzkum nebo vytváření infrastruktur pro vědu. Ochrana duševního vlastnictví v Polsku a v mnoha dalších zemích nerozlišuje mezi vědeckým a komerčním využitím, což znamená, že vytvoření korpusů
1. Digitální humanitní vědy…
obsahujících texty nebo jiná současná data musí předcházet složité právní postupy. A je třeba připomenout, že korpusy nemusí uživateli nabízet úplná zdrojová data, ale takzvané odvozené informace, neboli statistiky, konkordance, sémantické profily, generalizace atd. Právě nutnost získat souhlas vlastníků (vydavatelů, autorů, jejich dědiců) zpomalila a v některých oblastech na dlouhá léta zablokovala vývoj Národního korpusu polského jazyka.
Další překážkou rozvoje digitálních humanitních věd je záplava špinavých dat, která vzniká buď v důsledku hromadného OCR bez korekce, nebo v důsledku automatického stahování dat z internetu bez jakékoliv kontroly kvality (nutno dodat, že to není důsledek nedbalosti těch, kdo data shromažďují, ale masovosti procesu a objemu dat). Výsledky výzkumu prováděného na těchto zdrojích metodami big data jsou zatíženy chybami, které kvůli vysokým nákladům na manuální práci nikdo nikdy neověří. Známá zásada informatiky „smetí dovnitř, smetí ven“ je v tomto případě dokonale použitelná.
Problémem omezujícím interoperabilitu dat je nestabilita tagsetů používaných k popisu dat. Tvůrce korpusu je oprávněn používat nejen standardní schémata (například Dublin Core, TEI, MARC), ale také volné značky přizpůsobené specifikům dat. Například tag vyjadřující informaci o míře legálnosti textu v období totality ve středoevropských zemích (oficiálně vydávaná literatura, samizdat, vlastní náklady, exilová literatura, undergroundová literatura) bude endemickým rysem, vyskytujícím se pouze v daném místě a čase, jinde nepřeložitelným do tagovacích schémat. Nadšenec unitářského pojetí, které předpokládá jediný ideální soubor tagů, pravděpodobně najde nějaké pole, do něhož takové informace umístí, ale určitě to nebude intuitivně jasné. Podrobnost tagování tedy na jedné straně zvyšuje relevanci popisu, ale na druhé straně snižuje interoperabilitu dat. Dalším problémem digitálních humanitních věd jsou negativní dopady rychlého přenosu znalostí a zavádění výzkumných metod, které jsou stále více náročné na informační technologie. To vede k obtížím při získávání souhlasu vědecké komunity s novým vývojem. Humanitní vědy a v poněkud menší míře i společenské vědy mají ve své DNA jakýsi antimatematický gen, který v kombinaci s konzervatismem a setrvačností myšlení vede k částečné izolaci digitálních výzkumníků, kteří akceptují využívání výhod IT a velkých dat. V jistém smyslu předbíhají své vědecké okolí, což je vede k tomu, že se distancují od hlavního proudu literárního, jazykovědného či historického výzkumu. Výjimkou mezi humanitními obory, které obecně preferují takzvané měkké dovednosti, je archeologie, která bez digitálních technologií pomalu ztrácí smysl své existence. V neposlední řadě je třeba zmínit finanční zdroje jako velmi důležitou překážku rozvoje digitálních humanitních věd. Z pozorování akademické obce a institucí v rámci projektu GLAM vyplývá, že
Od Gutenberga k Zuckerbergovi
se digitální humanitní vědy rozvíjejí především v bohatých zemích. Na seznamu míst, z nichž pocházejí účastníci největších konferencí a kongresů o digitálních humanitních vědách, kteří získávají granty a vedou inovativní projekty, jsou vždy stejné přední instituce ze Spojených států, západní Evropy a Skandinávie, ale i bohatých asijských zemí (především Japonska). Toto rozložení potvrzuje univerzálnost vzorce centrum-periferie. S určitým zjednodušením lze říci, že bohaté a dobře organizované centrum vytváří nové myšlenky a řešení v oblasti digitálních humanitních věd včetně teorií, zdrojů a nástrojů. Zároveň periferii vnucuje terminologii a obecný diskurz, čímž určuje, jak jsou objekty výzkumu vnímány a hodnoceny. Periferie naopak kopíruje existující řešení a přebírá jednodušší nebo zastaralé výtvory centra. Mezi těmito póly se nachází takzvaná semiperiferie, tedy oblast, která sdílí některé charakteristiky centra (podstatné, ale pouze dílčí úspěchy) a periferie (zaměření na poskytování zdrojů v kombinaci s nedostatečnou schopností ovlivnit směr vědeckého vývoje). Účinky těchto podmínek lze snadno pozorovat. Vysoké náklady na práce v oblasti digitálních humanitních věd způsobují, že prvními přirozenými jazyky, které budou efektivně zpracovávány stroji, jsou etnolekty bohatých a technologicky vyspělých zemí – především angličtina. V případě Shakespearova jazyka je propracovanost řešení NLP a umělé inteligence pro extrakci informací a znalostí z korpusů, sumarizaci, překlad, převod řeči na text a textu na řeč, tvorbu dialogických komunikačních rozhraní a automatické generování textů natolik významná, že již úspěšně procházejí Turingovým testem. Naopak jazyky používané v zemích se středním nebo nízkým ekonomickým potenciálem teprve dohánějí země vůdčí.
1.3.25. Algoritmicita digitálních humanitních věd
Digitální humanitní vědy jako forma kognitivní činnosti, která hojně čerpá z informatiky (a v krajním případě je prostě aplikovanou informatikou), usilují o automatizaci všech opakujících se procesů. To se týká především zpracování dat (text, obraz, čísla), ale stále více také odvozování a rozhodovacích procesů. S automatizací opakovaného zpracování dat se setkáváme v oborech, které využívají především rozsáhlé korpusy (jazyk, mediální a informační věda, dějiny umění, historie). Algoritmizaci rozhodovacích procesů lze naopak nalézt například v automatickém překladu, NLP (morfosyntaktické a sémantické značkování) nebo dialogových systémech. Stejně jako informatika, i digitální humanitní vědy zpracovávají velké objemy dat a realizují tak postulát optimalizace výkonu. Sporné je však samotné chápání této optimalizace, která pro informatika znamená minimalizaci doby zpracování a počtu prováděných operací. Data, s nimiž se
1. Digitální humanitní vědy…
setkáváme v humanitních vědách, nejsou tak homogenní a předvídatelná jako hmotné struktury. Například optimální matematický model, který geologové používají k popisu a klasifikaci hornin, bude účinný na jakémkoli místě a v jakémkoli čase, protože vlastnosti entit zvaných horniny mohou být složité, ale vždy podléhají stejným zákonům, stejně jako struktury krystalu. Naproti tomu univerzální model pro popis jakýchkoli dat pocházejících z fungující společnosti se hledá obtížněji, protože společenské výtvory (jazyk, umění, literatura atd.) jsou v jistém smyslu jedinečné a vyjadřují místní zvláštnosti. Například něco, co v technologicky vyspělé společnosti funguje, se nemusí potvrdit v kmenových společenstvích nebo kulturně odlišných skupinách (nemluvě o tom, že takový směr přenosu znalostních vzorců lze považovat za projev kulturního kolonialismu 3) .
1.3.26. Minimalismus digitálních humanitních věd
Toto tvrzení se může zdát přehnané nebo dokonce neopodstatněné, zejména když vezmeme v úvahu ambice digitálních humanistů, velikost zdrojů, s nimiž pracují, rozsah jejich výzkumu a propracovanost jejich metod. Pokud se však opíráme o tradiční paradigma vědy, jejímž cílem by mělo být objevování a vysvětlování vedoucí k zobecňujícím teoriím či modelům reality, je velká část úspěchů digitálních humanitních věd jaksi odsunuta na úroveň pomocné disciplíny . Na první pohled se digitalizace sbírek a jejich anotace v podstatě neliší od tradiční katalogizace. Stejně tak digitální 3D reprodukce neexistujících nebo poškozených hmotných předmětů připomíná hmotnou rekonstrukci předmětů, k níž dochází již desítky let – často bez jasné vazby na vědeckou činnost. Dnes, kdy digitální průlom stále probíhá, je obtížné tato tvrzení zpochybnit. Shlukují se do konstatování, že současné digitální humanitní vědy se orientují především na pomocné činnosti, jako je digitalizace zdrojů a vytváření infrastruktur, a teprve v druhé řadě na řešení velkých vědeckých problémů – jak těch starých, odolných vůči působení času, tak těch nových, obvykle aplikační povahy.
Výše uvedené úvahy však nepopírají hluboký vědecký význam a praktickou užitečnost digitálních humanitních věd. Výhody digitálních infrastruktur oproti infrastrukturám tradičním, za které je třeba považovat například knihovny a archivy, lze jen těžko zpochybnit. Nespočívají pouze v rychlém a snadném přístupu k informacím, ale také v mnohonásobně větším souboru potenciálních dat 37 a možnosti generovat výsledky složitých operací s daty v jakékoli podobě – číselné, textové a především grafické. Současný stav digitálních humanitních věd – dočasné převzetí některých funkcí pomocných disciplín – je derivátem historických podmínek, nikoliv imanentním rysem
Od Gutenberga k Zuckerbergovi
této interdisciplíny. Právě na přelomu 20. a 21. století připadá obrovské množství práce na převedení celé produkce gutenbergovských humanitních věd, kterou lidstvo vytvářelo po staletí a která byla zaznamenána na hmotných nosičích, do digitální sféry. Tento proces, označovaný jako retrokonverze, je epochálním úkolem, který vyžaduje investování obrovských finančních prostředků a lidského a technického potenciálu do této jediné činnosti. Situace kultur nejbohatších zemí je samozřejmě mnohem lepší než u kultur, které nemají tak bohaté vědecké zázemí. To však neovlivňuje směr změn, ale pouze oddaluje okamžik, kdy digitalizační úsilí začne definitivně mizet z projektových a institucionálních rozpočtů, zatímco tvůrčí energie bude přesunuta na ambicióznější cíle. Tento skokový okamžik bude znamenat kvalitativní změnu v humanitním a částečně i sociálním výzkumu oproti éře tisku, která již začala, ale zatím není dostatečně výrazná.
1.4. Postup zpracování dat v digitálních humanitních vědách a finanční aspekty
Pokud souhlasíme s tvrzením, že ústředním prvkem digitálních humanitních věd jsou specializované infrastruktury, bude nutné vytvořit modelový postup zpracování a zařadit jej do širšího procesu, který lze popsat jako životní cyklus digitálních produktů. Takový postup zpracování by zahrnoval fáze uvedené v tabulce níže.
Tabulka 1. Postup zpracování dat v digitálních humanitních vědách
Získávání digitálních dat
Ověřování a čištění dat
Anotace dat
Data mohou být původně digitální (born digital) nebo mohou pocházet z retrokonverze tištěných zdrojů.
Stoprocentně formálně správné údaje v praxi neexistují.
Každý zdroj je třeba zkontrolovat, aby se odstranily lidské nebo strojové chyby v kódování a záznamy, které jsou neúplné nebo jinak nerelevantní.
Formálně ověřené zdroje by měly být označeny metadaty. Anotace jsou v digitálních humanitních vědách všudypřítomné a velmi důležité, ale liší se typem používaných značek (viz 2.3, Siwecka v této publikaci).
Návrh architektury systému Návrh systému zahrnuje tři dílčí kroky: průzkum digitálních očekávání a kompetencí uživatelů, vytvoření vhodné informační architektury systému a návrh uživatelského rozhraní. Uživatelský výzkum patří do oblasti UX neboli user experience – jeho cílem je předvídat reakce člověka při interakci se strojem a v konkrétním kontextu zohlednit jeho schopnosti a komunikační návyky. Architektura a rozhraní systému mají za cíl optimalizovat systém, zlepšit jeho funkčnost, přehlednost a atraktivitu pro uživatele.
UX
výzkum
architektura systému rozhraní
1. Digitální humanitní vědy…
Testování systému
Provozní fáze
Úprava nebo vyřazení systému z provozu
Testování systému obvykle provádí vybraná skupina, která kromě běžných uživatelů zahrnuje i kompetentní osoby hledající chyby nebo slabiny softwaru. Důvodem je ochrana systému před pozdějším selháním, které by v očích uživatelů ohrozilo jeho spolehlivost. V této fázi je třeba také odhadnout očekávaný počet uživatelů a typ nejčastěji prováděných činností. To umožní vybrat správný motor systému, který vydrží očekávané zatížení.
Spuštění plné verze webové služby zahrnuje průběžné aktualizace a přidávání dat a služeb. Doprovází ji také činnosti specifické pro trh informačních služeb, tedy propagace u uživatelů (viz 2.13).
Informační systém je vždy produktem určité doby a technologické úrovně, a proto musí být pravidelně upravován. Pokud již změny nejsou možné nebo životaschopné, musí být buď začleněn do jiné struktury, nebo zrušen.
Když se v souvislosti s digitálními humanitními vědami hovoří o finančních otázkách, jde většinou o náklady na provádění výzkumu. Budování infrastruktur – i když vznikají jako vedlejší produkt vědeckého výzkumu – však musí brát v úvahu budoucí využití dat (ang data reuaibility). To znamená, že vysoké náklady a úsilí vynaložené na sběr a shromažďování údajů je třeba vnímat v kontextu mnohaletého používání a mnoha různých, někdy obtížně předvídatelných aplikací, nikoli pouze jednorázového výsledku. Řečeno jazykem ekonomie, náklady na budování infrastruktury jsou velmi vysoké, ale výsledky mohou být generovány po mnoho let téměř bez nákladů.
1.5. Existuje vzorový model digitálních humanitních věd?
S odkazem na výše popsané způsoby vymezení digitálních humanitních věd a s vědomím nedostatků a nesoudržnosti této interdisciplíny je vhodné pokusit se shrnout její společné a v jistém smyslu příkladné rysy. Díky analýze výstupů digitálních humanitních věd, které vznikly v posledních letech v různých evropských výzkumných centrech a předních mimoevropských centrech lze konstatovat, že příkladným projektem digitálních humanitních věd je veřejně přístupná informační infrastruktura, která funguje na základě rozsáhlých datových souborů propojených v jednotném prostředí a umožňuje uživatelům řešit různé problémy z dané oblasti reality . Tato infrastruktura zohledňuje základní formáty (text, zvuk, obraz), čas a prostor a kvantitativní aspekty objektů (frekvence jednotek, jejich rozměry), je interaktivní a vybavená bohatými vizualizačními
Od Gutenberga k Zuckerbergovi
nástroji. Digitální humanitní vědy mohou také podmíněně zahrnovat výzkumnou práci, která nespočívá ve vytváření infrastrukturních projektů, ale je na těchto infrastrukturách postavena. Výše uvedený popis lze ilustrovat na příkladu.
Chce-li vědec analyzovat fenomén populární literatury v průběhu 19. století ve vybraném jazyce nebo zemi pomocí metod z gutenbergovské éry, nebude číst celý korpus, ale pouze reprezentativní vzorek této rozsáhlé sbírky, přičemž se soustředí na textovou rovinu (a nikoli například na titulní stránky, ediční poznámky pod čarou apod.). Učiní tak proto, že přečíst celý takový korpus je v podstatě neproveditelné, stejně jako není možné zhlédnout desítky tisíc dílů populárních seriálů. Příčinou tohoto přístupu je legitimní přesvědčení, že nejvýraznější stylistické rysy populárních žánrů, kde každé následující dílo kopíruje hlavní rysy svých knižních předchůdců, lze odhalit zkoumáním vzorku, nikoli celého korpusu dat. Analýza založená na vybraném souboru tedy odhalí základní, relevantní rysy zkoumaného objektu nebo druhu objektů, definované podle přijatého teoretického východiska. Zároveň bude ignorovat ty vlastnosti nebo obsah, které by mohly být zřejmé až při analýze velkých dat. Digitální humanista, respektive tým vědců, bude postupovat zcela jinak. Začne přípravou digitalizovaného korpusu všech dostupných děl, která lze považovat za populární literaturu zkoumaného období (důležité je, že objem takové sbírky nemá horní hranici). K dokumentům se pak přidají metadata, která se získají ručně nebo automaticky z edičních poznámek pod čarou a bibliografických popisů (autoři, místa a roky vydání atd.). Metadata budou navíc obohacena o genologické informace týkající se literárního žánru, druhu nebo stylu. Jakmile bude tato databáze vytvořena, budou texty všech studovaných děl zpracovány a opatřeny poznámkami pomocí nástrojů NLP. Díky takové anotaci bude možné vyhledávat v korpusu podle libovolných kritérií – nejen podle výskytu a charakteristik jednotlivých slov nebo frází (například slovních druhů nebo syntaktických funkcí), ale také podle dalších proměnných, pokud budou přidány. V textech je možné označit například popisné a dialogické pasáže, pohlaví a sociální postavení účastníků dialogů, sémantické třídy lexémů, příznakovost apod. 38 Dalším krokem bude vývoj analytických nástrojů, které budoucím uživatelům dané infrastruktury umožní propojit různé vrstvy a dimenze zkoumaného korpusu. Místa vydání a/nebo v textech identifikovaná toponyma tak bude možné promítnout do mapy, data umožní generovat histogramy vývoje jakýchkoli textových prvků nebo metadat v průběhu století včetně vytváření interaktivních map. 39 Takto zjednodušeně řečeno fungují desítky webových služeb, které nabízejí možnost samostatného průzkumu dat a objevování znalostí na základě dat.40 Jak je z výše uvedeného patrné, digitální projekt není uzavřená struktura zahrnující otázku
1. Digitální humanitní vědy…
(nebo otázky) a hotový seznam odpovědí. Připomíná spíše digitální věšteckou kouli, která je schopna poskytnout odpovědi na různé otázky z určité oblasti, jejich interpretace je však ponechána člověku.
1.6. Shrnutí
Žijeme v přelomovém okamžiku, kdy pod vlivem technologických změn dochází k transformaci po staletí známého gutenbergovského kabinetu humanitních vědců. Ten se dosud vyznačoval stabilitou a neměnností záznamů, symbolizovanou kodexovou formou knihy, urputnou prací s prameny, lineárním čtením malých částí textu a klidnou, pronikavou reflexí. Moderní doba přinesla a rozšířila nelineární a rychlé čtení hypertextu, velká data a digitální vědecké infrastruktury, které vědcům přinášejí podpůrné nástroje NLP a umělé inteligence. Tyto změny navíc způsobily, že v opakujících se činnostech, které lze popsat a algoritmizovat, začínají počítače postupně nahrazovat člověka – především jako tvůrce infrastruktury, ale také jako jejího uživatele. Tento proces nemůže nikdo zastavit, i když dnešní digitální humanitní vědy nesou určité známky módnosti nebo degradujícího minimalismu. Změnám podlehnou naše pracovní metody a poznávací strategie, ale také vnímání našich úspěchů a recepce celého oboru.
Jsou však humanitní vědy, chápané jako univerzální reflexe intelektuálních a kulturních výtvorů (tedy jazyka, literatury, hudby, výtvarného umění atd.), těmito změnami ohroženy? Taková úvaha je oprávněná, protože objevení nového média mezi lidmi vždy vyvolávalo rozpaky. Vynález písma měl podle Platóna (Faidros) oslabit schopnost pamatovat si, tisk zase unifikací zničil individuální charakter písma, a konečně počítače způsobují, že člověk ztrácí kontrolu nad svým prostředím (fungování algoritmů, které optimalizují komunikační procesy, simulace jazykové kompetence). Podstata humanitních věd ovšak není ohrožena, protože lidé budou vždy chtít interpretovat literární hudební, malířská či sochařská díla, ale také texty týkající se například historie nebo kultury každodenního života. Takové interpretace nabízejí jedinečný pohled na stav lidstva a realitu kolem nás. Stroj a počítačový program jistě poskytnou cenné informace, ale nevysvětlí záměry básníka, malíře nebo skladatele, ani nevytvoří originální historiografii dějin. A budoucí generace budou chtít pochopit, proč právě o kometách Norwidovy „cypřiše dějí, že to pro Julii a Romea z nebes tato slza padá a do hrobů vtéká“, a proč „lidé dějí, dějí učeně, že nejsou to slzy, leč kameny“41. Badatelé budou také pátrat po původu úžasu nad krásou antických římských soch a po tom, proč se neustálým opakováním jedné jednoduché hudební
Od Gutenberga k Zuckerbergovi
fráze stává Bolero Maurice Ravela úchvatným hudebním dílem, které fascinuje posluchače. Žádný program s umělou inteligencí, žádná infrastruktura, nemůže v této tvůrčí činnosti zastoupit práci člověka.
POZNÁmK Y
1 Článek vychází mimo jiné z autorových badatelských poznatků získaných v rámci projektů konsorcií CLARIN-PL a DARIAH-PL.
2 Ngram Viewer umožňuje provádět podobné testování včetně možnosti nadefinování šíře časového okna. Vzhledem k požadavkům, které klade formát tištěné publikace, zde tyto výsledky nepředstavuji. Poučný obrázek poskytují mimo jiné synchronní časové řady pro termíny „digital humanities“, „cybernetics“ a „computer science“. Vykazují podobnou dynamiku procesu (rychlý rozmach a stabilizace), ovšem v různých obdobích. Naproti tomu srovnání termínů “linguistics“ a “philology“ ukazuje stabilizaci či regresi po předchozím slabém růstu.
3 „[Digitální vědci] častěji používají vizuální jazyky namísto tradičního textu.“ (Celiński 2013, s. 13)
4 Dostupné na WWW: http://www.wsjp.pl/
5 Ve strukturální lingvistice první poloviny 20. století se v této souvislosti hovořilo o „formě“, chápané coby abstraktní vztahy lexikálních jednotek, a „substanci“ (akustická vlna). Ferdinand de Saussure tuto opozici ilustroval brilantními metaforami – například šachovnicí, kde formou jsou vztahy či funkce pěšců a figur na 64 polích (stručně označované jako pravidla hry) a substancí materiální povrch a na něm stojící předměty, kterým byly přiřazeny konkrétní funkce. „So dürfen wir sagen: die Erfahrungswissenschaften suchen in der Erkenntniss des Wirklichen entweder das Allgemeine in der Form des Naturgesetzes oder das Einzelne in der geschichtlich bestimmten Gestalt; sie betrachten zu einem Teil die immer sich gleichbleibende Form, zum anderen Teil den einmaligen, in sich bestimmten Inhalt des wirklichen Geschehens. Die einen sind Gesetzeswissenschaften, die anderen Ereignisswissenschaften; jene lehren, was immer ist, diese, was einmal war. Das wissenschaftliche Denken ist – wenn man neue Kunstausdrücke bilden darf – in dem einen Falle nomothetisch, in dem andern idiographisch.“ (Můžeme tedy tvrdit, že vědy založené na zkušenosti zkoumají při poznávání skutečnosti buď univerzálie, které mají podobu přírodních zákonů, nebo jednotlivá fakta utvářená historickým kontextem; první vnímají jako formu neměnnou v čase, druhé jako události jednotlivé z hlediska obsahu. První jsou vědy o zákonech, druhé o [jednotlivých] událostech; první mluví o tom, co existuje a bude existovat vždy, druhé o tom, co se stalo jednou. Vědecké myšlení je – mám-li to vyjádřit novými termíny – v prvním případě nomotetické a v druhém idiografické. (Wilhelm Windelband, Inaugurační projev rektora Univerzity císaře Viléma ve Štrasburku, přednesený 1. května 1894; vlastní překlad). Dostupné na WWW: https://www.hs-augsburg.de/~harsch/germanica/Chronologie/ 19Jh/Windelband/win_rede.htm l
7 V polské klasifikaci věd jsou mediální studia součástí společenských věd.
8 Srov. také Górska 2012 a celé 21. číslo časopisu Culture and History (2012), věnované digitálním humanitním vědám v kultuře. Dostupné na WWW: http://www. kulturaihistoria.umcs.lublin.pl/pl/kultura-i-historia-nr-21201 2); Radomski, Bomba 2013; https://pl.wikitube.net/wiki/Culturomic s
9 Badatelé, kteří hledají informace o historii digitálních humanitních věd, využívají internetové zdroje, které mají stále více replik i v tištěné podobě. Mezi mnoha zdroji, které zde lze citovat, je první díl kolektivní monografie A Companion to Digital Humanities (Schreibman a kol. 2004), který se věnuje jazykovědě (lingvistice, lexikografii, klasické filologii), literární vědě, archeologii, teorii umění, historii a muzikologii. Nevyčerpatelným zdrojem historických informací jsou také archivy diskusního
1. Digitální humanitní vědy…
fóra Humanist (http://dhhumanist.org/), které vzniklo na počátku digitálního věku ( v roce 1987). Kapitola o historii digitálních humanitních věd je také obsažena v práci Pratiques de l‘édition numérique (Vitali-Rosati, Sinatra 2014, s. 49– 60). V Polsku se pokusili popsat přístupy k digitálním humanitním vědám z hlediska různých oborů mimo jiné Maciej Maryl (2014), Andrzej Radomski a Radosław Bomba (Radomski, Bomba 2013). Samostatným směrem výzkumu předchůdců dnešních digitálních humanitních věd jsou kvantitativní varianty základů některých oborů (např. lingvistika nebo kvantitativní historie – Köhler et al. 2005).
10 Podobný přístup zvolil i Maciej Maryl, který se však zaměřil především na filologický aspekt digitálních humanitních věd (Maryl 2014).
11 Koncept síťové inteligence má dlouhou vědeckou tradici. Za jeho nejznámější tvůrce a popularizátory lze považovat dva badatele: ukrajinsko-sovětského geochemika a přírodního filozofa (nota bene ateistu) Vladimira Vernadského a francouzského katolického teologa Petera Teilharda de Chardin. Oba psali ve 20. letech 20. století o „noosféře“, která měla být jakýmsi nehmotným prostorem rozumu, jenž představuje novou složku reality. Jejich představa evoluce předpokládala, že svět se vyvíjí od neživé hmoty (geosféry) přes živou hmotu (biosféru) k nehmotné hmotě (noosféře). Tito badatelé nepředvídali rozvoj informačních technologií a vznik globální počítačové sítě, neoperovali s pojmem informace a byli silně zatíženi teleologickým myšlením v hegelovském duchu (i když v případě katolického teologa to bylo méně zřejmé). I přes tyto nedostatky však jejich úvahy obohacují současné debaty o globálním světě informací pod nadvládou technologií a zasazují je do širokého filozofického kontextu.
12 Termín je převzat z filozofie, kde od 17. století znamená vědu o jsoucnu. V novém, zde používaném významu se objevuje ve 20. století v informatice a ve výzkumu umělé inteligence.
13 V současné době strojové učení využívá umělé neuronové sítě, které získávají znalosti z trénovacích korpusů připravených a anotovaných lidmi. Existuje také přístup založený na generování a/nebo porozumění textu na základě souborů pravidel. V případě přirozeného jazyka, který lze jen stěží považovat za koherentní logický systém, je však tento typ modelování obtížný a přináší omezené výsledky.
14 Takto chápaná emergence by neměla být zaměňována s autopoiézí, tedy spontánním vznikem systému bez účasti vnějších faktorů. Vznik v popsaném kontextu například předpokládá účast vnějšího faktoru, jako je technologie.
15 Popisy takových naplňujících se fantazií obsahují například díla Stanisława Lema, viz knihy jako Summa technologiae nebo Kyberiáda 1 Slavná francouzská Encyclopédie, ou dictionnaire raisonné des sciences, des arts et des métiers par une société de gens de lettres mis en ordre et publié par m. Diderot et m. D‘Alembert začal vycházet v roce 1751.
17 Tento jedinečný citát, který z de Saussura činí průkopníka konstruktivismu, uvádím v plném znění v originále i v překladu: „D‘autres sciences opèrent sur des objets donnés d‘avance et qu‘on peut considérer ensuite à différents points de vue; dans notre domaine, rien de semblable. Quelqu‘un prononce le mot français nu: un observateur superficiel sera tenté d’y voir un objet linguistique concret; mais un examen plus attentif y fera trouver successivement trois ou quatre choses parfaitement différentes, selon la manière dont le considère: comme son, comme expression d’une idée, comme correspondant du latin nūdum, etc. Bien loin que l’objet précède le point de vue, on dirait que c’est le point de vue qui crée l’objet [...].“ Česká verze: „Jiné vědy pracují s předem danými předměty, které lze nazírat z různých hledisek; v naší oblasti nic podobného není. Někdo vysloví francouzské slovo nu: povrchní pozorovatel bude mít tendenci v něm spatřit konkrétní jazykový předmět. Avšak pozornější zkoumání v něm odhalí postupně tři či čtyři zcela různé věci podle toho, jakým způsobem se nazírá: jako zvuk, jako výraz určité myšlenky, jako ekvivalent latinského nūdum atd Předmět ani zdaleka nepředchází hledisku, a dalo by se říci, že je to právě hledisko, které vytváří předmět (…).“ (DE SAUSSURE 1996, s. 44).
18 Nejjednodušším důkazem slabosti vídeňské koncepce byla, jak tvrdil Popper, nemožnost nalézt designát názvu „čistý empirický fakt“, obsažený v pojmu tzv. protokolární věty považované za nejjednodušší vyjádření určitého faktického stavu. Pop -
Od Gutenberga k Zuckerbergovi
per správně tvrdil, že každé vědecké zkoumání, i kdyby podloženo tou nejzákladnější zkouškou, musí využívat teorii, tedy to, co není empirické, neboť se rodí v mysli člověka. Kritizoval indukcionismus Francise Bacona a pokračovatele jeho názorů a mimo jiné napsal: „Čisté zkoumání, tedy zkoumání bez teoretické složky, neexistuje. Každé zkoumání, a zejména to v rámci experimentu, je interpretací faktů o světě.“ (POPPER 1997, s. 99). Odvolával se navíc na ne jen tak ledajakou autoritu: citoval samotného Galilea Galileiho: „[...] vznešenost těch myslí, které přijaly tyto názory [heliocentrickou hypotézu] a prohlásily je za pravdivé, překonávajíce svědectví vlastních smyslů bystrostí rozumu a dávajíce přednost tomu, co diktoval rozum, před tím, co bylo nejzřejměji dáno smysly a zkušeností..., mě přivádí k nepopsatelnému potěšení.“ (citováno in POPPER 1997, s. 97). Ačkoli je Popperova kritika silně spojena s problémem nedokonalosti smyslů (protiklad smyslového a racionálního poznání), týká se také otázky zdroje poznání v digitálních humanitních vědách. Zopakujme si tedy: tímto zdrojem nejsou data (i když jsou v procesu verifikace/falzifikace velmi užitečná), ale tvůrčí, teorií vyzbrojená lidská mysl.
19 O mnoho let dříve Heller vyjádřil tuto myšlenku akademičtějším jazykem: „Empirismus novopozitivistů neobstál před svým vlastním radikalismem. Především Carnapovi vděčí Vídeňský kruh za pochopení, že tento druh extrémního empirismu není ve vědě konstatováním faktu, ale postulátem, a to postulátem nerealizovatelným. Žádná významná fyzikální teorie nemůže být redukována na soubor čistě empirických vět; vždy obsahuje určitou ,teoretickou nadstavbu‘ [...], jejímž prostřednictvím se stává logickou strukturou schopnou vstoupit do rezonance se strukturou světa.“ (HELLER 1992, s. 27).
20 Název crowdsourcing vznikl jako analogie k outsourcingu. Zatímco outsourcing je obchodní model, který spočívá v zadávání určitých úkolů externím subjektům za odpovídající honorář, crowdsourcing zahrnuje využívání dobrovolné práce obvykle výměnou za nehmotné výhody – například uspokojení z účasti v jedinečném projektu nebo prosté získání zkušeností.
21 http://www.elra.info/en/
22 http://www.elra.info/en/about/elda/
23 https://www.clarin.eu/
24 https://www.dariah.eu/
25 https://classic.europeana.eu/
2 Příkladem takového prohlášení je Manifeste des Digital humanities zveřejněný v roce 2011, který sepsal francouzský výzkumník Marin Dacos a skupina účastníků konference THATCamp digital humanities (Paříž, 18.–19. května 2010). Dokument obsahuje řadu programových požadavků a je veden v nadšeném, emotivním tónu, připomínajícím ideologické či umělecké manifesty (jeho polskou verzi připravil před lety autor těchto slov). Srov. https://tcp.hypotheses.org/1059
27 Genetická informace živého organismu se množí ve všech jeho buňkách; samotný proces rozmnožování zahrnuje také produkci obrovského množství různých typů spor, z nichž každá zvlášť je křehká a nestálá.
28 Tato dohoda byla podepsána v Bernu v roce 1886 a později byla několikrát upravena. Její plný název zní Bernská úmluva o ochraně literárních a uměleckých děl.
29 Viz https://creativecommons.pl/
30 Filozofickým pozůstatkem tohoto přístupu jsou názory Jacquese Derridy na roli jazyka v poznávacích procesech a zejména na logocentrismus vědy a západní kultury. Vzhledem k profilu této publikace se zde tímto konceptem nezabývám.
31 Je obtížné považovat za programový spor koexistenci vědců, kteří považují empirický výzkum (korpusový, terénní atd.) za nadřazený, a těch, kteří hledají teorie a/ nebo obecné zákony prostřednictvím intelektuálního výzkumu. První přístup, který odkazuje na pozitivismus a empiriokriticismus, je typický právě pro digitální humanitní vědy.
32 Možná se jedná o součást obecnějšího procesu, který probíhal v kultuře na přelomu 20. a 21. století. Historik idejí a civilizace profesor Jerzy Jedlicki popisuje tento jev následovně: „[...] Máme co do činění se situací, kdy se rodiče učí od svých dětí,
1. Digitální humanitní vědy…
vnoučata se lépe orientují ve světě než prarodiče – ne proto, že by byla vzdělanější, jak tomu koneckonců bývalo i v minulosti, ale proto, že jsou od prvních let svého života zasazena do světa neustálých nových pomůcek, nových jazyků a nových podnětů. V důsledku toho se zdá, že mezigenerační poselství ztrácí svůj význam, protože historie již neposkytuje užitečné vzory nebo varování. Možná se před našima očima odehrává velká kulturní mutace, i když je pravděpodobně příliš brzy tvrdit to s jistotou, protože takové procesy mají tendenci vracet se zpět.“ (JEDLICKI 1999, s. 120)
33 Ne bez jistého osobního zadostiučinění mohu dodat, že zvláštní roli v přechodu od starého k novému v humanitních a společenských vědách hraje hraniční generace, která je stále vychována ve starém paradigmatu papírové knihy a tisku, respektuje staré principy lineárního, pomalého, hloubavého a individualizovaného čtení, ale je již schopna pochopit mechanismy vědy v digitálním světě.
34 Tento problém není v širším mezinárodním kontextu zřejmý. V akademických systémech některých zemí již dlouho existují možnosti kombinovat poměrně vzdálené specializace (příkladem je Švýcarsko). Poskytování víceoborových studií v zemích Evropské unie měl zajistit boloňský systém, stejně jako různá lokální řešení (například mezioborová studia). Skutečná dostupnost takových studií je však nízká.
35 Podle mého názoru je vůbec nejlepším příkladem úspěšného přenosu poznatků z přírodních věd do širších humanitních a společenských věd (včetně filozofie) teorie informace Clauda Shannona, která vznikla adaptací konceptu termodynamiky na zcela jiné prostředí (Shannon 1948, Shannon, Weaver 1949). Za úspěšné je třeba považovat i studium statistických jazykových zákonů, vyjadřujících ve formě funkčních modelů univerzální vztahy v jazyce (Köhler et al. 2005).
3 Podle koncepce K. L. Pikea rozlišuje kulturní antropologie dva vzájemně se doplňující výzkumné přístupy. První z nich, označovaný jako émický (ang emic), je veden z pohledu vnitřního pozorovatele. Respektuje individualitu a jedinečnost zkoumaného objektu, objevuje a rekonstruuje jeho specifickou mřížku pojmů a hodnot – a proto není přenositelný na jiné kulturní objekty. Druhý, označovaný jako etický (ang etic), zahrnuje vnější perspektivu a vřazení zkoumaného objektu do sítě pojmů a hodnot, které jsou mu cizí. Etické modely tedy nerespektují individuální identitu zkoumaného objektu, ale mají univerzální charakter, který umožňuje srovnávání a zobecňování.
37 Neexistuje například žádný tradiční ekvivalent dnešních textových korpusů jako reprezentativní simulace spontánního používání.
38 Podobně jsou anotovány i opakující se motivy v obrazech.
39 Příkladem je interaktivní mapa místních jmen (toponym) obsažená v záznamech katalogu polské Národní knihovny: http://phc.uni.wroc.pl/wbw/ .
40 Srov. Encyclopedia of Romantic Nationalism in Europe: https://ernie.uva.nl/ viewer.p/21/72/types/all/ge o
41 V polském originále „Cyprysy mówią, że to dla Julietty / Że dla Romea – ta łza znad planety / spada... i groby przecieka // A ludzie mówią, i mówią uczenie, / Że to nie łzy są, ale że kamienie, / I – że nikt na nie... nie czeka! “ Citát pochází z básně Cypriana Kamila Norwida W Weronie (Ve Veroně).
BIBLIOGRAFIE
BOLTER, J. D. Przestrzeń pisma: komputery, hipertekst i remediacja druku. Krakov: Korporacja Ha!art; Bydgoszcz: Miejskie Centrum Kultury, 2014. CELIŃSKI, P. Renesansowe korzenie cyfrowego zwrotu. In: RADOMSKI, A. a R. BOMBA (eds.). Zwrot cyfrowy w humanistyce. Lublin: E-naukowiec, 2013, s. 13–35.
EDER, M. Metody ścisłe w literaturoznawstwie i pułapki pozornego obiektywizmu: przykład stylometrii. Teksty Drugie. 2014, č. 2, s. 90–105.
Od Gutenberga k Zuckerbergovi
EDER, M. Does size matter? Authorship attribution, short samples, big problem. Journal of Digital Scholarship in the Humanities. 2015, roč. 2, č. 30, s. 167–182.
FLECK, L. Powstanie i rozwój faktu naukowego. Lublin: Wydawnictwo Lubelskie, 1986.
GÓRALSKA, M. Piśmienność i rewolucja cyfrowa. Vratislav: Wydawnictwo Uniwersytetu Wrocławskiego, 2012.
GÓRNICKI, L. Rozwój idei praw autorskich: od starożytności do II wojny światowej. Vratislav: Prawnicza i Ekonomiczna Biblioteka Cyfrowa, 2013
GÓRSKA, K. Kulturomiczny cul de sac? O nowym podejściu w naukach o kulturze. Kultura i Historia. 2012, č. 21. Dostupné na WWW: http://www.kulturaihistoria.umcs.lublin.pl/pl/archives/3280 .
HELLER, M. Filozofia nauki. Krakov: Wydawnictwo Naukowe Papieskiej Akademii Teologicznej w Krakowie, 1992.
HELLER, M. a S. KRAJEWSKI. Czy fizyka i matematyka to nauki humanistyczne? Krakov: Copernicus Center Press, 2014.
JEDLICKI, J. O pamięci i odpowiedzialności zbiorowej. In: JANOWSKA, K. a P. MUCHARSKI (eds.). Rozmowy na koniec wieku 3. Krakóov: Wydawnictwo Znak, 1999, s 107–120.
KAMIŃSKI, S. Mauka i metoda. Pojęcie nauki i klasyfikacji nauk. Lublin: Towarzystwo Naukowe Katolickiego Uniwersytetu Lubelskiego, 1998.
KÖHLER, R., ALTMANN, G. a R. PIOTROWSKI. (eds.). Quantitative Linguistik / Quantitative Linguistics. Ein Internationales Handbuch / An International Handbook. Berlin, New York: Walter de Gruyter, 2005.
MARYL, M. Odświeżanie filologii. Teksty Drugie. 2014, roč. 146, č. 2, s. 9–20.
MATURANA, R. H. From being to doing: the origins of the biology of cognition. Heidelberg: Carl-Auer-Verlag, 2011.
MATURANA, R. H., VARELA, F. J. The tree of knowledge: the biological roots of human understanding. Boston, Mass., London: Shambhala, 1998.
MICHEL J.-B-, SHEN Y. K., AIDEN A. P., VERESA., GRAY M. K. The Google Books Team, PICKETT J. P., HOIBERG D., CLANCY D., NORVIG P., ORWANT J., PINKER S., NOWAK M.A., AIDEN E. L. Quantitative Analysis of Culture Using Millions of Digitized Books. Science. 2011, roč. 14, č. 331, s 176–182.
PAWŁOWSKI, A. Bibliologiczne źródła historii lingwistyki kwantytatywnej. Grecja antyczna. In: BIEŃKOWSKA, B., KOCÓJOWA, M., KOMZA, M. et al. (eds.). Książka zawsze obecna. Prace ofiarowane Profesorowi Krzysztofowi Migoniowi. Vratislav: Wydawnictwo Uniwersytetu Wrocławskiego, 2010.
PAWŁOWSKI, A. a T. WALKOWIAK. Analysis of Toponyms from the Polish National Bibliography. In: Proceedings of the 6th International Workshop on Computational History (HistoInformatics 2021) co-located with ACM/IEEE Joint Conference on Digital Libraries 2021 (JCDL 2021), 30 . 9 . 2021 . POPPER, K. R. Mit schematu pojęciowego: w obronie nauki i racjonalności . Waršava: Książka i Wiedza, 1997.
RADOMSKI, A. a R. BOMBA (eds.). Zwrot cyfrowy w humanistyce Internet – Nowe Media – Kultura 2.0. Lublin: E-naukowiec, 2013.
1. Digitální humanitní vědy…
RYBICKI, J. a M. EDER. PCA, Delta, JGAAP and Polish poetry of the 16th and the 17th centuries: who wrote the dirty stuff? Digital Humanities 2009. Conference Abstracts. University of Maryland, College Park (MA), 2009, s. 242–44.
RYBICKI, J. a M. EDER. Deeper Delta across genres and languages: do we really need the most frequent words? Literary and Linguistic Computing 2011, roč. 26, č. 3, s. 315–21.
SAUSSURE, F. Cours de linguistique générale. Publié par Charles Bally. Lausanne: Payot, 1916.
SAUSSURE, F. Kurz obecné lingvistiky. Praha: Academia, 1996.
SCHREIBMAN, S., SIEMENS, R. a J. UNSWORTH. (eds.). A Companion to Digital Humanities. Oxford: Blackwell, 2004. Dostupné na WWW: www. digitalhumanities.org/companion/.
SHANNON, C. The Mathematical Theory of Communication. Bell System Technical Journal. 1948, č. 27, s. 379–423.
SHANNON, C. a W. WEAVER. The Mathematical Theory of Communication . Urbana: University of Illinois Press, 1949.
SHILLINGSBURG, P. L. Od Gutenberga do Google’a: elektroniczne reprezentacje tekstów literackich. Varšava: Instytut Badań Literackich PAN, 2020
VITALI-ROSATI, M. a M. E. SINATRA (eds Pratiques de l’édition numérique. Montréal: Presses de l’Université de Montréal, 2014.
Kapitola 2
Zvuky řeči v digitálních
humanitních vědách
Abstrakt
Kapitola představuje vybrané otázky týkající se výzkumu mluveného jazyka prováděného s využitím databází záznamů řeči, ať už monologů, dialogů nebo polylogů. Zabývá se některými otázkami týkajícími se návrhu scénářů nahrávek a tvorbou a praktickým využitím digitálních nahrávacích zdrojů. Referuje o možnostech a výzvách vývoje a zkoumání anotace řečových nahrávek v kontextu studia jazykových rysů i parajazykových projevů. Pozornost je rovněž věnována užitečnosti multimodálních dat, vícevrstvé anotaci nahrávek při studiu konverzačních interakcí i při praktickém využití řečových technologií. Úvahy v této kapitole jsou ilustrovány příklady nahrávek, jejich anotací i databází nahrávek.
Mluvená řeč jako základní a prvotní způsob lidské komunikace
Lidská komunikace je především komunikace mluvená. Když si dítě osvojuje mateřský jazyk, napodobuje nejprve řeč, gesta a chování rodičů a teprve mnohem později si osvojuje (nebo ne) dovednosti psaní a čtení. Po celá staletí se naprostá většina jazyků předávala zejména ústním podáním. Pro zajištění základních životních potřeb byla (a stále je) tato forma přenosu dostačující. Ještě dnes existují na světě jazyky, pro které nebyly vytvořeny žádné propracované formy písma,
Od Gutenberga k Zuckerbergovi
jazyky, u nichž absentuje rozsáhlá dokumentace, slovníky, stanovené popisy jazykových struktur. Přesto jsou to jazyky živé, používají se v každodenní komunikaci a předávají se v nich znalosti z generace na generaci. Podle 24. vydání Ethnologue (Eberhard et al. 2022) má ze 7139 živých jazyků pouze 4065 vyvinutý systém písma, přičemž není vždy jasné, zda se existující systémy písma aktivně používají v praxi. Je tomu tak i přesto, že v kontextu ohrožených jazyků je rozvoj spisovných variet, rozvoj jazykové dokumentace, považován za jeden z faktorů, které jsou podmínkou zachování jazykové identity (například Wicherkiewicz 2016), a také za faktor upevňování znalostí o jazyce a jeho mluvčích. Psaná řeč, ačkoli je v diskutovaném kontextu vůči řeči druhořadá, se ve srovnání s tradicí ústního předávání dlouho používala jako účinný prostředek k uchování předávaného obsahu. Písmo po staletí umožňovalo předávat dalším generacím díla v daném jazyce, stejně jako texty poskytující znalosti o jazyce a kultuře s ním spojené.
Záznam multimediálních dat kdysi a dnes
Ve srovnání s dějinami písemných archivů je historie zvukových a obrazových záznamů velmi krátká. První úspěšné pokusy o záznam zvuku se datují do druhé poloviny 19. století. Teprve v roce 1857 vynalezl Édouard-Léon Scott de Martinville první záznamové zařízení zvané fonoautograf; v následujících desetiletích došlo k rychlému rozvoji zařízení pro záznam a reprodukci zvuku a později i pohyblivého obrazu. V roce 1877 Thomas Alva Edison vyvinul fonograf, který umožňoval záznam i reprodukci zvuku. „Nástupcem“ fonografu byl gramofon, který si v roce 1887 nechal patentovat Emil Berliner, a gramofonová deska ve tvaru disku coby paměťové médium. Nejstarší desky používané jako nosiče byly vyrobeny z různorodých materiálů, například z vosku, mosazi, mědi, následovaly vinylové desky a ještě později různé typy pásků, nejprve kovových, později nahrazených lehčími a stabilnějšími pásky z papíru a plastu. Počátek popularity magnetofonových pásek souvisí s vynálezem Valdemara Poulsena: telegrafem (1899). Původní funkcí tohoto zařízení byl první záznamník. Pásky se osvědčily nejen pro zvukové nahrávky, ale také pro nahrávání filmů. V roce 1892 vynalezl Thomas Alva Edison kinetoskop, přístroj, kterým bylo možné sledovat filmy. Krátce poté, v roce 1895, sestrojili bratři Auguste a Louis Lumièrové kinematograf, který promítal němé filmy na plátno. Filmy se nahrávaly na magnetofonové pásky; první filmy byly velmi krátké (několik metrů pásky, na které se natáčelo jen několik desítek sekund) a až do 20. let 20. století neobsahovaly synchronizovaný zvuk. Prvním filmem
2. Zvuky řeči v digitálních humanitních vědách
se synchronizovanými dialogy byl The Jazz Singer, promítaný v roce 1927 .
Důležitým krokem v miniaturizaci a dostupnosti nahrávacích zařízení byla masová výroba cívkových magnetofonů ve druhé polovině 20. století. Na jednu pásku se vešlo od několika desítek až po několik set minut záznamu. Skutečně velkým krokem vpřed, pokud jde o množství uložených dat, však byla „digitální revoluce“ na konci 20. století, která vedla k přeměně analogových archivů na digitální. K podobnému přenosu technologií došlo i v oblasti fotografie, videa, textových zpráv (používání e-mailu a instant messagingu), což umožnilo zpracovávat a uchovávat téměř neomezené množství dat.
Kvalita záznamu analogových nahrávek závisí na různých technických faktorech, jako je čistota záznamové hlavy, přesnost jejího umístění vůči pásku (nebo disku) a další. Digitální záznam může být oproti tomu prakticky bezeztrátový (při správné volbě parametrů rekordéru) a jeho kvalita se při kopírování nebo přenosu dat nezhoršuje. Kromě toho je doba vyhledávání digitálních dat mnohem kratší než u dat v analogových formátech. Digitální data lze účinně komprimovat, takže je zapotřebí mnohem menší úložná kapacita. Zařízení pro ukládání digitálních dat (mikrodisky nebo paměťové karty, SD karty, pevné disky, CD nebo DVD) se rovněž vyznačují malými rozměry. Další vlastností těchto zařízení je, že obvykle nemají žádné pohyblivé, rotující části, což je činí ještě spolehlivějšími a bezpečnějšími. Průlom v oblasti zpracování a archivace digitálních dat ve 21. století umožnila mimo jiné masová výroba hardwaru a softwaru, a to jak na úrovni osobních počítačů a stále výkonnějších mobilních zařízení, tak serverových infrastruktur a takzvaných cloudových řešení, jejichž principem je využití řady (často) výkonných počítačů, počítačových služeb a aplikací, které spolupracují. Tyto technologie umožnily nahrávat a ukládat velké množství multimediálních dat v reálném čase a rychle je zpracovávat, a tak se stalo možné experimentálně analyzovat multimodální komunikaci na základě velkých korpusů nahrávek řeči a obrazu.
Při oceňování výhod digitálních zdrojů, nástrojů a médií musíme mít na paměti, že tyto zdroje nejsou stoprocentně trvanlivé a spolehlivé, zejména v kontextu dlouhodobého uchovávání informací. Média se mohou opotřebovat (mnozí výrobci uvádějí maximálně 10–15 let řádného fungování), poškodit fyzikálními, elektrickými nebo magnetickými vlivy. Proto je nutné zavést politiku správy dat, která uživatele chrání před jejich ztrátou, například vytvářením záložních kopií, používáním vhodných datových formátů nebo technik správy dat atd. (viz například Borghoff a kol. 2006).
Od Gutenberga k Zuckerbergovi
Řeč jako jedna ze složek komunikační situace
Při úvahách o tom, jak můžeme studovat a využívat zvuky řeči v kontextu digitálních humanitních věd, je třeba vzít v úvahu několik faktorů, které na jedné straně vyplývají z povahy lidské komunikace, a na straně druhé mohou ovlivnit rozhodnutí přijatá v procesech vývoje dat a nástrojů pro počítačovou analýzu a zpracování mluvené řeči. Zvuky řeči jsou obvykle vyslovovány jako součást delších forem výpovědi – slov, frází (více či méně ucelených), vět nebo delších textů, jejichž výsledná podoba závisí nejen na mluvčím, ale také na situaci, v níž svůj projev pronáší. Záleží například na účelu sdělení. Dokonce i naprosto stejná slova mohou znít jinak, když jsou vyslovena primárně za účelem předání nebo získání informací, jinak, když jde o přesvědčování nebo reklamu, a ještě jinak, když je sdělení především vyjádřením emocí mluvčího.
V komunikačních situacích je přirozené, že řečové signály obsahují kromě zvuků, které jsou nesporně součástí jazykového systému, i další zvuky, například zvuky signalizující váhání, někdy nazývané také steny myšlenek nebo vyplněné pauzy. Váhavé zvuky není vždy snadné jednoznačně klasifikovat či zapsat. Někdy jsou však jazykově specifické – např. polští mluvčí rádi používají vyplněné pauzy, které lze zapsat jako „yyyy“ nebo „eee“, zatímco angličtí mluvčí v podobné situaci často použijí například „um“ nebo „ah“, a takových příkladů je více. Z tohoto důvodu se váhavé zvuky počítají mezi takzvané parajazykové složky řeči, i když se někdy považují také za zcela oddělené od jazyka, tedy Za mimojazykové (viz například přehled in: Schötz 2002). Součástí mluveného sdělení jsou také akustické pauzy, různé druhy interjekcí, nedokončené nebo dokonce nesrozumitelné sekvence řeči. Přestože se tyto další složky řeči vymykají kategorizaci v rámci striktně lingvistického popisu, jsou nepochybně nedílnou součástí komunikace (například Karpiński 2012), mohou podporovat nebo narušovat její efektivitu a uplatňují se i v aplikačních kontextech, například při výuce jazyka (Pennycook, 1985) nebo při konstrukci systémů řečových technologií, včetně syntézy řeči a automatického rozpoznávání řeči a mluvčích (viz například série Interspeech Paralinguistic Challenge, Schuller et al. 2010). Když mluvíme, vyjadřujeme nejen obsah sdělení související s významem slov. K textu výpovědi „připojujeme“ své emoce, postoje k příjemcům sdělení, komunikační situaci, vnějšímu prostředí. Mluvená komunikace závisí na vlastnostech a psychofyziologických predispozicích mluvčích, jejich kondici, zdravotním stavu nebo temperamentu. Lze ji chápat jako holistickou, komplexní komunikační událost, kde je řečový signál důležitou, nikoli však jedinou složkou (srov. Himmelmann, 1988; 2006).
2. Zvuky řeči v digitálních humanitních vědách
Spontánní výpovědi a nahrávací scénáře
Záznamy řeči se pořizují pomocí nahrávacího zařízení a příslušného počítačového softwaru. Místem nahrávání mohou být prostory připravené speciálně pro tento účel (nahrávací studia, anechoické komory), ale také se, třeba v případě nahrávání zaměřeného na jazykovou dokumentaci, nahrává v terénu, v bytech, kancelářích, knihovnách, někdy i na volném prostranství. To znamená, že nahrávky řeči se mohou značně lišit, zejména pokud jde o přítomnost a povahu zvuků z pozadí, které jsou v nahrávce přítomny: šumů, ruchů (viz shrnutí akustických vlastností nahrávacího prostředí in: Karpiński a Klessa 2021, s. 28–30). V případě pořizování digitálních záznamů zpracováním archivních nahrávek analogové podoby (například Plichta a Kornbluh 2002) je třeba navíc zohlednit vlastnosti zdrojového materiálu tak, aby mohl být co nejvěrněji zachován v digitální podobě při zachování optimální (co nejvyšší) kvality, ale také velikosti souborů, která umožňuje dlouhodobé uložení.
Proces přípravy konkrétní nahrávky závisí na typu nahrávek, jímž se tvůrci repozitáře zabývajhí, a na účelu repozitáře – tím může být získávání nových poznatků v oblasti základního foneticko-akustického, artikulačního, sociolingvistického, psycholingvistického, neurolingvistického výzkumu, archivace, dokumentace jazyků nebo praktické využití v oblasti didaktiky, terapie či řečové techniky.
V každém případě jedním z klíčových kroků v procesu tvorby jazykových zdrojů je definování způsobu pořízení nahrávek, příprava průběhu nahrávání a s ním souvisejících postupů – takzvaného. nahrávacího scénáře. Hovoříme-li o nahrávkách řeči, můžeme mít na mysli velmi široké spektrum zdrojů od nahrávek spontánní či téměř spontánní řeči přes nahrávky poněkud kontrolovanějších projevů, jako jsou předem připravené projevy, inscenace, debaty, rozhovory až po čtené souvislé texty nebo seznamy izolovaných slov, zvuků, slabik přesně vybraných experimentátorem (viz také Karpiński a Klessa 2021, s. 15–19).
Obrázek 1 ukazuje fotografii pořízenou během rozhovoru s několika staršími respondenty, Texasany polského původu, jejichž předkové přišli do USA z oblasti Velkopolska. Nahrávky byly pořízeny v sále muzea v Chappell Hill v Texasu, který respondenti dobře znají. „Nahrávání“ mělo v tomto případě podobu setkání v uvolněné rodinné atmosféře. Úryvky ze záznamu rozhovoru si můžete poslechnout na adrese http://colingua.eu/polonia-chappell-hill/, kde byly zveřejněny i další informace o účastnících setkání. Účastníci nahrávek hovořili dodnes živým velkopolským dialektem 19. století, ovlivněným americkou angličtinou, o svých polských kořenech, jídle, svátcích, tradicích a zvycích, z nichž některé se dodnes zachovaly v živé kultuře, zatím-
Od Gutenberga k Zuckerbergovi
co jiné jen ve vzpomínkách a díky ústnímu tradování. V dokumentární lingvistice je zcela běžnou praxí zaznamenávat projevy právě za takových neformálních okolností, které podporují svobodu projevu. Je však samozřejmé, že z technického hlediska je pak třeba připustit, že se v nahrávkách mohou vyskytovat další zvuky v pozadí a že se výpovědi mluvčích mohou překrývat. V případech, jako je tento, kdy jsou zaznamenány projevy jednoho z mála mluvčích daného jazyka nebo dialektu, je ovšem důležité využít i (často jedinečné) příležitosti archivovat a připomenout nejen zvuk řeči, ale i obsah projevu.
Není vždy možné pozvat účastníky do studia, proto je někdy nutné přistoupit na kompromisy ohledně kvality. Nicméně i nahrávky pořízené v terénu mohou být pro digitální aplikace užitečné – zejména pokud jsou pořízeny pomocí kvalitního nahrávacího zařízení a pokud je co nejvíce dbáno na to, aby byl prostor na jedné straně pohodlný pro účastníky a na druhé straně co nejtišší a bez ozvěny.1
Obrázek 1. Nahrávání v Muzeu historické společnosti v Chappell Hill v Texasu s potomky Poláků, kteří přišli do USA z Velkopolska ve 30. letech 19. století. Na obrázku: Blanch Jóżwiak Kołajajak, Annie Jóżwiak, Piotr „Pete“ Mazurkiewicz, Pauline Kopeć Mazurkiewicz (archiv autorky kapitoly v projektu COLING, vidět Sekce Poděkování).
Jiný příklad nahrávacího prostředí ilustruje obrázek 2, pořízený v tlumené kabině nahrávacího studia během nahrávání s mluvčím latgalštiny, jazyka, kterým se mluví v lotyšské zemi Latgalsko (Nau, 2011). Informace o historii latgalštiny, její genetické klasifikaci, statusu a příklady psaných a mluvených textů s popisem a transkripcí lze nalézt na webových stránkách Jazykového dědictví Polské republiky (Dziedzictwo językowe Rzeczypospolitej): http://inne-jezyki.amu. edu.pl/Frontend/Language/Details/1 (viz též Klessa a Wicherkiewicz 2015). K latgalštině se dnes hlásí asi 150–200 tisíc lidí, patří k těm
2. Zvuky řeči v digitálních humanitních vědách
méně zdokumentovaným jazykům, mimo jiné i z hlediska podrobného popisu zvukového systému. Pro vytvoření takového systematického popisu je k dispozici jen málo záznamových zdrojů. Scénář nahrávání byl sestaven tak, aby došlo k vytvoření nahrávky izolovaných výrazů, jejichž vizualizace byly účastníkům postupně prezentovány na monitoru. Předpokladem bylo získat nahrávky názvů činností nebo předmětů v latgalštině. Pojmenování některých předmětů v tomto jazyce se v jednotlivých oblastech liší (Blinkena a Baldunčiks 1995).
Zde bylo hlavním cílem výzkumu získat poznatky o dané varietě a zároveň pořídit kvalitní nahrávky řeči v latgalštině jako soubor dat, který by umožnil provést základní foneticko-akustickou analýzu a zároveň by byl vhodný pro použití v multimediálních materiálech pro popularizaci znalosti latgalštiny.
Obrázek 2. Nahrávání řeči v latgalštině (zde symbol ilustrující plavání). Nahrávání v rámci projektu COLING, nahrávací studio Fakulty neofilologie Univerzity Adama Mickiewicze v Poznani. Foto s laskavým svolením Edīte Husare a Elmārs Pēterāns, zdroj ilustrace na obrazovce: https:// cutt.ly/swAtuVIJ) .
Ačkoli by pro některé účely bylo pravděpodobně žádoucí použít nahrávky skutečně spontánní řeči, je to často velmi obtížné nebo dokonce nemožné. Důvodem jsou mimo jiné právní a etické otázky. V mnoha zemích není dovoleno nahrávat lidi bez jejich vědomí a souhlasu, jakmile ale respondenty upozorníme, že bude jejich řeč nahrávána, je velmi pravděpodobné, že se dostaví efekt dodatečné kontroly související s vědomím, že jsou nahráváni, a řeč již nebude
Od Gutenberga k Zuckerbergovi
spontánní. Na jedné straně se respondenti chovají a mluví spontánně, když nejsou pozorováni, a na druhé straně je pro získání poznatků o spontánním chování nutné systematické pozorování. Tento jev nazývá Labov (1972, s. 209) „paradoxem pozorovatele“.
Dalším tématem jsou technické problémy, protože i za předpokladu, že by bylo možné získat zcela spontánní nahrávky, například z policejních odposlechů (což může být při správném postupu po již ukončeném soudním řízení proveditelné), budou stejně jako nahrávky z terénu mimo studio obsahovat mnoho neočekávaných šumů, nekontrolovaných zvuků v pozadí, promluvy různých, často neznámých účastníků rozhovoru apod. Odposlechy jsou ze své podstaty nahrávány malými nahrávacími zařízeními, která lze ukrýt mimo přítomnost nahrávaných osob, a proto je technická kvalita pořízeného záznamu o to horší.
Poměrně oblíbeným kompromisním řešením je použití scénáře založeného na takzvaném dialogu se zadáním (viz například Anderson et al., 1991; Grice, Savino 2004). Prvním korpusem nahrávek polských dialogů se zadáním je korpus PoInt (Polska Intonacja) (například Karpiński 2006), který obsahuje mimo jiné nahrávky diskusí o filmových hercích nebo společné dedukce zaměřené na určení cesty z/do určitého místa (takzvaný mapový úkol, ang. maptask). Podstatou dialogu se zadáním je navrhnout scénář nahrávání tak, aby se účastníci rsoustředili především na téma rozhovoru, aby se zapojili natolik, že zapomenou, že je rozhovor nahráván, „pozorován“, že se odehrává v neobvyklém prostředí, například v akusticky tlumené místnosti nahrávacího studia nebo za (byť pasivní) účasti třetích osob . Scénáře dialogů se zadáním mohou zahrnovat aspekty elicitace mluveného projevu v různých stylech. Zadání mohou mít kolaborativní povahu, kdy účastníci spolupracují na dosažení určitého cíle, například vyřešení hádanky nebo vytvoření návrhu podle pokynů. Mohou mít také charakter soutěžní – v takovém případě jsou pokyny strukturovány tak, aby účastníci debatovali mezi sebou a předkládali protichůdné argumenty. V případě multimodálních sbírek s videozáznamem lze scénáře sestavit také tak, že se zaměří na studium gest nebo mimiky, které jsou nedílnou součástí lidské komunikace.
Obrázek 3 ukazuje záběry z kamer, které zaznamenávají jeden z dialogů v polsko-německém multimodálním korpusu nahrávek gymnaziálních studentů Borderland.2 Účastníci byli částečně anonymizováni transformací obrazu v grafickém programu, a to z důvodu omezení zveřejnění podoby zaznamenaných osob. Nahrávání probíhalo v tichých, částečně odhlučněných třídách školy, kterou dotazovaní navštěvovali. Korpus obsahuje nahrávky kolaborativních a soutěžních dialogů středoškoláků z okolí Słubic a Frankfurtu nad Odrou. Nahrané dialogy obsahují promluvy v polštině, němčině, ale
2. Zvuky řeči v digitálních humanitních vědách
také smíšené promluvy polsko-německé, a jsou zde i vsuvky v angličtině, které někdy studenti různých národností, kteří spolu hovořili, dávali přednost. Cílem projektu bylo zkoumat jak vlastnosti řeči, tak i gestikulace a mimiky u mladých lidí z tohoto jazykově a kulturně specifického regionu (viz Karpiński et al. 2018 a Jarmołowicz-Nowikow 2019), z čehož vyplývá potřeba pořizovat obrazové záznamy a používat scénáře dialogů se zadáním, které zohledňují neverbální, vizuální rovinu komunikace.
Obrázek 3. Účastníci (částečně anonymizovaní) nahrávání v rámci korpusu dialogů se zadáním z řad gymnaziálních studentů škol v polskoněmeckém pohraničí ve Słubicích a Frankfurtu nad Odrou. Foto: archiv projektu Borderland (Karpiński et al. 2018).
Aby se minimalizoval význam výše zmíněného „paradoxu pozorovatele“, dochází k podobným pokusům jako v případě základny JST/CREST (Campbell 2002), kdy nahrávané osoby nosí nahrávací zařízení delší dobu, například několik měsíců, s tím, že je mohou kdykoli zapnout a vypnout, takže si po určité době na zařízení natolik zvyknou, že přestanou věnovat pozornost tomu, že jsou nahrávány, a předpokládá se, že jejich jazykové chování se stane (téměř) spontánním . Například pro projevy v polštině byly podobným způsobem získány nahrávky čtyř matek hovořících se svými dětmi, kojenci. 3 Každá matka dostala nahrávací zařízení na dobu přibližně dvou měsíců. Pokyny pro záznam byly ve všech případech stejné. Výsledkem byl materiál, který byl na jedné straně nesmírně zajímavý a podle subjektivního hodnocení vědců (i samotných účastníků) do značné míry spontánní. Na druhou stranu se ukázalo, že sbírka nahrávek je velmi různorodá z hlediska akustiky (různá nahrávací prostředí) i množství – účastníci poskytli od několika málo až do padesáti hodin nahrávek.
Od Gutenberga k Zuckerbergovi
Popis nahrávek řeči
Obvykle se již ve fázi návrhu scénářů nahrávek plánuje způsob jejich pozdějšího popisu. Některé soubory mohou úspěšně sloužit jako zdrojový materiál pro několik různých účelů. Předpokladem je jejich správná organizace a popis, včetně metadat, která jsou nejstručněji definována jako „data popisující jiná data“, nebo ještě stručněji „data o datech“. Předpokládáme-li, že ve foneticko-akustickém výzkumu budou daty akustické informace ze zvukového souboru a s nimi synchronizované transkripce, pak by metadata mohla zahrnovat další informace o mluvčích (například pohlaví, věk, region původu, vzdělání, zdravotní stav, rodinná nebo sociální situace), informace o nahrávacím prostředí (akustické vlastnosti okolí, zvuky v pozadí) nebo o technice nahrávání (použité zařízení, software). Záznamy s bohatým strukturovaným popisem se mohou stát užitečnými z hlediska opakovaného použití, nových aplikací a dostupnosti pro širší okruh uživatelů (viz také Ide a Pustejovsky 2010).
Vícevrstvá anotace nahrávek
Vzhledem k mnohovrstevnatosti procesu lidské komunikace (Laver 1994, s. 13–23) se stále častější praxe popisu nahrávek řeči pomocí několika synchronizovaných vrstev anotace jeví jako vhodná.
Takové popisy se obvykle vytvářejí hybridním způsobem. Část práce se provádí automaticky, část stále ještě ručně. Příkladem je segmentace nebo (možná především) korekce automatické segmentace nahrávek, prováděná odborníky na základě poslechu a vizuální kontroly obrazu řečového signálu (spektrogramy, amplitudově-časové diagramy, spektrální analýzy atd.). Podobné popisy pro zvuk řeči byly zavedeny již v 50. letech 20. století, kdy společnost Kay Electric Co. představila komerční spektrografy. První instrumentální analýzu spektrografických obrazů řečových signálů pro polštinu představil Wiktor Jassem (1973) na základě dat získaných od deseti mluvčích. Tento výzkum si vyžádal značné časové nároky a úsilí, stejně jako vynikající technické znalosti při obsluze zařízení, aby bylo možné měřit a vytvářet obrazy zvukového signálu s požadovanými parametry
Digitální technologie dnes umožňují zpracovávat mnohem větší soubory dat mnohem rychleji. Nejenže je k dispozici více diskových úložišť, ale některé úkoly přebírají počítačové programy jako je Praat, ELAN nebo Annotation Pro (srov. Boersma a Weenink 1992–2021; Wittenburg et al. 2006; Klessa et al. 2013), jejichž uživatelé mají rychlý přístup k nejrůznějším druhům obrazů řečového signálu, různým možnostem přehrávání zvuku, jeho zpracování, a to i v reálném čase.
2. Zvuky řeči v digitálních humanitních vědách
Velké korpusy řečových nahrávek jsou přepisovány a segmentovány pomocí vyškolených anotátorů. Často se jedná o týmy studentů nebo mladých výzkumníků, kteří jsou zběhlí v práci s počítačem a řídí se společnými pokyny (viz například popis segmentačních kritérií in: Machač a Skarnitzl 2010), což umožňuje relativně konzistentní rozhodování v nejednoznačných situacích, kde počítačové automaty mohou selhat. Příkladem může být poměrně zásadní problém určení polohy hranic – respektive hraničních oblastí – mezi určitými segmenty řeči.
Stále více úkolů se však provádí automatizovaně pomocí počítačových nástrojů. Běžnou praxí při tvorbě korpusů nahrávek je počáteční automatické generování částí popisných vrstev, které jsou následně podrobeny ručnímu ověření (příklady veřejně dostupných aplikací pro automatický přepis a segmentaci záznamů jsou popsány v pracích Reichel a Kisler 2014; Bigi 2015; Koržinek et al. 2017, Klessa et al. 2022). Tím se také zabrání výskytu některých „lidských“ chyb, které se obtížně zachycují, jsou nesystematické, individuální povahy a mohou se objevit v anotacích, které anotátoři vytvářejí od začátku ručně. Na druhou stranu lze u automaticky generované anotace očekávat systematické, opakující se chyby, které vyplývají z konfigurace nástroje, použitého slovníku nebo fungování lingvistických či akustických modelů. Mnoho takových systematických chyb lze účinně odstranit – pokud jsou včas odhaleny.
Vzhledem k časté potřebě vizuální kontroly, ať už ve fázi anotace, nebo při ověřování automaticky generovaných dat, jsou nejvhodnější řešení, která umožňují zobrazit několik synchronizovaných anotačních vrstev současně s obrazem řečového signálu na společné obrazovce. Obrázek 4 ukazuje příklad vícevrstvé anotace nahrávky a obrazu řečového signálu pro výrok Dnes je pondělí (pol . Dzisiaj jest poniedziałek), pocházející z korpusu nahrávek řeči Paralingua (Klessa et al. 2013b), který obsahuje mimo jiné takzvané emoční portréty získané podle scénáře dle konceptu popsaného například v publikaci Scherera a Bänzigerové z roku 2010. Korpus obsahuje nahrávky relativně lexikálně neutrálních výroků zahrnujících slova s vysokou frekvencí výskytu v každodenním použití. Před každou nahrávkou byl mluvčím předložen popis situace, která měla vyvolat určitou emoci. Následně nahraný projev měl tuto emoci „ilustrovat“.
Anotační vrstvy znázorněné na obrázku 4 obsahují lingvistické informace (transkripce, rozdělení výpovědí na slabiky, hlásky) i paralingvistické nebo extralingvistické informace (o percepčním hodnocení emocí v hlase) pro prohlášení Dnes je pondělí. Tyto informace jsou uvedeny v pěti synchronizovaných anotačních vrstvách obsahujících ortografický přepis výroků (vrstva s názvem ORTHOGRAPHY; názvy vrstev jsou vidět vlevo od každé vrstvy), fonetický přepis SAMPA (Wells 1997) rozdělený na slova (vrstva WORD), slabiky (vrstva
Dnes je pondělí z takzvané emoční portrétní databáze Paralingua (Klessa et al. 2013b).
2. Zvuky řeči v digitálních humanitních vědách
SYLLABLE) a fonémy (vrstva PHONE), a dále percepční hodnocení emocí v hlase na kruhové dvourozměrné rovině (vrstva EMOTION), jejíž vizualizace je zobrazena v pravém horním rohu obrázku. Osa X představuje nabuzení (na škále aktivní – pasivní; ang. activaction) a osa Y příznakovost / valenci výroku (na škále pozitivní – negativní; a ng . valence). V praxi se poloha bodu na kruhové rovině určuje v programu Annotation Pro (Klessa et al. 2013a) kliknutím na obrázek, který zaznamená kartézské souřadnice kliknutého bodu a zobrazí je v popisku segmentu na anotační vrstvě.4
Výzkum vícevrstvých anotací
Vícevrstvá anotace může zahrnovat informace o všech jevech vyskytujících se během komunikace, což znamená anotaci výpovědí i anotaci dalších zvuků mluvčích, prostředí nebo popis neverbálního chování (mimika, gesta).
Počítačový software, který umožňuje tvorbu vícevrstvých anotací, obvykle umožňuje vizualizaci souvýskytů v čase, což podporuje proces analýzy dat, zejména ve vztahu ke kvalitativnímu výzkumu. Tyto nástroje zároveň umožňují export dat do tabulkových procesorů a provádění kvantitativních, statistických analýz například s ohledem na interakce mezi jevy v řeči a intermodální interakce. Některé z těchto interakcí mohou být jazykově nebo kulturně specifické. Bylo například zjištěno, že lidé hovořící anglicky mají tendenci používat více gest předbíhajících řeč, zatímco lidé hovořící čínsky používají více gest synchronizovaných s řečí (Ferré 2010). Naproti tomu dospívající hovořící polsky a německy, kteří se účastnili dialogů se zadáním, zaznamenaných v rámci projektu Borderland, se lišili ve vlastnostech některých gest prováděných během konverzace (Karpiński et al. 2018). Poláci v průměru více gestikulovali. Navíc v případě opakování nebo napodobování některých gest účastníků rozhovoru (což je jeden z rysů interakce v oblasti gest) – se ukázalo, že doba trvání původních gest a gest se stejnou funkcí opakovaných jinými účastníky je u Poláků podobná, zatímco u Němců byla opakovaná gesta v průměru kratší. Obrázek 5 ukazuje princip softwarového pluginu Re-occurrence (Karpiński et al. 2018) pro Annotation Pro, který byl v projektu Borderland použit pro výše uvedené výpočty. Tento doplňkový modul umožňuje automaticky vypočítat počet opakování anotační značky (například x1), která se vyskytuje v jedné anotační vrstvě (například obsahující značky gest pro mluvčího A), v jiné anotační vrstvě (například obsahující značky gest pro mluvčího B). Počet opakovaných značek se vypočítá v rámci n segmentů následujících po
Od Gutenberga k Zuckerbergovi
konci původního segmentu. Číslo n může uživatel upravit v závislosti na konfiguraci experimentu.
Obrázek 5: Princip fungování doplňkového modulu Re-occurrence (Karpiński et al. 2018) pro Annotation Pro.
Výzkum stylu řeči a technologické výzvy
Styl řeči, včetně toho, nakolik je řeč spontánní a nakolik řízená, může mít významný vliv na možnosti využití dat ze záznamu ať už pro výzkumné, nebo praktické, aplikované účely. Joaquim Llisterri (1992) shromáždil řadu rysů, které lze samostatně nebo (častěji) v kombinacích považovat za foneticko-akustické koreláty stylu řeči. Přitom se zabývá více než tuctem řečových stylů s různou mírou kontroly, spontánnosti a interaktivity, které byly použity v experimentálních studiích. K měřítkům, která jsou koreláty řečového stylu, může patřit tempo řeči, počet a použití tichých a vyplněných pauz, úplnost mluvených vět, přízvuk, intonace, ilo-temporální vztahy a další (Laan 1997).
Empirický výzkum s využitím nahrávek řeči se snaží identifikovat specifické, měřitelné foneticko-akustické koreláty výpovědí právě v závislosti na kontextu, účelu výpovědi, dokonce i na charakteristikách, jako je její (ne)upřímnost (viz například Schuller et al. 2016). Konečný úspěch komunikace z definice závisí nejen na odesílateli komunikátu, ale také na jeho příjemci.
Digitální sbírky nahrávek opatřené vícevrstvou anotací umožňují podrobné analýzy výše uvedených vztahů a jejich výsledky prezentované v počítačově srozumitelné podobě podporují vytváření stále přesnějších počítačových modelů lidské komunikace a vývoj nástrojů pro komunikaci mezi člověkem a počítačem a mezi počítačem a počítačem. Vícevrstvá povaha popisu poskytuje flexibilitu při využívání záznamových zdrojů, možnost výběru a porovnávání informací obsažených v záznamech a anotacích podle aplikace. Některé systémy pro automatické počítačové rozpoznávání řeči (převod řeči na text) vyžadují roz-
2. Zvuky řeči v digitálních humanitních vědách
sáhlé sbírky řečových nahrávek, které často představují nejen různé hlasy, styly řeči, ale také různé akustické charakteristiky pozadí. Na druhou stranu v případě syntetizérů řeči (převodníků textu na řeč) založených na spojování (kombinování) jednotlivých zvuků, slabik nebo jiných fragmentů nahrávek budou užitečné korpusy vysoké technické kvality, nahrané mluvčím nebo mluvčími s jasnou, správnou artikulací a parametry hlasu odpovídajícími očekávání tvůrců aplikace (aplikace by měla plynule „mluvit“ hlasem určité barvy). Účinnost aplikace do značné míry závisí na kvalitě poskytnutých dat včetně správného typu a množství nahrávek řeči a jejich správné anotace.
Obliba aplikací řečových technologií neustále roste, ale pokud bychom se zeptali uživatelů na jejich názory na zkušenosti s těmito aplikacemi, s komunikací mezi člověkem a počítačem v nejširším slova smyslu, dostali bychom velmi různorodé odpovědi – od upřímného nadšení až po nespokojenost, otrávenost a frustraci, v závislosti na výběru skupiny respondentů a jejich individuálních preferencích a očekáváních.
Obrázek 6. (a) Komunikace „člověk–člověk“ a „člověk–počítač“; (b) Podpora komunikace mezi lidmi a počítači pomocí multimodálních dat, jejich anotace, metadat a algoritmů umělé inteligence.
Vzhledem k rostoucí kapacitě pro ukládání a zpracování digitálních dat je stále více systémů konstruováno s předpokladem maximalizace velikosti datových souborů. To často vede k vyššímu výkonu aplikací (například Delić et al. 2019). Zjednodušeně řečeno, cílem je řešit problémy poskytnutím tak velkého množství dat, aby se algoritmy používané v aplikacích jednoduše statisticky „naučily“ pracovat správně, pokud jim bude poskytnuto velmi mnoho příkladů skutečných dat.
Další zlepšení efektivity přinášejí bohaté doprovodné informace, metadata a stále se zdokonalující inteligentní počítačové algoritmy. Stále však existují oblasti, kde je k dosažení uspokojivých výsledků nutný manuální zásah.
Od Gutenberga k Zuckerbergovi
Některé informace, které jsou pro úspěšnou komunikaci nezbytné, je velmi obtížné simulovat, protože ne vše je obsaženo v samotném řečovém signálu nebo ve vizuální vrstvě sdělení – když mluvíme s druhým člověkem, spoléháme také na jeho znalosti, povědomí, porozumění. I když mluvíme nejasně nebo v prostředí rozhovoru dochází ke zkreslení, náš partner je často schopen nám porozumět a přijmout námi sdělované informace. Někdy v řečovém signálu chybí určité informace, například některé hlásky, a přesto je posluchač schopen bez většího úsilí „rekonstruovat“ kompletní výpověď a díky svým jazykovým kompetencím předávanému sdělení porozumět. Taková rekonstrukce je pro počítač stále obtížná a často nemožná. Tato situace je znázorněna na obrázku 6a, kde je v horní části zobrazen diagram komunikace člověk–člověk a v části dolní komunikace člověk–počítač, při které se ztrácí některé informace. Obrázek 6b zase ilustruje zlepšení komunikace mezi člověkem a počítačem díky využití různých dostupných prostředků, jako jsou velké objemy dat, multimodální informace, vícevrstvé anotace vytvářené automaticky i ručně, algoritmy umělé inteligence umožňující analýzu extrémně složitých dat. Ty posilují vytvořená technologická řešení, která více či méně efektivně mapují jevy pozorované v lidské komunikaci.
Vzhledem k tomu, jak zásadní roli hraje mluvené sdělení v lidské komunikaci, není divu, že již dlouho před nástupem vynálezů umožňujících počítačové zpracování mluvené řeči vznikaly literární i vědecké koncepce různých druhů mluvících strojů, umělé inteligence komunikující hlasem. Byly vytvořeny simulace hlasového ústrojí, modely hlasové komunikace člověk–stroj nebo stroj–stroj, jejichž praktický vývoj se stal možným teprve relativně nedávno.
Vzhledem k technologickým omezením převažovala v prvních letech vývoje digitálních humanitních věd řešení vytvořená pro textová data, která jsou méně náročná než data multimediální, mimo jiné z hlediska diskového prostoru a výpočetního výkonu potřebného pro analýzu, zpracování dat, archivaci a vyhledávání, konstrukci a provoz aplikací.
Teprve nejnovější technologie 21. století umožňují úspěšně překonat obtíže při mapování mnohovrstevnatosti lidské komunikace ve světě strojů. Toto mapování není v dostupných aplikacích řečových a jazykových technologií ještě dokonalé a v průběhu jejich vývoje odborná podpora a ruční ověřování dat často stále přináší lepší výsledky než použití automatů. Nicméně hlasoví asistenti různých druhů jsou již trvalou součástí mnoha oblastí lidského života, stále
2. Zvuky řeči v digitálních humanitních vědách
ča stěji používáme „inteligentní“ mluvící zařízení, například k ovládání domácích spotřebičů nebo automobilů. K dispozici jsou rozsáhlé digitální repozitáře, přičemž (zejména ve vědě) obliba infrastruktur a výzkumných konsorcií poskytujících otevřený přístup ke zdrojům
stále roste (srov. například evropskou technologickou infrastrukturu pro humanitní a společenské vědy CLARIN a její polskou část: CLARIN-PL 5; Hinrichs a Krauwer 2014; Piasecki 2014), což rozvoj v této oblasti dále podporuje.
PODĚKOVÁNÍ
Obsah kapitoly vychází ze zkušeností autorky a materiálů získaných z níže uvedených vědeckých projektů (viz také poznámky pod čarou 1–4).
Projekt COLING: Minority Languages, Major Opportunities. Collaborative Research, Community Engagement and Innovative Educational Tools, MSCA RISE Horizont 2020, ID grantové dohody: 778384 a projekt spolufinancovaný Ministerstvo Vědy v letech 2018–2023, smlouva č. 4089/ H2020/2018/2/.
Projekt Borderland: Język pogranicza – pogranicze języka. Parajęzykowe aspekty komunikacji interkulturowej č. 12H 13 0524 82 realizovaný díky financování v rámci programu polského Ministerstva vědy a vysokého školství „Narodowy Program Rozwoju Humanistyki“ v letech 2014–2016.
Projekt NeuroPerKog: rozwój słuchu fonematycznego i pamięci roboczej u niemowląt i dzieci. SYMFONIA 1 na období 2013–2019 (UMO-2013/08/W/ HS6/00333).
Projekt Pozyskiwanie i przetwarzanie informacji słownych w militarnych systemach zapobiegania oraz zwalczania przestępczości i terroryzmu, NCBiR č. O R00 0170 12 na období 2011–2012.
POZNÁMKY
1 Vědecká práce byla provedena v rámci projektu COLING: Minority Languages, Major Opportunities. Collaborative Research, Community Engagement and Innovative Educational Tools, MSCA RISE Horizont 2020, Grant Agreement ID: 778384 a projekt spolufinancovaný Ministerstvo Vědy v letech 2018-2023, smlouva č. 4089/ H2020/2018/2/. Foto: archiv autorky kapitoly.
2 Projekt byl realizovaný díky financování z programu polského ministra pro vědu a vysoké školství s názvem „Narodowy Program Rozwoju Humanistyki“ (čes. „Národní program rozvoje humanitních věd“) v letech 2014–2016, viz též http://borderland.amu.edu.pl/
3 Projekt NeuroPerKog: rozwój słuchu fonematycznego i pamięci roboczej u niemowląt i dzieci (čes. NeuroPerKog: vývoj fonematického sluchu a pracovní paměti u kojenců a dětí). SYMFONIA 1 na období 2013–2019 (UMO-2013/08/W/HS6/00333).
4 Databáze byla vytvořena v rámci projektu Pozyskiwanie i przetwarzanie informacji słownych w militarnych systemach zapobiegania oraz zwalczania przestępczości i terroryzmu (čes. Získávání a zpracování verbálních informací ve vojenských systémech pro prevenci a boj proti trestné činnosti a terorismu), NCBiR O R00 0170 12.
5 Více informací najdete na webových stránkách konsorcia: https://www.clarin.eu/ ahttps://cla rin-pl.eu/ .
BIBLIOGRAFIE
ANDERSON, A. H., BADER M., BARD E. G., BOYLE, E., DOHERTY, G., GARROD, S., ISARD, S., KOWTKO, J., MCALLISTER, J., MILLER, J., SOTILLO, C., THOMPSON, H. S. a WEINERT, R. The Hcrc Map Task Corpus. Language and Speech. Roč. 34, č. 4, s. 351–366. Dostupné na WWW: https://doi.org/10.1177/002383099103400404, 1991.
BLINKENA, A. a J. BALDUNČIKS. Latviešu valodas dialektu atlants: leksika. Rigaa: Zinātne, 1995.
BIGI, B. Uncertainty-tolerant framework for multimodal corpus annotation. 2015. Dostupné na WWW: https://hal.archives-ouvertes.fr/hal-01455310 (dostup 30 . 11 . 2021) .
BOERSMA, P. a D. WEENINK. Praat: doing phonetics by computer [Computer program]. Version 6.2. 1992–2021 Dostupné na WWW: https://www. praat.org (dostup 15 . 11 . 20121) .
BORGHOFF, U. M., RÖDIG, P., SCHMITZ, L. a J. SCHEFFCZYK. Long-term preservation of digital documents: Principles and Practices. Berlín, Heidelberg, 2006.
CAMPBELL, N. The recording of emotional speech: JST/CREST database research. Proceedings of Language Resources and Evaluation Conference (LREC). Las Palmas, Španělsko, 2002.
DELIĆ, V., PERIĆ, Z., SEČUJSKI, M., JAKOVLJEVIĆ, N., NIKOLIĆ, J., MIŠKOVIĆ, D., SIMIĆ, N., SUZIĆ, S., DELIĆ, T. Speech Technology Progress Based on New Machine Learning Paradigm. Computational Intelligence and Neuroscience. 2019 Dostupné na WWW: https://doi.org/10.1155/2019 /4368036.
EBERHARD, D. M., SIMONS, G. F. a CH. D. FENNING (eds.). Ethnologue: Languages of the World. Twenty-fifth edition, Dallas: SIL International, 2022. Dostupné na WWW: http://www.ethnologue.com .
FERRÉ, G. Functions of three open-palm hand gestures. Journal of Multimodal Communication. 2012, roč. 1, č. 1, s. 5–20.
GRICE, M. a SAVINO, M. Information structure and questions: evidence from task-oriented dialogues in a variety of Italian. Regional variation in intonation. 2004, s. 161–189.
HIMMELMANN, N. P. Documentary and descriptive linguistics. Linguistics 1998, č. 36, s. 161–195. Dostupné na WWW: https://asset-pdf.scinapse.io/ prod/2014840417/2014840417.pdf (dostup 20 . 2 . 2022) .
HIMMELMANN, N. P. Prosody in language documentation. In: BISWANG, W., HOCK, H. H. a W. (eds.). Essentials of Language Documentation. Berlín, New York: Mouton de Gruyter, 2006, s. 163–181.
HINRICHS, E. a S. KRAUWER. The CLARIN Research Infrastructure: Resources and Tools for E-Humanities Scholars. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC-2014), May 2014. 2014, s. 1525–31.
JARMOŁOWICZ-NOWIKOW, E. Intencjonalność komunikacyjna gestów wskazujących. Poznaň: Wydawnictwo Naukowe UAM, 2019.
JASSEM, W. Podstawy fonetyki akustycznej. Varšava: Państwowe Wydawnictwo Naukowe, 1973.
KARPIŃSKI, M. Struktura i intonacja polskiego dialogu zadaniowego. Poznaň: Wydawnictwo Naukowe UAM, 2006. Od Gutenberga k Zuckerbergovi
2. Zvuky řeči v digitálních humanitních vědách
KARPIŃSKI, M. The boundaries of language: Dealing with paralinguistic features. Lingua Posnaniensis. 2012, roč. 54, č. 2.
KARPIŃSKI, M., CZOSKA, A., JARMOŁOWICZ-, E., JUSZCZYK, K. a K. KLESSA. Aspects of gestural alignment in task-oriented dialogues. Cognitive Studies | Études cognitives. 2018, č. 18. Dostupné na WWW: https://doi. org/10.11649/cs.1640 .
KARPIŃSKI, M. a KLESSA, K. Linguist in the field: a practical guide to speech data collection, processing, and management. Wydawnictwo Rys. ISBN 978-83-66666-89-4, wydanie elektroniczne 2021.
KLESSA, K., KARPIŃSKI, M., WAGNER, A. Annotation Pro – a new software tool for annotation of linguistic and paralinguistic features. In: HIRST, D a B. BIGI (eds.). TRASP 2013 – Tools and Resources for the Analysis of Speech Prosody. INTERSPEECH 2013 Satellite Event. Aix en Provence Laboratoire Parole et Langage 2013, s. 51–54 .
KLESSA, K., WAGNER, A., OLEŚKOWICZ-POPIEL, M. a M. KARPIŃSKI
“Paralingua” – a new speech corpus for the studies of paralinguistic features, In:: VARGAS-SIERRA, CH. (ed.). Corpus Resources for Descriptive and Applied Studies. Current Challenges and Future Directions: Selected Papers from the 5th International Conference on Corpus Linguistics (CILC2013). Procedia – Social and Behavioral Science. 2013, č. 95, s. 48–58 ISSN: 1877-0428.
KLESSA, K., KORŽINEK, D., SAWICKA-STEPIŃSKA, B. a H. KASPEREK. ANNPRO: A Desktop Module for Automatic Segmentation and Transcription. In: VENTULANI, Z., PAROUBEK, P. a M. KUBIS (eds.). Human Language Technology. Challenges for Computer Science and Linguistics. LTC 2019. Lecture Notes in Computer Science. 2022, č. 13212, Springer, Cham.
KLESSA, K. a WICHERKIEWICZ. T. Design and Implementation of an Online Database for Endangered Languages: Multilingual Legacy of Poland. In: ALMEIDA, F. A., BARRERA, I. O., TOLEDO E. Q. a M. S. CUERVO (eds.). Input a Word, Analyse the World: Selected Approaches to Corpus Linguistics. Newcastle upon Tyne: Cambridge Scholars Publishing, 2015. ISBN 1-4438-8513-4
KORŽINEK, D., MARASEK, K., BROCKI, Ł. a K. WOŁK. Polish read speech corpus for speech tools and services. In: Selected papers from the CLARIN Ann. Conf. 2016, Aix-en-Provence, CLARIN Common Language Resources and Technology Infrastructure, no. 136. Linköping University Electronic Press, 2017.
LAAN, G.P. The contribution of intonation, segmental durations, and spectral features to the perception of a spontaneous and a read speaking style. Speech Communication. 1997, roč. 22, č. 1, s. 43–65.
LABOV, W. Sociolinguistic Patterns, Philadelphia: University of Pennsylvania Press, 1972, s. 209.
LAVER, J. Principles of phonetics, Cambridge: Cambridge University Press, 1994, s. 13–23.
LLISTERRI, J. Speaking styles in speech research. ELSNET/ESCA/SALT Workshop on Integrating Speech and Natural Language, Dublin, Ireland 1992
MACHAČ, P . a R. SKARNITZL. Principles of phonetic segmentation. Praha: Epocha, 2009.
Od Gutenberga k Zuckerbergovi
PENNYCOOK, A. Actions speak louder than words: Paralanguage, communication, and education. Tesol Quarterly. 1985, roč. 19, č. 2, s. 259–282.
PLICHTA, B. a M. KORNBLUH. Digitizing speech recordings for archival purposes. Michigan: Matrix, The Center for Humane Arts, Letters, and Social Sciences Online, 7. 2002. Dostupné na WWW: https://www.historicalvoices.org/papers/audio_digitization.pdf (dostup: 20. 10. 2023).
IDE, N. a J. PUSTEJOVSKY. What does interoperability mean, anyway? Toward an operational definition of interoperability for language technology. Proceedings. of the Second International Conference on Global Interoperability for Language Resources . Hong Kong 2010 . NAU, N. A Short Grammar of Latgalian. (Languages of the World/Materials, 482.) Mnichov: Lincom Europa, 2011. ISBN 978-3-86288-055-3.
PIASECKI, M. User-driven language technology infrastructure–the case of CLARIN-PL. In: Proceedings of the Ninth Language Technologies Conference. Lublaň 2014.
REICHEL, U. D. a T. KISLER. Language-independent grapheme-phoneme conversion and word stress assignment as a web service. Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung . 2014, S. 42–49.
SCHERER, K.R. a T. BÄNZIGER. On the use of actor portrayals in research on emotional expression. In: SCHERER, K. R., BÄNZIGER, T. a E. B. ROESCH (eds.). Blueprint for affective computing: A sourcebookOxford: Oxford university Press, 2010, s. 166–176.
SCHÖTZ S. Linguistic & paralinguistic phonetic Variation in speaker recognition & text-to-speech synthesis. In: GSLT Papers: Speech Technology 1. 2002. Dostupné na WWW: http://www.speech.kth.se/~rolf/gslt_papers/ SusanneSchotz.pdf (dostup 20 2 2022)
SCHULLER, B., STEIDL, S., BATLINER, A., BURKHARDT, F., DEVILLERS, L., MÜLLER, C., & NARAYANAN, S. (2010). The INTERSPEECH 2010 paralinguistic challenge. In Proc. INTERSPEECH 2010, Makuhari, Japan (pp. 2794-2797).
SCHULLER, B., STEIDL, S., BATLINER, A., HIRSCHBERG, J., BURGOON, J. K., BAIRD, A., ELKINS, A., ZHANG, Y., COUTINHO, E., EVANINI, K. (2016). The Interspeech 2016 computational paralinguistics challenge: Deception, sincerity & native language. In Proc. INTERSPEECH 2016. San Francusco, USA, Vols 1-5 (č. 8, s. 2001-2005).
WELLS, J. C. SAMPA computer readable phonetic alphabet. In: GIBBON, D., MOORE, R. a R. WINSKI (eds.). Handbook of Standards and Resources for Spoken Language Systems. Berlín, New York: Mouton de Gruyter. Part IV, section B, 1997.
WICHERKIEWICZ, T. Systemy pisma. In: NAU, N., HORNSBY, M., KARPIŃSKI, M. et al. Języki w niebezpieczeństwie: księga wiedzy. Poznaň: Wydział Neofilologii UAM, 2016. ISBN 978-83-947198-4-5. Dostupné na WWW: https://repozytorium.amu.edu.pl/bitstream/10593/17548/1/Jezyki_w_niebezpieczenstwie_Ksiega_wiedzy_Nau_i_in_Wydanie_I.pdf (dostup 20 . 2 . 2022) .
WITTENBURG, P., BRUGMAN, H., RUSSEL, A., KLASSMANN, A. a H. SLOETJES ELAN: a professional framework for multimodality research. In:: Proceedings of the 5th Language Resources and Evaluation Conference Janov: 2006, s. 1556–1559.
Kapitola 3
Text v digitálních humanitních vědách z pohledu literárního vědce
Místo úvodu
Cílem této kapitoly je ukázat použitelnost nástrojů digitálních humanitních věd v literární vědě. Vzhledem k tomu, že další části této monografie se zaměřují na dva mimořádně důležité aspekty související s digitálními přístupy k textu (a to i v oblasti vysokého uměleckého písemnictví), totiž na tvorbu digitálních edic – či obecněji digitálního editorství (srov. Losada Palenzuela v tomto svazku) – a na využití stylistických nástrojů k určení autorství děl, je třeba téma tohoto článku do značné míry zkrátit. Tento stav, který může teoreticky představovat určitou nepříjemnost, se však pokusíme považovat za přednost a představíme zde poněkud odlišný přístup k problematice digitálních humanitních věd.
Digitální edice literárních textů se ukazují jako nesmírně užitečné nejen v literární vědě, ale i v čistě čtenářské interakci s díly, zatímco stylometrické analýzy (srov. Rybicki v tomto svazku), které se díky digitálním technikám dostaly na zcela jinou, nesrovnatelně vyšší úroveň, je důležitým nástrojem v rukou literárních historiků a dalších badatelů, jak je patrné z řady příkladů; k řešení mnoha záhad – nejen kriminalistických, ale i literárněvědných, nejčastěji spojených s atribucí textu1 – přispěla i forenzní lingvistika ( forensic linguistics), která dnes digitální techniky hojně využívá. Na tomto místě by asi stálo za to položit si otázku, co dalšího z široké škály možností, které digitalizace nabízí, lze uplatnit v práci literárního vědce – profesionálního badatele a pedagoga, ale i studenta či běžného čtenáře. Ve snaze odpovědět na tuto otázku se pokusíme podívat
Od Gutenberga k Zuckerbergovi
na vybrané oblasti zájmu v oblasti studia literatury a zamyslíme se přitom nad přidanou hodnotou, kterou přináší aplikace technik digitálních humanitních věd.
Předpoklad: Hledání přidané hodnoty
Celá vědecká reflexe literatury, z níž se jako samostatná kapitolavylučuje literární kritika, se obvykle dělí na historii a teorii, které lze považovat za „tvrdé jádro“ současné literární vědy. Kolem tohoto jádra jako elektrony krouží příbuzné subdisciplíny, jako jsou sociální dějiny literatury, zahrnující fungování knižního trhu, recepci literárních děl, metodologii literárního výzkumu nebo didaktiku literatury (situovanou kdesi na pomezí), a dotvářejí tak obraz současné literární vědy, která stále více koketuje s interdisciplinárními proudy, jako jsou genderová studia nebo zvířecí studia (nověji antropologie), postkoloniální studia apod. Odděleně zde stojí rovněž otázka role lidského těla v literární vědě. Samostatnou perspektivu nabízí také výzkum děl z jiných okruhů, než je vysoce umělecká literatura, tedy tvorba pro děti a mládež nebo populární kultura. Jako texty patřící do vysoce uměleckého literárního okruhu budeme poněkud zjednodušeně chápat souhrn děl, nejčastěji patřících do oblasti beletrie, jejichž hlavní nebo alespoň významná hodnota spočívá ve způsobu, jakým uspokojují estetické potřeby recipientů a formují tak jejich perceptivní schopnosti, jako je citlivost a představivost; jsou nejčastěji reprezentativními díly dané doby a stylu, jsou technicky nejdokonalejšími a obvykle obsahově nejbohatšími příklady díla typického pro určitý směr, nebo jsou významná pro svůj novátorský potenciál. Nepokoušíme se vytvářet nějakou systematiku, a už vůbec nehodnotíme jednotlivé subdisciplíny či styčné body (a to ani z hlediska delší či kratší tradice nebo akademického či institucionálního zakotvení daného proudu výzkumu). Přesto si dovolíme vyslovit určitou tezi, že význam technik digitálních humanitních věd roste tím více, čím více se vzdalujeme od výše zmíněného „tvrdého jádra“ literární vědy, zejména tradičně chápaného jako hermeneutické studium vysoce uměleckých textů, za něž je beletrie obecně považována, a kritérium literárnosti je ztotožňováno s kritériem fiktivnosti. Je ovšem třeba si uvědomit, že dnešní chápání literatury je podstatně širší a že kritérium fiktivnosti nabývá zcela jiného významu, zatímco proud bádání o dílech v žánru non-fikce neustále nabírá na síle.
Výše definovaný mainstream (nebo, jak jsme si definovali, „tvrdé jádro“) literární vědy nejčastěji vyžaduje důsledně lineární čtení díla či děl (zejména v komparatistice). Zatím si lze jen těžko představit existenci postupů digitálních humanitních věd, které by zajistily ex-
3. Text v digitálních humanitních vědách…
trakci významů zašifrovaných v literárním díle, jejich zasazení do kulturního či historického kontextu apod. V takovémto úkolu se zdá být řádně vzdělaný člověk stále nenahraditelný a digitalizace může plnit podobnou funkci – sit venia verbo –, jakou dnes plní osobní počítače vybavené textovými editory, které dnes slouží nejen k tvorbě většiny publikovaných příspěvků, článků, disertací či vědeckých monografií, ale také naprosté většiny poznámek, zápisů a dalších materiálů které nejsou přímo určeny k tisku nebo zveřejnění na internetu a které vytvářejí jak studenti, tak profesionální vědečtí pracovníci – placen za svou činnost jako zaměstnanci na plný úvazek na univerzitách či jiných institucích, nebo jako externisté. Na podobné bázi využití koncovým uživatelem – v tomto případě studentem nebo vědcem – fungují a jsou v klasické literární vědě velmi užitečné různé repozitáře, digitální knihovny a digitální edice, digitálně dostupné archivy, ale i složitější nástroje, jako jsou vyhledávače a digitální kalendáře. V tomto případě se přínos využití výše uvedených prvků omezuje především na úsporu času a nákladů – knihovní zdroje institucí působících i ve vzdálených zemích jsou dostupné „na jedno kliknutí myší“, takže kdysi nezbytné cesty nutné k provedení rešerše jsou zbytečné. V případě některých specificky zaměřených výzkumů, například historie určitého motivu v literatuře, jsou vyhledávače velkým pomocníkem, protože umožňují najít požadované fráze nebo slova bez nutnosti lineárního čtení jednotlivých textů, jejichž počet může být tak velký, že by výzkum tradiční metodou nebyl z časových důvodů proveditelný.
Příklad 1: Literární psi a jejich digitální rasové
Jako příklad, pravděpodobně jeden z mnoha, uveďme doktorandský projekt, který v současné době řeší Dorota Nowicka pod vedením Edwarda Białka na Ústavu germánské filologie Vratislavské univerzity a který se týká přítomnosti motivu psa v německojazyčné fiktivní próze 18. a 19. století.2 V disertační práci bylo analyzováno více než 350 literárních děl, která splňovala kritéria stanovená v tématu práce.
Kromě zřejmých děl, jako jsou Krambambuli a Die Spitzin Marie von Ebner-Eschenbach, která v názvu obsahují jméno nebo jiný výraz pro zvíře, reflektuje disertační práce více než tři stovky románů, novel, povídek a dalších epických prozaických děl, jejichž výběr by sám o sobě nebyl možný bez nástrojů pro vyhledávání v digitálních knihovnách literárních textů. Uvedený příklad na jedné straně jasně ukazuje nové obzory, které otevírají nástroje digitálních humanitních věd, tedy přidanou hodnotu, kterou zde hledáme, na druhé straně po -
Od Gutenberga k Zuckerbergovi
ukazuje na limity užitečnosti těchto nástrojů: zatímco rešerše v digitálních knihovních zdrojích byla nezbytným přípravným prvkem pro další práci, analýza jednotlivých děl, identifikace psích protagonistů v nich, která určuje jejich příslušnost k jedné z předpokládaných kategorií, a konečně celá hermeneutická interpretační práce, která vyžaduje pokaždé lineární čtení jednotlivých děl – to vše muselo být provedeno tradičními metodami, patřícími do gutenbergovské éry. Jaká je tedy přidaná hodnota výše uvedeného příkladu? Určitě rychlost, nezměrná úspora času. Lze si představit, že taková díla mohla vzniknout i v době před digitální revolucí, ale podmínky pro jejich vznik by musely být zcela jiné. Lze sice předpokládat, že člověk s rozsáhlými zkušenostmi, vynikající erudicí a v neposlední řadě s téměř nadlidskou pamětí by byl teoreticky schopen po desítkách let práce v literární vědě vytvořit podobnou monografii syntetického charakteru, ale realizace takového projektu v rámci doktorské práce, zpracované v poměrně úzkém časovém horizontu, se zdá být bez využití výše zmíněných digitálních nástrojů nemožná.
Příklad 2: Klasika v kyberprostoru
Vycházejíce z konkrétní ukázky právě zpracovávané samostatné vědecké práce chceme nyní představit úctyhodnou instituci, jejímž úkolem je vytvářet co nejlepší pracovní podmínky pro vědce zabývající se životem a dílem Theodora Fontaneho, rodáka z braniborského posádkového města Neuruppin, realistického spisovatele s hugenotskými kořeny, dnes považovaného za klasika německojazyčné prózy druhé poloviny 19. století, který je mimo jiné autorem románu Effi Briest, který je považován za německou odpověď na slavnou Paní Bovaryovou Gustava Flauberta. Institucí, kterou bychom nyní rádi představili, je literární archiv pojmenovaný po Neuruppinerovi, Theodor Fontane Archiv 3 , sídlící v Postupimi, který v tomto textu představil Rainer Falk, její dlouholetý zaměstnanec:
Tato instituce (Archiv Theodora Fontaneho) je nejen literárním archivem, ale také renomovanou vědeckou institucí [...]; v centru jejího výzkumu je osoba spisovatele Theodora Fontaneho, jeho dílo, současníci a doba, v níž žil, obecně. Archiv se obrací na všechny, kteří se zajímají o autora románu Effi Briest a jeho dílo, a zejména na vědce zabývající se odkazem Theodora Fontaneho. Právě jim – filologům, historikům a zástupcům dalších humanitních oborů – by tato specializovaná instituce chtěla nabídnout ideální podmínky pro výzkum a prostřednictvím vlastní výzkumné činnosti vytvořit základ, který by byl východiskem pro jejich další studium.4
3. Text v digitálních humanitních vědách…
Tuto instituci, „dříve součást Braniborského státního archivu“5 , nyní spadající pod Postupimskou univerzitu, vede od roku 2017 Peer Trilcke, vědec, který velmi odvážně kombinuje studium literatury 19. století s technikami digitálních humanitních věd, což se přímo odráží v profilu instituce, která se na své domovské stránce představuje následujícími slovy:
Jako vědecká instituce provádíme základní výzkum, sestavujeme bibliografie, edice a zveme vás na sympozia a kongresy. Ve spolupráci s univerzitami a akademickými institucemi v regionu realizujeme řadu výzkumných projektů se zaměřením na digitalizaci literárních archivů a digitální humanitní vědy.
1. Villa Quandt v Postupimi, domov Archivu Theodora Fontaneho (foto J.P. 2021)
Archiv Theodora Fonataneho se tudíž prezentuje jako příkladná instituce, která badatelům a studentům poskytuje ideální pracovní podmínky, neboť jim zpřístupňuje své fondy, především vzácné rukopisy, ale také knihy a další tiskoviny, stejně jako mimořádně bohaté ikonografické sbírky, nahrávky a filmy v různých formátech a na různých nosičích. Dnes však již není třeba cestovat do Postupimi; značná zásoba digitalizovaných rukopisů děl autora Effi Briest je již k dispozici na internetu;7 totéž platí o pečlivě sestavené bibliografii všech děl Theodora Fontaneho, stejně jako o mimořádně rozsáhlé literatuře o jeho životě a díle a jeho recepci. 8 Obzvláště zajímavým prvkem Archivu „digitálních služeb“ (Digitale Dienste) je online kalendář 9 , který poskytuje přehled nejrůznějších událostí Fontaneho života den po dni, rozdělený do osmi barevně odlišených kategorií, podle nichž lze filtrovat dostupné údaje: informace o autorově aktu-
Ilustrace 2. Přehled digitálních služeb nabízených Archivem Theodora Fontaneho (materiál poskytnut s laskavým svolením Theodor-FontaneArchiv | Universität Potsdam)
3. Text v digitálních humanitních vědách…
Ilustrace 3. Kalendářní stránka života a díla Theodora Fontaneho na stránkách archivu jeho jména (materiál poskytnut s laskavým svolením Theodor-Fontane-Archiv | Universität Potsdam)“.
Od Gutenberga k Zuckerbergovi
álním místě pobytu, jeho četbě, tvorbě, tisku jeho děl, publikacích o Theodoru Fontanem a jeho korespondenci – dopisy psané jím a jemu. Významným přírůstkem „nabídky“ Archivu Theodora Fontaneho je digitální edice10 jeho nepublikovaných zápisníků, která vznikla pod redakcí Gabriele Radecke v Laboratoři Theodora Fontaneho na univerzitě v Göttingenu.11 Tyto malé sešity, v originále velmi nečitelné, ale v digitálním vydání dostupné ve vynikajícím přepisu, jsou skutečným zlatým dolem poznatků o spisovatelově životě a díle – a nových badatelských témat.
Jak je z výše uvedeného patrné, badatel či student zabývající se osudy a dílem brandenburského potomka hugenotů může provádět svůj výzkum, aniž by musel opustit domov, neboť má k dispozici nejnovější a neustále aktualizovanou databázi všech možných údajů o autorovi Effi Briest. To je ovšem do jisté míry výjimečná situace: Theodor Fontane je osobností, která je v tomto regionu (v Braniborsku a v hlavním městě Německa, kde strávil většinu svého života) velmi silně zakořeněná; v Berlíně se také odehrává většina jeho románů. Okolí metropole na řece Sprévě se stalo předmětem čtyř rozsáhlých svazků jeho Wanderungen durch die Mark Brandenburg (Putování Braniborskou markou), které v sobě spojují vlastnosti duchaplného cestopisného vyprávění, historického příběhu bohatého na anekdoty a precizního vlastivědného díla; každé braniborské město či vesnice, byť jen letmo Fontanem v jeho Wanderungen… zmíněné, se tímto faktem může chlubit, a celá spolková země nešetří prostředky na využití obrazu autora Effi Briest k propagaci cestovního ruchu aregionu obecně. To bylo velmi patrné zejména v letech velkých výročí: 1998, sté výročí Neuruppinerova úmrtí, a 2019, dvousté výročí jeho narození, kdy se v Berlíně, Postupimi, samozřejmě v jeho rodném městě a na bezpočtu dalších míst konaly vzpomínkové akce od výstav, čtení a přednášek pro zainteresované až po vědecká sympozia a propagaci doprovodných publikací; netřeba dodávat, že zejména v roce 2019 se obrovské množství aktivit odehrávalo ve virtuálním prostoru (nebo v něm bylo ohlášeno).
Je veřejným tajemstvím, že realizace komplexních projektů v oblasti digitálních humanitních věd vyžaduje přesně tytéž tři věci, které byly zmíněny v pojednání o prostředcích nezbytných pro válku, připisovaném Napoleonovi Jedná se o „peníze, peníze a peníze“, v případě digitálních projektů nezbytné nejen k vytvoření například platformy pro umístění shromážděných a zpracovaných dat nebo k vybudování rozhraní, byť jen v podobě webové stránky, ale později také k udržování jak samotné technické infrastruktury, tak i věcné části projektu. Instituce jako Archiv Theodora Fontane homají zajištěnou existenci a jejich vedení dostává pro ambiciózní projekty včetně těch digitálních, z nichž nejnovější je FontaneVR12 (Fontane Virtual Reality = Fontane ve virtuální realitě) – projekt, který již není typicky
3. Text v digitálních humanitních vědách…
určen pro výzkumné pracovníky, ale pro mnohem širší publikum – potřebnou finanční podporu.
Tento projekt, který je součástí celoněmecké kampaně s názvem dive in Programm für digitale Interaktionen (Ponoř se – program pro digitální interakce) a který je financován na spolkové úrovni13 , má umožnit širokému okruhu občanů digitální interakci s vybranými kulturními a vědeckými institucemi, jako jsou archivy, knihovny, památníky, instituce na podporu umění atd. Zřejmým impulsem pro zahájení této kampaně byla zkušenost s pandemií koronaviru v letech 2020–2022, jejímž vedlejším efektem bylo odříznutí veřejnosti od kulturních institucí, zmrazení činnosti kulturních a vzdělávacích spolků, které jsou v zemi za naší západní hranicí velmi rozvinuté a které jsou nesmírně důležitým prvkem společenské interakce na mnoha úrovních.
V rámci projektu FontaneVR bude možné virtuálně projít Neuruppinsteinův archiv v Postupimi a v budoucnu i další objekty s ním spojené – například pomník v jeho rodném městě. Pro ponoření se do virtuální reality s autorem Effi Briest je možné použít jakékoliv zařízení s přístupem k internetu, samozřejmě je nejlepší se pro tento účel vybavit speciálními brýlemi. S jejich pomocí se budeme moci nejen projít interiérem postupimské Vily Quand, sídla archivu, a prohlédnout si tamní výstavy, ale také absolvovat virtuální prohlídku pod dohledem odborných pracovníků archivu nebo si poslechnout četbu z díla jeho patrona či zasvěcenou přednášku některého z velikánů fontanistiky. Smyslem projektu, který Peer Trilcke představil na výročním sjezdu Společnosti Theodora Fontaneho (Theodor Fontane Gesellschaft e.V.), konaném poslední zářijový víkend roku 2022 v příhraničním městě Görlitz, je nejen zajistit stálý kontakt s návštěvníky archivu během pandemické pauzy, ale také přilákat do instituce lidi, kteří se jí dosud vyhýbali. Iniciátoři projektu věří, že moderní forma a digitální přenos povedou k rozšíření zájmu o Archiv ze strany mladých lidí, kteří znají tvůrce Effi Briest především jako autora jedné z (nudných?) položek školní četby. Zdá se, že výše nastíněný projekt, i když je především popularizační, v lepším případě populárně-naučný, je symbolickým příkladem migrace literatury z Gutenbergovy éry do naší současné éry Zuckerbergové, a také, že stěžejní pole pro uplatnění technik digitálních humanitních věd v kontextu gramotnosti v oblasti vysokého umění nabízí didaktika – školní i univerzitní.
Než přejdeme k dalším úvahám o možnostech využití technik digitálních humanitních věd v kontextu didaktiky literatury, zkusme se podívat na digitální nabídku polských institucí zabývajících se literaturou. Většina literárních muzeí v naší zemi spravuje více či méně obsáhlé webové stránky, které poskytují nejen základní praktické informace o činnosti dané instituce (adresa, otevírací doba,
Od Gutenberga k Zuckerbergovi
ceny vstupenek atd.), ale umožňují také individuální hloubkový výzkum předmětu činnosti konkrétní instituce. Lze uvést řadu příkladů, počínaje vratislavským Muzeem Pana Tadeusze14 přes varšavské Muzeum literatury 15 a konče Muzeem Wincentyho Pola 1 a Muzeem Stefana Żeromského17. Poslední dvě jmenovaná jsou pobočkami Národního muzea v Lublinu, jehož další pobočkou je Muzeum Józefa Czechowicze18 , které se zdá být na mapě Polska jedinečné právě díky charakteru své internetové prezentace. Je obtížné srovnávat rozsah možností, které nabízejí webové stránky tohoto muzea, s rozsáhlostí digitální nabídky výše zmíněné braniborské instituce, ale zdá se, že v celostátním měřítku stojí tato instituce a její prezentace na webu za povšimnutí. Webová stránka věnovaná avantgardnímu básníkovi spjatému s Lublinem, který rozhodně nepatří do skupiny nejslavnějších spisovatelů své doby, může být důstojným příkladem, který by měly následovat i další muzejní instituce včetně těch, které se zabývají životem a dílem mnohem slavnějších literátů.
Příklad 3: Dilemata didaktiky literatury v očekávání
digitálního všeléku
Mnoho mladých lidí, kteří nastupují na filologická studia, je překvapeno, že kromě praktického studia cizího jazyka jim spoustu času zabere pronikání do oblastí zájmu lingvistiky a literární vědy. Zatímco znalost jazyka a jeho mechanismů, různé pokusy o popis tohoto systému znaků a uspořádání informací o jeho jednotlivých složkách se mohou zdát snazší než jeho samotné ovládnutí řečí i písmem, studiu cizí literatury, které je často spojeno s namáhavým prodíráním se ne vždy srozumitelnou povinnou četbou, se mladí studenti filologie spíše brání. Mimochodem, zde je třeba poznamenat, že znalosti literatury patřící do kulturní sféry spojené se studovaným jazykem jsou obvykle podávány v historických souvislostech. Jde tedy o řazení čistě chronologické, což znamená, že časově, a tedy i myšlenkově, mentálně, stylově a v neposlední řadě i čistě jazykově nejvzdálenější je první reprezentace dějin literatury vycházející z dané kulturní formace, s níž se začínající studenti filologie setkávají.
Skutečnost, že nejstarší literatura, kterou obvykle začíná výuka v prvním ročníku, může studenta filologie účinně odradit od dalšího zkoumání dějin literatury vytvořené v daném jazyce, je nepopiratelná a dobře známá odborníkům na literární didaktiku, a to jak těm, kteří se s ní snaží studenty seznámit, tak těm, kteří se ji snaží podporovat u dospívajících a dětí v ranějších fázích jejich vzdělávání.
A i když výše uvedené úvahy – nebo snad dokonce stížnosti – nejsou
3. Text v digitálních humanitních vědách…
nejdůležitějším prvkem tohoto náčrtu, může se později stát, že vynálezy Zuckerbergovy éry mohou přispět k tomu, aby si mladí lidé lépe osvojili výdobytky Gutenbergovy éry a dob ještě dřívějších.
Koneckonců filologie v tradičním pojetí není nic jiného než spojení literární vědy a lingvistiky, takže každý student, který se odvrátí od zkoumání vysoce umělecké části písemnictví, se svým způsobem odsoudí k neúplnému rozvíjení vlastních filologických dovedností. Aniž bychom si troufali tvrdit, že právě starší, chronologicky dřívější literární vědu je třeba považovat za důležitější prvek studia, nespokojíme se ani s konstatováním, že výše nastíněný jev je zřejmým důsledkem již léta diagnostikované a široce diskutované krize čtenářské gramotnosti, která postihuje polskou společnost. Faktem však zůstává, že příliš mnoho těch, kteří v současnosti studují na filologických fakultách, s výjimkou polonistiky, považuje literární vědu za nutné zlo a nevnímá ji jako jeden ze dvou nejdůležitějších pilířů celku.
Dějiny literatury jsou stále základem pro poznání literatury psané profilovým jazykem a z velké části předmětem akademické reflexe vyučujících. Literární teorie a literární kritika, které jsou mezi předměty nabízenými studentům polonistiky nebo obecněji filologie spojené s dominantním mateřským jazykem v dané zemi běžnější, jsou na ostatních fakultách zastoupeny v mnohem menší míře a didaktika literatury je zpracována zcela okrajově. Zdá se však, že právě v oblasti výuky literatury lze diagnostikovat pole působnosti pro řešení, která lze zahrnout do rámce digitálních humanitních věd v nejširším slova smyslu.
Značná část přednášek z dějin literatury, které jsou v učebních plánech „cizích“ jazyků neolingvistických oborů jakýmsi centrem předávání poznatků o kultuře a literatuře dané jazykové oblasti, je věnována představení historického a ideového pozadí a profilů nejvýznamnějších autorů, zejména těch, kteří hrají v jednotlivých národních literaturách ikonickou roli srovnatelnou s velikány polského romantismu. Pro mnoho současných mladých lidí je přirozeným prostředím pro komunikaci a sociální interakci internet, především sociální sítě, které na příjemce působí zejména obrazem nebo zvukem, případně kombinací obojího v podobě krátkých filmů a animací; textové zprávy jsou obvykle redukovány na minimum, do jejich toku jsou vetkány zkratky a emotikony. Není tedy divu, že pokusy zprostředkovat často příliš složité informace o široce chápaných souvislostech vzniku literárních textů formou lineárního, často monotónního vyprávění, bez přidání multimediálních prvků, se nejednou setkávají s přirozeným odporem publika.
Začlenění obrazových, animačních a zvukových prvků do přednášky, jako je tomu například u projektu FontaneVR popsaného výše, se může jevit jako určité „zkrácení vzdálenosti“ mezi obsahem vztahujícím se k dobám dávno minulým – například literatury 19. století
Od Gutenberga k Zuckerbergovi
– a mladým čtenářem. Kontakt s mladými čtenáři pomocí moderních nástrojů, které vnímají jako své přirozené komunikační prostředí, může snížit obtížnost osvojení si toho, co se jim již ze své podstaty zdá cizí, a použití současného – obecně řečeno „zastaralého“ média či formy – tento pocit cizosti jen zvyšuje. Samozřejmě zde nemáme na mysli zploštění či infantilizaci sdělení nebo krkolomné pokusy o transpozici v podobě „napiš, co by Werther psal Lottě na Messengeru“, ale pouze využití mediálního prostředí, které je více kompatibilní s každodenním životem dnešního publika.
To samozřejmě vyžaduje velké množství práce, a tedy i nákladů, včetně nákladů na nákup potřebného technického vybavení a softwaru. Taková snaha by však mohla představovat určitý druh pokusu o vyřešení výše popsaného nepříznivého jevu „vytlačování“ literatury na okraj, který se nezdá být a priori odsouzen k nezdaru. Možná právě v této oblasti by měly digitální humanitní vědy vystoupit obzvlášť radikálně a odvážně. K tomu by však bylo třeba ještě dobré vůle všech zúčastněných stran při přípravě a realizaci vyučovacího procesu, což se v reáliích našich vysokých škol jeví jako nesmírně obtížný úkol, který by jistě vyžadoval precizní plánování a realizaci takové reformy, k čemuž by bylo zapotřebí podstatně více času.
Zdá se však, že i bez zvláštních investic a převratných změn lze již existující online zdroje ve výuce využít. Může to být méně relevantní pro základní kurz dějin literatury v prvních ročnících studia, naopak více to ovšem odpovídá potřebám pokročilejších studentů, například těch, kteří připravují své zápočtové nebo diplomové práce; nicméně upozornění studentů na zdroje, jako jsou online biografické lexikony – například německá Deutsche Biographie19 nebo rakouský Österreichisches Biographisches Lexikon20 –, se může ukázat jako cenné i pro uvedení studentů do samostatného výzkumu s využitím moderních nástrojů. Ještě zajímavějším zdrojem by mohly být rozbočovače typu Encyclopedia of Romantic Nationalism in Europe 21 , v němž jsou shromážděné údaje čistě faktografické povahy doplněny atraktivní formou a přístupnou grafickou prezentací mnoha jevů, uspořádanou podle logického systému usnadňujícího navigaci a vyhledávání požadovaného obsahu.
O tom, že mladí lidé mají potíže s delšími formami písemného projevu, již bylo napsáno dost textů z oblasti teorie a metodiky výuky. V souvislosti s digitálními humanitními vědami a jejich možným uplatněním v didaktice literatury se může zdát rozumné položit si otázku, zda by nahrazení tradičního filologického přístupu, založeného na lineárním čtení textů – i těch kratších – metodami založenými na počítačovém zpracování textu nepřineslo prospěšné změny. Takový přístup může jistě představovat určitou úsporu času a otevřít nové možnosti analýzy díla bez důkladného čtení, ale z hlediska didaktického procesu, jehož cílem je spíše objevovat než vytvářet vý-
3. Text v digitálních humanitních vědách…
znam, se může ukázat jako riskantní a přinést více škody než užitku. Co se však ve výuce literatury jistě osvědčuje, je využití výdobytků digitálních humanitních věd z hlediska vizualizace, grafického znázornění různých jevů (například mnohočetných vztahů mezi postavami dramatu), stejně jako zobrazení dalších modelů vztahů mezi nimi. Za průkopníka v této oblasti výzkumu je považován italský vědec Franco Moretti 22 , guru trendu známého jako Distance Reading a v poslední době (2016–2019) hostující profesor na Digital Humanities Institute renomované švýcarské École Polytechnique Fédérale de Lausanne.
Příklad 4: Od textu k mapě
Po připomenutí postavy Franca Morettiho jsme se dostali k finálnímu, ale v žádném případě ne nedůležitému bodu, který bychom chtěli v této práci uvést. Prostorový obrat, jehož kořeny sahají do konce 60. let a který se plně prosadil o dvě desetiletí později, spolu s následným topografickým obratem představil mapu jako předmět zájmu humanistického výzkumu. A nemáme zde na mysli zájem o grafickou úpravu starých map, který je již po desetiletí přítomen ve vědecké reflexi dějin umění, ani analýzu ideologických programů či politických projevů vyjádřených prostřednictvím kartografických děl. Mapa se pro humanistu (včetně literárního vědce) stala nesmírně důležitou platformou, na kterou lze promítat různá data a následně je analyzovat z prostorové perspektivy; změny probíhající na časové ose, přenesené na časově vymezené vrstvy mapy, mohou poskytnout cenné informace o historii studovaných jevů.
Velkou část údajů, které jsou zajímavé pro „pomocné“ literární vědy, lze přenést na mapu, a tím se vzdálit od „pevného jádra“ nastíněného v první části tohoto eseje. Z kartografického hlediska tak můžeme vytvářet nejrůznější seznamy týkající se distribuce a recepce zkoumaných děl: mapy premiér divadelních her, které nás zajímají, mapy míst, kde se nacházela nakladatelství a tiskárny distribuující díla určitého autora nebo představitelů určité skupiny autorů, nebo konečně mapy publika, definovaného například jako předplatitelé časopisů, v nichž byla publikovány první fragmenty děl, která nás zajímají. K sestavení takových map budou samozřejmě zapotřebí konkrétní údaje, především číselné a zeměpisné, obohacené o časové hledisko. Ačkoli taková kartografická díla vznikala samozřejmě ještě v předdigitální éře, využití nástrojů digitálních humanitních věd nejenže výrazně usnadňuje a urychluje tvorbu a analýzu dat, ale také umožňuje zobrazit různé jevy, které by bylo velmi obtížné prezentovat na
Od Gutenberga k Zuckerbergovi
tradiční tištěné mapě, zejména výše zmíněný faktor času, který je prakticky nemožné zobrazit na statické mapě vytištěné na papíře (nebo dokonce zobrazené na obrazovce počítače). Srovnání více vrstev přiřazených ke konkrétním bodům na časové ose a jejich zobrazení na dynamické mapě v podobě animace je rozhodně přidanou hodnotou, kterou získáváme díky využití nástrojů digitálních human itních věd.
Zamysleme se však nad tím, zda je tato humanistická kartografie, odhlédneme-li od její případné digitalizace, možná ve vztahu k „pevnému jádru“ literární vědy, tedy k analýze samotných děl. Švýcarská badatelka Barbara Piatti, která je dnes považována za autoritu v oblasti literární geografie, s odvoláním na Morettiho uvádí, že „literární geografické mapy musí být podle Morettiho nástrojem interpretace a musí odhalit více, než by bylo možné říci bez nich“.23 V úvodu svého stěžejního díla Die Geographie der Literatur: Schauplätze, Handlungsräume, Raumphantasien (Geografie literatury: Místa děje, prostory děje, prostorové fantazie), kterou vydalo v roce 2008 renomované nakladatelství Wallstein v Göttingenu, badatelka představuje svou myšlenku tímto způsobem a hlásí se jakoby k novému proudu v literární vědě:
Koncepce budoucí geografie literatury, která bere literární místa děje jako výchozí bod pro analýzu textu. […] Kde se odehrává literatura? Tato zdánlivě jednoduchá otázka je jádrem sotva zavedeného výzkumného přístupu, vybaveného novými poznávacími metodami, který se skrývá pod pojmem „literární geografie“. […] Vždyť děj každého literárního díla se někde nachází a spektrum těchto představovaných světů sahá od zcela imaginárních prostorů až po zcela reálné, které lze poznat a nalézt v realitě. Geografie literatury staví do centra svého zájmu vztah fikčních prostorů k realitě: literatura se vyznačuje specifickou geografií, která se řídí vlastními pravidly. Fiktivní prostory totiž nikdy nejsou pouhým mimetickým odrazem skutečnosti, i když se vztahují k reálně existujícím zemím a městům. Navíc je třeba ve vizualizacích a interpretacích analyzovaných textů reflektovat poetologické procesy zcizování, vymazávání, přejmenovávání, potenciální kombinace reálných míst s fiktivními prvky. […] Teorie je zde aplikována na modelový region s velkým množstvím míst působení literárních děl: oblast kolem Lucernského jezera a masivu Saint-Gothard ve středním Švýcarsku. V návaznosti na výše uvedené úvahy bude představen metodologický horizont budoucího atlasu literatury, který naznačí potenciál geograficko-literárních konceptů ve vztahu ke komparativnímu pohledu na dějiny evropských literatur. 24
Od vydání knihy, z níž jsme výše citovali, uplynulo více než deset let a směr, který její autorka vytyčila, byl přijat nejen v akademických kruzích profesionálních badatelů vysokého uměleckého písemnictví. O skvělé intuici Barbary Piatti a o tom, že se švýcarskou badatelkou navrhovaný způsob interakce s literárními díly rozšířil takříkajíc spontánně, může svědčit následující anekdota: český 25 spisovatel
3. Text v digitálních humanitních vědách…
Jaroslav Rudiš, laureát Ceny Natalie Gorbaniewské za rok 2022 2 , hovořil na setkání se čtenáři ve vratislavském klubu Proza koncem září 2022 o fanoušcích svých próz, s nimiž je v neustálém kontaktu prostřednictvím sociálních sítí a kteří mu posílají mapy měst, v nichž se jeho díla odehrávají. To platí zejména pro Liberec, kam Jaroslav Rudiš zasadil děj svého románu Grandhotel (2006; polský překlad Katarzyna Dudzic 2011). Město na úpatí Jizerských hor, k němuž má autor životopisné vazby, neboť zde na Technické univerzitě vystudoval germanistiku a historii, se stalo také „poutním místem“ fanoušků děl česko-německého spisovatele, kteří na sociálních sítích sdílejí vlastní fotografie, na nichž jsou zachyceni v pozadí objektů klíčových pro děj toho či onoho díla.
Můžeme zde tedy pozorovat fenomén zdola, který může v takovém měřítku existovat pouze prostřednictvím digitálních komunikačních nástrojů a sítí. Společenství čtenářů současného spisovatele komunikuje s ním i mezi sebou a vytváří v reálném světě jakousi mapu míst, k jejichž návštěvě je motivovala konkrétní četba díla jejich idolu. A tak čtenáři, amatérští literární geografové, podvědomě a intuitivně sledují cestu vytyčenou Barbarou Piatti a vytvářejí jakousi turistickou trasu (která se projevuje ve virtuálním prostoru i reálném světě) – podobnou těm, které vytvářejí různé instituce zodpovědné za propagaci a organizaci cestovního ruchu ve městech (stezka Franze Kafky v Praze) nebo v horských oblastech (stezka Adalberta Stiftera na Šumavě nebo Jiráskova horská cesta v horách přiléhajících na východě ke Kladsku).
Podobné tematické stezky vznikají v různých částech Evropy i mimo ni. Určitý odraz zájmu o tento přístup k návštěvě měst a dalších oblastí nás z prostředí cestovního ruchu přesouvá zpět do oblasti vědecké reflexe, a digitální humanitní vědy fungují jako portál, který soustřeďuje poznatky o literárních fenoménech spojených s daným místem. Asi nejpozoruhodnější je v tomto ohledu projekt Autorial London27, který poskytuje poznatky o autorech a dílech spojených s britskou metropolí. Samozřejmě nechybí ani interaktivní mapy, které si uživatel může sám spoluvytvářet nastavením požadovaných parametrů dat, která se mají na kartografickém podkladu zobrazovat. V poněkud menším měřítku existují projekty věnované jednotlivým autorům 28 nebo dílům 29 a také projekty pro profesionální použití, které poskytují nástroje 30 nezbytné pro výzkumníky, aby mohli začlenit mapy do svého souboru humanistických nástrojů.
Příklady týkající se děl Jamese Joyce nebo Ludovica Ariosta, které jsou uvedeny v bibliografii doplňující výše sepsané vyprávění, se zaměřují na mistrovská díla světové beletrie a poskytují informace, které otevírají nové poznávací a interpretační perspektivy. Je však třeba zdůraznit, že používání digitálních map, zejména map dyna-
Od Gutenberga k Zuckerbergovi
mických a interaktivních, nabývá zvláštního významu při výzkumu literatury faktu, jako jsou cestopisy, válečné zprávy, reportáže nebo memoáry. Literárně-kartografické nástroje, které mohou digitální humanitní vědy poskytnout, budou obzvláště užitečné pro ty, kteří se zabývají vědeckou reflexí děl, jejichž podstatným prvkem je popis pohybu v prostoru. Ze zřejmých důvodů zde máme na mysli cestopisné zprávy, ale platí to například i pro válečnou korespondenci, v níž může být zvláště důležitým aspektem zobrazení pochodu reportéra vojenskou akcí na mapě v kontextu celkového pohybu vojsk zapojených do konfliktu. Tím, že zde vstupujeme do oblasti válečné historie, se dotýkáme interdisciplinarity, která je dnes tak důležitá a která charakterizuje mnoho aktivit v oblasti digitálních humanitních věd. Prozkoumáním mapových tras cestovatelů můžeme nejen sledovat jejich cesty, ale také ověřit nebo zfalšovat věrohodnost jejich zpráv. V mnoha popisech expedic, jako jsou horské výpravy nebo exotické výpravy, se vyskytuje často záměrně zkreslené zobrazení znečištění krajiny, zvěčněné na slavném romantickém obraze Ludwiga Richtera Überfahrt am Schreckenstein zobrazujícím loďku plující přes řeku poblíž zříceniny hradu Střekov u Ústí nad Labem. Zdánlivě realistická kompozice tohoto díla ukazuje v pozadí kuželovité kopce českého středověku s charakteristickou siluetou vrcholu (pravděpodobně Milešovky), které ve skutečnosti nejsou z perspektivy předpokládaného místa přechodu přes řeku na úpatí hradního vrchu vidět.
Pokus o shrnutí
Výše uvedenými úvahami jsme v žádném případě nevyčerpali téma využití nástrojů digitálních humanitních věd v literární vědě a ve výuce literatury (zejména v akademickém kontextu), což ostatně nebylo naším cílem. Chtěli jsme upozornit především na prvky, které obohacují výdobytky humanitních věd v Gutenbergově éře, a hledání přidané hodnoty, které jsme předpokládali na začátku, bylo úspěšné. To však nepřehlušuje řadu námitek ani ne tak proti samotné myšlence digitálních humanitních věd, ale proti některým formám její praxe.
Je třeba uznat, že někteří badatelé, kteří se možná až příliš nadchli možnostmi, jež přinesly nové trendy Zuckerbergovy éry, nejsou ve svém postoji nikterak ojedinělí a sdílejí jej se všemi těmi kolegy, kteří nekriticky a především nereflektovaně přijali za své některé nové teorie humanitního výzkumu. Zdá se, že ke každé metodě, tedy i k volnému souboru metod, jakým digitální humanitní vědy jsou, je nutné přidat i určitou zdravou skepsi a nepředpojatou kritiku, která by ostatně měla být vlastní každému vědci. Věříme, že výňatek z článku Macieje Maryla, Marty Błaszczyńské, Bartłomieje
3. Text v digitálních humanitních vědách…
Szleszyńského a Tomasze Umerleho s názvem Dane badawcze w literaturoznawstwie (Vědecká data v literární vědě), publikovaného v časopise Teksty Drugie, dobře shrne naše úvahy:
Skepsi humanistů vůči pojmu „data“ lze vysvětlit právě jejich neochotou zjednodušovat a kvantifikovat. Tato nechuť je často formulována příliš zjednodušeně, jako to například činí Stephen Marche ve svém eseji Literature is not data: against digital humanities (Stephen Marche, Literature is not data: against digital humanities, Los Angeles Review of Books, 28. října 2012). Badatel dochází k závěru, že algoritmy jsou fašistické v tom smyslu, že vytvářejí iluzi nevyhnutelné objektivity odtržené od lidské reality a že smysl je něco, co se vytrácí, rozpadá a vyžaduje „manuální“ – tedy. ateistický – přístup. Odmítání všudypřítomnosti dat v moderním světě by nás zároveň odsoudilo k nevědomosti a neschopnosti pochopit fungování současné kultury. Jak trefně poznamenává Ted Underwood ve své eseji s výmluvným názvem Dear humanists: fear not the digital revolution, humanisté by se měli učit o digitálních metodách ne proto, že bychom je měli všichni používat, ale proto, aby „pochopili, proč se stírá hranice mezi kvalitativním a kvantitativním uvažováním“ (Ted Underwood, Dear humanists: fear not the digital revolution, The Chronicle of Higher Education, 27. března 2019). „Data a metody jejich zpracování,“ uvádí Underwood, „umožňují nové způsoby interakce s minulostí a otevírají nové prostory pro dialog s jinými obory. Klíčem k rozřešení tohoto sporu je totiž pochopení, že kvantitativní metody v humanitních vědách poskytují pouze základ pro interpretační práci a nikdy ji nenahradí.“31
PODěKOVá N í
Na tomto místě bych chtěl velmi srdečně poděkovat všem účastníkům projektu Interreg Digital Humanities pro budoucnost / Humanistyka Cyfrowa dla Przyszłości, vědeckým pracovníkům a studentům Univerzity Palackého v Olomouci a Vratislavské univerzity za možnost zúčastnit se tohoto projektu, za mnoho společně strávených chvil a za inspirativní diskuse. Svým kolegům José Luisi Losadovi Palenzuelovi a Adamu Pawłowskému, vedoucímu projektu, bych chtěl co nejsrdečněji poděkovat za řadu důležitých věcných připomínek a nesmírně cenných rad k připravované kapitole, jakož i za četné materiály a veškerou pomoc, kterou mi poskytli.
POZNÁmK Y
1 Srov. JANTZEN, C. Linguistische Betrachtungen zu ausgewählten Unechten Korrespondenzen: Ein Beitrag zur Diskussion um Theodor Fontanes Autorschaft Fontane Blätter. 2000, č. 69, s. 44–66.
2 Srov. NOWICKA, D. Der Hund als Motiv der deutschsprachigen Literatur. Bemerkungen zu einem Forschungsvorhaben. In: DEMČIŠ á K, J. a M. HORNáČEK BANAŠ OVá (eds.). Germanistische Forschungsfragen in Trnava, Ústí nad Labem und Wrocław. Lipsko: 2022, s. 151–164.
3 srov. Theodor Fontane Archiv – https://www.fontanearchiv.de/ (dostup: 15. 10. 2022).
4 FALK, R. Rola poczdamskiego Archiwum im. Theodora Fontane w historii badań
Od Gutenberga k Zuckerbergovi
nad życiem i dziełem twórcy. In: PACHOLSKI, J. (ed.) Theodor Fontane w świetle faktów i interpretacji. Wrocław 2017, s. 259–272.
5 Ibidem „Als wissenschaftliche Einrichtung betreiben wir Grundlagenforschung, erarbeiten Bibliographien, Editionen und Forschungspublikationen, laden zu Symposien und Kongressen ein. In Kooperation mit Hochschulen und Forschungseinrichtungen der Region führen wir Forschungsprojekte durch, wobei Schwerpunkte u.a. im Feld der Digitalisierung von Literaturarchiven und der Digital Humanities liegen.“ (přel. J.P.). Über das Archiv – Theodor Fontane Archiv – https://www.fontanearchiv.de/ueber-un s (dostup: 15.10.2022).
7 Srov. Digitale Handschriftensammlung – Theodor Fontane Archiv – https://www. fontanearchiv.de/digitale-dienste/digitale-handschriftensammlun g (dostup: 15. 10. 2 022) .
8 Srov. Theodor Fontane Bibliographie online – Theodor Fontane Archiv – https:// www.fontanearchiv.de/digitale-dienste/fontane-bibliographie (dostup: 15. 10. 2022).
9 Srov. Fontane Chronik digital – Theodor Fontane Archiv – https://www.fontanearchiv.de/digitale-dienste/chronik/kalender/189 8 (dostup: 15. 10. 2022).
10 Digitale genetisch-kritische und kommentierte Edition herausgegeben von Gabriele Radecke (Geneticko-kritické digitální komentované vydání pod redakcí Gabriele Radecke).
11 Srov. Theodor Fontane Notizbücher – https://fontane-nb.dariah.eu/index.htm l (dostup: 15. 10. 2022).
12 „FontaneVR” – Theodor Fontane Gesellschaft – https://fontane-gesellschaft.de/ fontanevr/ (dostup: 15.10.2022).
13 dive in. Programm für digitale Interaktionen – Kulturstiftung des Bundes –https://www.kulturstiftung-des-bundes.de/de/projekte/erbe_und_vermittlung/detail/ dive_in_programm_fuer_digitale_interaktionen.htm l (dostup: 15. 10. 2022).
14 Strona główna – Muzeum Pana Tadeusza – https://muzeumpanatadeusza.ossolineum.pl/ (dostup: 28. 05. 2023).
15 Start – Muzeum Literatury – https://muzeumliteratury.pl/ (dostup: 28. 05. 2023).
1 Strona główna Muzeum Dworek Wincentego Pola – Strona Muzeum Narodowego w Lublinie – https://zamek-lublin.pl/muzeum-dworek-wincentego-pola/ (dostup: 28. 05 2023)
17 Strona główna Muzeum Bolesława Prusa – Strona Muzeum Narodowego w Lublinie – https://zamek-lublin.pl/muzeum-boleslawa-prusa/ (dostup: 28. 05. 2023).
18 Strona główna Muzeum Józefa Czechowicza – Strona Muzeum Narodowego w Lublinie – https://zamek-lublin.pl/muzeum-jozefa-czechowicza/ (dostup: 28. 05. 2023).
19 Srov. Deutsche Biographie – https://www.deutsche-biographie.de/ (dostup: 15. 10. 2 022) .
20 Srov. Österreichisches Biographisches Lexikon – https://www.biographien.ac.at/ oebl?frames=ye s (dostup: 15. 10. 2022).
21 Srov. Encyclopedia of Romantic Nationalism in Europe – Public Interface Encyclopedia of Romantic Nationalism in Europe – https://ernie.uva.nl/viewer.p/21/72/types/all/geo/ (dostup: 15. 10. 2022).
22 Srov. MORETTI, F. Graphs, Maps, Trees: Abstract Models for a Literary History . Londýn, New York, 2005, passim.
23 „Literaturgeographische Karten müssen, so Moretti, Instrumente der Interpretation sein, sie müssen mehr zeigen, als sich ohne sie auch aussagen ließe.” (v hlavním textu přeložil J.P.) – PIATTI, B. Literaturgeographie und Literaturkartographie. In: DÜNNE, J. a A. MAHLER (eds.). Handbuch Literatur & Raum. Berlín: Mahler, 2015, s. 227–239, s. 231.
24 „Konzepte einer künftigen Literaturgeographie, die literarische Schauplätze zum Ausgangspunkt der Textanalysen macht. […] Wo spielt Literatur? Die vermeintlich simple Frage eröffnet ein erst in Ansätzen etabliertes Forschungsgebiet mit neuen methodischen Zugängen unter dem Stichwort ‘Literaturgeographie’. […] Jede literarische Handlung ist irgendwo lokalisiert, wobei die Skala von gänzlich imaginären bis
3. Text v digitálních humanitních vědách…
zu realistisch gezeichneten Schauplätzen mit hohem Wiedererkennungswert reicht. Die Literaturgeographie rückt die vielfältigen Bezugnahmen von Räumen der Fiktion auf den Realraum hin ins Zentrum der Aufmerksamkeit: Literatur weist eine spezifische Geographie auf, die ganz eigenen Regeln folgt. Denn fiktionale Räume sind niemals nur mimetische Abbilder der Realität, auch wenn sie sich auf existierende Landschaften und Städte beziehen. Vielmehr müssen die poetologischen Verfahren von Verfremdung, Überblendung, Neubenennung, die Kombinationsmöglichkeiten von realen Orten mit fiktiven Elementen in Visualisierungskonzepte und Deutungen der Textanalysen einfließen. […] Diese Theorie findet zunächst Anwendung auf eine an literarischen Schauplätzen überreiche Modellregion: auf den Vierwaldstättersee und das Gotthardmassiv in der Zentralschweiz. Im Anschluss wird der methodische Horizont für einen Literaturatlas aufgespannt – und das Potenzial literaturgeographischer Konzepte im Hinblick auf eine vergleichende europäische Literaturgeschichte aufgezeigt.” (v hlavním textu přeložil J.P.) – PIATTI, B. Die Geographie der Literatur: Schauplätze, Handlungsräume, Raumphantasien. Göttingen 2008, úryvek z úvodu na klopě obálky.
25 Nedávno vytvořeno v němčině: Winterbergs letzte Reise, Mnichov 2019 (Polský překlad: Ostatnia podróż Winterberga, tłum. M. Gralińska, Wratislav 2021) i Gebrauchsanweisung fürs Zugreisen, Mnichov2021.
2 Cena udělovaná finalistovi Středoevropské literární ceny Angelus, tedy jednomu z kandidátů v užším výběru, kterého vybrala veřejnost.
27 Autorial London – https://authorial.stanford.edu/ (dostup: 15. 10. 2022).
28 Srov. Fabula and Sjužet in Wandering Rocks – https://muziejus.github.io/wandering-rocks/#section_10 (dostup: 15. 10. 2022).
29 Srov. Canto I Orlando Furioso Atlas – https://furiosoatlas.com/project/neatline/ fullscreen/canto-i#records/310 (dostup: 15. 10. 2022).
30 Srov. Digital Mapping of Literature – https://editio.github.io/mapping.literature/ spatialnet.htm l (dostup: 15. 10. 2022).
31 MARYL, M., BLASZCZYŃSKA, M., SZLESZYŃSKI, B. a T. UMERLE. Research data in literary studies . Teksty Drugie Laboratoria humanistyki. 2021, č. 2, s. 13–44, zde bod. 5. Dostupné také na WWW: https://journals.openedition.org/td/1419 0 (dostup 15 10 2022)
BIBLIOGRAFIE
1. DOPORUČENá LITERATURA ( V ý BěR)
MARYL, M., BLASZCZYŃSKA, M., SZLESZYŃSKI, B. a T. UMERLE. Dane badawcze w literaturoznawstwie Teksty Drugie. Laboratoria humanistyki. 2021, č. 2, s. 13–44; Dostupné na WWW: https://journals.openedition. org/td/14190 (dostup: 15. 10. 2022).
MORETTI, F. Atlante del romanzo europeo 1800–1900. Turín: Giulio Einaudi, 1997.
MORETTI, F. Atlas of the European Novel 1800–1900. Londýn, New: Verso, 1998.
MORETTI, F. Graphs, Maps, Trees: Abstract Models for a Literary History Londýn New York: Verso, 2005.
PIATTI, B. Die Geographie der Literatur: Schauplätze, Handlungsräume, Raumphantasien. Göttingen: Wallstein, 2008.
PIATTI, B. Literaturgeographie und Literaturkartographie. In: DÜNNE, J. a A. MAHLER (eds.). Handbuch Literatur & Raum. Berlín: De Gruyter,
Od Gutenberga k Zuckerbergovi
2015, s. 227–239 (= „Handbücher zur kulturwissenschaftlichen Philologie” t. 3).
PIATTI, B. Vom Text zur Karte – Literaturkartographie als Ideengenerator. In: REDER, CH. (ed.). Kartographisches Denken. Wídeň: Springer, s. 269–279.
2. OSTATN í LITERATURA
FALK, R. Rola poczdamskiego Archiwum im. Theodora Fontane w historii badań nad życiem i dziełem twórcy. In: PACHOLSKI, J. (ed.). Theodor Fontane w świetle faktów i interpretacji. Vratislav: Quaestio, 2017, s. 259–272
JANTZEN, C. Linguistische Betrachtungen zu ausgewählten Unechten Korrespondenzen: Ein Beitrag zur Diskussion um Theodor Fontanes Autorschaft. Fontane Blätter. 2000, č. 69, s. 44–66.
NOWICKA, D. Der Hund als Motiv der deutschsprachigen Literatur. Bemerkungen zu einem Forschungsvorhaben. In: DEMČIŠáK, J. a M. HORNáČEK BANAŠOVá (eds.). Germanistische Forschungsfragen in Trnava, Ústí nad Labem und Wrocław. Lipsko: Leipziger Universitätsverlag, 2022, s. 151–164.
PACHOLSKI, J. Nicht nur die Zeitachse oder ein Literaturunterricht mit Deutschlands Landkarte. Naukovi zapiski. Kropivnic’kij: KOD, 2018, s. 245–250.
RUDIŠ, J. Gebrauchsanweisung fürs Zugreisen, Mnichov: Piper, 2021.
RUDIŠ, J. Ostatnia podróż Winterberga. Vratislav: Książkowe Klimaty, 2021
RUDIŠ, J. Winterbergs letzte Reise. Mnichov: Luchterhand, 2019.
3. I NTERNETOVÉ ZDROJE ( V ý BěR)
„FontaneVR” – Theodor Fontane Gesellschaft – https://fontane-gesellschaft. de/fontanevr/ (dostup: 15. 10. 2022).
Autorial London – https://authorial.stanford.edu/ (dostup: 15. 10. 2022).
Canto I Orlando Furioso Atlas – https://furiosoatlas.com/project/neatline/fullscreen/canto-i#records/310 (dostup: 15. 10. 2022).
Deutsche Biographie – https://www.deutsche-biographie.de/ (dostup: 15. 10. 2022) .
Digital Mapping of Literature – https://editio.github.io/mapping.literature/ spatialnet.html (dostup: 15. 10. 2022).
Digitale Handschriftensammlung – Theodor Fontane Archiv – https://www. fontanearchiv.de/digitale-dienste/digitale-handschriftensammlung (dostup: 15. 10. 2022).
dive in. Programm für digitale Interaktionen – Kulturstiftung des Bundes –https://www.kulturstiftung-des-bundes.de/de/projekte/erbe_und_vermittlung/detail/dive_in_programm_fuer_digitale_interaktionen.html (dostup: 15 . 10 . 2022) .
Encyclopedia of Romantic Nationalism in Europe – Public Interface Encyclopedia of Romantic Nationalism in Europe – https://ernie.uva.nl/viewer. p/21/72/types/all/geo/ (dostup: 15. 10. 2022).
3. Text v digitálních humanitních vědách…
Fabula and Sjužet in Wandering Rocks – https://muziejus.github.io/wandering-rocks/#section_10 (dostup: 15. 10. 2022).
Fontane Chronik digital – Theodor Fontane Archiv – https://www.fontanearchiv.de/digitale-dienste/chronik/kalender/1898 (dostup: 15. 10. 2022).
Österreichisches Biographisches Lexikon – https://www.biographien.ac.at/ oebl?frames=yes (dostup: 15. 10. 2022).
Muzeum Literatury – https://muzeumliteratury.pl/ (dostup: 28. 5. 2023).
Theodor Fontane Archiv – https://www.fontanearchiv.de/ (dostup: 15. 10. 2022).
Muzeum Pana Tadeusza – https://muzeumpanatadeusza.ossolineum.pl/ (dostup: 28. 05. 2023).
Muzeum Bolesława Prusa, Muzeum Narodowe w Lublinie – https://zamek-lublin.pl/muzeum-boleslawa-prusa/ (dostup: 28. 5. 2023).
Muzeum Dworek Wincentego Pola, Muzeum Narodowe w Lublinie – https:// zamek-lublin.pl/muzeum-dworek-wincentego-pola/ (dostup: 28. 5. 2023).
Muzeum Józefa Czechowicza, Muzeum Narodowe w Lublinie – https://zameklublin.pl/muzeum-jozefa-czechowicza/ (dostup: 28. 5. 2023).
Theodor Fontane Bibliographie online – Theodor Fontane Archiv – https:// www.fontanearchiv.de/digitale-dienste/fontane-bibliographie (dostup: 15. 10 2022)
Theodor Fontane Notizbücher – https://fontane-nb.dariah.eu/index.html (dostup: 15. 10. 2022).
Theodor Fontanes Handbibliothek – Theodor Fontane Archiv – https://www. fontanearchiv.de/forschung/fontanes-handbibliothek#c1989 (dostup: 15. 10 2022)
Über das Archiv – Theodor Fontane Archiv – https://www.fontanearchiv.de/ ueber-uns (dostup: 15. 10. 2022).
Kapitola 4
Text v digitálních humanitních vědách: co je to korpus a k čemu se používá?
Kapitola se věnuje textovým korpusům, tedy rozsáhlým digitalizovaným a anotovaným sbírkám textů, které slouží jako zdroj dat při výzkumu jazyka. Přístup k obrovským souborům textů a snadné vyhledávání jazykových jevů v nich výrazně změnily (alespoň v některých oblastech) tvář lingvistiky. V této kapitole se seznámíme s charakteristikou, typy a historií jazykových korpusů. Dále se zaměříme na to, jaké typy dat lze prostřednictvím korpusu získat, jak korpusy změnily výzkumné metody v lingvistice, jaké typy dat lze z korpusu samotného získat, a konečně jak se z těchto dat vyvozují závěry, aby výsledky byly intersubjektivní. Text bude obsahovat příklady korpusů i konkrétní objevy učiněné na základě údajů z nich.
1. Co je korpus?
Je-li předmětem ornitologie ptactvo, kde ornitolog získává údaje pro svou práci? Pravděpodobně zejména na základě pozorování ptáků v jejich přirozeném prostředí. Je-li lingvistika studiem jazyka, vyvstává otázka, jak se k předmětu studia dostat. Existují přinejmenším dva způsoby: jedním z nich je sáhnout přímo do kompetencí uživatele daného jazyka. Zeptáme-li se rodilého mluvčího polštiny, zda je pro něj věta Janek idzie szkoły do (Janek chodí školy do) přijatelná, zjistíme, že nikoli. Zdrojem dat jsou tedy hodnocení, která rodilí mluvčí přisuzují větám připraveným lingvisty, obvykle postrádajícím kontext a konotace.
Od Gutenberga k Zuckerbergovi
Druhým zdrojem dat je pozorování jazyka v jeho přirozeném prostředí, tedy v jazykové komunikaci. Pozorování textů, které byly napsány nebo namluveny za účelem pobavení (beletrie), informování (tisk, rozhlasové a televizní zprávy), učení (učebnice a přednášky) atd. Umožní nám takové pozorování vidět v jazyce něco, co nám v něm spatřit neumožní odvolání se na úsudek uživatele jazyka? V této kapitole se vás pokusím přesvědčit, že tomu tak je.
1.1. Vlastnosti korpusu
Technicky vzato bychom zde měli hovořit o lingvistickém nebo textovém korpusu; v této kapitole však budeme používat pouze termín korpus. V zásadě lze korpusem nazvat jakýkoli soubor textů. Vezmeme-li z police čtyři knihy a hledáme v nich jev, který nás zajímá, můžeme říci, že tvoří náš korpus. V současné době se však tento termín obvykle používá pouze pro označení digitalizovaných sbírek, které lze prohledávat automaticky. Digitalizaci (zdůrazněme však, že nikoli ve formě obrázku textu, ale textového souboru) jako podmínku automatického vyhledávání je třeba považovat za conditio sine qua non pro označení takové sbírky za korpus. V zájmu historické pravdy však hned řekněme, že existují i korpusy tištěné. V polštině je to například řada sbírek mluvených textů polských měst (viz mimo jiné Dunaj 1979; Lubaś a Furgalska 1978, Majkowska 2000).
Dalšími vlastnostmi, které korpusům přisuzujeme, jsou reprezentativnost (a udržitelnost) a značná velikost. Začněme reprezentativností: stejně jako sociolog nezkoumá všechny členy komunity, ale určitou skupinu z nich, lingvista nezkoumá všechny psané a mluvené texty, ale určitý vzorek z nich. Výsledky výzkumu provedeného na vzorku lze přenést na celou populaci, pokud ji vzorek dobře reprezentuje. Zde však vyvstává otázka, co by takový vzorek měl představovat. Populaci textů? Jedná se o logické a poměrně snadno aplikovatelné řešení, bibliografie tištěných textů je systematicky shromažďována v Národní knihovně. Toto řešení má však určitou neodstranitelnou nevýhodu. Mezi texty bude tisk naprosto dominantním typem, vše ostatní bude jen příměsí. Výzkum prováděný na takovém korpusu bude tedy zamýšlen jako výzkum jazyka „obecně“; ve skutečnosti však půjde o výzkum jazyka tisku. Kromě toho jsou nesmírně důležitým typem texty, které se nikdy netisknou a objevují se pouze na internetu.
Na reprezentativnost se však můžeme podívat i z druhé strany: korpus má odrážet vnímání textů. Podíl daného typu textů závisí na tom, jak moc je daný typ čten.1 Zde se musíme odvolat na průzkumy čtenářství. Tento typ výzkumu se provádí jak pro potřeby inzerentů
4. Text v digitálních humanitních vědách…
(zde především novin), tak pro méně utilitární poznávací účely; v Polsku je pravidelně provádí Národní knihovna.
Na tomto místě bych měl zdůraznit, že pojmy reprezentativnost (ang . representativeness) a vyváženost (ang. balance) jsou zaměnitelné. Je však vhodné se na ně dívat jako na dvě nezávislá, často se vzájemně vylučující kritéria: reprezentativnost má odrážet populaci, vyváženost má zajistit, aby žádný z typů textů nepřevažoval (srov. Górski 2008), je proto vhodné zajistit také vyváženost, tedy omezit jazyk tisku; korpus tak sice ztratí na reprezentativnosti, ale získá vyváženost. Jinými slovy, údaje z něj získané budou vycházet z rozmanitějšího souboru textů.
Každému textu v korpusu je přiřazen určitý soubor vlastností, které jej charakterizují: takzvaná. metadata, tedy „data o datech“. Jedná se především o údaje bibliografické povahy: autor, název, místo a rok vydání, datum vzniku textu, nakladatel, ISBN atd. Další informace se týkají média (kniha, tisk, rukopis, internet), jeho typu (funkční styl, rejstřík) nebo tematiky. Programy pro vytváření konkordancí obvykle umožňují omezit vyhledávání pomocí metadat. Tím vznikají jisté subkorpusy, například sbírka textů jednoho autora nebo zpráv z tisku. To zase umožňuje studovat vnitřní rozmanitost jazyka, například rozdíl mezi jazykem beletrie a tisku nebo specifický styl vědeckých prací.
2. Typy korpusu
2.1. Referenční korpus
Pokud hovoříme o korpusu bez dalších termínů, máme obvykle na mysli takzvaný referenční korpus (obecný referenční korpus), tedy korpus, který má reprezentovat jazyk „obecně“, jazyk v celé jeho rozmanitosti. Korpusy tohoto druhu jsou obvykle poměrně rozsáhlé (čítají více než 100 milionů slov) a nákladné, proto je daný jazyk povětšinou zastoupen jediným referenčním korpusem. Někdy vzniká nová verze až po delší době, která ilustruje jevy, které mezitím vznikly, především nové lexikum. Tak byl například v roce 2021 po více než dvaceti letech zpřístupněn BNC2014, který nahradil Britský národní korpus z roku 1994.
Od Gutenberga k Zuckerbergovi
2.2. Synchronní, historický a diachronní korpus
Historická lingvistika, pokud se zabývala epochami, které po sobě zanechaly písemné doklady, byla vždy „korpusovou lingvistikou“.
Takzvaná filologická metoda spočívala v tom, že se ve starověkých textech hledaly jevy, které byly pro badatele zajímavé (Campbell 1999, s. 333). V tomto smyslu se zdá, že přechod od papírových médií k elektronickým nepřinesl zásadní obrat, i když i zde (jak uvádím níže) digitalizace byla podnětem ke změně přístupu.
Na tomto místě je třeba zmínit důležitý rozdíl mezi historickými a diachronními korpusy. První z nich jsou synchronní korpusy dokumentující určitou historickou epochu. Ty druhé pak představují chronologicky uspořádanou řadu synchronních korpusů. První umožňují popsat určitý stav jazyka v minulosti, druhé proces jazykových změn.
Příkladem historického korpusu je Corpus of Late Modern English Texts (CLMET, De Smet 2005). Tento korpus, dokumentující období 1710–1920, se skládá ze tří dílčích korpusů velmi podobné struktury a velikosti, z nichž každý pokrývá sedmdesát let. To umožňuje přímé srovnání mezi třemi dílčími podkorpusy.
Hranice mezi historickým a diachronním korpusem může být samozřejmě pohyblivá. Vezmeme-li jako příklad polský korpus KorBa (Gruszczyński et al. 2022), musíme konstatovat, že není konstruován jako synchronní. Zahrnuje však období 172 let (což není o mnoho méně než CLMET), tedy období, během něhož došlo k řadě změn, včetně těch systémových, takže může dokonale posloužit ke studiu jejich průběhu. Díky metadatům si uživatel jazyka může vytvořit libovolný chronologický korpus, i když musí mít na paměti, že se pravděpodobně bude lišit velikostí a konstrukcí.
Problém diferencované struktury podkorpusů diachronního korpusu je jinak neřešitelný. Všimněme si, že v případě polštiny je 15. století zastoupeno téměř výhradně náboženskými a právními texty, které dnes zdaleka nejsou nejdůležitější. Postupně se objevují nové typy textů, pro dnešní dobu stěžejní tisk ovšem širším měřítku vyplouvá na povrch až v 19. století.
2.3. Specializované korpusy
Dosud jsme hovořili o obecných korpusech, které představují „celý jazyk“. Pokud však zkoumáme specifický registr jazyka nebo jazyk vytvořený ve specifické komunikační situaci, potřebujeme specializovaný korpus, který se skládá pouze z jednoho typu textů. V takových případech je obvykle otázka reprezentativnosti nebo vyváženosti méně důležitá. Také velikost je zde méně podstatná. Můžeme si tedy
4. Text v digitálních humanitních vědách…
představit korpus složený z textů příbalových letáků k lékům, chceme-li lingvisticky zkoumat právě je.
Specifickým typem specializovaného korpusu je takzvaný žákovský korpus (srov. Granger 2008), což je korpus tvořený texty psanými studenty cizího jazyka (obvykle studenty filologie). Předpokládá se, že poskytuje údaje o tom, jak jazyk používají nerodilí mluvčí. Cílem takového výzkumu je především zjistit typické nedostatky v jejich komunikaci a následně zlepšit didaktiku cizích jazyků. Žákovské korpusy se nejčastěji vytvářejí začleněním elektronických verzí textů, vznikajících jako zadání úkolů nebo písemné práce; existují také multimodální žákovské korpusy mluvených textů. Kromě standardních metadat obsahují tyto korpusy také informace o rodném jazyce autora, dalších jazycích, které autor zná, délce studia cizích jazyků atd. Lingvistická anotace může obsahovat také údaje o nestandardních tvarech nebo typu chyby.
Zatímco vytvoření referenčního korpusu je nesmírně nákladné a vyžaduje zapojení velkého týmu lidí, vytvořit malý specializovaný korpus je v dnešní době velmi snadné. Virtuální knihovny (například Project Gutenberg, Free Readings), online vydání novin nebo portály poskytují značné množství textů. Nakonec je třeba zmínit, že určitý druh specializovaného korpusu lze vytvořit omezením vyhledávání v obecném korpusu na jeden typ textu, například na texty právní.
2.4. Paralelní korpus a porovnatelný korpus
Paralelní korpus je korpus složený z textů původně napsaných v daném jazyce a jejich překladů, přičemž tyto texty jsou propojeny tak, že při hledání určitého prvku v jazyce A lze okamžitě nalézt odpovídající fragment v jazyce B. Toto propojení obvykle končí na úrovni vět, a to jednak proto, že přesnost propojení na úrovni slov je nízká, a také proto, že mnoho slov se při překladu „ztratí“. Například v nizozemsko-italském korpusu je možné vyhledat všechny kontexty, v nichž se vyskytuje slovo hond, a jim odpovídající italské kontexty, a dále omezit vyhledávání pouze na ty věty, v nichž se vyskytuje slovo hond v nizozemském a cane v italském textu .
Korpusy nacházejí uplatnění jak ve srovnávací (kontrastivní) lingvistice, tak v translatologii, přičemž je třeba mít na paměti, že jedno od druhého nelze striktně oddělit. Problémem je také reprezentativnost těchto korpusů. Jsou extrémně závislé na nakladatelském trhu: mezi překlady převažují romány (a v případě vzácnějších jazyků v podstatě jen vysoká literatura), často dochází k určité asymetrii. Například zatímco překladů z angličtiny do polštiny je obrovské množství, překladů z polštiny do angličtiny je podstatně méně, takže korpus, v němž by byl zachován podíl textů přeložených oběma smě -
Od Gutenberga k Zuckerbergovi
ry, by byl malý. Určitou záchranou v této situaci je zařazení paralelních překladů z třetího jazyka do korpusu. Do nizozemsko-italského korpusu tak lze například přidat překlady německých textů do obou jazyků.
Na tomto místě je vhodné uvést projekty, které přesahují rámec několika jazyků, konkrétně český projekt Intercorp (Čermák a Rosen 2012), který srovnává češtinu s více než třiceti jazyky. Je pozoruhodné, že tento korpus zahrnuje překlady dvou Kunderových románů do více než desítky jazyků, což umožňuje rozsáhlý srovnávací výzkum, i když jeho empirická základna je samozřejmě značně omezená. Dalším projektem je Europarl, korpus sestávající z projevů v Evropském parlamentu a jejich překladů. ParaSol je paralelní korpus, který představuje v podstatě dvanáct slovanských jazyků (von Waldenfels 2006). Byl vědomě vytvořen s předpokladem, že bude sloužit především k typologickému výzkumu, nikoli k individuálnímu srovnávání . Paralelní korpus je třeba odlišit od porovnatelného. Ten představuje sbírku textů ve dvou (nebo více) jazycích, jedná se však výhradně o původní texty; důležité je, aby sbírka pro každý jazyk měla naprosto stejnou strukturu, čímž se předejde problémům spojeným s fenoménem takzvaného překládaného jazyka (a tedy určitým zvláštnostem charakteristickým pro přeložený text), jakož i problémům s vyvážeností. Stejná struktura umožňuje určitá srovnání. Všimněme si, že jednotlivé jazykové jevy jsou v různých typech textů zastoupeny různě, například trpný rod je charakteristický pro vědecký nebo žurnalistický styl, ale mnohem vzácnější je v textech literárních. Srovnáváme-li frekvenci trpného rodu v různých jazycích na základě dat z korpusů, z nichž některé obsahují především vědecké texty a jiné především romány, srovnáváme nesrovnatelné.
Na druhou stranu pouze paralelní korpus umožňuje porovnávat jazykové jevy zasazené do stejného kontextu. Představme si opět, že porovnáváme určitost členů v němčině a francouzštině. Pokud je stejné podstatné jméno, použité ve stejném kontextu, ve výchozím textu doprovázeno určitým členem a v překladu neurčitým členem, poukazuje to na rozdíl v pravidlech jejich používání v obou jazycích. Samozřejmě že ojedinělá nesrovnalost může být výsledkem chyby překladatele, ale v korpusu obecně hledáme to, co je sériové.
2.5. Mluvený korpus
Zvláštním typem korpusu je korpus mluvený. Na tomto místě stojí za zmínku, že s příchodem magnetofonu si lingvisté uvědomili, jak moc se mluvený jazyk liší od psaného. Architektura nástrojů pro vyhledávání v mluvených korpusech je specifická tím, že poskytuje nejen
4. Text v digitálních humanitních vědách…
přepis textu, ale také nahrávku a někdy i obraz, takže je možné studovat nejen samotný text, jeho intonaci, ale také doprovodná gesta. Obvykle rovněž lze uložit fragment nahrávky, aby ji bylo možné následně studovat pomocí vhodného softwaru, především pro fonetickou analýzu.
Nevelká mluvená složka je zahrnuta v Národním korpusu polského jazyka (Narodowy Korpus Języka Polskiego, NKJP). Zajímavější je korpus (vlastně soubor korpusů), který poskytuje http://spokes.clarin-pl.eu (Pezik 2014). Jeho jádro tvoří mluvené texty NKJP, nicméně je doplněn o postupně shromažďovaná data a také o drobné sbírky textů pořízené ještě v minulém století, které zatím nikdo digitalizoval; naštěstí se však dochovaly některé pásky s nahrávkami (srov. Majewska-Tworek et al 2020). Druhým velkým mluveným korpusem je Spišský korpus (Korpus Spiski) (Grochola-Szczepanek et al. 2019). Oba korpusy se liší v několika ohledech: jeden reprezentuje obecný jazyk, druhý nářečí, v prvním případě jde především o spontánní rozhovory, ve druhém spíše o monology jednoho informátora, a konečně oba jsou zpřístupněny prostřednictvím různých konkordačních programů.
3. Sdílení a prohledávání korpusů
Textové korpusy poodhalí svůj velký potenciál teprve tehdy, když v nich lze efektivně vyhledávat. Hledání v korpusu je jako hledání v kupce sena – ne nutně jehly, ale bezesporu drobného objektu. Je těžké si představit, jak dlouho by muselo trvat ruční rozebrání všech výskytů slova piesek (pejsek) v tiskovinách obsahujících téměř 300 000 000 výrazů, což je stejně jako v NKJP. Zatímco složitější úkoly by pravděpodobně vyžadovaly počítačové programy napsané pro konkrétní úkol, ve většině případů by stačil program poskytující konkordanci a případně zachycující základní kolokace a vytvářející prezenční listiny. Uložená konkordance spolu s metadaty se často dále zpracovává, například v tabulkových procesorech. Vytvořme pro informaci určitou typologii programů pro zpřístupňování korpusů. Máme programy, které je zpřístupňují online, což je současný standard pro velké referenční korpusy. Výhodou takového řešení je dostupnost – korpus může využívat každý, kdo má přístup k internetu. Nevýhodou je, že uživatel má k dispozici pouze funkce poskytované institucí, která korpus hostuje. Zopakujeme však, že v naprosté většině případů postačí konkordance nebo několik konkordancí vytvořených pomocí různých dotazů.
Existují také srovnávací programy, které prohledávají korpusy lokálně: tedy korpusy uložené na počítači výzkumníka. I zde můžeme
Od Gutenberga k Zuckerbergovi
hovořit o dvou typech. Zmíněné programy prohledávají buď textové, nebo binární soubory. Výhodou prvně jmenovaných je, že nevyžadují žádnou předchozí přípravu korpusových textů, zatímco nevýhodou je pomalá operace; 2 naopak binární soubory vyžadují předchozí zpracování, ale jejich vyhledávání je velmi rychlé. Pomocí tohoto typu softwaru si může kdokoli vytvořit korpus z dostupných digitalizovaných souborů pro vlastní účely. 3
4. Co lze pomocí korpusu zkoumat?
Vraťme se k otázce položené na začátku, zda v korpusu najdeme něco, co bychom nezjistili, kdybychom se obrátili přímo na jazykovou kompetenci rodilého mluvčího. Oprávněná je i další otázka: řekne nám korpus vše, co nám řekne i rodilý mluvčí ?
Snad nejvážnějším omezením korpusu je nedostatek negativních důkazů. Absence té či oné struktury je samozřejmě do jisté míry významná, ale nemůže být důkazem – nevíme, zda je to způsobeno tím, že struktura není přijatelná, nebo tím, že prostě nebyla zaznamenána, i když je možné, že je obsažena v textu, který se náhodou do korpusu nedostal. Protože gramatika by měla vytvářet všechny věty pouze a jen přijatelné, musí lingvista ověřit, zda jím vytvořená pravidla neprodukují věty nepřijatelné. Z hlediska formální gramatiky jsou navíc nejzajímavější ty věty, které leží na hranici přijatelnosti, jako například: Czego Basia nie wie, a Janek wolałby zapomnieć (Co Basia neví a Janek raději zapomene). Lingvista, pro něhož jsou empirickými daty hodnocení informátora, může libovolně utvářet podmínky experimentu a podrobovat hodnocení věty, které vytvoří. To lze přirovnat k biologovi, který pracuje s materiálem in vitro, zatímco jeho kolega (ekvivalent korpusového vědce), jenž pozoruje volně žijící organismy, nemá možnost manipulovat s podmínkami experimentu. Shrnuto a podtrženo: korpus není nejlepším nástrojem pro vytváření formalizovanějších gramatik, nebo obecněji gramatických pravidel.4 Obvykle také nemá smysl zacházet s korpusem jako s oznamovatelem – rodilým uživatelem jazyka. Co tedy rodilý mluvčí neví? Nebo přesněji, jaká znalost jazyka je mu tak hluboce skryta, že mu brání větu vyhodnotit? Především rodilí mluvčí nejsou schopni říci nic o frekvenci. Jejich explicitní znalosti o tématu jsou paradoxně velmi vysoké, o čemž svědčí například poměrně těsný vztah mezi délkou slov a jejich frekvencí (takzvaný Zipfův zákon; Zipf 1949). Kdybychom se však zeptali, jaké je nejčastější slovo v jejich rodném jazyce, určitě bychom nedostali správnou odpověď. Pouze korpus umožňuje určit, co je v jazyce běžné a co vzácné, co je typické a co netypické.
4. Text v digitálních humanitních vědách…
Uživatel jazyka také není schopen říci, čím se řídí při výběru mezi několika synonymními nebo téměř synonymními výrazy. To se týká lexika (například silny a mocny, zły a niedobry, przyjść i dojść ), ale také morfologie (kolísání mezi tvary jako profesorowie : profesorzy, užití nominativu ve funkci vokativu) nebo syntaxe (większy niż a większy od, powiedzieć do a powiedzieć + sloveso).
Ačkoli věty:
John gave Mary a book
John gave a book to Mary jsou v určitých kontextech stejně přijatelné a stejně správné, rodilí mluvčí angličtiny použijí spíše jednu z těchto konstrukcí. Zde je třeba zdůraznit dvě věci: pokud ve stejném kontextu změníme větu (1a) na (1b), pravděpodobně nebude tato změna hodnocena negativně. Zároveň však skutečnost, že stejná konstrukce bude obvykle použita ve stejných kontextových podmínkách, naznačuje, že součástí jazykové kompetence je něco, co bychom mohli nazvat „metapravidlem“ – pravidlem pro použití správného gramatického pravidla. A zatímco porušení pravidla si rodilý mluvčí jistě všimne, porušení „metapravidla“ pravděpodobně ne.
Zatímco tedy lingvista zasahující přímo do kompetence uživatele jazyka zjišťuje, co je v jazyce možné a co ne, jeho kolega sahající pro korpusová data zjišťuje spíše to, co je v jazyce více či méně pravděpodobné. Zde je třeba poznamenat, že určitým předpokladem tohoto druhu výzkumu je extrapolace výsledků na jazykové chování jako celek.
Tento přístup samozřejmě přesouvá důkazní břemeno jinam. Pro výzkum takříkajíc „s hvězdičkou nebo bez ní“ (tedy výzkum, v němž se opíráme o dichotomii přijatelné–nepřijatelné) je primárním způsobem argumentace distribuce jednotlivých jazykových prvků. V korpusovém výzkumu se argumentuje spíše frekvencí a zejména společným výskytem prvků v textu. Více se o tom zmíníme v následujících částech této kapitoly.
Pokud jde o metodologii korpusového výzkumu, často se hovoří o třech přístupech, a to o korpusově ilustrovaném (ang. corpus illustrated ), korpusově založeném (ang. corpus based ) a korpusově řízeném (ang. corpus driven) výzkumu. První z nich považuje korpus za informátora, který poskytuje příklady reálného použití gramatických pravidel. Při druhém přístupu se korpusová data používají k ověření dříve vyslovených hypotéz. A konečně třetí přístup předpokládá, že cílem studie není ověřit hypotézu, ale položit otevřenou otázku, na kterou má poskytnout odpověď pouze korpus. Samozřejmě je zde jistá idealizace. Ve skutečnosti je k prohledávání korpusu zapotřebí již nějaká předběžná hypotéza. Na druhou stranu každý vědec, který se pouští do ověřování hypotézy, musí být připraven ji v důsledku kon-
Od Gutenberga k Zuckerbergovi
frontace s empirickými údaji upravit. Druhý přístup se od třetího liší mírou nevědomosti, s níž se výzkumník pouští do své práce.
5. Příklady korpusového výzkumu
V této části se pokusíme čtenáře seznámit s vybranými příklady lingvistických objevných studií provedených na základě korpusových dat .
5.1. Lexikum a lexikografie
Těžko by se dalo najít zřejmější využití korpusu než v rámci lexikografie. Slovníky byly zpravidla vytvářeny na základě excerpovaného materiálu z pramenů. Mezi souborem ručně vytvořených kartoték a elektronickým korpusem je však důležitý rozdíl: pracovník, který kartotéky vytvářel, se zřejmě soustředil na to, co bylo zajímavější a méně typické, a další příklady běžných jevů vynechal, což vedlo k poněkud zploštělému obrazu. Stojí za to porovnat popis několika blízce příbuzných slov z Doroszewského Slovníku (Doroszewski 1958) a Innego słownika języka polskiego (Jiný slovník polského jazyka, Bańko 2014), vytvořený na základě elektronického korpusu, například slov przyjechać a dojechać (čes . přijet a dojet). Rozdíly mezi oběma slovesy mnohem lépe popisuje druhý jmenovaný slovník. Troufám si tvrdit, že je to proto, že redaktoři Jiného slovníku měli k dispozici mnohem bohatší exemplifikaci, která umožnila porovnat užití obou sloves a přesně zachytit všechny nesamozřejmé rozdíly.
Další otázkou související s lexikem je studium typických slovních spojenítotiž frazeologismů, kolokací nebo víceslovných výrazů, jako je szkoła wyższa (čes. vysoká škola). Uživatel jazyka si jistě uvědomuje, že vyšší škola není škola, která je vyšší než jiná budova (srov. Uniwersytet Wrocławski to szkoła wyższa niż okoliczne szkoły – čes . Vratislavská univerzita je škola, která je vyšší než okolní školy), srov. čes. dát sežrat. Kdybychom ho však požádali, aby uvedl další podobná spojení, pravděpodobně by jich dokázal vyjmenovat jen malý počet. Pokud známe frekvenci výskytu dvou slov v korpusu, můžeme určit, kolikrát více či méně by se tato dvě slova měla vyskytovat vedle sebe. Tento výčet samozřejmě předpokládá, že se obě slova vyskytují vedle sebe zcela náhodně – což se v jazyce v podstatě nikdy nemůže stát, protože lineární uspořádání výroků se řídí gramatikou a sémantikou.
Pokud se tedy ve vyváženém podkorpusu NKJP vyskytuje mówić (čes. mluvit) 470246krát, zatímco wyraźnie (čes. zřetelně ) 35144krát,
4. Text v digitálních humanitních vědách…
a samotný korpus má 300 000 000 segmentů, jsme schopni předpovědět, kolikrát se tato dvě slova budou vyskytovat v textech vedle sebe – očekáváme, že to bude asi 55 výskytů. 5 Skutečný počet výskytů řetězce mówić wyraźnie (čes. mluvit zřetelně ) zaznamenaný v NKJP činí 512, což je téměř desetkrát více. Srovnejme to s mnohem častějším spojením, totiž mówić tak (čes. říkat ano). Toto spojení je zaznamenáno 1807krát, je tedy více než třikrát častější než dříve uvedené spojení. Je snad typičtější? Jinými slovy, tíhnou k sobě výrazy mówić a tak více než mówić a wyraźnie? Inu, je to přesně naopak – porovnejme to s očekávanou hodnotou spojení mówić tak: 1068krát. Ještě poučnější bude srovnání dvou sekvencí kot + miauczeć a pies + szczekać (čes. kočka + mňoukat a pes + štěkat). Druhá z nich je více než desetkrát častější než první. Můžeme tedy říci, že výraz kot miauczy (kočka mňouká) je na rozdíl od výrazu pies szczeka ( pes štěká) neobvyklý? Pro rodilého mluvčího jsou obě kombinace zcela zřejmé, protože pojmenovávají konkrétní zvuky vydávané kočkami a psy. Dalo by se říci, že pouze kočky mňoukají a pouze psi štěkají. A skutečně, vezmeme-li v úvahu, že slovo pes je mnohem frekventovanější než kočka, a totéž platí pro obě slovesa, zjistíme, že oba výrazy jsou stejně typické: běžná asociační míra MI ukazuje, že kočka a mňoukat k sobě tíhnou dokonce o něco více než pes a štěkat (nabývá téměř stejných hodnot: 10,1, resp. 9,3).
Na tomto místě je třeba důrazně upozornit, že výpočet kolokační síly je pro lingvistu pouze předběžným postupem, protože nám v žádném případě nesdělí, jaká je povaha spojení – zda se jedná o víceslovný výraz jako Wielka Brytania (čes. Velká Británie), frazeologismus jako ležet ladem, nebo volné spojení jako szanowni zebrani ( čes. vážení hosté). Na druhou stranu je však pro lingvistu a lexikografa seznam slov, která k sobě tíhnout, neocenitelným zdrojem materiálu pro další výběr. Jak jsme se zmínili výše, v jazyce je jen málo místa pro náhodu, tudíž i soubor kolokací je specifický pro jednotlivá slova a dokonce i pro jejich jednotlivé významy. J. R. Firth to shrnul často citovanou větou: „You shall know a word by the company it keeps“ (Firth 1957). To vede k myšlence, že slova s podobnými kolokacemi by měla mít i podobný význam. Díky tomu se rozvíjí takzvaná distribuční sémantika. Pomocí dat z rozsáhlých korpusů se porovnávají kontexty jednotlivých slov a zjišťuje se jejich sémantická blízkost. Metoda v podstatě spočívá v porovnávání frekvencí slov (de facto řetězců znaků oddělených mezerami) v bezprostředním okolí slova, které nás zajímá. Čím podobnější jsou tyto frekvence, tím bližší by si slova měla být významově. Všimněte si, že tato metoda nám sice řekne, že slova okno a drzwi (okno a dveře) jsou si sémanticky blízká, ale neřekne nám nic o samotném významu. Tyto metody jsou zcela použitelné v lexikografii, včetně tvorby wordnetů, jak o tom píší Piasecki, Szpa-
Od Gutenberga k Zuckerbergovi
kowicz a Broda (Piasecki et al. 2009, zejména kapitola 3.2.). Protože se však jedná spíše o úkol z oblasti analýzy přirozeného jazyka, nikoliv striktně lingvistický, nebudeme se zde tímto tématem podrobněji zabývat – zejména proto, že mu nelze dobře porozumět bez osvojení si poměrně složitého matematického aparátu.
Distribuční sémantika úzce odhlíží od jakýchkoli lingvistických poznatků, existují ovšem metody, které pro sémantický výzkum umožňují využít pojmový aparát lingvistiky (Glynn 2010). Oba tyto výzkumné přístupy vycházejí ze stejného předpokladu, že význam je určován užitím. V tomto případě však jde o postup, kdy odborník lingvista rozkládá slovo na určité složky jeho významu a rysy užití. Tak například můžeme charakterizovat jakékoli podstatné jméno (v dané pasáži textu) jako živý předmět, konkrétní nebo abstraktní, použité referenčně nebo nereferenčně, počitatelné nebo nepočitatelné, vystupující ve větě jako podmět, doplněk nebo další část věty atd. Podobně lze slovesu přiřadit například flektivní kategorie (osoba číslo, čas), modalitu, teličnost, časy, označení stavu nebo děje. Důležité je, aby tyto znaky byly natolik zřejmé, aby každý odborník přisoudil užití ve stejné pasáži totožné znaky. Vylučujeme tak intuitivní odvozování. Jediné použití nám řekne jen málo, ale když důsledně popíšeme například několik set příkladů, bude možné rozeznat opakující se vzorce společného výskytu znaků. Tyto zákonitosti je samozřejmě možné rozeznat pouze pomocí statistických metod.
5.2. Morfologie
Na první pohled se zdá, že při studiu morfologie nejsou korpusy příliš užitečné, protože skloňovací paradigma je odolné vůči kontextu. Především však mají skloňovací paradigmata tendenci kolísat: v češtině zní dativ množného čísla podstatného jména pes jak psu, tak psovi, nebo polský nominativ množného čísla profesorowie a méně často profesorzy ( v češtině jen profesoři). Výběr jedné z forem může být ovlivněn nejrůznějšími faktory: rejstříkem, původem autora, sémantikou. Všechny tyto proměnné lze zjistit již z metadat textu. Korpus navíc poskytuje kvantitativní údaje: víme, co je častější, a co méně časté.
Na tomto místě uveďme studii, kterou provedl Martin Hilpert (Hilpert 2008) týkající se anglického komparativu. Jak známo, má – podobně jako polština – dvě synonymní formy, analytickou a syntetickou. Otázka volby jedné nebo druhé formy je stará a v literatuře byla na toto téma předložena řada hypotéz. Hypotézy však byly formulovány na základě poměrně omezeného souboru údajů a, což je důležitější, jejich vzájemné působení těchto nebylo dosud zkoumáno. Zde je empirickým základem téměř 80 000 výskytů komparativu. Každý
4. Text v digitálních humanitních vědách…
výskyt musel být popsán z hlediska zkoumaných proměnných, tedy například počtu slabik, přízvuku, rýmové stavby, syntaktické pozice atd. To je samozřejmě u tak velkého počtu výskytů obtížné provádět ručně, a proto byl například přízvuk přiřazen automaticky na základě údajů z elektronického slovníku, zatímco syntaktickou pozici (predikativní nebo atributivní) lze vyčíst z gramatických značek.
Výsledky lze charakterizovat následovně: téměř každý faktor, který je v literatuře vnímán, hraje určitou roli při volbě té či oné formy, i když se stává, že směr vlivu je opačný, než se zdálo; síla vlivu jednotlivých faktorů se také liší. Nakonec Hilpert se na základě takto získaného modelu pokoušel „uhádnout“, zda v daném výskytu v nesourodém korpusu komparativ bude vyjádřen tvarem jednoduchým nebo složeným. Ukázalo se, že model velmi přesně přiřazuje tvar k adjektivu. Podobnou studii pro polštinu (i když s použitím jiných statistických technik) provedla Małogrzata Gębka-Wolak (2017).
Přejděme ke studiu slovotvorby: zde se jako lepší zdroj lexika jeví slovník. Korpus má však oproti němu tři výhody. Zaprvé je neekonomické zařazovat do slovníku slova s jasnou, systematickou slovní zásobou a předvídatelným významem, přičemž taková slova jsou z hlediska systému také velmi zajímavá. Totéž platí pro příležitostné výrazy. Za druhé: připomeňme, že korpus je reprezentativním vzorkem jazyka; soubor slov tvořených daným formantem lze tedy považovat za náhodný (což považujeme za výhodu) a reprezentativní.7 Naopak soubor slov, která se objevují ve slovníku, je výsledkem rozhodnutí editora. V neposlední řadě korpus informuje nejen o počtu typů (tedy počtu jedinečných slov), ale také o počtu exemplářů. To vše dohromady umožňuje lépe posoudit produktivitu různých kategorií slovotvorných mechanismů. Práce o produktivitě často vychází z metody, kterou vyvinul Harald Baayen (1993), kde měřítkem produktivity formantu je počet hapax legomena (slov, která se v korpusu vyskytují jednou) vytvořených pomocí tohoto formantu.
5.3. Syntaxe
Jak jsme se zmínili na samém začátku této kapitoly, korpus je obecně neoptimálním nástrojem pro hledání gramatických pravidel, což však neznamená, že je nepoužitelný. Zejména takzvané treebanky, tedy korpusy, které jsou zároveň syntakticky anotovány, výrazně usnadňují hledání konstrukce, která badatele zajímá. Korpus je však nepostradatelný především tehdy, chceme-li zjistit, co rozhoduje o tom, že uživatel jazyka volí tu kterou konstrukci, a ne jinou. Vzpomeňme klasickou práci (Bresnan et al. 2007), která rozčleňuje volbu mezi dvěma v podstatě ekvivalentními konstrukcemi gave toys to the children a gave the children toys (tedy V NP PP a V NP NP).
Od Gutenberga k Zuckerbergovi
To, že tyto dvě konstrukce zůstávají ve vzájemném těsném vztahu, bylo samozřejmě uznáno již dříve. Pro formální gramatiky byla důležitá otázka, která z těchto dvou konstrukcí je základní, a která odvozená. Autoři této studie se naopak ptají, jaké faktory ovlivňují volbu jedné nebo druhé varianty. Důraz se přesouvá od studia samotné gramatiky ke studiu jejího používání. Analyzovány jsou následující rysy předmětu přenosu: datum nebo novum, zájmeno nebo substantivum, předmět živý nebo neživý, určitý nebo neurčitý, a konečně délka jmenné fráze obsahující předmět ve srovnání s délkou fráze obsahující příjemce. Každý z těchto faktorů opět více či méně měnil pravděpodobnost volby jedné nebo druhé konstrukce. Samozřejmě, že lexikum hraje při těchto volbách primární roli a často se požaduje, aby gramatika a lexikum nebyly odděleny, ale aby se s nimi zacházelo společně jako se součástí lexikogramatiky. Nejenže lexikum určuje počet a povahu argumentů (což je známo i bez kvantitativních analýz), ale je také patrné, že určité konstrukce jsou přitahovány slovy s určitými sémantickými charakteristikami. Lze zmínit řadu prací Stefanowitsche a Griese (Stefanowitsch a Gries 2003; 2005), v nichž si autoři kladou následující otázku: Máme-li konstrukci V into -ing (He tricked me into employing him), která slovesa ji naplňují? Všimněte si, že za touto otázkou stojí předpoklad, že dvojici forma – význam tvoří nejen slova, ale také abstraktní syntaktické konstrukce. Ukazuje se, že nejtypičtějšími spojeními jsou trick a fool (podvést), coerce a force (nutit); analýza typických spojení vede k závěru, že jde o slovesa, která ve svém významu obsahují složku, kterou lze neformálně popsat jako vnucování něčeho někomu silou nebo podvodem. Aniž bychom však zacházeli do statistických podrobností, je třeba zdůraznit, že pokud hovoříme o typických slovesech, nemusí jít nutně o nejčastější koincidenci s into, ale o ta slovesa, která se s into vyskytují s mnohem vyšší frekvencí, než by vyplývalo z čisté náhody. 8
V neposlední řadě je třeba zmínit takzvané referenční gramatiky (tedy komplexní popisy gramatiky jazyka), které jsou založeny na korpusu. Před více než dvaceti lety Jan Aarts (2000) postuloval, že takové gramatiky by měly:
1. zahrnout komplexní popis jak variability jazyka způsobené stylistickými varietami, tak komunikačního kanálu (od spontánního rozhovoru po pečlivě upravený tištěný text);
2. zahrnout kvalitativní i kvantitativní popis;
3. naznačit vztah mezi mimojazykovými jevy a jazykovým systémem;
4. umožnit integrovaný popis syntaktických, lexikálních a diskurzních rysů.
4. Text v digitálních humanitních vědách…
Příkladem takové gramatiky je Longman Grammar of Spoken and Written English (Biber et al. 2012). Podle Joyborata Mukherjeeho (Mukherjee 2006) bychom se při tvorbě takových gramatik neměli rigidně držet metodologie založené na korpusu, už proto, že komplexní popis jazyka vyžaduje negativní důkazy („věty s hvězdičkou“) a ilustrování argumentu pouze autentickými citáty jej vůbec neudělá jasnějším.9
5.4 Stylistika
Skutečnost, že se jazyk mění v závislosti na komunikační situaci, je lingvistice zřejmá již velmi dlouho. Lingvisté zabývající se stylistikou byli vždy „korpusovými lingvisty“, zabývali se tedy analýzou textů; navíc vzhledem k tomu, že se jedná spíše o rozdíly kvantitativní než kvalitativníe, byl výzkum často podpořen i jednoduchou popisnou statistikou. Počítačová analýza nicméně výrazně změnila obraz této lingvistické disciplíny. Pro čtenáře této knihy je jedna změna naprosto zřejmá – jedná se o změnu měřítka, proto se jí zde nebudu zabývat. Stojí však za to podívat se na druhou z nich. Počítač „nerozumí“ jazyku, a proto jsou podrobeny kvantitativní analýze odlišné rysy textu. V zásadě není možné analyzovat syntaktické rysy (například stupeň syntaktické expanze vět10 nebo frází), pokud není text syntakticky anotován. Co lze snadno spočítat, je frekvence lexémů, slovních druhů, skloňovacích tvarů nebofunkčních slov či průměrná délka věty, která již může poskytnout přibližnou představu o syntaxi. Rozdíly a podobnosti mezi texty, autory a styly lze samozřejmě zjistit až pomocí pokročilejších statistických technik.
Klasickým spisem zabývajícím se stylovými variacemi v americké angličtině je kniha Variation across speech and writing (Biber 1991). V souvislosti s polštinou lze zmínit článek Typologia tekstów oparta na miarach kwantytatywnych. Studium korpusowe o zróżnicowaniu polszczyzny (Eder, Górski, 2019), v němž autoři provádějí rozsáhlou analýzu stylistické variability polštiny na základě více než tisíce textů z NKJP.
5.5. Sociolingvistika
Sociolingvistiku nelze praktikovat izolovaně od empirie a přitom korpus je velmi důležitý (i když ne jediný) zdroj dat Pouze referenční korpus může poskytnout odpovědi na rozdíly v používání jazyka v závislosti na pohlaví nebo bydliště autora. Nejzajímavější výzkumy se však provádějí na korpusech vytvořených speciálně pro účely tohoto druhu výzkumu. Především se jedná o korpusy mluvených
Od Gutenberga k Zuckerbergovi
textů. Při výběru respondentů se autoři obvykle řídí sociologickými kritérii, stejně jako při dotazníkovém šetření. Důležité je také poskytnout v textech komplexní informace o demografických údajích: věk, bydliště, původ, pohlaví, vzdělání, mateřský jazyk (pokud se liší od jazyka záznamu) atd., tedy všechny proměnné, u nichž lze očekávat, že mohou ovlivnit jazykové rozdíly.
Z mnoha sociolingvistických prací založených na korpusových datech uveďme dvě. Práce Discourse variation, grammaticalisation and stuff like that (Cheshire 2007) se zabývá takzvanými general extenders, tedy výrazy jako and that, and stuff apod. Dobrou ilustrací použití tohoto typu výrazů v polštině je citát z NKJP: Zabrał też jakieś plastry i takie tam czy no bo ją wystraszyli ci ze straży miejskiej i tego (čes. přibližně: Vzal si taky nějaké náplasti a něco takovýho nebo no protože se bála těch z městský policie a tak). Cheshire se ptá, do jaké míry jsou tyto výrazy v řeči mladých lidí prostorově a sociálně diferencované. Ukazuje se, že v případě takto vysoce konvencionalizovaných a bezvýznamných jazykových prvků jsou sice rozdíly mezi třemi městy, v nichž byly nahrávky pořízeny, značné, ale ještě výraznější jsou v rámci jednoho města rozdíly mezi střední a dělnickou třídou. Dalším příkladem často zkoumaného jevu jsou rozdíly v používání jednotného a množného čísla slovesa to be v existenciálních větách s podmětem v množném čísle. Normě samozřejmě odpovídá pouze množné číslo, nicméně v reálném užití se tvary kodifikací odmítané vyskytují poměrně často. K vnitrojazykovým determinantům se přidávají dialektové rozdíly, jakož i rozdíly v pohlaví, věku a sociálním postavení; konečně zde nelze přehlédnout idiolekt informátora. Tento jev byl předmětem mnoha studií11 , a není na místě je zde postupně rozebírat. Důležité je něco jiného, a sice to, že zde máme co do činění s propojením mnoha různých faktorů, které se vzájemně posilují nebo ruší a které ovlivňují volbu jedné z obou forem. Určení vzájemného vztahu a síly těchto faktorů vyžaduje jak poměrně velké množství dat, tak sofistikované statistické techniky.
5.6. Historická lingvistika
Historická lingvistika, jejíž předmětem jsou epochy, které po sobě zanechaly písemná svědectví, byla vždy „korpusovou lingvistikou“, neboť to, co nazýváme filologickou metodou, spočívá „ve srovnávání textů psaných stejným jazykem, ale z různých epoch“ (Milewski 1976, s. 137). Moderní korpusová lingvistika však tvář této metody výrazně změnila. Především díky digitalizaci textů se jejich vyhledávání stalo mnohem jednodušším a rychlejším. To se projevuje v množství materiálu, který se následně promítá do možnosti použití pokročilých statistických technik. Jak jsme však již zmínili, písemný odkaz
4. Text v digitálních humanitních vědách…
minulých epoch je velmi omezený; stačí říci, že staropolský korpus čítá asi půl milionu slov, což je zhruba tolik, kolik týdně vyprodukuje redakce velkého deníku, když se započítají všechny jeho přílohy. V důsledku toho se zájem badatelů přesouvá na období, která jsou nám bližší, neboť badatel má k dispozici větší množství textů a zároveň si může všímat změn pouze kvantitativní (nikoli kvalitativní) povahy, které jeho předchůdci přirozeně přehlíželi právě kvůli nedostatku materiálu. Zde stojí za to citovat zejména knihu Christiana Maira (Mair 2006) o dějinách angličtiny ve 20. století. Je zřejmé, že změny, k nimž v tomto století došlo, jsou malé, v podstatě jen kvantitativní povahy a podle názoru „předdigitálního“ historického lingvisty pravděpodobně nestojí za povšimnutí. Přesto impozantní počet více než 500 citací naznačuje, že tyto procesy stály za pozornost.12
6. Shrnutí
Nakonec si odpovězme na otázku, zda zavedení digitálních technik přineslo revoluci v lingvistice, jinými slovy, zda – řečeno populárním výrazem – „lingvistika už nikdy nebude jako dřív“? Odpověď bude nejednoznačná. Používání digitálních nástrojů je v ní však pravděpodobně rozšířenější než v jiných humanitních oborech. Díky těmto nástrojům se navíc kvantitativní argumentace, která byla ještě v 80. letech považována za spíše okrajovou kuriozitu, stala jedním z dominantních lingvistických přístupů. Zároveň však existují rozsáhlé oblasti výzkumu, kde vědci úspěšně argumentují způsobem, který odhlíží od čísel. Není to ovšem nijak zvlášť konzervativní reakce, protože v kvantitativní argumentace v lingvistice neumožňuje vyvozovat závěry o nic spolehlivěji než argumentace kvalitativní. Je to proto, že lingvistika již dávno vyvinula metody zbavené subjektivity.
POZNÁmK Y
1 Tato myšlenka pochází od Františka Čermáka (srov. Čermák 1997).
2 Pokud korpus nepřesáhne velikost několika milionů slov, je rychlost takových konkordančních nástrojů přijatelná.
3 Podle názoru autora této kapitoly lze doporučit bezplatný program AntConc, který pracuje s textovými soubory a který vytváří konkordanci, frekvenční seznam, vyhledává kolokace a klíčová slova a nakonec znázorňuje rozložení hledaného výrazu v korpusu. Dalším cenným nástrojem je https://korpusomat.pl, která online vytváří binární soubory z dodaných textů.
4 Toto přesvědčení, pronesené v duchu Noama Chomského, rozhodně nesdílejí všichni lingvisté. Zde je třeba upozornit na přístup Bloomfielda nebo Hocketta. Ti postulovali vytvoření gramatiky, která by popisovala výrazy určitého korpusu a pouze tohoto korpusu. Ačkoli se jedná o návrhy poměrně staré, stojí za to zde zmínit
Od Gutenberga k Zuckerbergovi
formálně-syntaktickou práci Marka Świdzinského (1996), která je založena výhradně na korpusu.
5 Čtenáře, kterého zajímá, jak vypočítat asociační sílu, odkazujeme na práci Woźniak 2017.
Zda tomu tak skutečně je, se ověřuje následovně: dva lidé nezávisle na sobě klasifikují určitý soubor dat a jejich rozhodnutí se pak porovnávají. Pokud mezi oběma experty panuje rozsáhlá shoda, lze přiřazení jednotlivých kategorií považovat za intersubjektivní.
7 Všimněme si, že v tomto přístupu vůbec nejde o maximalizaci počtu slov s daným formantem. Pokud tedy badatel nalezne například v prameni mimo korpus další podstatné jméno zakončené na -acz, vynechá ho ze svého výzkumu, stejně jako sociolog nebude doplňovat průzkum prováděný na reprezentativním vzorku populace o odpovědi sousedů na schodišti.
8 Totéž platí pro detekci kolokací (viz výše).
9 Za zmínku stojí, že sám autor je uznávaný odborník v oblasti anglické gramatiky.
10 Tento rys stylu byl v polské jazykové stylistice velmi často zkoumán pod vlivem článku Zenona Klemensiewicze. (Klemensiewicz 1951)
11 Tagliamonte a Baayen (2012) uvádějí 16 prací na toto téma.
12 Pozornost lingvisty, který se zajímá o polštinu, může upoutat práce Zmiana w języku. Studia kwantytatywno-korpusowe (Górski, Eder, Król 2019), v níž autoři mimo jiné sledují dynamiku jazykových změn, k nimž dochází v období střední polštiny (16. – 18. století), a navrhují metodu pro stanovení „mezníků“ v periodizaci jazyka. Uvedené metody jsou blízké stylometrickým metodám popsaným v kapitole 3.5.
BIBLIOGRAFIE
AARTS, J.. Towards a new generation of corpus-based English grammars. In: LEWANDOWSKA-TOMASZCZYK, B. a P. J. MELIA (eds.). PALC’99: Practical applications in language corpora. Frankfurt nad Mohanem, 2000, s. 17–36.
Baayen, H. On frequency, transparency and productivity. In: Yearbook of morphology 1992. 1993, s. 181–208.
BAŃKO, M. (ed.). Inny słownik języka polskiego PWN. 1: A-Ó (2. vyd.). Varšava 2014.
BIBER, , D. Variation across speech and writing. Cambridge 1991.
BIBER, D., JoOHANSSON, S., LEECH, G., CONRAD, S. a E. FINEGAN. Longman grammar of spoken and written English. Harlow 2012.
BRESNAN, J., CUENI, A., NIKITINA, T. a R. H. BAAYEN. Predicting the dative alternation. In: BOUMA, G., KRAMER, I. a J. ZWARTS (eds.). Cognitive foundations of interpretation. Amsterdam, 2007, s. 69–94. CAMPBELL, L., Historical linguistics: An introduction. MIT Press 1999.
ČERMáK, F. Czech National Corpus: A Case in Many Contexts. International Journal of Corpus Linguistics. 1997, roč. 2, č. 2, s. 181–197. Dostupné na WWW: https://doi.org/10.1075/ijcl.2.2.03cer
ČERMáK, F. a A. ROSEN. The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics. 2012, roč. 17, č. 3, s. 411–427. Dostupné na WWW: https://doi.org/10.1075/ijcl.17.3.05cer .
CHESHIRE, J. Discourse variation, grammaticalisation and stuff like that. Journal of Sociolinguistics. 2007, roč. 11, č. 2, s. 155–193. Dostupné na WWW: https://doi.org/10.1111/j.1467-9841.2007.00317.x
4. Text v digitálních humanitních vědách…
De smet, H. A corpus of Late Modern English texts. ICAME Journal. 2005, roč. 29, č. 205, s. 69–82..
DOROSZEWSKI, W. (ed.). Słownik języka polskiego. Varšava 1958.
DUNAJ, B. Wybór tekstów języka mówionego mieszkańców Krakowa. Krakov,1979.
EDER, M. a R. L. GÓRSKI. Typologia tekstów oparta na miarach kwantytatywnych: Studium korpusowe o zróżnicowaniu polszczyzny. Język Polski . 2019, roč. 99, č. 3, s. 5–17..
FIRTH, J. R. A synopsis of linguistic theory 1930–55. Studies in linguistic analysis (special volume of the philological society). 1952, č. 59, s. 1–32.
ZIPF, G. K. Human behavior and the principle of least effort. Boston 1949.
GLYNN, D. Corpus-driven Cognitive Semantics. Introduction to the field. In: GLYNN, D. a K. FISCHER. Quantitative Methods in Cognitive Semantics: Corpus-Driven Approaches. Berlín 2010, s. 1–42. Dostupné na WWW https://doi.org/10.1515/9783110226423.1
GÓRSKI, R. L. Representativeness of a Written Part of a Polish General-Reference Corpus. Corpus Linguistics, Computer Tools, and ApplicationsState of the Art: PALC 2007. 2008, č. 17, s. 119.
GRANGER, S. Learner corpora. In: LÜDELING, A. a M. KYTÖ (eds.). Corpus Linguistics. An International Handbook. Berlín, New York, 2008, s. 259–275.
GROCHOLA-SZCZEPANEK, H., GÓRSKI, R. L., VON WALDENFELS, R. a M. WOŹNIAK. Korpus języka mówionego mieszkańców Spisza. LingVaria. 2019, roč. 14, č. 27, s. 165–180.
GRUSZCZYŃSKI, W., ADAMIEC, D., BRONIKOWSKA, R., KIERAŚ, W., MODRZEJEWSKI, E., WIECZOREK, A. a M. WOLIŃSKI. The Electronic Corpus of 17th- and 18th-century Polish Texts. Language Resources and Evaluation. 2022, roč. 46, č. 1, s. 309–332. Dostupné na WWW: https://doi. org/10.1007/s10579-021-09549-1
HILPERT, M. The English comparative – language structure and language use. English Language and Linguistics. 2008, roč. 12, č. 3, s. 395–417. Dostupné na WWW: https://doi.org/10.1017/S1360674308002694 .
KLEMEMNSIEWICZ, Z. Problematyka składniowej interpretacji stylu. Pamiętnik Literacki: czasopismo kwartalne poświęcone historii i krytyce literatury polskiej. 1951, roč. 42, č. 1, s. 102–157.
LUBAŚ, W. a A. FURGALSKA. (1978). Teksty języka mówionego mieszkańców miast górnego śląska i zagłębia. Uniwersytet Śląski, 1978. Dostupné na WWW: https://books.google.pl/books?id=tk1LAQAAIAAJ
MAIR , C. Twentieth-century English: History, variation and standardization. Cambridge: Cambridge University Press, 2006.
MAJEWSKA-TWOREK, A., ZAŚKO-ZIELIŃSKA, M. a P. PĘZIK. „Polszczyzna mówiona miast” – kontynuacja badań z lat 80. XX wieku z wykorzystaniem narzędzi lingwistyki cyfrowej. Forum lingwistyczne. 2020, článek č. 7.
MAJKOWSKA, A. Polszczyzna mówiona mieszkańców Częstochowy. In: Polszczyzna mówiona mieszkańców Częstochowy. Wydaw. WSP, 2020.
MILEWSKI, T. Językoznawstwo. Państwowe Wydawnictwo Naukowe, 1976.
MUKHERJEE, J. Corpus linguistics and English reference grammars. In: The changing face of corpus linguistics. Brill, s. 337–354.
Od Gutenberga k Zuckerbergovi
OVERSTREET, M. Whales, Candlelight, and Stuff Like That: General Extenders in English Discourse. Oxford Studies in Sociolinguistics. Oxford: Oxford University Press,2000.
PĘZIK, P. Spokes-a search and exploration service for conversational corpus data Selected papers from the CLARIN 2014 Conference. 2014, s99–109.
STEFANOWITSCH, A. a S. TH. GRIES. Covarying collexemes. Corpus Linguistics and Linguistic Theory. 2005 roč. 1, č. 1, s. 1–43. Dostupné na WWW: https://doi.org/10.1515/cllt.2005.1.1.1 .
TAGLIAMONTE, S. A. a R. H. BAAYEN. Models, forests, and trees of York English: Was/were variation as a case study for statistical practice. Language Variation and Change. 2012, roč. 24, č. 2, s. 135–178. Dostupné na WWW: https://doi.org/10.1017/S0954394512000129 .
VON WALDENFELS, R. Compiling a parallel corpus of Slavic languages. Text strategies, tools and the question of lemmatization in alignment. Beiträge der europäischen slavistischen Linguistik (POLYSLAV). 2006, č. 9, s. 123–138.
WOŹNIAK, M. Jak znaleźć igłę w stogu siana? Automatyczna ekstrakcja wielosegmentowych jednostek leksykalnych z tekstu polskiego. Instytut Języka Polskiego PAN, 2017.
Kapitola 5
Text v digitálních humanitních vědách: jak (a proč) měřit podobnost dokumentů Úvod
Buďme upřímní: abychom mohli seskupovat texty podle jejich autorství, nemusíme je vlastně ani číst. Stačí je vložit do počítače, spočítat nejčastěji se vyskytující slova, a počítač nám po chvíli vyplivne obrázek, kde jsou texty stejných autorů odpovídajícím způsobem seskupeny. To obvykle funguje. Upozorňuji na výraz „nejčastější slova“, protože ne každý čtenář – řekněme – beletrie si vždy uvědomuje, že 100 nejčastějších slov v každém románu a v každém jazyce má obvykle jen málo společného s nějakým konkrétním významem, a už vůbec ne s literární krásou. Těchto 100 nejčastějších slov je v drtivé většině slovy „funkčními“, „gramatickými“, „synsémantickými“ (protože „bezvýznamnými“). Například v češtině ve sbírce 34 textů Běhounka, Čapka, Haška a Hrabala se jedná o následujících 100 slov (v pořadí podle nejčastější frekvence):
a, se, na, to, že, v, je, jsem, do, s, tak, ale, si, z, jako, k, když, za, byl, co, já, o, jak, už, po, by, mu, jen, i, jeho, ten, bylo, aby, ve, ho, ještě, řekl, tam, od, který, tu, u, až, byla, jsme, ty, pro, ani, pak, mi, nebo, než, které, pan, toho, měl, mne, před, kde, nic, ze, jsou, pane, ji, něco, má, není, jste, vám, tom, teď, pod, své, tím, potom, tady, bude, nad, ta, která, jejich, jim, mně, ne, zase, bych, všechno, ti, při, být, protože, jej, sám, mezi, tomu, člověk, vás, ní, chvíli, vy
Podobně je tomu i v polštině; je jedno, zda vezmeme polské texty nebo, jako v tomto případě, polské překlady stejných textů od stejně skvělých Čechů:
Od Gutenberga k Zuckerbergovi
i, się, w, na, z, nie, to, że, do, a, jak, tak, ale, po, o, już, pan, jest, co, za, tylko, od, go, mu, tym, ja, sobie, ten, mnie, było, był, jego, tego, kiedy, gdy, tam, jeszcze, przez, mi, ze, przy, który, więc, pod, potem, ich, teraz, bo, te, tu, czy, nawet, by, dla, przed, ma, gdzie, miał, bardzo, mój, wszystko, nad, będzie, tej, żeby, nic, była, jej, nim, no, które, coś, może, też, tych, aż, pani, je, jednak, także, ta, niego, jakby, sam, bez, ją, nas, pana, on, u, są, być, ci, rzekł, panie, nich, im, zawsze, raz, siebie
To jsou ale nudné spisy! Nic o lásce, válce ani dobrodružství. A další děsivé zjištění: právě tato slova tvoří zhruba 50 % každé knihy, ba co víc – každé promluvy ve všech jazycích světa (zřejmě i v delfinštině). Jinými slovy, když čteme Bibli, Shakespeara, Goetha, Dumase nebo Eca – a je jedno, v jakém jazyce – čteme většinou právě taková „neliterární slova“. Údajně bychom to měli vědět, ale literární vědce na to musel nově upozornit John Burrows ve své monumentální studii o jazyce Jane Austenové (1987), která se stala jakýmsi základním kamenem moderní počítačové stylistiky. Víme ovšem také, že „nudná“ slova jsou v jazyce zároveň velmi důležitá, protože – ačkoli sama často něco „znamenají“ pouze gramaticky – vstupují do nejrůznějších frazeologických a syntaktických vztahů s jinými, vzácnějšími, ale „významnějšímiL slovy (McKenna et al. 1999, s. 152).
Jak se to dělá?
Samozřejmě je možné počítat jazykové nebo stylistické prvky zcela jednoduše – to ostatně udělal polský průkopník předpočítačové stylistiky Wincenty Lutosławski, když na základě společných stylistických rysů Platónových dialogů určil (zcela správně) jejich chronologii (Lutosławski 1897). Naštěstí můžeme použít počítač, který naše romány „přečte“, i kdyby byly jen ve formátu prostého textu (tedy jednoduše identifikuje znaky), rozdělí je – například – na slova, vytvoří seznam nejčastějších slov pro celý soubor textů a pak zjistí četnosti těchto nejčastějších slov v každém textu v souboru. Pro každý text máme nyní k dispozici řadu čísel (právě onu četnost), takže odtud je již jen krok k výpočtu míry rozdílu – neboli „vzdálenosti“ – mezi každou dvojicí textů v naší kolekci. Oblíbené míry vzdálenosti moderních stylometrů jsou ty, které vycházejí z práce výše zmíněného Johna Burrowse (2002) a jeho napodobitelů (Hoover 2004). V poslední době se jako nejúčinnější ukázala takzvaná kosinová delta, kterou zavedli Smith a Aldridge (2011) a kterou podrobně testovali Evert a kol. (2017) . Bez ohledu na použitou míru vzdálenosti je výsledkem zkoumání textů „každý s každým“, tabulka nebo spíše matice výsledků, která může být sama o sobě zajímavá. V tabulce 1, která pro nedostatek
5. Text v digitálních humanitních vědách…
PostrizinySamota
Hašek Hrabal
Tabulka 1 . Hodnoty míry vzdálenosti (kosinová delta) pro vybrané texty v češtině.
Čapek
Běhounek
AkceFregataKomandoHordubalKrakatitPovetronŠ vejk 1Švejk 2Zajeti Krale
Akce 0,000,420,27 1,381,191,321,251,170,691,311,131,00
Běhounek
Fregata 0,420,000,23 1,461,221,470,990,980,611,101,041,14
Komando 0,270,230,00 1,351,091,471,131,040,701,241,091,03
Hordubal 1,381,461,35 0,000,510,68 1,261,261,361,141,061,13
Čapek Krakatit 1,191,221,09 0,510,000,76 1,091,161,171,381,021,26
Povetron 1,321,471,47 0,680,760,00 1,101,241,411,141,271,21 Š vejk 1 1,250,991,131,261,091,10 0,000,210,55 1,201,251,24
Hašek Š vejk 2 1,170,981,041,261,161,24 0,210,000,56 1,151,211,24
Zajeti 0,690,610,701,361,171,41 0,550,560,00 1,191,091,07 Krale 1,311,101,241,141,381,141,201,151,19 0,000,430,44
Postriziny 1,131,041,091,061,021,271,251,211,09 0,430,000,38
Hrabal Samota 1,001,141,031,131,261,211,241,241,07 0,440,380,00
Od Gutenberga k Zuckerbergovi
místa obsahuje pouze tři texty od každého ze čtyř autorů, je okamžitě patrná zajímavá pravidelnost: u každého z dvanácti textů jsou nejnižší hodnoty kosinové delty ty, které ukazují míru nepodobnosti s texty téhož autora (je zřejmé, že daný text má k sobě vzdálenost nula). Náhoda? Ne: empiricky vzato je to pravidlo, nejběžnější zákonitost .
Užitečnost takové studie pro účely atribuce autorství je snad zřejmá: představme si, že jeden z našich textů, například Běhounkovo Komando plukovníka Brenta, je svazek nalezený na něčí půdě bez obálky a obálky a že z nějakého důvodu nemůžeme rozpoznat individuální styl tohoto českého autora dobrodružných románů. A že z nějakého důvodu podezříváme z autorství této bezejmenné knihy kromě Běhounka (no, to asi není nejlepší příklad) i autory Krakatitu, Švejka a Obsluhoval jsem anglického krále: náš způsob poukázání na autorství námořního příběhu o statečných spojeneckých komandech nám dá za pravdu.
V této tabulce je však ještě jedna zajímavá informace – možná náhodná, možná ne: nejnižší nenulová hodnota míry vzdálenosti, 0,21, se vyskytuje nejen mezi texty téhož autora, ale i mezi dvěma díly téhož románu Osudy dobrého vojáka Švejka za světové války; dříve vydaný Dobrý voják Švejk v zajetí je také (podle kosinové delty) Haškův, ale je poněkud jiný. Je to vskutku zajímavé: stejná metoda – založená koneckonců pouze na nejčastějších slovech, která pravděpodobně nemají přímou souvislost s obsahem nebo kontinuitou díla – dokáže rozpoznat i takové jemnosti? A dále: ze tří Běhounkových knih jsou si nejvíce podobné Fregata pluje kolem světa (1942) a Komando plukovníka Brenta (1948), tedy dobrodružné romány; méně podobná je Akce L (1956) o kolonizaci Měsíce, tedy sci-fi. Cožpak podle frekvence gramatických slov poznáme také žánr textu?!
Tento jednoduchý příklad ilustruje konsenzus, který ve stylistice panuje: ano, nejčastější slova nesou především signál autora, obvykle ten nejsilnější, ale promísený – v různém a nikdy nepředvídatelném poměru – se signály žánru, obsahu, chronologie... a nikdo neví čeho ještě.
Přestože samotná tabulková data jsou obvykle již poměrně zajímavá, je užitečné prezentovat je v grafu té či oné vícerozměrné analýzy. Na obrázku 1 máme graf shlukové analýzy (cluster analysis), který transformuje matici vzdáleností do stromového grafu zobrazujícího hierarchii podobností mezi všemi texty zahrnutými do analýzy. Efektivita naší atribuce autorství je v tomto případě stoprocentní (ne vždy, ale velmi často): texty stejných autorů jsou nejprve spojeny větvemi grafu navzájem a teprve potom s texty jiných autorů. Z tabulky navíc vyplývá, že Běhounek má nejblíže k Haškovi, tito dva pak k Hrabalovi a nejvíc se jim nepodobá Čapek – nejsem odborník na českou literaturu, takže nevím, jestli to má nějaký hlubší literárněvědný smysl.
5. Text v digitálních humanitních vědách…
Obrázek 1. Graf shlukové analýzy 34 textů z české literatury.
Jak se to dělá?
Je asi zřejmé, že výše popsaný postup lze převést na sérii operací nejprve s textem a poté s čísly z něj získanými, a že dříve či později musely být vyvinuty počítačové nástroje, které by tuto namáhavou práci vykonaly místo člověka. Další komplikací při vývoji takových nástrojů pro analýzu textu je obvykle nutnost přizpůsobit je úrovni programátorských schopností uživatelů, kteří často pocházejí z oborů s velmi malými počítačovými dovednostmi: co je snadné a samozřejmé pro počítačového lingvistu, může být příliš obtížné pro literárního vědce. Není překvapením, že první pokusy se ubíraly směrem k využití volně dostupných kancelářských programů: jednalo se o tabulky Excelu s makry v jazyce VisualBasic (Hoover 2018). Později přišel JGAAP napsaný v jazyce Java (Juola 2012). Šťastnou kombinací snadného použití a možnosti výrazně měnit způsob provádění textové analýzy se ukázal být balíček „stylo“ (Eder et al. 2016) pro statistické programovací prostředí R (R Core Team 2014). „Stylo“ využívá relativně rychlých procesů jazyka R a zároveň – díky „vestavěnému“ grafickému rozhraní – umožňuje provádět řadu experimentů i lidem neznalým příkazů tohoto prostředí.
Od Gutenberga k Zuckerbergovi
Příprava textů k analýze je poměrně jednoduchá. Stylo „rozumí“ souborům v textovém formátu (nejbezpečnější je používat standard UTF-8), html (což je jazyk, ve kterém se píší webové stránky) a několika verzím schématu XML. Ve výchozím nastavení jsou tyto soubory umístěny v podadresáři pracovního adresáře s názvem „corpus“ (název je libovolný, ale stylo jej rozpozná automaticky), kde jsou uloženy soubory s výsledky (tabulky hodnot a grafy). Je užitečné dát pracovnímu adresáři smysluplný název, protože se používá jako výchozí součást názvů výsledných souborů a jako legenda v grafech. Pokud chceme, aby byly popisky jednotlivých textů barevné jako na obrázku 1 – pro každý autorský text jiná barva –, stačí pojmenovat textové soubory podle konvence, kterou stylo používá: autor_název.txt.
Po spuštění prostředí R je zapotřebí:
1. ukázat na uvedený pracovní adresář příkazem setwd() nebo pomocí shellu R systému Windows nebo MacOS, 2. zadat příkaz library(stylo), který načte procedury balíčku do paměti počítače, 3. zadat příkaz stylo(), který spustí analýzu balíčku a textu. V reakci na tento příkaz se zobrazí výše uvedené grafické uživatelské rozhraní. V tomto textu se budeme zabývat pouze nejdůležitějšími nastaveními; zájemce odkazuji na webové stránky spojené s balíčkem stylo: https://github.com/computationalstylistics/stylo . Jak je vidět na obrázcích 2–6, následné záložky formátu grafického rozhraní umožňují nejrůznější varianty stylometrické analýzy. Záložka „Input and language“ umožňuje zadat formát studovaných textů a jejich jazyk – v druhém případě jde o uvedení příslušné kódové stránky. Za zmínku stojí, že tři varianty anglického výběru specifikují odlišné zacházení se spojovníky (například topsy-turvy) a kontrakcemi (can‘t); dvě verze latinky umožňují odlišné zacházení s písmenem u/v; CJK je společná kategorie pro čínštinu, japonštinu a korejštinu.
Obrázek 2. Karta „Vstup a jazyk“ v rozhraní balíčku stylo.
5. Text v digitálních humanitních vědách…
Karta „Features“ (Obrázek 3) určuje, co se bude počítat: jednotlivá slova (nebo jakékoli jiné sekvence znaků neoddělené mezerami nebo interpunkčními znaménky), jednotlivé znaky (písmena), n-gramy slov a znaků (tedy shluky n znaků); navíc lze nastavit, zda se velká a malá písmena mají považovat za tento znak, nebo za dva různé znaky. V druhém řádku karty se nastavuje délka seznamu nejčastějších slov, která se použijí pro porovnání textu (lze nastavit i celý rozsah hodnot) – v případě výše uvedeného příkladu české literatury bylo vybráno „pouze“ 100 nejčastějších slov, jak je uvedeno na obrázku. Stejný formát umožňuje také některé automatické postupy pro redukci seznamu nejfrekventovanějších slov, například zbavení se zájmen v daném jazyce.
Obrázek 3. Karta „Funkce“ v rozhraní balíčku stylo.
Zarta „Statistics“ (obrázek 4) definuje typy statistické analýzy nejčastěji používaných slov. Obvykle se používá shluková analýza, jako v našem „českém“ příkladu, ale k dispozici je také vícerozměrné škálování a různé verze analýzy hlavních komponent. Kromě toho se v této fázi vybírá jedna z několika měr vzdálenosti.
Obrázek 4. Karta „Statistik“„ v rozhraní balíčku stylo.
Od Gutenberga k Zuckerbergovi
Záložka „Sampling“ (obrázek 5) se používá pouze v případě, že chceme analýzu provádět nikoli na celých textech, ale na jednom nebo více vzorcích vybraných ze zkoumaných textů; vzorky přitom mohou být brány nikoli jako souvislý text, ale jako náhodně vybraná jednotlivá slova. Samozřejmě lze zadat i velikost vzorků.
Obrázek 5. Karta „Sampling“ v rozhraní balíčku stylo.
Konečně na poslední kartě „Output“ (obrázek 6) se vybírají nejrůznější možnosti pro grafy a výstupní soubory, především formát grafu a jeho velikost nebo automaticky generované nadpisy a podnadpisy a barevné schéma: černobílé, odstíny šedi, barvy.
Obrázek 6. Karta „Output“ v rozhraní balíčku stylo.
Co dál?
Obvykle je dalším krokem stylistické analýzy ověření, zda se výsledky budou opakovat nejen pro 100 nejfrekventovanějších slov, ale i pro jinak dlouhé seznamy slov. Nejde pouze o ověření účinnosti atribuce,: stejně zajímavé mohou být i případné změny ve vzájemných vztazích
5. Text v digitálních humanitních vědách…
nikoli již mezi jednotlivými texty, ale celými autorskými „shluky“ (protože stále mluvíme o o cluster analysis). Jinými slovy: bude v našem „českém“ příkladu Běhounek vždy Haškovým nejbližším sousedem a Čapek vždy outsiderem?
Obrázek 7. Grafy shlukové analýzy pro různé délky seznamu slov.
Od Gutenberga k Zuckerbergovi
Odpověď získáme na obrázku 7. Přiřazení autorů je stále dokonalé – texty jednotlivých autorů stále tvoří samostatné „shluky“, ale změna délky seznamu slov zvoleného pro analýzu způsobuje mezi těmito shluky určité změny v uspořádání. Srovnáváme-li texty již ne na základě 100, ale 200 či 300 slov, k Čapkovi se připojuje Hrabal, Hašek zůstává u Běhounka. Naopak na 400 a více slov je Čapek nejblíže Haškovi, pak se k nim přidává Hrabal, outsiderem se stává Běhounek. Samozřejmě se můžeme ptát, která ze slov „přidaných“ v dalších iteracích analýzy jsou za změny zodpovědná, ale v takové vícerozměrné analýze (čti: když je těch slov tolik) je to nejen obtížné, ale možná i zbytečné: vzniklé rozdíly jsou nejspíš výsledkem drobných rozdílů ve frekvencích velmi mnoha slov. Místo toho je možné pokusit se získat jednoznačnou odpověď použitím konsenzu: kombinací výsledků více analýz pro různé délky seznamů slov tak, aby balík stylo identifikoval nejčastější podobnosti mezi texty a autory.
Obrázek 8. Funkce nastavení karty „Features“ pro vytvoření konsenzuálního grafu.
Obrázek 9. Nastavení karty „Statistics“ pro vytvoření konsenzuálního grafu.
5. Text v digitálních humanitních vědách…
S nastavením na kartě „Features“, jako je na obrázku 8 (IMF Minimum = 100, Maximum = 1000, Increment = 100), a na kartě „Statistics“, jako je na obrázku 9 (zvolen režim Consensus Tree), balíček nevytvoří několik různých grafů shlukové analýzy, ale pouze jeden, který zohledňuje výsledky jednotlivých grafů. Nastavení znamená, že graf shody bude zahrnovat výsledky získané pro 100 slov a poté pro seznam slov zvětšený o hodnotu přírůstku (100) až do dosažení maximální hodnoty; lze snadno spočítat, že výsledný graf bude založen na 10 samostatných výsledcích analýzy. Konečný výsledek je vidět na obrázku 10: strom shody naznačuje tuto posloupnost podobností: Čapek – Hašek – Hrabal – Běhounek. Je docela pravděpodobné, že tento postup má své chronologické kořeny: vždyť první dva autoři patří ke starší generaci, než ke které náleží zbylí dva.
Obrázek 10. Konsenzuální graf shlukové analýzy pro 100–1000 nejčastějších slov.
Nyní zkusíme našemu balíčku ztížit život a zvýšíme počet autorů ze 4 na 7 a zároveň mírně snížíme počet textů na 26 – za chvíli uvidíme proč. Pokud budeme uvažovat zdravým rozumem, měli bychom očekávat obtížnější přiřazování autorů: více autorů, tedy více příležitostí k záměně. Obrázek 11 ukazuje, že přidání Čecha, Kundery a Součka nestačí k tomu, aby se naše atribuce začala „rozpadat“. Na druhou stranu se nám poněkud rozpadá chronologický signál – jak si totiž vysvětlit blízkost Čapka z devatenáctého století a o sto let
Od Gutenberga k Zuckerbergovi
mladšího Kundery? Je mnohem snazší pochopit sousedství tohoto „mladého“ Kundery s téměř stejně mladým Hrabalem.
Obrázek 11. Konsenzuální graf shlukové analýzy pro 100–1000 nejčastějších slov po zvýšení počtu autorů.
Další graf (obrázek 12) vypadá podobně, už proto, že autorská atribuce je opět stoprocentně správná: hlavním outsiderem je Běhounek, Kundera je opět blízko (i když ne nejblíže) Čechovi, Čapek také nikam dál od Haška neutekl... Je tu jen jeden drobný rozdíl. Tato tabulka nebyla vytvořena pro české originály, ale pro jejich polské překlady; v některých případech byly texty téhož autora nahrazeny jinými, které jsou k dispozici (elektronicky) v polštině. Zdánlivě nic: ale když se podíváme na seznamy nejfrekventovanějších slov v obou jazycích, vidíme, že ačkoli bychom těžko hledali slovanské jazyky, které jsou si navzájem podobnější, stěží můžeme mluvit o nějakém vztahu identity mezi oběma seznamy; i když se zdá, že některá česká slova mají přímé ekvivalenty mezi polskými slovy, jejich synsémantičnost – jejich „gramatičnost“ – znamená, že mohou vstupovat do různých vztahů s jinými slovy v příslušných jazycích. Ať tak či onak, žádný z původních českých autorů nevybral polská slova, která se později dostala do našeho seznamu – udělali to za ně polští překladatelé. A co víc, různí překladatelé: texty stejných autorů patří do stejných „shluků„, i když je často překládají různí překladatelé. Proč tedy není „překladatelská stopa“ na našem grafu vidět? Proč je zde překladatel – pravděpodobně k zoufalství Lawrence Venutiho (2008) – neviditelný? To (zatím?) nevíme, ačkoli se velmisnažíme to zjistit.
5. Text v digitálních humanitních vědách…
Obrázek 12. Konsenzuální graf shlukové analýzy pro 100–1000 nejčastějších slov v polských překladech po zvýšení počtu autorů.
Obrázek 13. Graf shlukové analýzy četnosti nejčastějších slov v polských překladech Hrabala.
Od Gutenberga k Zuckerbergovi
Nakonec to není tak špatné: stylistika někdy „vidí“ překladatele, pokud porovnáváme různé překlady téhož autora. Jen 100 nejčastějších slov stačí k tomu, aby si Hrabala v polštině poměrně efektivně rozdělili tři jeho překladatelé (obrázek 13). Překlady Andrzeje Czcibora-Piotrowského „visí“ na jedné velké větvi, překlady Jana Stachowského na druhé; osamocený překlad Piotra Godlewského je s jeho texty spojen jen proto, že podle použité metody musí na něco navazovat.
Souhrn
Ať už vzdáme hold romantickému pojetí autora-stvořitele, nebo přitakáme Barthesovi, který tvrdí, že autor je mrtvý (1967), pravděpodobně připustíme, že spisovatelé z masa a kostí – ať už „humorističtí“ jako Běhounek, nebo „ambiciózní“ jako Kundera – mají svůj vlastní jazyk, svůj vlastní literární idiolekt. A možná dokonce intuitivně cítíme, že tento idiolekt se v kvantitativních studiích nejzřetelněji projevuje v poměru slov z nejvyšších pozic v docházkových seznamech. I když – možná paradoxně – ani ten nejprofesionálnější spisovatel nemá frekvenci svých nejfrekventovanějších slov zcela pod kontrolou, protože jejich používání je do jisté míry vynuceno gramatikou a vztahy, do nichž tato běžná slova vstupují s méně frekventovanými, ale „významnějšími“ slovy. Rysy literárního idiolektu ostatně nemusí být příliš „literární“. Jak Anthony Kenny již dlouho upozorňuje,
Takový „stylistický otisk prstu“ je rys stylu konkrétního autora – i velmi nevýznamný rys, jako například četnost slovního spojení „jako“ –, který je však stejně jedinečný jako tvar papilárních linií. Je jedno, že se zdá nedůležitý –vždyť vlnky na konečcích prstů nijak významně neovlivňují náš celkový fyzický vzhled (1982).
Tím se ovšem stylistika stává stejně mocným nástrojem proti plagiátorství, jako je daktyloskopie nástrojem forenzním. Stejně tak je stylistika užitečná při určování autora. Je obtížné vyjmenovat největší úspěchy na tomto poli, ale stojí za to zmínit jeden relativně nedávný: odhalení italského spisovatele Domenica Starnoneho jako ruky, která držela pero – nebo spíše ťukala do klávesnice – Eleny Ferrante, hojně čtené, ale neexistující autorky Geniální přítelkyně a dalších bestsellerů. Casus Ferrante je významný do té míry, že Starnoneho „zatížily“ studie provedené několika stylometry z různých zemí a za použití různých metod (Tuzzi a Cortelazzo 2018).
Je třeba přiznat, že úkoly týkající se (literární) překladové stylometrie situaci stylistiky silně zkomplikovaly (Rybicki 2012, Rybicki a Heydel 2013, Rybicki 2021). Na jedné straně by sice stylistika měla
5. Text v digitálních humanitních vědách…
být ráda, že její metody odhalují signál původního autora i v překladu, na druhé straně – jak je vidět na výše uvedených příkladech – se poměry signálů (obecně) silnějšího autora a (obecně) slabšího překladatele nedrží univerzálních pravidel a mění se nejen podle složení srovnávaných textových souborů (různí původní autoři; stejný původní autor; stejné dílo), ale také podle překladatele – a možná i původního autora! Výše jsme zmínili chronologii, téma, žánr... Kdo ví, jaké další složky tvoří úplný stylistický profil díla, spisovatele, doby nebo literární tradice.
BIBLIOGRAFIE
BARTHES, R. The Death of the Author. Aspen. 1967, č. 5–6, nepag BURROWS, J. F. Computation into Criticism: A Study of Jane Austen’s Novels and an Experiment in Method. Oxford: Clarendon Press, 1987.
BURROWS, J. F. ‘Delta’: a Measure of Stylistic Difference and a Guide to Likely Authorship. Literary and Linguistic Computing. 2002, roč. 17, č. 3, s. 267–287.
TUZZI, A. a M. A. CORTELAZZO. Drawing Elena Ferrante’s Profile. Padova: Padova University Press, 2018.
EDER, M., RYBICKI, H. a M. KESTEMONT. Stylometry with R: A Package for Computational Text Analysis. The R Journal. 2016, roč. 8, č. 1, s. 107–21.
EVERT, S., PROISL, T., JANNIDIS, F., REGER, I., PIELSTRÖM, S., SCHÖCH, CH. a V. THORSTEN. Understanding and Explaining Delta Measures for Authorship Attribution. Digital Scholarship in the Humanities. 2017, roč. 32, příloha 2, s. 4–16.
HOOVER , D. L. Testing Burrows’s Delta. Literary and Linguistic Computing. 2004, č. 19, s. 453–475.
HOOVER, L. Text-analysis Tools in Excel. In: O’SULLIVAN, J. (ed.). Digital Humanities for Literary Studies: Theories, Methods, and Practices. College Park: Texas A&M University Press, 2018, s. 172–189.
JUOLA, P. JGAAP 5.3.0: A System for General Purpose Text Classification Experiments. EACL 2012 Workshop on Computational Approaches to Deception Detection. Avignon 2012.
KENNY, A. The Computation of Style. An Introduction to Statistics for Students of Literature and Humanities. Oxford: Pergamon Press, 1982.
LUTOSŁAWSKI, W. The Origin and Growth of Plato’s Logic: With an Account of Plato’s Style and of the Chronology of his Writings. Londýn: Longmans, 1987.
MCKENNA, W., BURROWS, J. F. a A. ANTONIA. Beckett’s Trilogy: Computational Stylistics and the Nature of Translation. Revue informatique et statistique dans les sciences humaines. 1999, roč. 35, č. 1–4, s. 151–171. R Core Team. R: A Language and Environment for Statistical Computing Dostupné na WWW: http://www.R-project.org/ [dostup 1. 10. 2022].
RYBICKI, J. The Great Mystery of the (Almost) Invisible Translator: Stylometry in Translation. In: OAKES, M. a J. MENG (eds.). Quantitative
Methods in Corpus-Based Translation Studies. Amsterdam: John Benjamins, 2012, s. 231–248.
RYBICKI, J. A Third Glance at a Stylometric Map of Native and Translated Literature in Polish. In: HEYDEL, M. a Z. ZIEMANN (eds.). Retracing the History of Literary Translation in Poland. Oxford: Routledge, 2021, s. 247–261.
RYBICKI, J. a M. HEYDEL. The Stylistics and Stylometry of Collaborative Translation: Woolf’s ‘Night and Day’ in Polish. Literary and Linguistic Computing. 2013, roč. 28, č. 4, s. 708–717.
SMITH PETER, W. H. a W. ALDRIDGE. Improving Authorship Attribution: Optimizing Burrows’ Delta Method. Journal of Quantitative Linguistics . 2011, roč. 18, č. 1, s. 63–88.
VENUTI, L. The Translator‘s Invisibility: A History of Translation. Oxford: Routledge, 2008.
Kapitola
Text v digitálních humanitních vědách: tematické modelování
Cílem této kapitoly je představit tematické modelování (topic modeling): jednu z metod automatické analýzy textu, která si v digitálních humanitních vědách získala značnou popularitu. Tato metoda, respektive několik různých metod založených na podobných teoretických předpokladech, stojí za bližší pozornost přinejmenším ze dvou důvodů. Zaprvé: tematické modelování umožňuje velmi efektivně extrahovat informace z velkých souborů textových dat – nebo jinak řečeno, umožňuje „přečíst“ celý soubor dokumentů, například celou knihovnu – a zařadilo se tak do metodologického instrumentária takzvaného. distančního čtení (distant reading). Za druhé: tematické modelování vychází přímo z předpokladů distribuční sémantiky, a souvisí tedy s otázkou významu slov: lze význam definovat pouze pomocí kontextu slova? První aspekt má praktický význam – vyhledávání obsahu –, zatímco druhý nás zavádí k základním otázkám teorie jazyka. V této studii se pokusím otevřít další perspektivu, a sice ukázat, jak může tematické modelování obohatit literární analýzu tím, že z poměrně rozsáhlého souboru literárních děl extrahuje ukazatel tematické koherence v dalších částech probíraných textů. Způsobů využití tematického modelování je samozřejmě mnohem více, v tomto úvodu se však omezím na poskytnutí základních informací a zájemce odkážu na bohatou literaturu k tomuto tématu.
V počítačové analýze textu lze zhruba rozlišit dva hlavní směry zkoumání. V prvním se výzkumná otázka týká podobnosti analyzovaných textů: co spojuje texty psané oficiálním stylem, čím se texty daného autora liší od textů jiných autorů, čím jsou si texty napsané v 19. století podobnější než texty napsané o století dříve nebo o století
Od Gutenberga k Zuckerbergovi
později atd. V tomto přístupu se stávají relevantními všechny měřitelné rysy jazyka, v nichž se zkoumaný rozdíl projevuje: syntax, gramatika a samozřejmě lexikum, přičemž cílem analýzy se zpravidla nestává ani tak vzácná a sofistikovaná slovní zásoba, jako spíše velmi frekventovaná slova, nejčastěji gramatická slovní zásoba, jako jsou předložky, spojky, částice nebo zájmena.
Druhý přístup se zaměřuje na získávání informací ze zkoumaných textů o tom, o čem samy pojednávají. Často se jedná přímo o obsah nebo téma analyzovaných textů a cílem může být například automatické rozdělení rozsáhlé sbírky textů do jednotlivých tematických kategorií, rychlá klasifikace příchozí pošty na relevantní a nevyžádané e-maily, automatická sumarizace textů a mnoho dalšího. Předmětem analýzy je zde ssamozřejmě lexikální vrstva, tedy slova vyskytující se v textech (někdy izolovaně, jindy v kontextu, v závislosti na zvolené metodě), ale v tomto případě nikoliv nejfrekventovanější. Naopak předmětem bližšího zkoumání se stávají slova charakteristická, tedy ta, která se ve zkoumaných textech vyskytují výrazně častěji než ve srovnávacím korpusu, tedy rozhodně ne spojky nebo předložky. Gramatická slova (například się, lub, w, tamto – se, nebo, v, tamto) jsou navíc z korpusu nejčastěji zcela odstraněna hned na začátku analytického postupu: jde o rutinní operaci, při níž se sestavuje takzvaný stoplist obsahující slova, která mají být odstraněna. Takový stoplist obsahuje jak velmi frekventovaná slova, tak i velmi vzácná (ojedinělá) slova, která by mohla narušit obraz korpusu. Předmětem kontroly se tudíž stává slovní zásoba intuitivně spojená s obsahem zprávy, která je nejsilněji prodchnuta informační hodnotou.
Jednou z metod extrakce obsahové podstaty z textu je analýza klíčových slov. Tato metoda spočívá v porovnání četnosti jednotlivých slov ve zkoumaném textu a ve srovnávacím korpusu s cílem najít slova, která nejvíce odlišují analyzovaný text od srovnávacího korpusu. Přes nespornou eleganci této metody je její nevýhodou to, že významná slova jsou extrahována izolovaně, bez zohlednění i zbytkových kontextových informací.
Tematické modelování, které je předmětem této studie, je zmíněné nevýhody do značné míry zbaveno. Jeho cíl totiž spočívá v analýze jednotlivých textů (dokumentů) z korpusu a extrakci množiny slov, u nichž je vysoká pravděpodobnost společného výskytu. Porovnáním jednotlivých textů mezi sebou je metoda schopna najít slova, která se vyskytují společně v určitých skupinách textů a jsou málo zastoupena v jiných textech, takže je možné definovat řadu „témat“ (dále je budu nazývat „slovoshluky“), tedy skupiny slov, které spolu nějakým způsobem sémanticky souvisejí. Převedeme-li výše uvedený intuitivní popis do formalizovanějšího jazyka, lze tematické modelování popsat jako metodu, v níž je každý slovoshluk pravděpodobnostním rozdělením jednotlivých slov, každý dokument je pravděpodobnost -
6. Text v digitálních humanitních vědách…
ním rozdělením různých slovoshluků a každé slovo patří do jednoho ze slovoshluků (Blei, Ng, a Jordan 2003).
V praxi však neznáme ani pravděpodobnost výskytu slova ve slovoshluku, ani pravděpodobnost výskytu slovoshluku v dokumentu. K dispozici máme pouze samotné dokumenty, zatímco jejich tematická struktura nám zůstává skryta. Cílem tematického modelování je tedy tuto strukturu odhalit opakovanou náhodnou „rekonstrukcí“ skrytých pravděpodobnostních rozdělení v procesu učení (trénování) modelu. Nejrozšířenější metodou učení modelu je Latent Dirichlet Allocation (LDA), která se snaží v průběhu mnoha iterací najít optimální pravděpodobnostní rozdělení slov ve slovoshlucích a slovoshluků v dokumentech (Blei et al. 2003). Aplikace modelu LDA vychází ze tří předpokladů. Zaorvé: na pořadí slov v jednotlivých dokumentech nezáleží (model tedy ignoruje linearitu jazyka). Zadruhé: na pořadí dokumentů v korpusu nezáleží, a zatřetí: počet slovoshluků, které mají být z korpusu extrahovány, je arbitrární parametr, který je modelu zadán na začátku procesu učení. Výsledkem LDA jsou dvě tabulky, z nichž jedna obsahuje informace o obsahu každého slovoshluku (rozdělení slov v každém slovoshluku) a druhá obsahuje informace o obsahu každého dokumentu (jaké je rozložení slovoshluku v každém dokumentu). Tyto dvě zdánlivě nezajímavé tabulky – zcela zaplněné čísly – se mohou stát předehrou k další analýze a mnoha cenným objevům.
V jedné ze stěžejních prací o tematickém modelování bylo analyzováno velké množství vědeckých článků publikovaných v časopise Science s cílem vysledovat vývoj určitých oborů a vyčerpání výzkumných paradigmat v jiných oborech (Blei 2012). Časopis Science byl analyzován také ve studii, která se zabývala výběrem parametrů modelu LDA (Griffiths a Steyvers 2004). Každopádně diachronní pohled na vývoj tématu v závislosti na čase je poměrně běžným způsobem, jak nahlížet na data pomocí tematického modelování: takto byla sledována historie některých termínů v časopise PMLA (Goldstone a Underwood, 2012), analyzovány byly slovoshluky v literárním časopise Texty Drugie (Maryl a Eder 2023) a zkoumány byly také polské romány devatenáctého a dvacátého století (Eder 2016). Klasickým přístupem k tematickému modelování je především otázka po tematické diferenciaci různých žánrů, např. tragédie a komedie (Schöch, 2017), ale také odpověď na otázku, jak se liší beletristické texty vysoké a nízké literární hodnoty (Koolen, 2018). Za zmínku stojí také analýza obrazné slovní zásoby pomocí tematického modelování (Rhody, 2015).
Nespornou výhodou této metody je její aplikovatelnost na libovolný soubor textových dat, přičemž tyto vstupní texty (dokumenty) nevyžadují žádnou zvláštní přípravu. Nevýhodou tematického modelování je naopak fakt, že získané výsledky je poměrně obtížné ověřit
Od Gutenberga k Zuckerbergovi
pomocí jednoznačných a interpretovatelných statistických měřítek. V důsledku toho závisí hodnocení výsledných slovoshluků do značné míry na kompetenci vědce. Což samozřejmě nepopírá velkou atraktivitu metody, pokud jde o rychlé získávání syntetických informací z rozsáhlých souborů textů.
Cílem této studie je stručně představit tematické modelování a jeho možné aplikace, ale je obtížné opomenout fázi trénování modelu a přípravy vstupních dat. Přestože se těmto otázkám nebudu věnovat zvlášť, na konkrétním příkladu – korpusu polských románů – stručně proberu jednotlivé fáze vědeckého postupu a průběžně se budu zmiňovat o nejdůležitějších parametrech modelu. Ne všechny následující přípravné fáze jsou pro tematické modelování nezbytně nutné a zejména ne všechny fáze musí vypadat tak, jak jsem je navrhl v tomto příkladovém experimentu, ale pokusil jsem se reprodukovat jeden z možných scénářů, blízký skutečným podmínkám použití diskutované metody.
Jako vstupní data jsem použil polskou část korpusu ELTeC ( https://distantreading.github.io/ELTeC/), který byl vytvořen v rámci projektu COST Action „Distant Reading“ (https://www.distant-reading.net/) a má se skládat z desítky jazykových sbírek ve finále obsahujících 100 románů v každé sbírce. V současné době korpus obsahuje přes 1900 románů ve 28 jazykových kolekcích. Polská část obsahuje 100 románů vydaných v průběhu několika desetiletí (1851–1939), které napsalo 34 autorů, zhruba polovina žen a polovina mužů. Romány jsou různě dlouhé, celkový rozsah korpusu je 8,5 milionu slov (další podrobnosti o sbírce a samotných textech jsou k dispozici zde: https://distantreading.github.io/ELTeC/pol/index.htm l). Všechny texty jsou označeny strukturní anotací TEI-XML, která umožňuje zachovat různé informace, jako je členění textu na odstavce, kapitoly apod. a zahrnuje také metadata o daném textu (jméno autora, datum vydání, název, pohlaví autora, místo prvního vydání atd.); některé další jazykové sbírky navíc obsahují gramatickou anotaci.
Prvním přípravným krokem bylo odstranění metadat ze všech textů a odstranění všech anotací TEI-XML.1 Poté jsem všechny texty podrobil automatické gramatické analýze – lemmatizaci, jejímž cílem je identifikovat základní tvary každého po sobě jdoucího slova ve všech textech. Příkladem budiž úvodní věta Sienkiewiczovy Rodziny Połanieckých:
Była godzina pierwsza po północy, gdy Połaniecki zbliżał się do dworu w Krzemieniu.
(Byla jedna hodina po půlnoci, když se Połaniecki blížil ke dvoru v Krzemieni.) po lemmatizaci má následující podobu:
6. Text v digitálních humanitních vědách…
być godzina pierwszy po północ gdy Połaniecki zbliżać się do dwór w Krzemień
(být hodina první po půlnoc když Połaniecki blížit se k dvůr v Krzemień)
Pro lemmatizaci jsem použil balíček udpipe pro prostředí R, připravený v rámci projektu Universal Dependencies (https://universaldependencies.org/), spolu s polským modelem polish-pdbud-2.10.220711, který zajišťuje vysokou efektivitu rozpoznávání slovních tvarů. Ačkoli tematické modelování lze stejně dobře aplikovat i na texty v jejich původní, nelemmatizované podobě, zejména v případě flektivních jazyků, jako je polština, lemmatizace zvyšuje efektivitu modelu, neboť jednotlivé slovoshluky se méně shromažďují kolem skloňovacích paradigmat, ale výrazněji zachycují sémantické vztahy mezi slovy.
Poté jsem pomocí stejného balíčku udpipe provedl vyhledávání všech vlastních jmen v analyzovaných textech, abych odstranil všechna rozpoznaná vlastní jména. Výše uvedená příkladová věta ze Sienkiewicze bude mít po takové operaci následující podobu:
być godzina pierwszy po północ gdy zbliżać się do dwór w (být hodina první po půlnoc když blížit se k dvůr v)
Následně je třeba odstranit slova umístěná v stoplistu včetně všech slov gramatických. Použil jsem stoplist z balíčku tidystopwords pro prostředí R.2 Úvodní věta z Rodiny Połanieckých nyní vypadá takto:
godzina pierwszy północ zbliżać dwór (hodina první půlnoc blížit dvůr)
Stojí za povšimnutí, že ve výše uvedené lajdácké kvazivětě je skutečně obtížné najít nějaký konkrétní obsah a je také obtížné rozhodnout, zda sloveso zbliżać (blížit) má nějakou souvislost s blížící se půlnocí, nebo zda se vztahuje k přiblížení se ke dvoru. Síla metod distribuční sémantiky, včetně tematického modelování, však spočívá v tom, že model naučený z desítek a stovek tisíc podobných vět začne v mase jazykových dat rozpoznávat určité opakující se slovoshluky, které lze popsat jako sémantické vztahy. Na příklady se podíváme níže.
Dalším krokem je rozdělení vstupních textů (bezesporu rozsáhlých románů) na menší textové vzorky. Tematické modelování se původně používalo k analýze krátkých dokumentů, jako jsou abstrakty vědeckých článků nebo drobné praktické texty o několika desítkách či stovkách slov. Nic samozřejmě nebrání modelování libovolně dlouhých textů, ale v praxi se ukazuje, že takto získané výsledky jsou
Od Gutenberga k Zuckerbergovi
nekonzistentní (Sbalchiero a Eder 2020). Proto jsem romány z korpusu dodatečně rozdělil na segmenty o délce 1000 slov (Jockers,2013), čímž jsem získal 8022 vzorků. Jako nejmenší román se vyjevila Namiętność ( Vášeň) Stefana Grabińského (10 vzorků), největším se stali Chłopi (Sedláci) Władysława Reymonta (299 vzorků).
Nastal čas model učit. K tomu jsem použil balíček topicmodels pro prostředí R. Při učení byly nastaveny následující parametry: metoda LDA, Gibbsovo vzorkování, 1000 rozběhových iterací, 1000 pravých iterací, parametry α a β vybírané automaticky v dalších iteracích, vybraný počet slovoshluků k nalezení k = 100. Není pochyb o tom, že výše uvedený popis učení modelu působí hermeticky, je ale potřebný k tomu, aby byl experiment alespoň do určité míry opakovatelný. Je totiž třeba zdůraznit, že metoda LDA je založena na opakované náhodné reprodukci pravděpodobnostního rozdělení a jeho porovnávání se skutečnými textovými daty, což z definice znemožňuje experiment přesně opakovat. Určitý komentář vyžaduje parametr k, tedy očekávaný počet slovníků stanovený na začátku učení. Je jedno, jaké číslo zadáme – přesně takový počet slovoshluků model najde, i když jejich kvalita samozřejmě zůstává samostatnou otázkou. Nejsme však odsouzeni k úplné libovůli, neboť existuje metoda (Griffiths a Steyvers 2004), která testuje různé hodnoty čísla k (například v rozmezí od 10 do 300) a zkoumá konzistenci výsledných slovníků. Ačkoli tato metoda vyžaduje velmi dlouhou dobu učení různých modelů, umožňuje spolehlivý odhad počtu očekávaných slovoshluků. V případě korpusu polských románů se ukázalo, že optimální hodnoty pro k se pohybují v rozmezí přibližně 100–150, proto jsem přijal počet 100 témata jako cílovou hodnotu použitou při učení správného modelu. V závislosti na velikosti korpusu může proces učení trvat od několika minut až po několik dní nebo dokonce týdnů. Hotový model má podobu tabulky pravděpodobností jednotlivých slov ve slovoshlucích a jednotlivých slovoshluků v dokumentech. Vezměme si první z těchto tabulek a podívejme se na příkladovou řadu čísel. Seřadíme-li čísla (pravděpodobnosti) v tomto příkladovém řádku od největšího po nejmenší, objeví se nám před očima jeden ze slovoshluků: woda, brzeg, morze, rzeka, fala, płynąć, łódź, góra, jezioro, staw, statek, daleko, dno, miejsce, morski, słońce, wiosło, biały, czarny, łódka (voda, břeh, moře, řeka, vlna, plavat, loď, hora, jezero, rybník, člun, daleko, dno, místo, mořský, slunce, pádlo, bílý, černý, loďka)
Udivující vlastností metod distribuční sémantiky, včetně tematického modelování, je jejich schopnost najít slova, která pro vnějšího pozorovatele tvoří určitý sémanticky koherentní celek. Stojí za povšimnutí, že zde nemáme co do činění pouze se synonymy, nebo dokonce se slovy patřícími do jedné gramatické kategorie (v příkladu vidíme jak
6. Text v digitálních humanitních vědách…
podstatné jméno, tak sloveso a hrstku přídavných jmen). Přesto není pochyb o tom, že uvedená slova spolu sémanticky souvisejí. Vzhledem k tomu, že tematické modelování nemá a priori znalost významu slov, nalezené vztahy mezi slovy na pozorovatele vybaveného lingvistickou kompetencí jistě udělají velký dojem. Zároveň však stejná vlastnost – absence znalosti a priori významu – způsobuje, že některé slovníky nalezené metodou LDA vypadají, jako by se skládaly ze zcela náhodných slov. Těžko zde hovořit o pravidlu, ale s určitým přiblížením lze očekávat, že zhruba každý třetí slovník bude vykazovat velmi výrazný obraz sémantických vztahů, další třetina bude vykazovat vztahy méně zřejmé, s příměsí artefaktů, ale přesto přesvědčivé, a konečně zbývající třetina bude vykazovat slovníky tvořené převážně šumy.
Poměrně vhodným způsobem, jak graficky znázornit podíl jednotlivých slov na konkrétních slovoshlucích, jsou takzvané wordcloudy, které představují pravděpodobnosti pomocí různě velkých písmen: čím významnější je podíl slova, tím silněji je slovo škálováno (Jockers 2013). Na obrázku 1 je uvedeno několik příkladů vizualizací tohoto typu.
Jednou z hlavních výhod tematického modelování zůstává skutečnost, že automaticky vzniklé slovoshluky jsou přiřazeny – jako pravděpodobnostní rozdělení – jednotlivým dokumentům. To poskytuje obraz o tematické struktuře korpusu. K tomu slouží druhá tabulka výsledků LDA, kterou lze využít dvěma způsoby. Za prvé se totiž lze ptát, které ze zkoumaných dokumentů vykazují silnou saturaci daného slovníku – a například najít v celé knihovně všechny texty na téma nešťastné lásky nebo rozdělit korpus do různých tematických skupin. Případně lze úvahu obrátit a ptát se, které slovní spojení je nejsilněji zastoupeno v určitém dokumentu nebo ve více dokumentech, například v poslední scéně každé z Molièrových komedií.
Příklad distribuce slovoshluků ve dvou textových ukázkách je uveden na obrázku 2. První schéma ukazuje začátek Kariéry Nikodema Dyzmy od Dołęgy-Mostowicze, druhé se týká Kraszewského Starej baśni (Staré báje), konkrétně rovněž jedné z úvodních kapitol románu. Jak je vidět, předmětná pasáž Kraszewského se soustřeďuje především kolem slovoshluku 48 (mieć, począć, las, ręka, ziemia, chcieć, iść, stać, stary,…; mít, počít, les, ruka, země, chtít, jít, stát, starý,...) s malou příměsí několika dalších slovoshluků, zatímco u Dołęgy-Mostowicze vidíme přítomnost mnoha různých slovoshluků najednou. I když je toto individuální pozorování jistě zajímavé, těžko se ubránit dojmu, že největší přínos ze sledování podílu slovníků v dokumentech budou mít především ty výzkumné otázky, jejichž jádrem je prohledávání velkých datových souborů (například ve společenských vědách nebo informačních vědách), zatímco sledování slovníků v literárních dílech zůstane přinejlepším kuriozitou. Je také třeba mít na paměti, že využití tematického modelování v literární vědě
Od Gutenberga k Zuckerbergovi
Obrázek 1. Wordcloudy zobrazující 6 ukázkových témata vybraných pomocí algoritmu LDA z korpusu 100 polských románů.
– a obecněji v digitálních humanitních vědách – je náchylné k pasti objevování zřejmých věcí (například že v Reymontových Sedlácích se objevuje slovoshluk „venkov“).
Tím by tato kapitola mohla v podstatě skončit. Přestože jsem mlčky pominul základní a fascinující lingvistické hledisko, totiž otázku, co činí metodu schopnou odhalovat sémanticky příbuzná slova, probral jsem nejtypičtější aplikace tematického modelování, tedy jednak schopnost metody zachytit skupiny společně se vyskytujících slov (slovoshluky), jednak její schopnost odhalovat tematickou strukturu v textech. Aby však čtenář nezůstal sám s pocitem, že tematické modelování nemá literárním vědcům (či obecněji vědcům z oboru digitálních humanitních věd) příliš co nabídnout, zmíním v následující pasáži kapitoly určitou představu o tom, jak danou metodu využít coby plnohodnotný analytický nástroj. Ačkoli navrhovaný analytický postup nebyl důkladně vyzkoušen, mám dojem, že se za ním skrývá jistý ne zcela rozpoznaný potenciál. Pokud se znovu podíváme na obrázek 2, uvidíme zásadní rozdíl. Zatímco úvodní pasáž Staré báje je založena na jediném silném té -
6. Text v digitálních humanitních vědách…
Obrázek 2. Distribuce slovoshluků ve dvou ukázkových textech z Dołęga-Mostowiczovy Kariéry Nikodema Dyzmy (vlevo) a Kraszewského Staré báje (vpravo).
matu, v Kariéře Nikodéma Dyzmy je tematická struktura složitější: témat je tudíž více, ale s menší silou. Bylo by poněkud riskantní na tomto místě rozhodnout, zda by se vícetematičnost měla spojovat s estetickým rozměrem. Rozhodně však můžeme (pracovně) hovořit o koherenci. Poměrně vhodným způsobem, jak odhadnout rozptyl mezi vzorky dosahujícími několika málo slovoshluků nebo vzorky tematicky rozptýlenými, se zdají být různé míry vyvinuté v oblasti teorie informace, jako je Simpsonova míra koncentrace, používaná mimo jiné v ekonomii, demografii nebo ekologii (Simpson 1949). Tento index nabývá hodnoty 1, když daný vzorek obsahuje pouze jeden slovník, a hodnoty 0, když jsou rovnoměrně rozloženy všechny možné slovníky. V případě, o kterém zde pojednáváme, má vzorek jedna (Dołęga-Mostowicz) index 0,046 a vzorek dvě (Kraszewski) 0,294, což je téměř sedmkrát více. 3
Zde je třeba upozornit na jednu důležitou věc: nízký nebo vysoký koeficient koherence v žádném případě neznamená, že určitý román vykazuje větší nebo menší tematickou komplexnost. Naopak, míra komplexnosti, kterou používáme, pouze ukazuje, jaké je rozložení slovoshluků v jednotlivých částech textu. To znamená, že můžeme mít co do činění s románem s velmi propracovanou tematickou strukturou, který však v měřítku jednotlivých textových segmentů (ukázky o délce 1 000 slov) vykazuje vysokou koncentraci pouze jednoho nebo
Od Gutenberga k Zuckerbergovi
dvou slovoshluků. A naopak si můžeme představit román, který na každé stránce kombinuje tematicky různorodou slovní zásobu, a přesto z hlediska děje vykazuje malou komplexnost.
Vybaveni novými analytickými brýlemi se můžeme podívat na celou sbírku 100 románů a z pohledu distančního čtení (distant reading) na koherenci v širším měřítku – a doufat, že si všimneme některých zákonitostí, které při individuálním čtení nejsou patrné. Index koherence se samozřejmě bude lišit román od románu. Právě tuto pravidelnost se pokusíme zachytit. Důležité však je, že index bude kolísat i mezi po sobě jdoucími vzorky téhož románu, například ve zmíněné Kraszewského Staré báji se rozpětí indexu koherence uzavře v rozmezí 0,034 (poslední kapitola románu) až 0,36 v jedné z úvodních kapitol.
Obrázek 3 ukazuje empirická rozdělení pravděpodobnosti (nebo jednoduše: variabilitu) indexu koherence pro některé z nejvíce a některé z nejméně rozmanitých románů. Je těžké si nevšimnout jisté pravidelnosti. K románům s nejmenším koeficientem, tedy velkým tematickým rozptylem v jednotlivých fragmentech textu, patří Świętochowského Tragokomedia prawdy (Tragikomedie pravdy), jeho Drygałowie, ale také Twinko, Dmochowské Obrączka (Prsten), Jak odłamana gałąź (Jako zlomená větev) a Dwór w Haliniszkach (Dvůr v Haliniszkách), Żuławského Powrót (Návrat), Godlewské Po zdrowie (Pro zdraví) a Kato, Deotymy Branki w jasyrze, Grot-Bęczkowské Kędy droga? (Kudy vede cesta?) a W mieszczańskim gnieździe (V měšťanském hnízdě) a konečně Bałuckého Przebudzeni (Probuzení) a Biały murzyn (Bílý mouřenín). Na straně románů s relativně vysokou tematickou konzistencí v rámci jednotlivých ukázek (a tedy malým tematickým rozptylem) stojí Sienkiewiczovo Quo vadis a Ogniem i mieczem (Ohněm a mečem), Orzeszkowé Marta, Lato leśnych ludzi ( Léto lesních lidí) Rodziewiczówny, Witkacyho Pożegnanie jesieni (Loučení s podzimem), Jedyne wyjście ( Jediné východisko) a Nienasycenie ( Nenasytnost), Berentova Ozimina, Prusův Faraon a konečně Kraszewského Stará báje a Reymontovi Sedláci . Z tohoto stručného výčtu vyplývá poměrně jasný obraz: zatímco první skupina obsahuje romány známé spíše úzkému okruhu odborníků, druhá skupina obsahuje kánon polské literatury přelomu 19. a 20. století. Ačkoli se v obou skupinách najdou výjimky (například v první skupině Żeromského Przedwiośnie – Předjaří, ve druhé Dołęga-Mostowiczův Pamiętnik pani Hanki nebo Łozińského Oko proroka), obecná tendence seskupovat zapomenuté romány na jedné straně a kanonické romány na straně druhé je zřejmá. Náhoda? Pravděpodobně ne, ale je na místě se zde pozastavit a pouze konstatovat pozorovaný jev. Ověření (nebo falzifikace) právě učiněného pozorování bude možné až po systematické analýze na rozsáhlejším srovnávacím materiálu a s využitím formálního statistického testování hypotéz.
6. Text v digitálních humanitních vědách…
Obrázek 3. Míra tematické koherence (Simpsonův index) ve 100 polských románech. Krabicové grafy ukazují rozložení koherence v různých vzorcích probíraných románů. A: Świętochowski, Drygalowie, B: Świętochowski, Tragikomedia prawdy, C: Dmochowska, Obrączka, D: Żuławski, Powót, E: Godlewska, Po zdrowie, U: Dołęga-Mostowicz, Pamietnik pani Hanki, V: Witkacy, Nienasycenie, Łoziński, Oko proroka, W: Kraszewski, Stará báje, Witkacy, Jedyne wyjście, Z: Reymont, Chłopi.
Určitě bude užitečné podniknout hloubkovou studii této problematiky.
Spekulativně lze vyslovit opatrnou hypotézu, že vyprávěcí struktura s malým tematickým rozpětím, tedy taková, v níž dominuje malý počet silných slovních spojení, oslovuje literární publikum více než tematická rozdvojenost, zejména v rámci jednoho vzorku.
Výše uvedenou hypotézu ponechám takříkajíc na další hloubkový výzkum většího souboru textů, v této studii se však ještě zaměřím na problematiku, která z již řečeného přímo vyplývá a pro kterou bude stačit náš malý soubor 100 románů. Konkrétně se pokusím podívat na koeficient koherence v sekvenčním uspořádání a vysledovat tak, zda tematická variabilita sama o sobě podléhá změnám v jednotlivých částech zkoumaných románů. Několik ukázkových scénářů je znázorněno na obrázku 4: jednotlivé body na grafech označují index koherence pro sekvenční části textu (vzorky po 1 000 slovech), zatímco plnou čáru lze interpretovat jako trendovou linii. Ve skutečnosti je každá linie matematickým modelem vypočteným z empirických dat: bodů viditelných v grafech. Pokaždé jsem se uchýlil k modelům z rodiny GAM ( general additive models), které jsou zobecněním lineárních modelů. Zájemce odkazuji na rozsáhlou literaturu k tomuto tématu; pro účely naší studie stačí mít na paměti, že modely uvedené
Od Gutenberga k Zuckerbergovi
Obrázek 4. Ukazatel tematické koherence v po sobě jdoucích částech několika románů: A: Berent, Próchno , B: Godlewska, Kato, C: Sygietyński, Na skałach Calvados, D: Mniszkówna, Ordynat Michorowski, E: Morawska, Wilcze gniazdo, F: Żuławski, Na srebrnym globie.
v grafech jsou zjednodušenou, vyhlazenou a především idealizovanou verzí pozorovaných dat – a tedy jejich zobecněním.
První dva diagramy na obrázku 4 znázorňují scénář, v němž se román postupně vyvíjí od velké tematické rozmanitosti v prvních kapitolách k rostoucí soudržnosti – tematickému zaměření – ke konci románu. Zobrazenými příklady jsou Berentovo Próchno (Práchnivina, vlevo) s dokonale lineárním vývojem a Godlewského Kato, kde pozornost upoutá radikální nárůst koherence v několika posledních pasážích (vpravo). Na dvou prostředních grafech je vidět, jak dominance několika slovoshluků na samém začátku ustupuje mnohem pestřejším tématům v pozdějších částech románu – jde o Sygietyńského Na skałach Calvados (vlevo) a Mniszkówny Ordynat Michorowski (vpravo). A konečně v dolní řadě vidíme scénář se silným vyvrcholením kolem poloviny románu (Morawské Wilcze gniazdo – Vlčí hnízdo, vlevo) a komplexnější obraz pomalého úpadku faktoru soudržnosti v Żuławského románu Na srebrnym globie (Na stříbrném globu, vpravo).
Pro srovnání jsou na obrázku 5 uvedeny diagramy pro několik románů z ustáleného kánonu polské literatury. V první řadě vidíme Prusovy Emancypantki (Emancipantky, vlevo) s mimořádně zajímavým krátkým a náhlým skokem v tematické návaznosti v závěreč -
6. Text v digitálních humanitních vědách…
Obrázek 5. Ukazatel tematické koherence v po sobě jdoucích částech několika románů: A: Prus, Emancipantky, B: Kraszewski, Stará báje, C: Reymont, Sedláci , D: Reymont, Zaslíbená země, E: Sienkiewicz, Quo vadis, F: Żeromski, Sizyfovská robota.
ných částech románu, následuje Kraszewského Stará báje (vpravo) s tendencí k tematickému zobecnění v závěrečných částech textu. V druhé řadě Reymontovi Sedláci (vlevo a jeho Ziemia obiecana (Země zaslíbená země, vpravo) ukazují dvě různé vypravěčské strategie: od tematické totality k detailu v prvním případě a od detailu k totalitě v případě druhém. A konečně v dolní řadě vidíme Sienkiewiczovo Quo vadis (vlevo) a Żeromského Syzyfowe prace (Sisfovská práce, vpravo); zejména ve druhém z těchto románů upoutá pozornost – stejně jako v Emancipantkách – jakási tematická konkretizace ke konci románu, která se v samém závěru vrací k výchozímu bodu. Doporučuji čtenářům, aby si tento experiment zopakovali a podívali se i na ostatní romány v korpusu; vyzývám také k podobným analýzám na jiných, rozsáhlejších souborech textů.
V této kapitole jsem se pokusil představit – velmi obecně – jednu z metod distribuční sémantiky určenou k odhalování latentní tematické struktury ve velkých souborech textových dat. Ve skutečnosti jsem zcela vynechal celý statistický aparát, který za danou metodou stojí, a odkázal jsem čtenáře v tomto ohledu na rozsáhlou literaturu k tomuto tématu. Místo toho jsem se snažil ukázat celý postup tematického modelování rozčleněný na jednotlivé fáze, zejména přípravu textů k analýze: lemmatizaci, odstranění slov ze stoplistu, od-
Od Gutenberga k Zuckerbergovi
stranění vlastních jmen, rozdělení na menší vzorky. Pokusil jsem se také ukázat typickou aplikaci tematického modelování – tedy vznik slovoshluků a odhad jejich pravděpodobnosti v jednotlivých textech – i méně typickou aplikaci poskytující vhled do literární struktury analyzovaných textů. Jsem přesvědčen, že takových možných aplikací je v digitálních humanitních vědách podstatně více: vyzývám čtenáře k tvořivému zkoumání. Pokud byla má kapitola v tomto ohledu zdrojem inspirace, považuji svůj úkol za splněný.
PODěKOVá N í
Tento text je výsledkem výzkumného projektu č. 2017/26/E/HS2/01019 financovaného Národním vědeckým centrem (Narodowe Centrum Nauki).
POZNÁmK Y
1 Skripta pro reprodukci všech kroků popsaných v této studii nalezne čtenář v repozitáři GitHub: https://github.com/computationalstylistics/modelowanie_tematyczne . 2 Celý stoplist byl samozřejmě také zveřejněn ve výše zmíněném repozitáři GitHub . 3 Výsledná koherence závisí na jednom z parametrů trénování modelu, a to na parametru postupu LDA. Existují však důvody domnívat se, že konečné výsledky se nebudou podstatně lišit při změně hodnoty parametru ; tento problém nicméně vyžaduje systematické srovnání na různých korpusech.
BIBLIOGRAFIE
BLEI, D. M. Probabilistic topic models. Communications of the ACM. 2012, roč. 55, č. 4, s. 77–84.
BLEI, D. M., NG, A. Y. a M. I. JORDAN Latent Dirichlet Allocation. Journal of Machine Learning Research. 2003, č. 3, s. 993–1022.
EDER, M. Słowa znaczące, słowa kluczowe, słowozbiory o statystycznych metodach wyszukiwania wyrazów istotnych. Przegląd Humanistyczny . 2016, roč. 60, č. 3, s. 31–44.
GOLDSTONE, A. T. UNDERWOOD. What can topic models of PMLA teach us about the history of literary scholarship? Journal of Digital Humanities. 2012, roč. 2, č. 1.
GRIFFITHS, T. L. a M. STEYVERS Finding scientific topics. Proceedings of the National Academy of Sciences. 2014, č. 101, příloha 1, s. 5228–5235. Dostupné na WWW: https://doi.org/10.1073/pnas.0307752101 .
JOCKERS, M. L. Macroanalysis: Digital methods and literary history University of Illinois Press, 2013.
KOOLEN, C. W. Reading beyond the female: The relationship between perception of author gender and literary quality. Doktorská práce. Amsterdam: University of Amsterdam, 2018.
6. Text v digitálních humanitních vědách…
MARYL, M. a M. EDER Słowozbiory “Tekstów Drugich.” Teksty Drugie 2023 .
RHODY, L. M. The Story of Stopwords: Topic Modeling an Ekphrastic Tradition . Lisa Marie Rhody . 2015 .
SBALCHIERO, S. a M. EDER. Topic modeling, long texts and the best number of topics: Some problems and solutions. Quality & Quantity. 2020, roč. 54, č. 4, s. 1095–1108. Dostupné na WWW: https://doi.org/10.1007/ s11135-020-0097-w .
SCHÖCH, C. Topic modeling genre: An exploration of French classical and Enlightenment drama. Digital Humanities Quarterly. 2017, roč. 11, č. 2, s. 1–53.
SIMPSON, E. H. Measurement of diversity. Nature. 1949, č. 163, s. 688.
Kapitola 7
Nástroje digitálních humanitních věd ve vysokoškolské výuce češtiny jako cizího jazyka a translatologie
Dynamický rozvoj korpusové lingvistiky a počítačových technologií přinesl řadu nástrojů, které mohou najít široké uplatnění v akademickém vzdělávání v oblasti neofilologie a překladatelství. Tato diskuse vychází z možností, jež v dané oblasti přináší Český národní korpus, který mohou využívat i nerodilí mluvčí češtiny. Jazykové korpusy mohou nejen obohatit výukový proces, zvýšit efektivitu výuky a zlepšit vlastní práci studenta, ale především je lze úspěšně využít při distanční výuce. Specifické rysy současné češtiny
Současná čeština představuje pro akademickou didaktiku značnou výzvu. Je to proto, že čeština se vyznačuje existencí dvou jazykových variet (což se v polštině neodráží):1 – oficiální verze (takzvaná spisovná čeština), v psané variantě takzvaná psaná čeština a v mluvené variantě takzvaná hovorová čeština – tedy národní jazykový standard; – neoficiální, hovorová verze, projevující se především v mluvené řeči a v neformální korespondenci a internetové komunikaci (takzvaná obecná čeština) – tedy nestandardní varianta češtiny, dříve fungující jako prostředek každodenní komunikace v rámci České republiky, stojící v opozici k jazykovému standardu a často se překrývající s lokálními nářečími.
Od Gutenberga k Zuckerbergovi
Hovorová varieta češtiny se od oficiální češtiny výrazně liší nejen lexikálně a syntakticky, ale také foneticky a morfologicky. Donedávna tato nestandardní varianta jazyka fungovala jako prostředek každodenní komunikace spíše v rámci Čech, v současné době však její vliv sílí a její prvky pronikají do mluveného jazyka v rovněž do jiných regionů včetně Moravy. Je zajímavé, že začíná překračovat rámec běžných, každodenních komunikačních situací a fungovat jako komunikační prostředek v situacích různého stupně formálnosti,2 vytlačuje výrazy typické pro vysoký styl. Zajímavé je také to, že kritériem pro jeho užívání není vzdělání uživatelů ani jejich sociální status, 3 proto bývá někdy řazen k takzvanému druhému standardu a označován jako interdialekt obecná čeština. Na druhou stranu je koexistence standardu a interdialektu v jazykové komunikaci považována za diglosii . 4 Je třeba zdůraznit, že obě variety neexistují v čisté podobě – do jazykového standardu stále více pronikají prvky hovorového jazyka a navíc se překrývají s místními nářečními varietami. Musíme také zmínit, že čeština je silně dialektalizovaná. Češi velmi zdůrazňují svou příslušnost k určitému regionu a v každodenní komunikaci používají místní nářečí. Existují čtyři hlavní nářeční skupiny – česká (charakteristická pro Čechy), středomoravská (hanácká), východomoravská (moravskoslovenská) a lašská. Prvky hovorové češtiny se tak prolínají s jazykovou normou a nářečími tak, že i rodilí mluvčí mají problém rozlišit oficiální a neoficiální vrstvu. Pravdou je, že děti nejprve používají hovorový jazyk, tedy tento interdialekt nasycený často nářečními prvky, a teprve ve škole se setkávají se standardní varietou, která se v běžné každodenní komunikaci téměř nepoužívá (sic!) a která tvoří základ učebnic pro výuku češtiny pro cizince. Jak jsem již zmínila výše, na rozdíl od mluvených variet polštiny a dalších evropských jazyků je sociální charakter interdialektu nevýznamný – nezávisí na vzdělání ani věku. 5 V podstatě se dá říci, že jím mluví všichni Češi. Jazykovědci klasifikují hovorovou varietu jako jazyk soukromé a neformální „poloveřejné“ komunikace, který se z pozice jedné z nestandardních forem češtiny dostal do jejího substandardu. Taková kategorizace se však jeví jako silně „zbožné přání“, neboť se stále častěji objevuje v širším veřejném sektoru, vstupuje tudíž do oficiální komunikace, veřejných diskusí apod.; užívání jazykového standardu v řeči je pak vnímáno přinejmenším jako nepřirozené. Mluvená podoba standardní češtiny často splývá s hovorovou češtinou, proto budu pro účely tohoto článku používat dvě zkratky: ČJP (psaná podoba češtiny – jazyková norma, kterou nikdo v řeči nepoužívá) a ČJM (mluvená forma češtiny, používaná v každodenní komunikaci a stále více pronikající do spisovného jazyka).
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
Jazyková dyglosie jako výzva pro aplikovanou a obecnou didaktiku
Výše nastíněná specifická jazyková situace vyvolává obrovské problémy (nejen) v akademické výuce. Učitel musí již od první hodiny poukazovat na koexistenci dvou jazykových variet a pokaždé zdůraznit, která forma patří do spisovného jazyka a která je vhodná pro použití v řeči, která je charakteristická pro češtinu a která se vyskytuje v určitém regionu. Tradiční dvojjazyčné slovníky se ukazují jako zcela nepoužitelné. Existují samozřejmě kompilace, které zohledňují podoby mluveného jazyka, například Slovník nespisovné češtiny; ty ale vzhledem k velmi dynamické jazykové situaci rychle zastarávají. Zavedení hovorové češtiny v nejširším slova smyslu je proto nezbytné. Pokud by lektoři nezaváděli prvky hovorového jazyka, posluchači by nebyli schopni česky přirozeně komunikovat a rodilí mluvčí by jejich projev považovali za archaický a umělý, někdy dokonce komický.
Problematika dvou variet češtiny se stává ještě aktuálnější tam, kde se vyučuje překlad, například překlad audiovizuální. Bez znalosti hovorové variety by studenti vůbec nebyli schopni přeložit film z češtiny do polštiny (hovorová varieta by byla nesrozumitelná), ani z polštiny do češtiny (překládali by do jazyka, kterým nikdo nemluví, takže by byli zatíženi komunikační chybou, která by působila komicky). Vnitřní rozmanitost češtiny tedy ovlivňuje výuku češtiny jako cizího jazyka. Současné učebnice zavádějí prvky mluveného jazyka v podobné míře a s proměnlivou úspěšností. Je třeba poznamenat, že problematika hovorového jazyka vstupuje i do obsahu výuky v českém školství. Je však třeba mít na paměti, že jazyková příprava cizinců probíhá obráceně – nejprve se učí spisovný (oficiální) jazyk a teprve poté mluvený (hovorový). Kdežto Češi se učí spisovný jazyk pouze ve škole, v každodenní komunikaci jej ale považují za umělý a nepřirozený výtvor, což často zdůrazňují v průzkumech zaměřených na zkoumání této problematiky. Jeden ze studentů v průzkumu, který v polovině 90. let provedla Radoslava Brabcová, tvrdí: „Vůbec nepoužívám spisovný jazyk. Nepoužívám ho, protože od mládí na mě a kolem mě všichni mluví hovorovou řečí a já jsem si na ni zvykl.“7
Český národní korpus
Český národní korpus (dále také ČNK) je projekt realizovaný na Univerzitě Karlově v Praze na Ústavu českého národního korpusu, který nabízí technicky vyspělé nástroje. Iniciátorem tohoto projektu a zároveň dlouholetým ředitelem ústavu byl František Čermák, který
Od Gutenberga k Zuckerbergovi
definoval jazykový korpus jako „vnitřně strukturovaný, standardizovaný, zpravidla také indexovaný a integrovaný, ucelený soubor elektronicky zaznamenaných a zpracovaných jazykových dat převážně v textové podobě, určený pro využití k danému účelu, a proto je považován za reprezentativní.“8 Jak dodává Adrian Zasina, „jazykový korpus je soubor různých typů textů (psaných i mluvených) shromážděných v počítačové databázi, která umožňuje automatické vyhledávání textových jednotek v jejich přirozeném kontextu, což usnadňuje efektivnější jazykovou analýzu.“9
Od svého založení v roce 1994 se Ústav českého národního korpusu soustředí zejména na kontinuální a komplexní rozvoj projektu ČNK, jehož cílem je systematicky mapovat vývoj českého jazyka (psaného i mluveného) v mnoha jeho podobách a žánrech vytvářením a zpřístupňováním rozsáhlých databází autentických textů – jazykových korpusů pro lingvistický výzkum v oblasti společenských a humanitních věd. Projekt dnes nabyl světové úrovně, pokud jde o přípravu samotných korpusů i nástrojů potřebných k jejich provozu. Při tvorbě korpusů se ČNK zaměřuje především na jejich rozmanité a reprezentativní složení, kvalitní zpracování jazykových dat a bohatou anotaci. Práci Ústavu českého národního korpusu podporují i další subjekty, například Ústav teoretické a komputační lingvistiky.
Činnost ČNK probíhá v šesti sekcích:
– lingvistická sekce (výzkum, publikační a výuková činnost),
– počítačová sekce (zpracování dat, vývoj softwaru, správa IT, DTP),
– sekce mluvených korpusů (koordinace sběru dat a anotace mluvených a nářečních korpusů),
– sekce diachronních korpusů (koordinace sběru dat a anotace diachronních korpusů),
– lingvistická analýza a anotace (morfologické a syntaktické anotace),
– sekce paralelního korpusu (koordinace sběru dat a anotace pro paralelní korpus InterCorp).
Nedílnou součástí projektu je také tvorba specializovaných aplikací pro práci s korpusy nebo příprava bohaté nabídky konzultací a školení, dále pořádání workshopů, hostování korpusů vytvořených mimo ČNK, analýza uživatelských dat a poskytování datových balíčků pro konkrétní účely, zejména počítačové zpracování přirozeného jazyka. Kromě rozvoje projektu se ústav zabývá vědeckou a publikační činností v oblasti korpusové lingvistiky a rozvojem její metodologie, jakož i výchovou studentů jak v doktorském studiu, tak na magisterských seminářích ostatních ústavů a kateder Filozofické fakulty Univerzity Karlovy.10
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
Nástroje digitálních humanitních věd v aplikované didaktice
Na rozdíl například od anglistiky nebo germanistiky, kam jsou přijímáni studenti, kteří již mají určité znalosti jazyka (často na vysoké úrovni), přicházejí studenti na specializované filologie s nulovými znalostmi jazyka, takže výuka jazyka začíná prakticky od nuly.
Vzhledem k výše popsanému problému diglosie by studenti měli být již od prvních hodin vedeni k tomu, aby se do jazyka „ponořili“, tedy poslouchali rádio, podcasty, sledovali televizi apod. – právě zde dochází k míšení standardních a nestandardních forem – idiolekty jednotlivých mluvčích jsou v různé míře nasyceny prvky hovorového jazyka (výjimkou není ani „přepínání kódů“ v rámci jedné promluvy, nebo dokonce na úrovni jedné věty). Proto považuji otázku, kterou si stále kladou čeští bohemisté, zda (případně: jak) zavádět mluvenou varietu do aplikované didaktiky, za anachronickou a zastaralou. Domnívám se, že bychom měli věnovat pozornost existenci výše zmíněné diglosii od samého začátku výuky jazyka. Cvičné dialogy obsahující pouze prvky hovorového jazyka jsou velmi zavádějící, protože se pak udržují nepřirozené formy. A samotná tendence je silně zbožným přáním a nebere v úvahu skutečné jazykové rozvrstvení.
Vzhledem k dynamice změn – a zejména vzhledem k rostoucímu vlivu mluvené variety na psanou (obzvlášť patrnému v e-mailové nebo SMS korespondenci) přestávají platit tradiční učebnice a slovníky. Pozoruhodným příkladem je projekt nakladatelství Lingea, které sestavilo a na svých internetových stránkách www.nechybujte.cz zveřejnilo Slovník současné češtiny11. Ten však navzdory svému názvu zcela neplní roli spolehlivého průvodce bludištěm diglosie češtiny.
Již při konjugaci sloves se setkáváme s úplným vynecháním mluvených jazykových forem, například u nejfrekventovanějšího slovesa být (być ), které v ČJM může vypadat například jako bejt, sem, si .
Zajímavé je, že byl zaznamenán archaický tvar vyskytující se ve 3. osobě jednotného čísla jest): 12
Obrázek 1. Charakteristika slovesa být
Rozdíly v konjugaci sloves 3. třídy 13 vzhledem k jazykové verzi zde sice byly zohledněny, ale zcela nedůsledně a nejasně. Mluvená podoba jazyka má odlišné koncovky v 1. osobě jednotného a 3. osobě množné -
Od Gutenberga k Zuckerbergovi
ho čísla. Při skloňování slovesa hrát ( grać, bawić się ) je tento rozdíl zohledněn, a to jak v tabulce, tak v doprovodném popisu:14
Obrázek 2. Rozmanitost a charakteristika slovesa hrát
Naproti tomu u mnohem frekventovanějšího slovesa děkovat (dziękować ) není koncovka charakterizující hovorovou mluvu pro 3. osobu množného čísla v tabulce variet uvedena, ačkoli je součástí samotného popisu:
Obrázek 3. Rozmanitost a charakteristika slovesa děkovat .
U dalších prvků charakterizujících mluvený jazyk je jejich prezentace rovněž nejednoznačná a nejednotná, jak ukazuje dvojice příslovcí lépe [ČJP] / líp [ČJM] (lepiej). Jejich příslušnost k určité jazykové vrstvě proto není pro studenta jasná:
Obrázek 4. Charakteristika příslovce lépe
Do očí to bije ve srovnání s gramaticky i stylisticky analogickým příslovcem méně [ČJP] / míň [ČJM] (mniej), kde je již mluvená podoba výrazně vyznačena:
Obrázek 5. Charakteristika příslovce méně .
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
Tento slovník, přestože má i další nesporné kvality, je také nedůsledný v charakteristice lexémů, které se dostávají do mluvené verze. Patří sem i slovo polévka realizované v řeči jako polívka (zupa):
Obrázek 6. Charakteristika podstatného jména polévka .
Naproti tomu analogická dvojice lexémů mléko [ČJP] / mlíko [ČJM] (mleko) již není zaznamenána:
Obrázek 7. Charakteristika podstatného mléko .
Uvedené příklady jasně ukazují, že slovníky tohoto typu dostatečně nereflektují a nepřekládají mluvenou varietu, kterou mluví mluvčí současné češtiny, v nejširším rozsahu, což značně snižuje jejich užitečnost při výuce současné češtiny. S ohledem na to je nutné obrátit se k nástrojům, které představují současné digitální humanitní vědy. Jejich celou nabídku najdete na stránkách výše zmíněného Českého národního korpusu.
Jak je uvedeno na domovské stránce ČNK, jazykový korpus je elektronická sbírka textů (psaných i mluvených), která umožňuje snadné vyhledávání různých jazykových jevů v jejich přirozeném kontextu. Nejdůležitější je, že sbírka obsahuje texty reprezentující všechny jazykové variety, tedy i soubory současného spontánního mluveného jazyka. Součástí zdroje je také korpus starších diachronních textů a takzvaný paralelní korpus InterCorp, který obsahuje překlady z více než 30 jazyků. Již tento stručný popis naznačuje, že využití korpusů při studiu češtiny jako cizího jazyka může mít neocenitelnou hodnotu.
Aplikace KonText je základním nástrojem pro práci s korpusy. Umožňuje vyhledávání pomocí jednoduchých i složitých dotazů a odkazuje také na další korpusy, jako je například Oral věnovaný mluvenému jazyku, který je v učebnicích výuky češtiny jako cizího jazyka opomíjen. V praktické výuce jazyků (i při vlastní práci studentů) se může nejvíce osvědčit korpus SyD určený pro všestranné a komplexní studium variant, a to jak z hlediska synchronního (srovnává koexistující formy v současném jazyce), tak z hlediska diachronního (umožňuje sledovat vývoj jazykových forem). Důležité je, že analýza zahrnuje také mluvený jazyk. Postačí, když budou k dispozici alespoň dvě konkurenční varianty. Podívejme se, jak lze tento nástroj využít ve světle výše nastíněné problematiky „psaná versus mluvená čeština“.
Od Gutenberga k Zuckerbergovi
Vezmeme-li si nejběžnější sloveso být (być ), uvidíme, jak se používá v mluvené a psané podobě. Nejprve porovnejme infinitivní tvary být [ČJP] a bejt [ČJM]:15
Obrázek 9. Diagramy znázorňující výskyt tvarů být [ČJP] a bejt [ČJM] v psaném a mluveném jazyce.
V psané češtině zdaleka převažuje tvar být. Bejt se vyskytuje pouze v zanedbatelné části textů (1,45 %). SyD umožňuje zjistit, o jaký typ textů se jedná. Vidíme tedy, že se příležitostně objevuje v beletrii a korespondenci. V odborné literatuře a publicistice výskyt této formy téměř nezaznamenáváme:
Obrázek 10. Schéma znázorňující výskyt tvarů být [ČJP] a bejt [ČJM] v různých žánrech psaných textů: beletrie, odborná literatura, publicistika, korespondence.
Pokud však jde o mluvený jazyk, tvar bejt se objevuje až v 80 %! Už to samo o sobě ukazuje, že obraz češtiny, který vzniká v učebnicích pro cizince, je falešný a umělý.
Podívejme se, jak bude situace vypadat pro 1. osobu jednotného čísla: jsem [ČJP] a sem [ČJM]:
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
Obrázek 11. Zadání dotazu do korpusu SyD – jsem [ČJP] a sem [ČJM].
Po zavedení možnosti synchronní juxtapozice je zřejmé, jak je rozloženo užití lexémů v obou jazykových varietách:
Obrázek 12. Diagramy znázorňující výskyt tvarů jsem [ČJP] a sem [ČJM] v psaném a mluveném jazyce.
U ČJP jasně převažuje forma jsem. Sem se vyskytuje reziduálně (4,24 %) – v ČJM však nepopiratelně kraluje a zcela vytlačuje verzi jsem. V případě ČJM nám SyD nabízí další tři možnosti: – analýzu podle pohlaví a věku uživatelů (ženy; muži; mladší 35 let; starší 35 let):
Obrázek 13. Graf znázorňující prevalenci forem jsem [ČJP] a sem [ČJM] podle pohlaví a věku: ženy, muži, do 35 let, nad 35 let.
Od Gutenberga k Zuckerbergovi
– jejich vzdělání (základní; střední; vyšší):
Obrázek 14. Graf znázorňující výskyt forem jsem [ČJP] a sem [ČJM] podle vzdělání: základní, střední, vysokoškolské.
– a výskyt této formy v jednotlivých krajích České republiky:
Obrázek 15. Schéma znázorňující výskyt podob jsem [ČJP] a sem [ČJM] s přihlédnutím k těmto nářečím: českomoravské, středomoravské, středočeské, tzv. české pohraničí, tzv. moravskoslezské pohraničí, severovýchodočeské, slezské, východomoravské, jihozápadočeské.
Tento přehled přináší následující informace: tvar sem používají všichni uživatelé češtiny bez ohledu na pohlaví, věk či vzdělání, a vyskytuje se na celém území České republiky, což potvrzuje existenci interdialektu, zároveň však překvapuje jeho mizivé zastoupení v učebnicích češtiny jako cizího jazyka.
16. Mapa České republiky se schématy znázorňujícími výskyt tvarů jsem [ČJP] a sem [ČJM].
Od Gutenberga k Zuckerbergovi
SyD je také užitečný při ověřování nářečních tvarů, například su (1. osoba jednotného čísla slovesa být, tedy jsem), které se vyskytuje v některých částech České republiky. Podívejme se, jak je použití této varianty srovnatelné s variantami jsem [ČJP] a sem [ČJM]:1
Obrázek 17. Zavedení dotazu do korpusu SyD – jsem [ČJP], sem [ČJM] a su (regionální forma) a diagramy znázorňující výskyt těchto forem v psaném a mluveném jazyce.
Ze srovnání vyplývá, že v psaných textech se tato forma vyskytuje zbytkově (většinou v korespondenci):
Obrázek 18. Schéma znázorňující výskyt tvarů být [ČJP], bejt [ČJM] a su (regionální forma) v různých žánrech psaných textů: beletrie, odborná literatura, publicistika, korespondence.
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
Věk ani vzdělání jeho užití neurčují:
Obrázek 19. Graf znázorňující výskyt forem jsem [ČJP] a sem [ČJM] a su (regionální forma) podle pohlaví a věku: ženy, muži, do 35 let, nad 35 let; a podle vzdělání: základní, střední, vysokoškolské.
Jako nejzajímavější se ukazuje přehled zobrazující distribuci výskytu na českém území, z něhož je zřejmé, že forma su je charakteristická pro moravská nářečí:
Obrázek 20. Schéma znázorňující výskyt podob jsem [ČJP] a sem [ČJM] a su (regionální forma) s ohledem na následující nářečí: českomoravské, středomoravské, středočeské, tzv. české pomezí, tzv. moravskoslezské pomezí, severovýchodočeské, slezské, východomoravské, jihozápadočeské.
21. Mapa České republiky se schématy znázorňujícími výskyt tvarů jsem [ČJP] a sem [ČJM] a su (regionální forma).
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
Ještě zajímavější je sledování výskytu záměny -ý za -ej, charakteristické pro mluvenou varietu. Tato tendence byla zpočátku typická pro nářečí Čech, nyní však můžeme pozorovat její rozšíření po celé České republice (proniká i do mluveného jazyka). To platí zejména pro adjektivní koncovky, například český [ČJP] / českej [ČJM]. Stojí za to se podívat, jak to databáze SyD zaznamenává:
Obrázek 22. Zavedení dotazu do korpusu SyD – český [ČJP] a českej [ČJM] a diagramy znázorňující výskyt těchto tvarů v psaném a mluveném jazyce.
K záměně -ý za -ej dochází také v kmenech podstatných jmen, například ve slově brýle [ČJP] / brejle [ČJM].
Obrázek 23. Zavedení dotazu do korpusu SyD – brýle [ČJP] a brejle [ČJM] a diagramy znázorňující výskyt těchto forem v psaném a mluveném jazyce.
Od Gutenberga k Zuckerbergovi
Forma brejle proniká do spisovného jazyka nejčastěji v korespondenci a druhotně v beletrii:
Obrázek 24. Diagram znázorňující výskyt tvarů brýle [ČJP] a brejle [ČJM] v různých žánrech psaných textů: beletrie, odborná literatura, publicistika, korespondence.
Při jeho použití v řeči nehraje pohlaví ani věk žádnou roli:
Obrázek 25. Graf znázorňující výskyt tvarů brýle [ČJP] a brejle [ČJM] podle pohlaví a věku: ženy, muži, do 35 let, nad 35 let.
Naproti tomu je zajímavé, že jej častěji používají uživatelé s vyšším a středoškolským vzděláním, což podporuje tezi, že hovorový mluvený jazyk není jazykovou varietou s nižším statusem, kterou používají nevzdělaní uživatelé:
Obrázek 26. Graf znázorňující výskyt tvarů brýle [ČJP] a brejle [ČJM] podle vzdělání: základní, střední, vysokoškolské.
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
15
Jako nejdůležitější se však ukazuje regionální faktor, neboť právě zde je patrné, že nejcharakterističtější je česká nářeční skupina:
Obrázek 27. Diagram znázorňující výskyt tvarů brýle [ČJP] a brejle [ČJM] s přihlédnutím k těmto nářečím: slezské, východomoravské, středomoravské, českomoravské, středočeské, severovýchodočeské, takzvané české pohraničí, jihozápadočeské.
Korpus SyD se ukazuje jako užitečný i při analýze dalších, výše signalizovaných jazykových jevů souvisejících s existencí diglosie, například při sledování užívání cirkumflexních tvarů sloves výše zmíněné 3. třídy: děkuji / děkuju:
Obrázek 28. Zavedení dotazu do korpusu SyD – děkuji [ČJP] a děkuju [ČJM] a diagramy znázorňující výskyt těchto forem v psaném a mluveném jazyce.
a brejle [ČJM].
tvarů brýle [ČJP]
29. Mapa České republiky se schématy znázorňujícími výskyt
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
Když se podíváme na detaily spisovného jazyka, zjistíme, že forma děkuju proniká především do textů napodobujících mluvený jazyk, tedy do korespondence a beletrie:
Obrázek 30. Diagram znázorňující výskyt tvarů děkuji [ČJP] a děkuju [ČJM] v různých žánrech psaných textů: beletrie, odborná literatura, publicistika, korespondence.
Rozbalíme-li záložku Podrobnosti (což SyD rovněž umožňuje), zjistíme, že u beletristických textů se mluvená forma jazyka používá především ve scénářích a prozaických útvarech:
Obrázek 31. Diagram znázorňující výskyt tvarů děkuji [ČJP] a děkuju [ČJM] v různých beletristických textech: románu, povídkách, literatuře faktu, ostatních beletristických textech, poezii, divadelních hrách a scénářích.
Pokud jde o mluvený jazyk, ani zde se neuplatňuje faktor věku, pohlaví nebo vzdělání:
Od Gutenberga k Zuckerbergovi
Obrázek 32. Graf znázorňující výskyt tvarů děkuji [ČJP] a děkuju [ČJM] podle pohlaví a věku: ženy, muži, do 35 let, nad 35 let; a podle vzdělání: základní, střední, vysokoškolské.
I v tomto případě se jako nejzajímavější jeví komparace ilustrující výskyt obou forem v různých regionech. Potvrzuje opět tezi, že hovorová čeština má v moravských nářečích nejslabší zastoupení:
Obrázek 33. Schéma znázorňující výskyt podob děkuji [ČJP] a děkuju [ČJM] s ohledem na nářečí: tzv. moravskoslezské pomezí, tzv. české pomezí, českomoravské, středomoravské, východomoravské, slezské, severovýchodočeské, jihozápadočeské, středočeské.
se schématy znázorňujícími výskyt tvarů děkuji [ČJP] a děkuju [ČJM].
Od Gutenberga k Zuckerbergovi
Podobně je tomu i u dalších lexémů, které dělají studentům češtiny problémy, jako je výše signalizovaná dvojice lépe / líp:
Obrázek 35. Zavedení dotazu do korpusu SyD – lépe [ČJP], líp [ČJM] a diagramy znázorňující výskyt těchto forem v psaném a mluveném jazyce.
nebo mléko / mlíko:
Obrázek 36. Zavedení dotazu do korpusu SyD – mléko [ČJP], mlíko [ČJM] a diagramy znázorňující výskyt těchto forem v psaném a mluveném jazyce.
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
Jak je vidět, korpus SyD se při studio obou jazykových variet češtiny ukazuje jako nepostradatelný – je totiž neustále aktualizován a navíc vychází z živé řeči, nikoli z uměle vytvořených textů obsažených v učebnicích češtiny jako cizího jazyka.
Nástroje digitálních humanitních věd v translatologii
Z průzkumů vyplývá, že nejčastější motivací ke studiu filologie (zejména pokud jde o jazyky, které nejsou ve standardní nabídce základních a středních škol) je vyhlídka na práci překladatele. Jednou z klíčových kompetencí rozvíjených v rámci filologického vzdělávání je proto znalost překladu. Důvodem je stále rostoucí poptávka po kvalitních překladatelských službách v multilingvální Evropě.
V magisterském studijním programu se předpokládá, že se studenti seznámili s některou variantou mluvené češtiny a znají její charakteristické gramatické tvary. Vzhledem k tomu, že v procesu nácviku překladu se jako nejdůležitější ukazuje hledání překladových ekvivalentů, selhávají i zde slovníky tradičního typu, a překladatelské pomůcky jako glosbe nebo linguee, které vyhledávají na základě překladové paměti, rovněž nejsou použitelné. Člověk, který ještě nemá příliš vyvinutý stylistický cit, tak může mít potíže s nalezením vhodného lexikálního ekvivalentu.
Pro ilustraci použití korpusových nástrojů digitálních humanitních věd jsem vybrala seznam dialogů, které jsem přeložila pro film Národní třída, adaptaci knihy Jaroslava Rudiše. Podívejme se na pasáže, které mohou být v překladu problematické:
Ty vole, teplej nejseš, ne?
Ne, to ne.
Ty vole, co vy jste za generaci, ty vole.
[…]
No počkej, já nejsem žádnej nácek, já mám lidi rád, já lidi miluju.
Ty vole, mluv česky, tady jsi v Čechách, ne? Já kdybych byl v cizině, tak taky mluvím cizinsky, ne?
Pozdravuj v Magnitogorsku, vole.
Mně nevaděj ukáčka, když nedělají bordel, já s tím problém nemám.
Mně nevaděj bezdomáči, vole, ciginy, smažky, socky, Rusáci, pšonci, pingpongáči, vole, když nedělají bordel.
[…]
Vandame, koukni se kolem sebe. Já mám hovno, ty máš hovno, všichni tady máme hovno. Nech to bejt, já si nějak poradím.
Valej do tebe, že to máš nechat bejt.
Dobrou chuť, šéfe.
Co je? Došla barva? Co jste to včera vyváděli?
Od Gutenberga k Zuckerbergovi
Normálně českej humor, ne?
Jak malý haranti. Počkej, z toho ještě bude průser. […]
Hele, benga, vole.
Co je? Co je, děláme něco, vole? No. Buzny, vole.
Proč po tobě furt tak jdou, ty vole?
Protože je sere, že tady pořádek taky někdo jinej než oni. No jasně.
Jak vidíme, v ukázce se vyskytují s gramatické tvary nespisovné češtiny („obohacené“ o vulgarismy), které by (pokud byly zavedeny na dřívějším stupni vzdělávání) neměly působit problémy.17 Je zde například již dříve analyzovaný tvar slovesa být (2. osoba jednotného čísla): nejseš [ČJM] místo nejsi [ČJP]. Také zde pozorujeme promíchání kódů. Stejná postava říká v jedné pasáži nejseš [ČJM] a v jiné jsi [ČJP] – místo analogické formy seš [ČJM]. Existují také výše signalizované tvary českej, teplej, žádnej [ČJM] místo český, teplý, žádný [ČJP], nebo miluju [ČJM] místo miluji [ČJP], případně další tvary, které jsou již na pokročilém stupni vzdělávání známé, například také [ČJP] / taky [ČJM].
Student, který zná korpusové zdroje (především databázi SyD) a má dobré lingvistické znalosti, samozřejmě snadno najde vybrané lexémy a přeloží je. Nástroje digitálních humanitních věd však tento úkol značně usnadňují. Podívejme se například na slovo průser . Ze slovníků příbuzných slov lze odvodit, že jde o synonymní tvar ke slovu malér, průšvih . 18 Pro nalezení dobrého ekvivalentu a pro dobré vyjádření idiolektu dané postavy je nutné určit stylistický charakter slova. Podívejme se tedy, jak se bude zobrazovat užití těchto slov v korpusu SyD:
Obrázek 37. Zavedení dotazu do korpusu SyD – malér, průšvih, průser a diagramy znázorňující výskyt těchto forem v psaném a mluveném jazyce.
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
Korpus SyD jasně ukazuje, že lexém průser je nejméně zastoupen v psaných textech, ale v mluveném jazyce zdaleka kraluje. V psaném jazyce jednoznačně dominuje v elektronické korespondenci a je zřetelně přítomen i v textech zařazených do takzvané beletrie:
Obrázek 38. Schéma znázorňující výskyt tvarů malér, průšvih, průser v různých žánrech psaných textů: beletrie, odborná literatura, publicistika, korespondence.
V mluveném jazyce nejsou věk ani pohlaví důležitým faktorem:
Obrázek 39. Graf znázorňující výskyt tvarů malér, průšvih, průser podle pohlaví a věku: ženy, muži, do 35 let, nad 35 let.
Na druhou stranu se zdá, že faktor vzdělání je poměrně důležitý:
Obrázek 40. Graf znázorňující výskyt tvarů malér, průšvih, průser podle vzdělání: základní, střední, vysokoškolské.
Od Gutenberga k Zuckerbergovi
Tato informace je velmi důležitá; může naznačovat, že se jedná o stylisticky zabarvenou formu, v tomto případě slangovou nebo vulgární. Pro nalezení vhodného překladového ekvivalentu je nutné nahlédnout do dalších korpusů zahrnutých v ČNK, jako je Treq (což je databáze překladových ekvivalentů) nebo paralelní korpus InterCorp. Oba jsou propojeny v aplikaci KonText, která umožňuje porovnávat korpusy v různých jazykových verzích, například pro účely tohoto článku: InterCorp v14 Czech versus InterCorp v14 Polish.
Jádro korpusu InterCorp tvoří převážně beletristické texty. Kromě nich korpus obsahuje také nabídku automaticky zpracovaných textů, takzvaných sbírek. V současné době jsou k dispozici sbírky novinářských a zpravodajských článků mimo jiné z webových stránek Project Syndicate a VoxEurop (dříve PressEurop), právní texty
Evropské unie z korpusu Acquis Communautaire, zápisy z jednání Evropského parlamentu, filmové titulky z databáze OpenSubtitles (platforma pro amatérské překladatele) nebo překlady Bible.
Podívejme se tedy, jaké zastoupení má slovo průser v korpusu
KonText:
Obrázek 41. Seznam překladových ekvivalentů z databáze Trequ pro lexém průser malér, průšvih.
Zajímavé výsledky přináší srovnání se zbylými lexémy: malér, průšvih:
Obrázek 42. Seznam překladových ekvivalentů z databáze Trequ pro lexémy malér a průšvih.
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
Z uvedených příkladů je zřejmé, že stylově nejvýše stojí slovo malér, následuje průšvih (hovorový, ale ne vulgární) a nakonec průser (hovorový, vulgární).19 Uvedené návrhy překladů – ačkoli pomáhají při určování charakteru lexému – nevyčerpávají repertoár možností, ale znalosti poskytnuté Trequem umožňují přiřadit jiný ekvivalent, například vybrat si z polských ekvivalentů výrazu mieć przerąbane, tedy mieć przechlapane, przejarane, przekichane, przepieprzone, przerypane, przesrane, przewalone, przejebane . 20
V paralelním korpusu lze také zadat návrh překladu a ověřit, zda byl daný ekvivalent již použit. V tomto případě se můžeme pokusit porovnat například slovo przesrane (hovorové, vulgární). Výsledek ukazuje, že takový ekvivalent je v každém případě legitimní:
Obrázek 43. Sestavení dvojice lexémů průser / przesrane v databázi InterCorpv14.
Je tedy zřejmé, že jazyk hlavního hrdiny se vyznačuje hovorovostí a vulgaritou, což se musí odrazit i v překladu. V pokročilé fázi výuky již gramatika pravděpodobně nepůsobí potíže, a proto je třeba klást největší důraz na lexikální problémy. Pomineme-li tvar nevaděj [ČJM] místo nevadí [ČJP], který již studenti snadno určí, mohou zde působit značné potíže právě tvary se slangovým nebo vulgárním podtextem. Ukážu zde některé možnosti řešení těchto problémů (výše uvedené fragmenty označené modře). I zde můžeme využít nástroje digitálních humanitních věd.
Zajímavým příkladem se zdá být slovo bengo (vulgární výraz pro policistu). V této fázi výuky jsou známy dva výrazy z tohoto sémantického pole: policista [ČJP] a policajt [ČJM]. Zbývá tedy určit stylistickou charakteristiku slova bengo, k čemuž použijeme známý Treq a SyD:
Od Gutenberga k Zuckerbergovi
Obrázek 44. Zavedení dotazu do korpusu SyD – policista, policajt a bengo a diagramy znázorňující výskyt těchto forem v psaném a mluveném jazyce.
V psaném jazyce je rozdělení následující:
Obrázek 45. Diagram znázorňující výskyt forem – policista, policajt a bengo v různých žánrech psaných textů: beletrie, odborná literatura, publicistika.
Na kartě Beletrie je použití těchto slov zakresleno následovně:
Obrázek 46. Graf znázorňující výskyt tvarů policista, policajt a bengo v různých beletristických textech: románu, povídkách, literatuře faktu, dramatech a scénářích.
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
Na druhou stranu v části Odborná literatura je uvedeno:
Obrázek 47. Diagram znázorňující výskyt tvarů policista, policajt a bengo v různých textech odborné literatury: fantasy literatura, populárně naučná literatura a časopisy, tzv. úřední texty.
Závěry jsou zřejmé: slovo policista je stylově neutrální (užívá se především ve spisovném jazyce, 100% v administrativních textech); hovorovou podobou je slovo policajt – jeho převaha v mluveném jazyce je nesporná (91,67%, což svědčí o tom, že nemůže jít o vulgarismus), zatímco v psaném jazyce se vyskytuje především v textech napodobujících mluvený jazyk (například ve filmových dialozích, kde je slovo policista [ČJP] nahrazeno slovem policajt [ČJM]). Lexém bengo je zaznamenán pouze v mluveném jazyce, a to spíše zbytkově (1,39 %), což nám umožňuje vyslovit domněnku, že se jedná o vulgarismus. Podívejme se proto, jak je prezentováno porovnávání překladových ekvivalentů v databázích Treq a KonText: – policista:
– policajt:
Od Gutenberga k Zuckerbergovi
bengo:
Obrázek 48. Seznam překladových ekvivalentů z databáze Trequ pro lexémy policista, policajt a bengo.
Ekvivalence se zdají být nejasné, nicméně směrodatné (zejména v případě prvních dvou lexémů). Při porovnání obou korpusových databází, tedy InterCorp v14 a InterCorp v14 – polština, se ukázalo, že všechny výše popsané nástroje, které spadají do oblasti digitálních humanitních věd, se ukázaly jako velmi užitečné a umožnily vybrat vhodné překladové ekvivalenty, tedy: policista [ČJP] – policjant; policajt [ČJM] – glina, gliniarz; bengo [ČJM, vulg.] – pies . Stejně tak lze rychle zavést pejorativní a urážlivé výrazy například pro jiné národy. Z výše uvedeného seznamu dialogů vybereme například slovo rusák. Neutrální název pro tuto národnost v češtině je Rus. Korpus SyD jasně ukazuje, že forma použitá ve filmu se v mluveném jazyce vyskytuje častěji:
Obrázek 49. Zavedení dotazu do korpusu SyD – Rus / rusák a grafy znázorňující výskyt těchto forem v psaném a mluveném jazyce.
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
A databáze překladových ekvivalentů tentokrát navrhuje výstižný překlad: – Rus: – rusák:
Obrázek 50. Seznam překladových ekvivalentů z databáze Trequ pro lexémy Rus / rusák.
Někdy se však ukáže, že databáze ČNK jsou nedostatečné, jako v případě slova smažka (polsky ćpun):
Obrázek 51. Zavedení dotazu do korpusu SyD – narkoman / smažka a grafy znázorňující výskyt těchto forem v psaném a mluveném jazyce.
Z výše uvedených úvah lze vyvodit závěr, že nástroje vytvořené igitálními humanitními vědami jsou v akademické filologické výuce ne -
Od Gutenberga k Zuckerbergovi
jen nepostradatelné, ale i nezbytné, jak je prezentováno na materiálu českého jazyka. Učebnice pro výuku češtiny jako cizího jazyka budou nutně zohledňovat především spisovnou varietu, formy mluveného jazyka budou představovány částečně a uměle. Musíme si uvědomit, že ve skutečnosti máme co do činění s takzvaným Spisovným jazykem, tedy S vytvářením výpovědi prostředky, které má spisovná varieta k dispozici a které mají vytvářet dojem mluvené formy jazyka. Dodejme, že písemná podoba mluveného jazyka sestává pouze z některých prvků správně mluvené variety, zatímco jiné jsou redukovány nebo zcela vynechány. Nástroje vyvinuté igitálními humanitními vědami umožňují srovnávat obě jazykové vrstvy a případné nářeční variety, což je vzhledem k diglosii a regionálnímu rozvrstvení češtiny velmi důležité. Český národní korpus je v tomto ohledu v Evropě jedinečný. Umožňuje odklonit se od striktně lingvistické analýzy a rozšířit ji o sociologické a topografické aspekty, což se ukazuje jako užitečné na všech stupních akademické přípravy – od prvních úvodních lekcí základů češtiny až po lingvisticky pokročilé překladatelské semináře.
POZNÁmK Y
1 Na to upozorňuje Ewa Siatkowska, která zdůrazňuje, že zatímco polský literární jazyk se rozlišuje pouze na dvě variety: a) knižní, tedy spisovný, a oficiální mluvený jazyk, b) hovorový jazyk inteligence a jeho variety, v rámci českého literárního jazyka lze rozlišit tři typy kódů. – srov. SIATKOWSKA, E. Rodzina języków zachodniosłowiańskich, Varšava 1992, s. 6–7.
2 Srov. k tomu BALOWSKA, G. Problematyka czeszczyzny potocznej nieliterackiej (tzw. obecná čeština) na łamach czasopisma Naše řeč w latach dziewięćdziesiątych. Bohemistyka, s. 28. Viz též BLUSZCZ, A. J. Asymetria polskich i czeskich odmian języka ogólnonarodowego. In: BLUSZCZ, A. J. Rozwarstwienie stylistyczne języków słowiańskich. Style funkcjonalne i stylizacje literackie. Katowice, s. 15–20.
3 Viz MIELCZAREK, J. Współczesne odmiany mówione języka czeskiego i języka polskiego. Rozprawy Komisji Językowej ŁTN. LIX, 2013, s. 136–138.
4 Viz pojem „diglosie“ Jiřího Nekvapila: https://www.czechency.org/slovnik/DIGLOSIE
5 Na toto téma jsem napsala více společně s Lenkou Ptak. Viz PTAK, L., GWÓŹDŹSZEWCZENKO, I. Problematyka odmian językowych współczesnego języka czeskiego w procesie glottodydaktycznym. Lingvistika. 2019, č. 13, s. 159–170.
SVOBODOVá , J. Mluvená „spisovnost“ ve škole. In: ŠR á MEK, R. (ed.) Spisovnost a nespisovnost dnes, Brno 1996, s. 246–249.
7 BRABCOVá , R. Škola a spisovná čeština , In: ŠR á MEK, R. (ed.) Spisovnost a nespisovnost dnes, Brno 1996, s. 220 [překlad I. G-Sz.].
8 ČERM á K, F. Jazykový korpus: Prostředek a zdroj poznání. Slovo a slovesnost . 1995, s. 119.
9 ZASINA, A. Korpusy językowe w nauczaniu języków obcych – metoda, narzędzia, praktyka. In: JEDYNAK, M. (ed.). Specyficzne potrzeby studentów szkół wyższych a nauczanie języków obcych, t. 2. Vratislav 2018, s. 111.
10 Podrobné informace o Českém národním korpusu (který je jedním z největších integrovaných korpusů slovanských jazyků) najdete na www.korpus.cz a https://ucnk. ff.cuni.cz/cs/ustav/profil-ustavu/ . 11 https://www.nechybujte.cz/slovnik-soucasne-cestiny
7. Nástroje digitálních humanitních věd ve vysokoškolské výuce…
12 Tento a následující příklady jsou převzaty z uvedených webových stránek: https:// www.nechybujte.cz/slovnik-soucasne-cestiny
13 Podle klasifikační konvence používané v české gramatice.
14 Zkratka „hovor”. znamená mluvenou verzi spisovné variety jazyka.
15 Tento a následující příklady jsou převzaty z uvedených webových stránek: https:// syd.korpus.cz .
1 http://syd.korpus.cz/NpLhde6l.sy n
17 V uvedeném příkladu samozřejmě existuje mnoho forem, které nejsou v tomto článku signalizovány, ale jejich problematika je analogická s dříve uvedenými příklady.
18 Například https://www.nechybujte.cz/slovnik-ceskych-synonym/pr%C5%AFser?
19 Za zmínku stojí, že v Česko-polském slovníku vydaném nakladatelstvím Wiedza Powszechna, který je stále revidován, ale není aktualizován, nejsou výrazy vůbec zaznamenány (navzdory obrovské popularitě obou lexémů).
20 https://wsjp.pl/haslo/podglad/42343/ktos-ma-przerabane
BIBLIOGRAFIE
BALOWSKA, G. Problematyka czeszczyzny potocznej nieliterackiej (tzw. obecná čeština) na łamach czasopisma Naše řeč w latach dziewięćdziesiątych. Bohemistyka, s. 25–46.
BLUSZCZ, A. J. Asymetria polskich i czeskich odmian języka ogólnonarodowego In: BLUSZCZ, A. J. (ed.). Rozwarstwienie stylistyczne języków słowiańskich. Style funkcjonalne i stylizacje literackie. Katowice, s. 15–20.
BRABCOVá, R. Škola a spisovná čeština. In: ŠRáMEK, R. (ed.). Spisovnost a nespisovnost dnes. Brno 1996, s. 220–223.
ČERMáK, F. Jazykový korpus: Prostředek a zdroj poznání Slovo a slovesnost. 1995, s. 119−140.
ČERMáK, F. Korpusová lingvistika dnešní doby. In: ČERMáK, F. a R. BLATNá (eds.). Korpusová lingvistika. Stav a modelové přístupy. Praha, s. 9–18.
KONEČNá, H. a A. ZASINA. Studium českého jazyka a internet. In: RUSINOVá, E. (ed.). Přednášky a besedy ze XLVII. běhu LŠSS. Brno, s. 104−112.
ČERMáK, F., SGALL, P. P. VYBíRAL. Od školské spisovnosti ke standardní češtině: výzva k diskusi. Slovo a slovesnost. 2005, č 2, s. 103–115.
MIELCZAREK, J. Współczesne odmiany mówione języka czeskiego i języka polskiego. Rozprawy Komisji Językowej ŁTN. LIX, 2013, s. 135–142. PTAK, L., a I. GWOŹDŹ-SZEWCZENKO. Problematyka odmian językowych współczesnego języka czeskiego w procesie glottodydaktycznym. Językoznawstwo. 2019, č. 13, s. 159–170. SIATKOWSKA, E. Rodzina języków zachodniosłowiańskich. Varšava 1992. SVOBODOVá, J. Mluvená „spisovnost” ve škole. In: ŠRáMEK, R. (ed.). Spisovnost a nespisovnost dnes. Brno 1996, s. 246–249. TAMBOR, J. Granice potoczności w nauczaniu języka polskiego jako obcego. Przemiany leksykalne, fonetyczne, fleksyjne i słowotwórcze we współczesnej polszczyźnie. In: NYCZ, R., MIODUNKA, W. a T. KUNZ (eds.). Polonistyka bez granic, t. 2: Glottodydaktyka polonistyczna. Krakov, s. 311–320.
ZASINA, A., Korpusy językowe w nauczaniu języków obcych – metoda, narzędzia, praktyka. In: JEDYNAK, M. (ed.). Specyficzne potrzeby studentów szkół wyższych a nauczanie języków obcych, t. 2. Vratislav 2018, s. 110–123.
Kapitola 8
Základy vědecké digitální edice
1 . Úvod
Humanitní výzkum se zaměřuje na kulturní artefakty, jako jsou texty, obrazy nebo fyzické objekty. Digitalizace si žádá přehodnocení nových způsobů, jakými jsou tyto artefakty vytvářeny, používány a uchovávány. Tato kapitola se zaměří na digitální textovou edici v rámci tradice textové kritiky s přihlédnutím ke změnám, které přineslo digitální paradigma.
Hlavním úkolem vědecké edice je připravit spolehlivou verzi textu, která obvykle zahrnuje úvod (obecný, historický nebo interpretační), výklady o historii a složení a dokumentaci možných změn a variant. Vědecké digitální edice budou navíc splňovat podmínky digitálního paradigmatu: budou používat mezinárodní standardy pro přepis (například XML vyvinuté speciálně pro digitální texty), definovat datový model, zahrnovat metadata a indexy, budou mít autorské licence, zajistí udržitelnost prostřednictvím odpovídající infrastruktury atd.
Kapitola se zaměřuje na pojmy jako vědecká digitální edice, modelování textu, značkovací jazyky, metadata, webové standardy. Poskytuje potřebné informace pro celý proces editace: analýzu, modelování, přepis, kódování, zveřejnění.
Od Gutenberga k Zuckerbergovi
2. Vědecké úpravy textu
2.1. Kritika textu
Prostřednictvím písemného sdělení předáváme nejdůležitější a nejuniverzálnější myšlenky z oblasti vědy, náboženství, politiky a literatury. Hojně čtený a šířený text je také hojně přepisovaný, ale každá kopie, každý přenos s sebou nese riziko změny a zkreslení. Důležitou roli při zapomínání na určité texty nebo při jejich ztrátě hraje také historie. Filologie jako vědní obor vznikla proto, aby zajistila správné předávání psaných textů, jejich uchování, opravu nebo zdokonalení.
Termín filologie pochází z řeckého phílos (přítel) a lógos (slovo): znamená tedy sympatii a lásku ke slovům. Úkolem filologa je kontrolovat, zda je sdělení textu správné: filologii lze v genezi definovat jako vědu o ověřování pravosti textu.1
Různé metody ověřování pravosti textu tvoří takzvanou textovou kritiku, subdisciplínu filologie. Ústředním tématem této kapitoly je textová edice. Jedná se o humanitní disciplínu s dlouhou historií, která v závislosti na období, vědecké tradici a jazyce používá pro textový objekt, jímž se zabývá, různé názvy: vědecko-kritická edice (česky), naukowa edycja krytyczna (polsky), Edición crítica (španělsky), Scholarly Edition (anglicky), Historisch-kritische Ausgabe (německy).
Nástup digitálního paradigmatu, který jde ruku v ruce s určitými jazykovými a kulturními tradicemi, mění způsob, jakým se discioplína vnímá. Obecně lze říci, že hlavním úkolem kritické edice je předložit spolehlivý text. Kritická edice obvykle zahrnuje: – obecný, historický nebo interpretační úvod, – prohlášení o historii a složení textu, – textový aparát nebo poznámky dokumentující možná sdělení, změny a varianty čtení (lekce).
Ujasněme si některé pojmy: „přenos“ je rukopisná, tištěná nebo digitální verze textového díla: přenosy jsou dokladem textové tradice textu; „lekce“ je krátký úsek textu, často jedno slovo nebo fráze, které se obvykle liší mezi rukopisy, zaznamenaný v jednom přenosu.2
Vezměme si například první verš v různých kopiích: – přenos lekce 1 (W1): Violente mě žádá, abych složil sonet – přenos lekce 2 (W2): Violente mě žádá, abych složil básně – přenos lekce 3 (W3): Violante mě žádá, abych složil sonet
Textové varianty nastávají ve chvíli, když mají přenosy různé lekce. V uvedeném příkladu existuje textová varianta mezi W1 a W2 („sonet“ | „básně“) a mezi W2 a W3 ((„sonet“ | „básně“), ale ne mezi W1 a W3.
Přenos textů může být složitější, než se zdá. Někdy se musíme vypořádat s velkým počtem kopií, které zase mohou mít mnoho nebo málo variant. Například Danteho Božská komedie má více než 600
8. Základy vědecké digitální edice
vydání. 3 V ostatních případech se dochoval pouze jeden text, který nemusí být nutně napsán nebo vydán přímo autorem. Každý text může také obsahovat formální varianty (starý pravopis) nebo chyby (typografické chyby, opisování atd.). Výše uvedený příklad obsahuje chybu v názvu, který se ve variantách W1 a W2 („Violente“), W3 („Violante“) šíří odlišně.
Příprava historického textu proto vyžaduje pozornost a kritický úsudek. Jak probíhá vědecká edice? Kritické vydání je takové, které je provedeno s kritickým úsudkem a porozuměním příslušným primárním materiálům a které poskytuje jasné doklady o vztazích a souvislostech primárních materiálů. Je proto nutné porovnat všechny relevantní výpovědi, provést příslušné opravy, zaznamenat textové odchylky, opatřit text poznámkami s podpůrnými studiemi atd.4
Textová kritika vyvinula různé přístupy ke studiu textového přenosu v závislosti na několika faktorech, například na typech dokumentů, textů, chybách, autorství, určení vztahu přenosů atd. U středověkých a klasických textů dochovaných v rukopisech se obecně používá stemmatická metoda (rekonstrukce původního textu na základě různých přenosů, které jsou hierarchicky seskupeny do rodokmenu, tedy stemma); u soudobých textů metoda copy-text (autografní rukopis nebo tištěné vydání, které se nejvíce blíží záměrům autora); genetická metoda (řada předloh, které svědčí o vývoji díla), obvykle od soudobých autorů; dokumentární edice (vychází z jediného dokumentu a zaznamenává co nejvíce jeho rysů). 5
Dvojí přídavné jméno v polském termínu naukowa edycja krytyczna (odborná kritická edice) může sloužit jako souhrnné označení pro několik těchto směrů textové kritiky. V této kapitole budeme používat vědeckou edici v širším smyslu, bez ohledu na to, zda za ní stojí kritická edice stricto sensu: „Považujeme-li za vědeckou edici připravenou jako podklad pro výzkum, pak každá kritická edice je zároveň vědecká, i když ne naopak: termín ,kritická‘ zdůrazňuje způsob, jakým je text připraven a podán, termín ,vědecká‘ hovoří o jejím účelu pro výzkum. Na druhé straně existují vědecké edice připravené podle jiných zásad.“
2.2. Vědecké digitální edice
Digitální edice splňuje stejné požadavky jako edice vědecká, ale s digitálním paradigmatem. Jednou z prvních monografií (3 svazky) o digitální kritické edici je práce Patricka Sahleho7. Sahle často upřesňuje pojem digitální v souvislosti se střihem. Digitální vědecké edice nejsou jen vědecké edice na digitálních médiích: „A digitised edition is not a digital edition“. 8 Reprodukce bez kritického zpracování není edicí; prostá digitální reprodukce, prosté faksimile ani digi-
Od Gutenberga k Zuckerbergovi
tální knihovna nejsou edicemi. Jedním ze způsobů, jak odlišit jednun od druhé, je podívat se na informace nebo funkce, které zprostředkovávají: digitální edice nelze vytisknout, aniž by došlo ke ztrátě informací nebo funkčnosti.9
Kdy se edice provádí podle digitálního paradigmatu? Kromě kritérií tradiční kritické edice můžeme edici označit za digitální vědeckou, pokud jsou splněny určité podmínky: – používá široce používané standardy (např. XML-TEI), – používá a dokumentuje datový model, – zavádí vhodné rozhraní (použitelnost, vyhledávání), – obsahuje metadata, indexy, licence, – zajišťuje dlouhou životnost (digitální uchovávání) díky správné infrastruktuře, – používá otevřené standardy, – usnadňuje vzorkování, opakované použití a remixování dat. Všechny uvedené body představují redakční rozhodnutí, která je třeba přijmout a provést. Je také důležité tato rozhodnutí jasně a zřetelně sdělit. Stejně jako tradiční kritické vydání by mělo vypovídat o historii a kompozici textu, měla by digitální edice vypovídat o provedených digitálních volbách. O některých z nich pojednáváme na následujících stranách. Komplexní pokyny ke kritériím kvality digitálních edic lze nalézt v dokumentu Criteria for Reviewing Scholarly Digital Editions . 10
3. Případová studie
Různorodost textových artefaktů nutně předpokládá různé typy edic. Především se vyplatí podívat se na některé z dostupných digitálních edic, aby si čtenáři udělali první představu o jejich rozmanitosti. Naštěstí máme dva katalogy, které obsahují seznam minulých a současných digitálních edic: A Catalog of Digital Scholarly Editions (Patrick Sahle)11 a Catalogue of Digital Editions (Greta Franzini)12 . Nejedná se pouze o záznamy (700 položek u Sahleho; 320 položek u Franzini): oba mají stanovena kritéria pro zařazení položek do katalogu, která slouží jako příklady osvědčených postupů v oboru. Katalog Franzini poskytuje přístupný přehled o použitých digitálních standardech a technologiích a také kritéria založená na textové kritice. Některé z položek taxonomie jsou: vědecký, digitální, ediční, filologický vývoj, seznam textových variant, přenosová hodnota, kódování XML-TEI, možnost stažení, obrázky, licence, API atd. Podívejme se na několik příkladů na základě textového žánru. Společným jmenovatelem všech zde uvedených je mimo jiné použití slovníku značkovacího jazyka XML-TEI.
8. Základy vědecké digitální edice
3.1. Edice divadelních textů
Toto vydání zpřístupňuje nejen kritický text s aparátem variant a doplňujících poznámek, ale poprvé také archiv použitých přenosů a jejich přepis. Rovněž umožňuje stáhnout celý kód. Jedná se o výzkumný projekt, jehož cílem je vydat kritické vydání komedie La dama boba španělského spisovatele Lope de Vegy. V rámci projektu byl navíc vytvořen digitální archiv, který umožňuje badatelům přístup k pramennému materiálu a nástrojům pro jeho analýzu. Přenosy pocházejí z různých oblastí realizace, jako je autorův rukopis, vydání autorizované autorem a kopie, která pravděpodobně vznikla v důsledku nelegálního procesu memorování díla (takzvanými „memoriones“, kteří opakovaně sledovali inscenace díla a poté nelegálně přepisovali to, co si zapamatovali). Projekt se zaměřil na přepis těchto dokumentů a na poskytnutí přepisů způsobem, který signalizuje rozdíly a umožňuje srovnání mezi nimi a kritickým vydáním. Ilustrace ukazují srovnání autografu, přepisu a faksimile starého tisku.
Digitální edici Fausta tvoří archiv rukopisů a příslušných tisků o Faustovi vydaných za autorova života, konstituovaný text Faust I a Faust II. Samozřejmě můžeme konzultovat text, který je výsledkem rekonstrukce konečného stavu textu blízkého autorovu záměru,
Obrázek 1. Lope de Vega, La dama boba. Edición crítica y archivo digital, http://damaboba.unibo.it/index.html (DE VEGA, L.. La dama boba: edición crítica y archivo digital. Marco Presotto et al. eds., 2015. Dostupné na WWW: http://dx.doi.org/10.6092/unibo/ladamaboba)
Od Gutenberga k Zuckerbergovi
Obrázek 2. J. W. von Goethe, Faust. Historisch-kritische Edition, https:// faustedition.net [GOETHE, J. H. v. Faust. Historisch-kritische Edition . Anne Bohnenkamp, Silke Henke, Fotis Jannidis (eds.), Verze 1.2RC,. Frankfurt nad Mohanem, Výmar, Würzburg, 2019. Dostupné na WWW: www.faustedition.net (dostup: 15. 4. 2023)]
ale za pozornost stojí například i vizualizace geneze díla. Grafika zachycuje vznik Goethova Fausta retrospektivně, tedy od dokončení díla. Ilustrace zobrazuje všechny části díla, které vyšlo v roce 1808 pod názvem Faust. Eine Tragödie spolu s Faustem II. Data uvedená v obou částech odpovídají datům důležitým pro historii vzniku díla.
3.2. Edice korespondence
Koncepce digitálního vydání spočívá v odpojení jednotlivých dopisů Jeana Paula od struktury knižního vydání Eduarda Berenda (1883–1973), aby čtenářům nabídla nové přístupové body pro čtení a výzkum. Digitální podoba této edice má mnoho výhod, například záznamy o všech osobách a místech zmíněných v korespondenci.
Jean Paul – Sämtliche Briefe je digitální edice obsahující dopisy německého spisovatele Jeana Paula a jeho rodiny, přátel a kolegů. Edici tvoří dva korpusy: dopisy samotného Jeana Paula, které jsou součástí třetího dílu kritického vydání sebraných spisů Eduarda Berenda (digitalizované faksimile a transliterace jsou k nahlédnutí na
8. Základy vědecké digitální edice
Obrázek 3. Jean Paul. Sämtliche Briefe digital, https://www.jeanpauledition.de [PAUL, J. P. Jean Paul – Sämtliche Briefe Digital. M. Bernauer, N Miller, F. Neuber (eds.). Berlín, 2018. Dostupné na WWW: https://www.jeanpauledition.de (dostup 15. dubna 2023)]
portálu Deutsches Textarchiv 13), a dopisy od blízkých Jeana Paula, které byly poprvé digitálně zveřejněny v roce 2019. Oba korpusy byly na ediční platformě spojeny a propojeny s obsáhlým rejstříkem kritické edice. Uživatelé tak mohou snadno a rychle vyhledávat konkrétní dopisy, osoby nebo témata a prohlížet si dopisy v historickém kontextu. Digitální paradigma této edice přináší řadu výhod, například evidenci všech osob a míst zmíněných v korespondenci. Na obrázku je dopis Jeana Paula Christianu Ottovi, datovaný 16. listopadu 1809 a odeslaný z Bejrůtu. Kliknutím na odesílatele, adresáta a místo odeslání (modrým písmem) se uživatel dostane do rejstříku těchto osob nebo míst. V digitálním rejstříku jsou odkazy dynamicky propojeny s dopisy pocházejícími od Paulových blízkých a adresovanými jemu. Můžeme si také vybrat mezi dvěma typy čtení textu: prostým, nebo čtením s doplňujícím kritickým textem a/nebo komentářem. Korespondence Jana Dantyszka je největší epistolární sbírkou ve střední Evropě, která obsahuje více než 6 000 dopisů a přibližně 12 000 pramenných dokumentů, které vznikly v okruhu polské šlechty a jejích spolupracovníků po celém světě. Cílem projektu je shromáždit a systematizovat informace o Dantyszkově korespondenci, která prošla různými edicemi, z nichž mnohé jsou neúplné nebo postrádají
Obrázek 4. Korpus textů a korespondence Jana Dantyszka, dantiscus. al.uw.edu.pl [DANTYSZEK, J. Korpus Tekstów i Korespondencji Jana Dantyszka A. Skolimowska, M. Turska, K. Jasińska-Zdun (eds.). Varšava, 2010. Dostupné na WWW: http://dantiscus.al.uw.edu.pl/ (dostup 15. 4. 2023)]
vědeckou hodnotu. Obsahuje nejen údaje o celé Dantyszekově korespondenci (odesílatel, adresát, incipit, datum, údaje o pramenech, údaje o tištěných publikacích), ale také všechny texty z Dantyszkova pera (dopisy, básně, projevy, dokumenty, další texty). Dantyszkova korespondence obsahuje kromě dopisů v latině a němčině také (malý počet) dopisů ve španělštině, polštině, italštině, vlámštině, češtině a francouzštině. Jedná se pravděpodobně o první polskou vědeckou edici, která používá systém značení XML-TEI. Jednou z výhod použití značkovacího jazyka XML-TEI14 je možnost vytváření rejstříků (například odesílatel, příjemce, uvedená místa a osoby). Tento projekt také nabízí pokročilou vyhledávací masku s různými filtry, které lze použít ke zpřesnění výsledků.
3.3. Edice básní
Kritické vydání dlouhé barokní básně spisovatele Luise de Góngora. Pro kódování používá metodu paralelní segmentace (ang . parallel segmentation): anotace aparátu jsou zakódovány uvnitř přepisu společného textu všech přenosů textu. Pro publikování používá prohlí-
8. Základy vědecké digitální edice
Obrázek 5. Soledades de Luis de Góngora. Edición crítica digital, http:// soledades.uni-koeln.de [GÓNGORA, L., „Soledades” de Luis de Góngora. Edición crítica digital, ed. A. Rojas Castro, Kolín 2017. Dostup na WWW: http://soledades.uni-koeln.de (dostup 15. dubna 2023)]
žeč ETV Viewer (viz níže), který umožňuje vydavatelům publikovat jejich XML-TEI a současně zobrazit například dva přenosy. Ilustrace představuje srovnání kritického textu s jedním ze sdělení (Ch, Rukopis tzv. Chacón). Místa s variantami jsou označena barevným podtržením.
3.4. Edice marginálií
Digitální edice umožňují vytvářet neobvyklé textové artefakty, například marginálie15 Tento projekt je věnován edici knihy Oráculo manual y arte de prudencia, která je bohatě opatřena poznámkami filozofa Arthura Schopenhauera.
Dokumenty jsou zobrazeny třemi různými způsoby: originál knihy je prezentován jako faksimile a jako částečně diplomatické vydání; marginálie byly kódovány pro edici, což umožňuje navigaci jak ve struktuře hlavního textu, tak v margináliích prostřednictvím jejich kódování XML-TEI. Výklad méně přehledných pasáží podává editor v poznámkách pod čarou. Projekt nabízí ke stažení kompletní vydání v kódování XML-TEI.
Obrázek 6. Schopenhauer’s Library. Annotations and marks in his Spanish books, http://schopenhauer.uni.wroc.pl [LOSADA PALENZUELA, J. L. (ed.) Schopenhauer’s Library. Annotations and marks in his Spanish books. Vratislav, 2017. Dostupné na WWW: http://schopenhauer.uni.wroc.pl . (dostup 15. 5. 2023)] Od Gutenberga k Zuckerbergovi
3.5. Edice politické filozofie
Projekt nabízí digitální textový korpus, který zahrnuje 116 děl právníků a teologů ve vybraných tiscích z 16. a 17. století. Z těchto zdrojů sestavuje historický slovník přibližně 300 relevantních termínů právního a politického jazyka salamanské školy. Články slovníku jsou propojeny se zdrojovými texty, což umožní snadný přístup k informacím o termínech, kontextech a autorech. Jedná se o vědeckou dokumentární edici s velkou odbornou hodnotou. Za zmínku stojí vynikající dokumentace procesu úprav.
4. Text jako data
4.1. Druhy digitálních dat
Předmětem studia humanitních věd jsou knihy, obrazy, divadelní hry, romány, poezie nebo filmy. Ačkoli je obvykle nenazýváme daty, můžeme říci, že text básně, dialog divadelní hry nebo vizuální prvky
8. Základy vědecké digitální edice
Obrázek 7. Škola v Salamance, https://www.salamanca.school (DUVE, T., LUTZ-BACHMANN, M. Die Schule von Salamanca. Eine Digitale Quellensammlung und ein Wörterbuch ihrer juristisch-politischen Sprache, Mohuč, 2015–2025. Dostupné na WWW: https://www.salamanca.school)
obrazu Pabla Picassa jsou samy o sobě daty. Tento význam souvisí s první definicí dat, která se vztahuje k jakémukoli dokumentu, informaci nebo svědectví, které nám umožňuje získat o něčem poznatky. Takto chápaná data jsou však analogová, tedy taková, která nejsou jasně kvantifikovatelná jako samostatné a odlišné hodnoty; nelze je tudíž analyzovat výpočetně.1 Z tohoto důvodu můžeme první definici dat doplnit o druhý význam: data jsou informace uspořádané ve formě vhodné pro zpracování počítačem.
Mít data v digitální podobě je jedním ze základních prvků tvorby digitální edice a při práci s kvantitativními výpočetními metodami v lingvistice nebo literární vědě.17 Data lze prezentovat v různých strukturách a formátech. Existují tři základní typy: nestrukturovaná, polostrukturovaná a strukturovaná data.
4.2. Nestrukturovaná data
Obecně jsou textová data (jakýkoli druh písemného projevu reprezentovaný jako text: báseň, román, bibliografie) považována za nestrukturovaná data, protože nejsou uspořádána do samostatných a odlišných sémantických jednotek. Jednoduché čtenářské cvičení
Od Gutenberga k Zuckerbergovi
nám umožní porozumět textu, izolovat jeho části, zřetelně vyjádřit to, co je implicitní, například na kterého autora se odkazuje, o jaké dílo se jedná, ve kterém roce bylo vydáno. Pro počítač je naopak analýza těchto informací obtížná, protože jsou nestrukturované, protože hranice jednotlivých prvků, jejich vztahy a význam nejsou jasné. Jedná se zkrátka o řetězec znaků. Obyčejné textové soubory s příponou TXT se často používají k ukládání a výměně nestrukturovaných dat mezi programy. Text obsažený v těchto souborech je reprezentován jako řetězec znaků bez další struktury nebo formátování.
Pro počítač, který v podstatě pracuje s čísly, je každý znak, ať už tečka, mezera nebo písmeno – velké Q, písmeno s diakritikou ó, písmeno ñ, písmeno ł atd. – posloupností binárních čísel (nul a jedniček).
Aby bylo možné na obrazovce zobrazit ó (malé latinské písmeno s diakritikou), musí jej počítač zakódovat číslicemi. V našich souborech je vhodné používat kódování UTF-8 založené na standardu kódování Unicode.18
4.3. Strukturovaná data
Strukturovaná data se obvykle řídí specifickým datovým modelem, který data jednoznačně definuje. Obvykle se seskupuje do dvojic obsahujících proměnné a pozorování, například tabulky s daty rozdělenými do sloupců a řádků. Formát souboru s příponou CSV ve skutečnosti také používá prostý text s některými konvencemi (čárky, uvozovky, dělení řádků) pro uspořádání dat, která obsahuje: čárky oddělují buňky, dělení řádků odděluje řádky.
Příklad strukturované datové tabulky
Proměnná PříjmeníNázev Rok m ísto pozorováníMickiewiczPan Tadeusz 1835 Paříž pozorováníCervantesQuijote 1 05 Madrid pozorováníLem Solaris 19 1 Varšava
Stojí za to vědět, že strukturovaná data lze někdy exportovat pomocí jiných konvencí, které lépe vyhovují našim potřebám, například formátu souboru JSON, který je rovněž založen na prostém textu, používá jiné konvence pro vytvoření nestrukturovaného souboru dvojic jméno/hodnota: levé kulaté závorky, pravé kulaté závorky, dvojtečku a čárku.
8. Základy vědecké digitální edice
4.4. Polostrukturovaná data
Polostrukturovaná data se často vyjadřují pomocí značkovacích jazyků, které odděleně a explicitně popisují prvky obvykle nestrukturovaných dat:
<persName>Miguel de Cervantes</persName> napsal první část <title>Don Quijote</title> v <date>1605</date>
Sémantické informace se do nestrukturovaného textu přidávají tak, že se některá slova opatří dvojitými značkami, které obklopují prvky, jež jsou předmětem zájmu. Vlastní jméno je obklopeno úvodní značkou <persName> a závěrečnou značkou </persName>. Tímto způsobem lze zpracovat úryvky nestrukturovaného textu a získat z nich například seznam všech vlastních jmen v textu pro index. Tento typ jazyka se obvykle zapisuje do souborů, které mají mimo jiné příponu XML, což je zkratka pro eXtensible Markup Language . Jedná se o rozšiřitelný značkovací jazyk, protože může používat již dostupné prvky (značky) nebo vytvářet vlastní. V digitálních humanitních vědách se široce používá specifický slovník pro anotování digitálních textů, který se nazývá TEI (Text Encoding Initiative) a tvoří základ současných (kritických) digitálních edic. TEI je XML, takže se řídí stejnými základními principy:
4.4.1. Základy syntaxe jazyka XML
Prvek se skládá z úvodní a uzavírací značky:
<persName>Adam Mickiewicz</persName>
Element může mít atributy, z nichž každý má název a hodnotu:
<birth when=”1798-12-24”>24. prosince 1798</birth>
U prvků a atributů se rozlišují velká a malá písmena:
<name> ≠ <Name> Jediný kořenový element (první uzel) obsahuje dokument XML:
<ROOT>Všechno patří sem</ROOT>.
Každý prvek je vnořen do kořenového prvku v hierarchické struktuře. Prvky se nepřekrývají:
<ROOT><text> [...] </text></ROOT> Ano!.
<ROOT><text> [...] </ROOT></text> Ne
Od Gutenberga k Zuckerbergovi
Jazyk HTML (Hypertext Markup Language), který se běžně používá k reprezentaci webových stránek, také ukládá polostrukturovaná data pomocí značek, i když je více zaměřen na vizuální reprezentaci dat než na sémantickou strukturu, která je charakteristická pro XML.
HTML: <bold>Miguel de Cervantes</bold> napsal <i>Don Quijote</i>
XML: <persName>Miguel de Cervantes</persName> napsal </title>Quijote </title>
To je rozdíl mezi procedurálním (HTML) a popisným značkováním (XML), které spolu v kontextu digitálních edic mohou (nemusí) úzce souviset: XML je jádrem edice, HTML může být součástí edice vytvořené jako webová stránka nebo webová aplikace.
5. Text Encoding Initiative: TEI
Text Encoding Initiative (TEI) je slovník XML pro kódování textů, který umožňuje reprezentaci (téměř) všech textových prvků. Jednou z výhod TEI je, že zohledňuje potřeby odborníků z různých oborů, od textologů po literární vědce, historiky, lingvisty a editory všech tradic. Slovník TEI se skládá z více než 500 značek, které jsou zdokumentovány ve Směrnicích TEI.19 Údržbu a vývoj Pokynů TEI zajišťuje Konsorcium TEI, které bylo založeno v roce 1999. Nejnovější verze (v době psaní této kapitoly) je verze 4.5.0 (poslední aktualizace 25. října 2022). Konsorcium je také zodpovědné za výroční zasedání, pracovní skupiny, infrastrukturu, mailing list, ceny a odborný časopis.20
Směrnice TEI jsou hlavní službou, kterou Konsorcium TEI poskytuje komunitě. Jsou uspořádány do 23 kapitol a řady příloh, které usnadňují konzultace. Značky definované ve Směrnicích jsou určeny pro kódování různých typů textu a slouží více oborům. Zatímco některé kapitoly se zabývají otázkami obecného zájmu (záhlaví TEI nebo výchozí struktury textu), jiné se věnují konkrétnímu žánru, aspektu dokumentu nebo typu textu, jako jsou performativní texty, popisy rukopisů nebo slovníky. Samotné pokyny jsou dokumentem TEI (ODD, viz níže), který obsahuje obecnou a strukturální dokumentaci, takzvané specifikace. Kapitoly pokynů odpovídají obecné dokumentaci, zatímco seznam prvků a atributů umožňuje přístup ke specifikaci. Zdrojový kód Pokynů a nástroje pro práci s dokumenty TEI (tvorba, editace, transformace a publikace) jsou veřejně dostupné na Githubu.21
8. Základy vědecké digitální edice
6. Základní struktura dokumentu v TEI
Dokument TEI vždy obsahuje dvě povinné části: hlavičku <teiHeader>, která obsahuje metadata o dokumentu a jeho obsahu, a reprezentaci samotného textu <text>. Tato pravidla platí nejen pro editaci, ale pro jakýkoli typ dokumentu TEI.
.1 . <teiHeader>
Záhlaví (<teiHeader>) je důležité zejména jako způsob odkazu na redakční práci a samotný artefakt. Všechna metadata jsou v něm uvedena v různých sekcích:
<TEI> <teiHeader> <fileDesc> <titleStmt> ... </titleStmt> <publicationStmt> ... </publicationStmt> <sourceDesc> ... </sourceDesc> </fileDesc> </teiHeader> <text> ... </text> </TEI>
<fileDesc> (popis souboru) obsahuje úplný bibliografický popis elektronického souboru. Tato podstatná část záhlaví je rozdělena do pododdílů, z nichž tři jsou povinné: <titleStmt> (prohlášení o názvu) sdružuje informace o názvu díla a osobách odpovědných za jeho obsah . <publicationStmt> (prohlášení o zveřejnění) sdružuje informace o zveřejnění nebo distribuci. <sourceDesc> (popis zdroje) popisuje zdroj, ze kterého byl elektronický text převzat nebo vytvořen.22
.2 . <text>
Element <text> je druhou povinnou složkou každého dokumentu TEI a umísťuje se za <teiHeader>. Jak již název napovídá, obsahuje text edice, který lze rozdělit do tří částí: <front>, <body> a <back> .
<TEI> <teiHeader> ... </teiHeader> <text> <front> ... </front> <body> ... </body> <back> ... </back> </text>
</TEI>
Pokud se rozhodneme připravit například digitální dokumentární vydání knihy, lze veškerý paratextový materiál (předmluvu, věnování, úvodní dopisy atd.) umístit do <front>. V tomto případě text <front> a <back>, stejně jako <body>, odpovídá historickému textu. Redakční příspěvek, například popis projektu, bude omezen na <teiHeader> .
Pokud připravujeme digitální kritickou edici, lze dokument TEI považovat za reprezentant nejen historického textu, ale i edice jako celku. Proto se můžeme rozhodnout umístit kritický komentář, úvod atd . do <front>, takže <body> obsahuje pouze historický text, který upravujeme.23
Níže je uveden příklad kódování sonetu 24 , který upozorňuje na strukturu sonetu a také na chybu vyskytující se v textu:
<text> <body>
<lg type=̎sonet̎>
<lg type=̎quartin̎>
<l n=̎1̎>Předložím sonet, <choice> <sic>Violente</sic><corr>Violante</corr></choice> mě žádá;</l>
<l n=̎2̎>někdy vydrží takovou přísnost:</l>
<l n=̎3̎>čtrnáct veršů může sonet pojmout.</l>
<l n=̎4̎>Třikrát se zvedá předkův záchvat smíchu.</l>
</lg>
<lg type=̎quartin̎>
<l n=̎5̎>Skrápím, jaký rým sem dám,</l>
<l n=̎6̎>Dostávám se k druhé strofě v tempu.</l>
<l n=̎7̎>Kéž mi přijdou na pomoc třeťáci,</l>
<l n=̎8̎>A podle této strofy se nebudu ničeho bát.</l>
</lg>
<lg type=̎tercet̎>.
<l n=̎9̎>Vstupuji do prvního tercilu, a přestože jsem</l>
<l n=̎10̎>Za práh položil, zdá se, jednu nohu,</l>
<l n=̎11̎>Tuto tercinu již mohu hladce uzavřít.</l>
</lg>
<lg type=̎tercet̎>
<l n=̎12̎>Druhá dodávka se stejnou dobou platnosti</l>
<l n=̎13̎>– ačkoli protilehlá třináctka běží –</l>
<l n=̎14̎>čtrnáctý řez! Hrabě, který mi nevěří!</l>
</lg> </lg> </body> </text>
8. Základy vědecké digitální edice
To, co jsme právě představili, tedy kódování, je pouze část, předzvěst celého procesu, který provází výrobu digitální edice, i když lze říci, že jde o prvek ústřední. V následující části si krok za krokem projdeme proces přípravy digitální edice. 25
7. Technologie a metody v edičním procesu
7.1. Analýza
Analýza předmětu výzkumu je pro koncepci ediční práce stěžejní. V této fázi by měl editor určit, které vlastnosti pramene (pramenů) jsou relevantní a jaký ediční přístup použije (diplomatický, dokumentární, kritický, genetický atd.).
Tyto funkce jsou potenciálně neomezené.2 Elena Pierazzo definovala soubor vlastností, které slouží jako výchozí bod pro editora analyzujícího zdroj. Uvádí jedenáct kategorií a řadu funkcí pro každou z nich. Příklady: „Topologie: struktura a uspořádání dokumentu, kolokace písma a další prvky na povrchu písma“ a „Lingvistika: části řeči, lemmatizace“.27 Obohacení textu o části řeči se totiž netýká všech edic, stejně jako záznam přesného rozmístění písma na stránce. V některých případech může být velmi důležitá dekorace, v jiných přesný pravopis (bez normalizace). Různorodost výsledků nebo úprav je velká.
Pierazzo uvádí soubor charakteristik v kontextu svého návrhu nového typu edice, tedy „digitální dokumentární edice“. Tento typ edice je vhodný pro textová díla dochovaná pouze v jednom exempláři. Pokud je k dispozici více přenosů, je třeba učinit další řadu rozhodnutí, a sice zda a jakým způsobem přenosy porovnat (postup nazývaný kolace 28) a zda předložit zavedený kritický text a/nebo text přenosů (ve výkladové nebo diplomatické verzi). Srovnávání bylo jednou z prvních oblastí použití počítačů v humanitních vědách 29 a stále se objevují nové nástroje 30 . Tyto programy pomáhají vědcům porovnávat texty více svědků a vizualizovat výsledky v tabulkách, grafech nebo tradičnějším kritickém aparátu.
Obrázek 8. Sloučení řádků pomocí CollateX (CollateX, https://collatex.net dostup 10 12 2022)
7.2. Modelování
Počítače nerozumějí textům, úpravám ani topologickým či jazykovým prvkům. Pro vytvoření vědecké edice v rámci digitálního paradigmatu převádějí editoři výsledky analýzy (viz předchozí část) do formálních modelů. Modelování je klíčovou činností v digitálních humanitních vědách jako proces, kterým vědci formalizují své chápání předmětu studia, aby jej bylo možné vypočítat. 31 Existuje mnoho volných či striktních modelů, které editoři uplatňují při vědecké edici: editační, textové, dokumentové modely, abychom jmenovali alespoň některé: monografie Pierazzo o digitální vědecké edici má ostatně výstižný podtitul Teorie, modely a metody32 . Zaměříme se zde na modelování editace dat a zejména na editovaný text jako digitální reprezentaci zdroje.
Jak již bylo řečeno, tato digitální reprezentace je založena na standardu, který poskytuje Text Encoding Initiative (TEI). Jak ji ale použít na upravený zdroj? Nebo, řečeno pragmatičtěji, co kódovat?
Výsledky fáze analýzy by měly poskytnout odpověď na otázku, zda by se při úpravě mělo zachovat dělení na řádky, zda by se měl text zobrazit tak, jak je na stránce rozložen, zda by se měly přidat jazykové poznámky atd. TEI poskytuje způsob, jak zdokumentovat učiněná rozhodnutí ve strojově zpracovatelném formátu: ODD.
ODD je přizpůsobení TEI, tedy způsob vyjádření, které prvky (z více než 500 dostupných) by měly být použity a jak. Každý ediční projekt může a měl by mít vlastní ODD, a to z mnoha důvodů: ODD je forma dokumentace, která zdůrazňuje redakční zásady; zabraňuje chybám a posiluje konzistenci kódování včetně týmových úprav. Tato pravidla by měla být veřejná, aby se potvrdila vědecká povaha edice. V tištěném vydání jsou obvykle součástí úvodu nebo jiného paratextu.
Technicky vzato je ODD soubor TEI, z něhož je možné vygenerovat schéma a dokumentaci (obecnou dokumentaci i specifikace) ve více jazycích, pokud jsou tyto informace uvedeny. Schéma je dokument, který ověřuje obsah souboru XML a který je vyjádřen ve formátech RNG, DTD nebo XSD: udává, které prvky a atributy se mohou vyskytovat a v jakém pořadí, stejně jako datové typy spojené s prvky a atributy a jejich možné výchozí a konstantní hodnoty.
7.3. Transkripce
Transkripce je převod textu z jednoho média na druhé, například přepis ručně psaného nebo tištěného dokumentu do vhodné digitální podoby. 33 To vytváří nové způsoby používání a vnímání textu v digitálním paradigmatu. Od Gutenberga k Zuckerbergovi
8. Základy vědecké digitální edice
Obrázek 9. Zobrazení schématu v RNG (vizuální a formální), které zahrnuje prvky týkající se přepisu textu (v oXygenu)
Transkripcí se rozumí zobrazení textu v jeho lineární podobě. Výsledkem bude digitální reprezentace textu ve formě nestrukturovaných dat. To znamená, že jeho složitost je omezená, dokud se kódováním nepřidá více či méně složitá struktura.
Je třeba mít na paměti, že každý přepis je zároveň interpretací. 34
Dokonce i diplomatický přepis, u něhož je obecně žádoucí co nejpřesněji reprodukovat všechny jeho prvky, s ohledem na jeho původní podobu a uspořádání, je sám o sobě jasnou abstrakcí dokumentu. 35 Při přepisu je například třeba zvážit, zda zachovat absolutní dodržování původního pravopisu, nebo nabídnout přístupnější text prostřednictvím standardizované verze; zda jsou vyřešeny zkratky; zda jsou zachyceny zjevné chyby, které naznačují správné čtení; zda je zachováno historické písmo tisku (dlouhé ∫, tradiční písmo evropské typografie); zda jsou interpretovány nebo zaznamenány nečitelné pasáže atd.
Jedním z prvních rozhodnutí, které musí editor učinit, je proto určit typ a délku přepisu textu, na kterém pracuje. Existuje několik možností přepisu textu z artefaktu. Pravděpodobně nejjednodušší možností je napsat text do textového procesoru a uložit jej ve formátu prostého textu ( plain text). Existují samozřejmě způsoby automatického digitálního přepisu pomocí technik OCR i HTR. Za zmínku v tomto bodě stojí Transkribus 3 , platforma pro rozpoznávání, přepis a automatické vyhledávání historických rukopisných
Od Gutenberga k Zuckerbergovi
Obrázek 10. Automatický přepis španělského starého tisku ze 17. století pomocí programu Transkribus.
nebo tištěných dokumentů. Přepis dokumentu v systému Transkribus může sloužit dvěma hlavním účelům. Prvním je prostý přepis: umožňuje uživatelům trénovat algoritmus pro automatické čtení dokumentů. Druhým je pokročilý přepis: umožňuje uživatelům vytvořit přepis dokumentu, který bude základem pro digitální edici. Transkribus nabízí také možnost exportu do různých digitálních formátů včetně základní struktury TEI.
7.4. Kódování
Prvky v sadě značek TEI se dělí do dvou velkých kategorií, a to na prvky, které slouží ke kódování strukturálních rysů samotného dokumentu, jako jsou oddíly, nadpisy, odstavce, citace atd., a na prvky, které slouží k zachycení metadat o kódovaném textu (autorství, bibliografické informace, popis rukopisu, historie revizí atd.).
V předchozí části jsme již vysvětlili základní strukturu dokumentu v TEI a na krátkém příkladu (sonet) jsme ukázali, jak je tato první strukturní kategorie kódována. Metadata (druhá kategorie) jsou informace o datech. Popisují data v dokumentu, projektu nebo samostatném souboru. Důležitá jsou zejména obecná metadata, která mohou zahrnovat informace, jako je místo výroby a jméno autora.
<author>
8. Základy vědecké digitální edice
<name type=̎short̎>Lope</name>
<name type=̎firstname̎>Lope</name>
<name type=̎part-of-surname̎>de</name>
<name type=̎ surname̎>Vega</name>
<idno type=̎viaf̎>89773778</idno> </author>
Typ zaznamenávaných metadat se v jednotlivých edicích opět liší v závislosti na předpokládaných potřebách jejich uživatelů. Je možné vytvořit edici z jednoho nebo více přenosů: můžeme použít element <bibl> pro uvedení krátkého bibliografického odkazu. To se rovná přidání krátkého bibliografického odkazu k tištěnému dílu s cílem poskytnout základní informace, které umožní vyhledání položky v jiných zdrojích. Tato řešení však neposkytují podrobnosti o jeho obsahu, fyzickém projevu, historii nebo obecné struktuře 37 . modul msdescription v pokynech definuje prvky, které lze použít k poskytnutí podrobných popisných informací o rukopisných primárních zdrojích a dalších textových objektech. Ačkoli byl původně vytvořen pro potřeby katalogizátorů a vědců pracujících se středověkými rukopisy, je dostatečně obecný, aby byl potenciálně užitečný pro jakýkoli typ artefaktu obsahujícího text:
<sourceDesc> <msDesc>
<msIdentifier>
<repository>Schopenhauer Archiv</repository>
<idno type=̎shelfmark̎>Schop 603/56/3</idno>
<altIdentifier>
<idno type=̎URN̎>urn:nbn:de:hebis:30-1129807</idno>
</altIdentifier>
</msIdentifier>
<physDesc>
<additions>
<p>Arthur Schopenhauer added underlinings, vertical marks, quotes and glosses in ink and pencil</p> </additions>
</physDesc> </msDesc>
</sourceDesc>
Identifikace pojmenovaných entit (osob, míst, organizací a veličin) je důležitou úlohou dnešní komputační lingvistiky, například NER algoritmus ( Named entity recognition) dokáže identifikovat entity v nestrukturovaném textu. To jsou také informace, které se často objevují v mnoha textech, které upravujeme. Pro snadnější kódování a přidávání informací existuje v TEI speciální modul, který nám umožňuje označovat informace o osobách,
Od Gutenberga k Zuckerbergovi
místech atd. přímo v textu (1) nebo je shromažďovat rozšířené jako metadata v <teiHeader> (2) . (1)
I was called <persName>Robinson Kreutznaer </persName>; but, by the usual corruption of words in <placeName>England</placeName>, we are now called –nay we call ourselves and write our name–<persName>Crusoe</persName> (2)
<person> <persName> <forename>Robinson</forename> <surname xml:lang=̎en̎ type=̎corrupted̎>Crusoe</surname> <surname xml:lang=̎de̎ type=̎birth̎>Kreutznaer</surname> </persName> <birth when=̎1632̎>1632 <placeName>York</placeName> </birth> </person>
Texty s těmito informacemi lze proto začlenit do jiných systémů biografických, historických nebo zeměpisných údajů, jako jsou slovníky zeměpisných názvů 38 a slovníky biografické 39. Mohou být také součástí ekosystému sémantického webu a spoléhat se na Linked Open Data (LOD).
7.5. Publikace
7.5.1. Obrazy
Zařazení naskenovaných obrázků editovaného artefaktu je dalším redakčním rozhodnutím. Ve většině případů se to doporučuje, ne vždy je to však nezbytně nutné.
Zpracování a úprava digitálních obrazů při přípravě edice je samostatnou oblastí výzkumu (viz část o obrazu). Pokud se rozhodneme použít nástroje pro automatický přepis, jako je například výše zmíněný Transkribus, bude nutné mít k dispozici snímky s minimálním rozlišením a kritérii kvality. Někdy je jediným způsobem, jak získat jasné čtení rukopisu za účelem kritického zlepšení přepisu, použití technik a přístrojů souvisejících s fotografováním a spektroskopií.40 Hlavní výhodou webového publikování (digitální edice může být webovou publikací, viz níže) je nejen to, že usnadňuje šíření, ale také to, že edice mohou přistupovat k jiným zdrojům (a naopak nabízet své zdroje) a mohou se v určitých funkcích spoléhat na externí zdroje
8. Základy vědecké digitální edice
a služby. Jedním z příkladů je propojení textu s obrazem, které se zaměřuje na digitální sbírky obrazů rukopisů uchovávané v externích repozitářích prostřednictvím rámce IIIF (International Image Interoperability Framework). IIIF je technologie pro výměnu a integraci obrazových zdrojů ve webových systémech. Zajímavým případem použití je digitální edice, kdy se části textu kódovaného v TEI, který vychází z primárního zdroje, jako je rukopis nebo tištěná kniha, kombinují s obrázky z tohoto zdroje, které jsou uloženy a popsány pomocí systému IIIF. Například přepis stránky rukopisu může být spojen s její faksimilií a přepis básně může být spojen s oblastí této faksimile odpovídající básni.41 To se stává osvědčenou praxí v rámci procesu digitalizace mnoha knihoven, a to i v Polsku42 , přičemž se jedná o další styčný bod mezi prací digitálních editorů a digitálních knihoven.
7.5.2. Vizualizace
Výchozím materiálem pro digitální edice jsou soubory XML s textem kódovaným v TEI. Je dobrým zvykem je zpřístupnit (v souladu se standardy otevřené vědy a zásadami FAIR, viz níže), ale obecně se jako takové nezveřejňují. Ba právě naopak jsou transformovány a stylizovány pro digitální nebo tištěnou publikaci. Jednou z velkých výhod práce s XML-TEI je, že z jednoho zdroje lze získat více výsledků: zdroj XML lze transformovat do HTML, jazyka webových stránek, ale také do PDF, ePUB nebo jiných formátů.
Nejjednodušší způsob stylování souborů XML je použití pravidel CSS. CSS je jazyk kaskádových stylů používaný k vyjádření pravidel pro prezentaci částí dokumentu, které odpovídají určitým značkám. Obvykle se používá pro HTML, ale také pro XML. V souboru XML se odkaz na soubor stylů CSS přidává jako pokyn před element <root> a za deklaraci XML takto:
<?xml-stylesheet type=”text/css” href=”mystyle.css”?>
Stylizace zdroje XML pomocí CSS vykresleného v prohlížeči nebo ve vhodném editoru XML (například oXygen) může být velmi užitečná pro korektury nebo velmi jednoduché projekty. Může však rychle selhat, protože neexistuje žádný způsob, jak změnit pořadí prvků nebo přidat interakci.
Složitější, ale také účinnější alternativou je převod XML do formátu vhodného pro daný typ publikace. Jak je vidno, z jednoho souboru XML lze vytvořit více výstupů. Níže se zaměříme na to, jak vytvořit digitální vědeckou edici ze zdrojů XML.
Digitální vědecká edice je většinou webová aplikace a jako taková je založena na webových standardech: HTML pro strukturování
Od Gutenberga k Zuckerbergovi
dokumentu, CSS pro stylování, JavaScript (JS) pro skriptování a interakci.43
7.5.3. Transformace
Transformace souborů XML-TEI do formátu HTML je tedy prvním krokem k publikování edice na webu. Obvykle se k tomu používá transformace Extensible Stylesheet Language (XSL), i když lze použít i libovolný programovací jazyk s parserem XML. Směrnice TEI jsou velmi flexibilní a často umožňují různé způsoby kódování téhož jevu nebo textového prvku. Z tohoto důvodu je obtížné vytvořit nástroje, které by dokázaly analyzovat každý soubor TEI. Konsorcium TEI nicméně poskytuje výchozí soubory stylů XSL,44 stejně jako další nenáročná řešení pro publikování zdroje XML/TEI. Jedním z nich je TEI Boilerplate,45 který využívá možností moderních prohlížečů k provádění transformací XSL. Novější je CETEIcean (Cayless y Viglianti, 2018),4 který k transformaci a stylizaci zdrojového textu TEI používá místo XSL kód Javascriptu. Oba nabízejí výchozí transformaci na straně klienta, kterou lze v editoru přizpůsobit přidáním nebo úpravou kódu CSS a JS. Všimněte si, že obě možnosti fungují pouze v případě, že jsou umístěny na webovém serveru.47
7.5.4. Publication frameworks
Tato nepříliš složitá řešení umožňují relativně jednoduchý způsob publikování zdrojů TEI na webu. Může být vhodný pro malé projekty, vzdělávací účely nebo prototypování, ale mnoho digitálních vědeckých edic jsou komplexní webové aplikace s funkcemi procházení a vyhledávání. K dosažení tohoto cíle má editor několik možností, které závisí na dostupných zdrojích, pokud jde o čas a dovednosti. Elena Pierazzo navrhla rozlišení mezi střihem prêt-à-porter a haute couture: zatímco druhý jmenovaný střih je jedinečný a experimentální, v prvním případě „the digital becomes a tool, not a field of research.“ 48 Standardizovaná řešení Prêt-à-porter pro vydávání vědeckých edic by editorům nabídla pokročilé a přizpůsobitelné funkce bez nutnosti vytvářet pro každou edici jedinečnou platformu, což by výrazně usnadnilo a zlevnilo údržbu. Mezi nástroji a infrastrukturami pro tvorbu digitálních edic jsou v době psaní tohoto článku rozšířeny dva open source programy TEI Publisher a EVT.
8. Základy vědecké digitální edice
7.5.4.1.
TEI Publisher
Postup publikování souborů XML prostřednictvím nástroje TEI Publisher je následující:49 nejprve nainstalujeme eXist-db (databázi pro XML) a balíček TEI Publisher na místní počítač nebo server a prostřednictvím webového prohlížeče k němu získáme přístup; načteme soubory XML/TEI; použijeme výchozí ODD nebo jej přizpůsobíme pro úpravy. Výstup se vykresluje v aplikaci, která také umožňuje přístup k základním funkcím, jako je prohlížení, vyhledávání a export do různých formátů (HTML, XSL-FO, LaTeX, PDF, ePUB). Samostatnou aplikaci lze vygenerovat a nahrát do libovolné instance eXistdb. TEI Publisher je aktivně vyvíjen a má silnou podporu komunity (mailing list, kanály na Slacku).
7.5.4.2. EVT
EVT (Edition Visualisation Technology) 50 je nástroj pro vytváření online edicí, zejména pro publikování edicí kritických (původně zaměřený na dokumentární edice). Nejnovější aktualizace umožňuje také zobrazovat výkladové a diplomatické verze doplněné obrázky. 51 Jeho vize (umožnit editorům publikovat své XML a vytvářet rozsáhlé edice bez nutnosti psát kód) je podobná vizi TEI Publisheru. Od počátku byly pro vývoj zvoleny otevřené a standardní webové techno -
Obrázek 11. Úprava korespondence M. Serafina pomocí aplikace TEI-Publisher
Od Gutenberga k Zuckerbergovi
logie. EVT 2, který je v beta verzi, je k dispozici od roku 2020 a podporuje kritické edice (více přenosů) a vysokou úroveň přizpůsobení pro uživatele.
8. Udržitelnost
Udržitelnost v souvislosti s digitálními vědeckými edicemi znamená schopnost edici dlouhodobě udržovat. Jak jsme dosud viděli, digitální edice je komplexní objekt: jeho jádrem jsou data, často zakódovaná v XML-TEI; data jsou však zveřejněna, dnes zpravidla ve formě webové stránky. Pro diskusi o udržitelnosti je třeba rozlišovat mezi těmito dvěma aspekty.
Udržitelnost dat lze měřit podle jejich souladu s principy FAIR. 52 Tyto zásady uvádějí, že správa dat by měla dosáhnout „Findability, Accessibility, Interoperability and Reuse” (FAIR). Data lze nalézt, pokud je k nim přiřazen trvalý identifikátor a pokud jsou příslušná metadata vystavena ve vyhledávačích a katalozích výzkumných dat. Jsou přístupná, pokud jsou uložena v příslušných úložištích, pokud k nim lze přistupovat pomocí standardních technických postupů a pokud existuje dokumentace o tom, jak je získat. Jsou interoperabilní, pokud je lze vyměňovat a používat v různých aplikacích a systémech. Lze je opakovaně používat, pokud jsou v souladu s komunitními standardy (například TEI v případě edice) a jsou dobře zdokumentována (v případě textů XML-TEI prostřednictvím ODD).
Pro uplatnění zásad FAIR je důležité spoléhat se na institucemi poskytovanou infrastrukturu, jako jsou datová úložiště, která přidělují trvalé identifikátory. Příkladem je Zenodo 53 , spravovaný v CERNu a otevřený vědcům z jakéhokoli oboru.
Zatímco data lze archivovat udržitelným způsobem v souladu se zásadami FAIR, v případě webových stránek, čili prezentační vrstvy edice, tomu tak není. Webové technologie, na kterých jsou webové stránky postaveny, se pravidelně aktualizují a mění, takže webové stránky mohou rychle zastarat. Údržba webových stránek v průběhu času je proto obtížná a nákladná, protože vyžaduje pravidelné aktualizace a někdy i kompletní přepracování. Použití publikačního systému pro edice, jako jsou výše uvedené, může usnadnit údržbu, zejména pokud do něj přispívají instituce. Představte si knihovnu, která spravuje deset edic: úkol je mnohem snazší, pokud všechny používají stejný publikační systém. Jak je to ale s udržitelností samotných publikačních systémů? Ideálním kandidátem na údržbu publikačních řešení (stejně jako samotných digitálních edic) může být knihovna (Boot a Zundert 2011).
8. Základy vědecké digitální edice
9. Nástroje
Na závěr této kapitoly je vhodné zmínit dva programy a jednu platformu, které nám mohou pomoci se správou dat z obecného hlediska.
XML-TEI je otevřený a open source; jelikož se jedná o XML, je nezávislý na jakékoli platformě nebo proprietárním softwaru, i když v současné době se jednoznačně upřednostňuje používání určitého softwaru, například oXygen 54 , protože nabízí specifické funkce pro správu TEI. Zohledňuje již existující pokyny TEI. Při vytváření prvku program například navrhne prvky, které mohou být užitečné pro konkrétní schéma, jež může také schválit. Obsahuje rovněž kaskádové styly pro generování transformací z dokumentu TEI-XML.
Ačkoli se editor kódu oXygen vedle TEI stal díky své bezproblémové integraci s TEI de facto editorem XML, alternativou je také Visual Studio Code 55 . Jedná se o bezplatný editor kódu, který funguje v systémech Windows, Linux a MacOS. VSCode doporučujeme, protože se jedná o bezplatnou možnost, která pro první kroky v kódování textu pomocí TEI může dostačovat. Abychom měli ve VSCode některé funkce, které jsou ve výchozím nastavení v oXygenu, musíme nainstalovat některé doplňky. 5
Github 57 je platforma pro hostování, sdílení a prohlížení kódu. Vývojáři a výzkumní pracovníci jej používají ke spolupráci na vývoji softwaru pro jakýkoli typ projektu. Github používá software pro správu verzí git, který umožňuje ukládat změny v čase, aniž by se přepsaly předchozí verze souboru: to je pro spolupráci velmi užitečné. Může být místem pro práci a ukládání digitálních souborů naší edice.
Z toho, co jsme zatím viděli, můžeme vyvodit závěr, že tvorba vědeckých edic pravděpodobně nebude individuální záležitostí. Stejně jako mnoho jiných projektů v oblasti digitálních humanitních věd jsou i digitální edice společným dílem, při němž se sdílejí potřebné dovednosti. Je neobvyklé, aby měl jednotlivec k vlastní edici díla, vytvoření kódované edice a vypracování struktury publikace všechny potřebné dovednosti,. 58 Vyvstává otázka, do jaké míry se filolog musí naučit kódovat. Jak poznamenává Pierazzo, 59 v této otázce existují ve skutečnosti přinejmenším dva názorové proudy: jsou tací, kteří věří, že vědci by měli mít možnost stát se programátory, a tací, kteří se domnívají, že všechny technické složitosti (včetně kódování v XML) by měly být filologům skryty.
Z pohledu textu jako dat platí, že humanitní vědec by dnes měl znát terminologii i metodiku nutnou pro práci s daty a některé nástroje nutné pro manipulaci s daty při aplikaci na digitální edice.
Od Gutenberga k Zuckerbergovi
10. Shrnutí
Řekli jsme si, že hlavním úkolem vědecké edice je připravit spolehlivou verzi textu z děl nebo pramenů, které jsou k dispozici pouze v chybné nebo zastaralé podobě. Tento typ edice obvykle obsahuje úvod (obecný, historický nebo interpretační), historické a kompoziční poznámky a dokumentaci týkající se případných změn a variant. Vědecké digitální edice budou dále splňovat podmínky digitálního paradigmatu: budou používat mezinárodní standardy pro přepis (například TEI nebo XML vyvinuté speciálně pro digitální texty), definovat datový model, zahrnovat metadata a indexy, zajišťovat udržitelnost prostřednictvím vhodné infrastruktury atd.
Pro editora nebo filologa, který ještě není obeznámen s novými digitálními metodami, technikami a nástroji, se může zdát proces tvorby digitální vědecké edice nepřekonatelnou nebo dokonce nadměrnou překážkou. Jak vysvětluje Shillingsburg, 0 nové technologie Gutenbergovy doby (odlévání písma, typografie, náklady na odlévací materiály, vytvoření lisů podobných těm, které vyráběly olej a víno), které vyžadovaly tolik práce, než se na papíře objevila jediná stránka, se musely zdát mnohým písařům, kteří mohli opsat podobný počet stránek za poloviční dobu a s náklady mnohem nižšími, než byly náklady na jednu stránku tiskařského stroje, nadměrné. Cíl byl však jiný: jakmile byly stroje spuštěny, došlo k vytvoření stovky kopií za kratší dobu, než by bylo nutné k jejich ručnímu kopírování. Po prvních krocích knihtisku písaři ještě více než 100 let vytvářeli rukopisy ve skriptoriích: zatím nevíme, jak dlouho vydrží paradigma tištěné knihy, ale je jasné, že digitální paradigma zůstane.
Tištěná kniha se stala prostředkem pro přenos filologického díla zachycujícího text z rukopisu nebo tištěného zdroje. Textová kritika však není nadčasová metoda, nezávislá na převládajících technických podmínkách. Je to dáno také konkrétními technickými a ekonomickými omezeními knihtisku. Kultura tisku nejenže diktuje vzhled edic, ale nese s sebou také typografickou mentalitu, která určuje metody, cíle a základy edice.1
S nástupem výpočetního potenciálu počítačů se text postupně začíná chápat jako kvantifikovatelná data. Jedním z prvních kroků v oblasti digitálních humanitních věd bylo právě automatické vytváření konkordancí v dílech Tomáše Akvinského. Tyto nové způsoby kódování textů pro textovou analýzu se začaly zkoumat, ale velká změna přišla s příchodem sítě World Wide Web Tima Bernerse-Leeho. To, co Gutenberg udělal pro demokratizaci knih, udělal World Wide Web pro demokratizaci informací. Berners-Leeho vynález otevřel cestu k širokému využití internetu a rozvoji digitálních technologií, což umožnilo vytvářet všeobecně přístupné digitální verze textů.
8. Základy vědecké digitální edice
Digitální edice kódovaná například v TEI, s obrázky zpřístupněnými prostřednictvím IIIF, s možností vyhledávání atd., se dnes přirozeně realizuje v přenosovém médiu, jako je World Wide Web. I když ne nutně, protože text zakódovaný v TEI může zůstat jako digitální objekt v souboru pdf, nebo dokonce může být převeden do tištěné knihy, ale pak by ztratil všechny další funkce, které digitální paradigma nabízí, včetně možnosti, aby byl používán nejen lidmi, ale také automaticky analyzován počítači.
POZNáMK Y
1 MARTINELLI CESARINI, L. La filologia. Dagli antichi manoscritti ai libri stampati Řím: Editori Reuniti, 1984, s. 11.
2 Užitečný (online) nástroj pro vyhledávání terminologie v textologii naleznete v: MACÉ, C., ROELLI, P. Parvum lexicon stemmatologicum. Dostupné na WWW: https:// www.sglp.uzh.ch/static/MLS/stemmatology (dostup 10 .12 .2022) .
3 ALIGUIERI, Dante, Commedia. A digital Edition, 2. vyd. Florencie, Saskatoon, 2021. Dostupné na WWW: https://www.dantecommedia.it (přístup 10.12.2022).
4 LOTH, R.. Podstawowe pojęcia i problemy tekstologii i edytorstwa naukowego . Varšava: Instytut Badań Literackich PAN, Fundacja Akademia Humanistyczna, 2006.
5 PIERAZZO, E. Digital scholarly editing: Theories, models and methods. Farnham: Ashgate, 2015, s. 17–21.
LOTH, R. Podstawowe pojęcia i problemy tekstologii i edytorstwa naukowego . Op. cit. s. 22.
7 SAHLE, P.. Digitale Editionsformen – Teil 2: Befunde, Theorie und Methodik: Zum Umgang mit der Überlieferung unter den Bedingungen des Medienwandels . Norderstedt: Schriften des Instituts für Dokumentologie und Editorik, Books on Demand, 2 013 .
8 SAHLE, Patrick, What is a Scholarly Digital Edition? In: DRISCOLL, M.J., PIERAZZO, E. Digital Scholarly Editing: Theories and Practices. 2016, s. 19–40. Dostupné na WWW: https://doi.org/10.11647/OBP.0095.02 .
9 SAHLE, P. Digitale Editionsformen. Op. cit., s. 141–149.
10 Kriterienkatalog für die Besprechung digitaler Editionen, verze 1.1, 2014, Institut für Dokumentologie und Editorik. Dostupné na WWW: https://www.i-d-e.de/publikationen/weitereschriften/kriterien-version-1-1. Kritéria jsou k dispozici v několika jazycích (německy, anglicky, italsky a španělsky) (přístup 10.12.2022).
11 SAHLE, P. A catalog of Digital Scholarly Editions. Dostupné na WWW: https:// v3.digitale-edition.de, 2008–2020 (dostup 10.12.2022).
12 FRANZINI, G. Catalogue Digital Editions. Dostupné na WWW: https://dig-edcat.acdh.oeaw.ac.at , 2012–2022 (dostup 10.12.2022)
13 Deutsches Textarchiv (DTA), https://www.deutschestextarchiv.de
14 HALACZKIEWICZ, J. Elektroniczne wydawanie zbiorów korespondencji – dokonania i perspektywy. Napis. Pismo poświęcone literaturze okolicznościowej i użytkowej. 2017, sv. 1, č. 1, s. 302–313.
15 Vynikající digitální edicí marginálií je edice věnovaná knihovně Samuela Becketta: Beckett Digital Library, https://www.beckettarchive.org (přístup 10. 12. 2022) Nejde o jedinou existující edici marginálií: viz Losada Palenzuela José Luis, Anotaciones manuscritas en bibliotecas de autor. Propuesta de etiquetado y de publicación digital. Revista de Humanidades Digitales. 2017, č. 1, s. 116–131. Dostupné na WWW: https:// doi.org/10.5944/rhd.vol.1.2017.1656 3; OHGE, Christopher, Publishing Scholarly Editions: Archives, Computing, and Experience. Cambridge: Cambridge University Press, 2021. Dostupné na WWW: https://doi.org/10.1017/978110876673 9
Od Gutenberga k Zuckerbergovi
1 SCHÖCH, Ch. Big? Smart? Clean? Messy? Data in the Humanities. Journal of Digital Humanities. 2013, roč. 2, č. 3. Dostupné na WWW: http://journalofdigitalhumanities.org/2-3/big-smart-clean-messy-data-in-the-humanitie s (dostup 10 12 2022)
17 MARYL, M., BLASZCZYŃSKA, M., SZLESZYŃSKI, B., UMERLE, T. Research data in literary studies. Teksty Drugie. Teoria literatury, krytyka, interpretacja. 2021, č. 2, s. 13–44.
18 Unicode Consortium, https://home.unicode.org (dostup 10 12 2022)
19 TEI Guidelines, https://tei-c.org/release/doc/tei-p5-doc/en/html (dostup 10 12 2022)
20 Journal of the Text Encoding Initiative, https://journals.openedition.org/jtei/ (dostup 10 12 2022)
21 Text Encoding Initiative Consortium (Github), https://github.com/TEIC (dostup 10 12 2022)
22 Viz v pokynech například prvek <sourceDesc>: https://www.tei-c.org/release/ doc/tei-p5-doc/en/html/ref-sourceDesc.htm l (dostup 10 . 12 . 2022) .
23 BURGHART, M., PIERAZZO, E. Digital Scholarly Editions: Manuscripts, Texts and TEI Encoding, Verze 1.0.0.. 2022. Dostupné na WWW: https://campus.dariah. eu/en/resource/posts/digital-scholarly-editions-manuscripts-texts-and-tei-encodin g (dostup 10 . 12 . 2022) .
24 Sonet španělsky napsal Lope de Vega. Vydáno poprvé in VEGA, L. d. La niña de la plata, Parte IX de Comedias de Lope de vega. Madrid, 1617.
25 Publikace, výukové programy a kurzy o procesu vytváření digitálních edic převážně pomocí TEI-XML najdete na internetu. Doporučené publikace dostupné online: BURNARD, Lou. What is the Text Encoding Initiative?: How to add intelligent markup to digital resources. Marseille: OpenEdition Press, 2014. Dostupné na WWW: https:// doi.org/10.4000/books.oep.42 ; BURGHART,M., PIERAZZO, E. Digital Scholarly Editions, op. cit.
2 „Any edition records a selection from the observable and the recoverable portions of this infinite set of facts. [...] An edition may include an apparatus of variants or not, may provide glosses for some words or not, may provide historical or literary annotation or not, etc.“ SPERBERGMcQUEEN, M. How to teach your edition how to swim. Literary and Linguistic Computing. 2009, roč. 24, č. 1, s. 31, Dostupné na WWW: https://doi.org/10.1093/llc/fqn03 4
27 PIERAZZO, E. A rationale of digital documentary editions. Literary and Linguistic Computing. 2011, roč. 26, č. 4, s. 463–477. Dostupné na WWW: https://doi. org/10.1093/llc/fqr03 3 .
28 Kolace: „porovnání několika verzí (opisů, rukopisů) téhož textu za účelem zjištění jeho správné verze nebo jeho vědeckého zpracování“, Wielki słownik języka polskiego, PAN, https://wsjp.pl .
29 NURY, E., SPADINI, E. From giant despair to a new heaven: The early years of automatic collation. It – Information Technology. 2020, roč. 62, č. 2, s. 61–73. Dostupné na WWW: https://doi.org/10.1515/itit-2019-0047
30 Viz NURY, E. Automated Collation and Digital Editions: From Theory to Practice . Disertační práce. King’s College London, 2018; ROEDER, T. Juxta Web Service, LERA, and Variance Viewer. RIDE. 2020, sv. 11. Dostupné na WWW: https://doi. org/10.18716/ride.a.11. 5
31 Viz McCARTY, W. Modeling: A Study in Words and Meanings In: SCHREIBMAN, S., SIEMENS, R. a J. UNSWORTH (eds.). A Companion to Digital Humanities Oxford, 2004; také FLANDERS, J., JANNIDIS, F. The Shape of Data in Digital Humanities: Modeling Texts and Text-Based Resources. Milton: UK, 2018.
32 PIERAZZO, E. Digital scholarly editing.Oop. cit.
33 ROELLI, P. (ed.). Handbook of Stemmatology: History, Methodology, Digital Approaches . Berlín; Boston: De Gruyter, 2020, s. 161.
34 SEGRE, Cesare. Critique textuelle, théorie des ensembles et diasystème , Bulletin de la classe des lettres et des sciences morales et politiques de l’Académie royale de Belgique. 1976, č. 62, s. 279–292.
8. Základy vědecké digitální edice
35 GABLER, H. W. The Primacy of the Document in Editing. Ecdotica. 2007, č. 4, s 204
3 Platforma Transkribus, Read Coop, https://readcoop.eu/transkribu s (dostup 10.12.2022). Dalším podobným projektem, který aplikuje OCR/HTR na obrazy tištěných dokumentů a rukopisů pomocí otevřených modelů, je eScriptorium, https:// escriptorium.fr (dostup 10 . 12 . 2022) .
37 BURGHART, M., PIERAZZO, E. Digital Scholarly Editions Op. cit.
38 Viz GeoNames, https://www.geonames.org a Plejády (bývalé lokality), https:// pleiades.stoa.org . (dostup 10 .12 .2022)
39 Takové katalogy má většina národních knihoven: Bibliothèque nationale de France, https://data.bnf.fr ; Biblioteca Nacional de España, https://datos.bne.e s ; Deutsche Nationalbibliothek, https://d-nb.info. Existují také mezinárodní katalogy, např. VIAF: The Virtual International Authority File, https://viaf.org/ ; ISNI: International Standard Name Identifier (ISO Standard), https://isni.org. Katalog Perseus je věnován klasickým řeckým a latinským autorům, https://catalog.perseus.org. (přístup 10 .12 .2022)
40 BOADAS, S. Techniques and Instruments for Studying the Autograph Manuscripts of Lope de Vega. Hipogrifo. Revista de literatura y cultura del Siglo de Oro. 2020, roč. 8, č. 2, s. 509–531. Dostupné na WWW: https://doi.org/10.13035/ H 2 020 08 02 30
41 MONELLA, P., ROSSELLI DEL TURCO, R.. Extending the DSE: LOD Support and TEI/IIIF Integration in EVT In MARRAS, Ch. et al. (eds.). Atti del IX Convegno Annuale AIUCD. La svolta inevitabile: sfide e prospettive per l’Informatica Umanistica. 2020, s. 148–155. Dostupné na WWW: http://amsacta.unibo.it/631 (dostup 10 12 2022)
42 HOJDIS, B. a A. CANKUDIS. Digital literary and scholarly editing as part of the digital humanities. The Art of Editing. 2020, roč. 17, č. 1, s. 7. Dostupné na WWW: https://doi.org/10.12775/SE.2020.0001 .
43 Na webu je k dispozici mnoho cenných zdrojů, včetně návodů a dokumentace od W3schools, https://www.w3schools.com a Mozilly, https://developer.mozilla.org (přístup 10 .12 .2022) .
44 Kaskádové Styly XSLT 2.0 pro transformaci dokumentů TEI XML do různých formátů, včetně XHTML, LaTeX, ePub, prostého textu, JSON atd., https://github. com/TEIC/Stylesheet s (dostup 10 12 2022)
45 TEI Boilerplate, https://dcl.ils.indiana.edu/teibp (dostup 10 .12 .2022)
4 CETEIcean, https://github.com/TEIC/CETEIcea n (dostup 10 .12 .2022) .
47 Digital Editions with TEI obsahuje praktické návody, jak aplikovat některé z těchto transformací XML-TEI, http://phc.uni.wroc.pl/interreg/w/losad a (dostup 10 12 2022)
48 PIERAZZO, E. What future for digital scholarly editions? From Haute Couture to Prêt-à-Porter. International Journal of Digital Humanities. 2019, roč. 1, č. 2, s. 209–220. Dostupné na WWW: https://doi.org/10.1007/s42803-019-00019- 3 , s. 214.
49 Viz TEI Publisher, https://teipublisher.com a dokumentace, https://teipublisher.com/exist/apps/tei-publisher/doc/documentation.xml?odd=docbook.odd (dostup 10 .12 .2022)
50 EVT, http://evt.labcd.unipi.it (dostup 10 12 2022)
51 ROSELLI DEL TURCO, R. et al. Edition Visualization Technology: A Simple Tool to Visualize TEI-based Digital Editions. Journal of the Text Encoding Initiative . 2014, č. 8. Dostupné na WWW: https://doi.org/10.4000/jtei.1077
52 WILKINSON, M. D., DUMONTIER, M., AALBERSBERG ILJSBRAND, J. et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 2016, č. 3, č. článku 160018. Dostupné na WWW: https://doi.org/10.1038/ sdata .201 .18 .
53 Zenodo, https://zenodo.org (dostup 10 12 2022)
54 Oxygen XML Editor, https://www.oxygenxml.com (dostup 10 .12 .2022)
Od Gutenberga k Zuckerbergovi
55 Visual Studio Code, https://code.visualstudio.com . (dostup 10 .12 .2022)
5 Scholarly XML, XML Tools, xslt-transform. Viz Digital Editions with TEI (LOSADA PALENZUELA, 2021), http://phc.uni.wroc.pl/interreg/w/losad a (dostup 10 .12 .2022)
57 Github, https://github.com (dostup 10 12 2022)
58 PIERAZZO, E., Digital scholarly editing, op. cit. s. 215.
59 PIERAZZO, E., What future for digital scholarly editions? op. cit. s. 217.
0 SHILLINGSBURG, P. L. From Gutenberg to Google: Electronic Representations of Literary Texts . Cambridge, New York: Cambridge University Press, 2006, s. 1–2.
1 SAHLE, P. Digitale Editionsformen. Op. cit., 34.
BIBLIOGRAFIE
ALIGUIERI, D. Commedia. A digital Edition. Ed. P. Shaw. Florencie: Saskatoon, 2021. Dostupné na WWW: https://www.dantecommedia.it (dostup: 10 .12 .2022) .
BOADAS, S. Techniques and Instruments for Studying the Autograph Manuscripts of Lope de Vega. Hipogrifo. Revista de literatura y cultura del Siglo de Oro. 2020, roč. 8, č. 2, s. 509–531. Dostupné na WWW: https://doi. org/10.13035/H.2020.08.02.30 .
BURGHART, M. a E. PIERAZZO. Digital Scholarly Editions: Manuscripts, Texts and TEI Encoding, VerZE 1.0.0., 2022. Dostupné na WWW: https:// campus.dariah.eu/en/resource/posts/digital-scholarly-editions-manuscripts-texts-and-tei-encoding (dostup: 10.12.2022).
BURNARD, L. What is the Text Encoding Initiative?: How to add intelligent markup to digital resources,.Marseille, OpenEdition Press 2014. Dostupné na WWW: https://doi.org/10.4000/books.oep.42
CAYLESS, H. a R. VIGLIANTI. CETEIcean: TEI in the Browser. In: Balisage: The Markup Conference 2018. Washington, DC. 2018. Dostupné na WWW: https://doi.org/10.4242/BalisageVol21.Cayless01 .
DANTYSZEK, J. Korpus Tekstów i Korespondencji Jana Dantyszka. Ed. Anna Skolimowska, Magdalena Turska, Katarzyna Jasińska-Zdun. Varšava 2010. Dostupné na WWW: http://dantiscus.al.uw.edu.pl/ (dostup: 15. 5 . 2023) .
FLANDERS, J., a F. JANNIDIS. The Shape of Data in Digital Humanities: Modeling Texts and Text-Based Resources.,Milton, UK: Routledge, 2018. GABLER, H. W. The Primacy of the Document in Editing. Ecdotica. 2007, č. 4, s. 197–207.
GOETHE, J. W. v. Faust. Historisch-kritische Edition. Ed. Anne Bohnenkamp, Silke Henke, Fotis Jannidis, Verze 1.2RC. Frankfurt nad Mohanem, Výmar: Würzburg, 2019. Dostupné na WWW: www.faustedition.net (dostup: 15. 5. 2023).
GÓNGORA, L. „Soledades” de Luis de Góngora. Edición crítica digital. Ed. A. Rojas Castro, Kolín 2017. Dostupné na WWW: http://soledades.uni-koeln.de (dostup: 15. 5. 2023).
PAUL, J. Jean Paul – Sämtliche Briefe Digital. Ed. Markus Bernauer, Norbert Miller, Frederike Neuber. Berlín 2018. Dostupné na WWW: https:// www.jeanpaul-edition.de (dostup: 15. 5. 2023).
HAŁACZKIWEICZ, J. Elektroniczne wydawanie zbiorów korespondencji –
8. Základy vědecké digitální edice
dokonania i perspektywy. Napis. Pismo poświęcone literaturze okolicznościowej i użytkowej. 2017, roč. 1, č. 1, s. 302–313.
HOJDIS, B. a A. CANKUDIS. Cyfrowe edycje literackie i naukowe jako element cyfrowej humanistyki. Sztuka Edycji. 2020, roč.. 17, č. 1, s. 7. Dostupné na WWW: https://doi.org/10.12775/SE.2020.0001
LOSADA PALENZUELA, J. L. Anotaciones manuscritas en bibliotecas de autor. Propuesta de etiquetado y de publicación digital. Revista de Humanidades Digitales. 2017, č. 1, s. 116–131. Dostupné na WWW: https://doi. org/10.5944/rhd.vol.1.2017.16563 .
LOSADA PALENZUELA, J. L. (ed.). Schopenhauer’s Library. Annotations and marks in his Spanish books. Vratislav 2017. Dostupné na WWW: http://schopenhauer.uni.wroc.pl (dostup: 15. 5. 2023)
LOSADA PALENZUELA, J. L. Digital Editions with TEI. 2021. Dostupné na WWW: http://phc.uni.wroc.pl/interreg/w/losada (dostup: 10. 12. 2022).
LOTH, R. Podstawowe pojęcia i problemy tekstologii i edytorstwa naukowego . Varšava: Instytut Badań Literackich PAN, Fundacja Akademia Humanistyczna, 2006.
MARTINELLI CESARINI, L. La filologia. Dagli antichi manoscritti ai libri stampati. Řím: Editori Reuniti, 1984.
MARYL, M., BŁASZCZYŃSKA, M. SZLESZYŃSKI, B. a T. UMERLE. Dane badawcze w literaturoznawstwie. Teksty Drugie. Teoria literatury, krytyka, interpretacja. 2021, č. 2, s. 13–44.
MCCARTHY, W. Modeling: A Study in Words and Meanings. In: SCHREIBMAN, S., SIEMENS, R. a J. UNSWORTH. A Companion to Digital Humanities. Oxford: Blackwell, 2004. Dostupné na WWW: http://www.digitalhumanities.org/companion/ (dostup: 10. 12. 2022).
MONELLA, P. a R. ROSSELLI DEL TURCO. Extending the DSE: LOD Support and TEI/IIIF Integration in EVT. In: MARRAS, CH. et al. (eds.). Atti del IX Convegno Annuale AIUCD. La svolta inevitabile: sfide e prospettive per l’Informatica Umanistica. 2020, s. 148–155. Dostupné na WWW: http://amsacta.unibo.it/631 (dostup: 10. 12. 2022).
NURY, E. Automated Collation and Digital Editions: from Theory to Practice . Disertační práce. King’s College London, 2018.
NURY, E. a E. SPADINI. From giant despair to a new heaven: The early years of automatic collation. It – Information Technology. 2020, roč. 62, č. 2, s. 61–73. Dostupné na WWW: https://doi.org/10.1515/itit-2019-0047 .
OHGE, CH. Publishing Scholarly Editions: Archives, Computing, and Experience. Cambridge: Cambridge University Press, 2021. Dostupné na WWW: https://doi.org/10.1017/9781108766739
PIERAZZO, E. A rationale of digital documentary editions Literary and Linguistic Computing. 2011, roč. 26, č. 4, s. 463–477. Dostupné na WWW: https://doi.org/10.1093/llc/fqr033 .
PIERAZZO, E. Digital scholarly editing: theories, models and methods. Farnham: Ashgate, 2015.
PIERAZZO, E. What future for digital scholarly editions? From Haute Couture to Prêt-à-Porter. International Journal of Digital Humanities . 2019, roč. 1, č. 2, s. 209–220. Dostupné na WWW: https://doi.org/10.1007/ s42803-019-00019-3
ROEDER, T. Juxta Web Service, LERA, and Variance Viewer. Web based collation tools for TEI. RIDE. 2020, roč.. 11. Dostupné na WWW: https://doi. org/10.18716/ride.a.11.5 .
Od Gutenberga k Zuckerbergovi
ROSELLI DEL TURCO, R. et al. Edition Visualization Technology: A Simple Tool to Visualize TEI-based Digital Editions. Journal of the Text Encoding Initiative. 2014, č. 8. Dostupné na WWW: https://doi.org/10.4000/ jtei.1077 .
SAHLE, P. Digitale Editionsformen – Teil 2: Befunde, Theorie und Methodik: Zum Umgang mit der Überlieferung unter den Bedingungen des Medienwandels. Norderstedt: Schriften des Instituts für Dokumentologie und Editorik, Norderstedt, Books on Demand, 2013.
SAHLE, P. What is a Scholarly Digital Edition?. In: DRISCOLL, M. J. a E. PIERAZZO. (eds.). Digital Scholarly Editing: Theories and Practices. 2016, s. 19–40. Dostupné na WWW: https://doi.org/10.11647/OBP.0095.02
SCHÖCH, CH. Big? Smart? Clean? Messy? Data in the Humanities. Journal of Digital Humanities. 2013, roč 2, č. 3. Dostupné na WWW: http://journalofdigitalhumanities.org/2-3/big-smart-clean-messy-data-in-the-humanities (dostup: 10. 12. 2022).
SEGRE, C. Critique textuelle, théorie des ensembles et diasystème. Bulletin de la classe des lettres et des sciences morales et politiques de l’Académie royale de Belgique. 1976, č. 62, s. 279–292.
SHILLINGSBURG, P. L. From Gutenberg to Google: Electronic Representations of Literary Texts. Cambridge, New York: Cambridge University Press, 2006.
SPERBERG-MCQUEEN, M. How to teach your edition how to swim. Literary and Linguistic Computing. 2009, roč. 24, č. 1, s. 27–39. Dostupné na WWW: https://doi.org/10.1093/llc/fqn034
VEGA, L. d. La niña de la plata, Parte IX de Comedias de Lope de vega. madrid, 1617.
VEGA, L. d. La dama boba: edición crítica y archivo digital. Marco Presotto et al. eds. 2015. Dostupné na WWW: http://dx.doi.org/10.6092/UNIBO/ LADAMABOBA
WILKINSON, M. D., DUMONTIER, M., AALBERSBERG IJSBRAND, J. et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 2016, roč. 3, č. článku: 160018. Dostupné na WWW: https://doi.org/10.1038/sdata.2016.18
ROELLI, P. (ed.). Handbook of Stemmatology: History, Methodology, Digital Approaches. Berlín, Boston: De Gruyter, 2020.
MACÉ, C. a P. ROELLI (eds.). Parvum lexicon stemmatologicum. Dostupné na WWW:https://www.sglp.uzh.ch/static/MLS/stemmatology (dostup: 10. 12 2022)
Sonety hiszpańskie. Londýn: Oficyna poetów i malarzy, 1965.
Piotr Celiński
Kapitola 9
Vyprávění z písku. O práci s textovou výpovědí jako databází Úvod
Jsem vědec zabývající se médii, a zároveň autor knih a elektronických textů, jejich spoluvydavatel, recipient a čtenář. Z tohoto hlediska mě zajímá text, jeho historicky nejdůležitější médium – knihy, jejich digitální reprezentace a interpretace, narativy na jejich základě vytvořené, a komunikační praktiky, které jsou v takové oblasti možné. Toto prolínání rolí a pozic v naší současnosti lokalizuje mou výpověď někam na sklonek gutenbergovské éry a zároveň do procesu přizpůsobování se pravidlům digitálního řádu s mnoha možnými způsoby práce s informacemi a znalostmi, které jsou zde k dispozici v decentralizovaném a distribuovaném prostředí sítí, interakcí, vzdáleného přístupu, databází a rozhraní.
V této eseji, zaměřené na okamžik přechodu mezi gutenbergovskou a zuckerbergovskou érou, jenž evokuje název knihy, bych rád analyzoval vybrané problémy spojené s online publikováním, formální otevřeností takto nabízeného textu, rozhraním pro přístup k němu a interakci s ním. Jde o otázky, které možná nejsou v centru pozornosti problematiky řešené ve svazku připisovaném hlavnímu proudu digitálních humanitních věd včetně těch, které se týkají postupů výzkumu digitálních textů. Jsem však přesvědčen, že toto zarámování poukazuje na pronikání digitální komunikační kompetence a potenciálu digitálního ekosystému do širší sféry sociální komunikace a na rekonstrukce tohoto prostoru, které v důsledku toho probíhají. Jsme svědky dalekosáhlých změn v přístupu k textové komunikaci, rekonceptualizace jejích možností a forem. Stojíme také před novými oče -
Od Gutenberga k Zuckerbergovi
káváními a možnostmi všech, kdo se na tomto vzorci podílejí: autorů, vydavatelů a čtenářů textů a médií, která texty komunikují.
Můj příspěvek se skládá z pěti částí. V první z nich bych rád identifikoval a pojmenoval technokulturní okolnosti, do nichž jsou zasazeny praktiky, o nichž pojednávají následující části textu. Ve druhé části se budu zabývat analýzou práce s lineární produkcí textu a ve formátu „databáze” a nástrojů, které jsou pro tyto způsoby vhodné. Třetí část zahrnuje analýzu rozhraní pro přístup k textovému projevu, zatímco čtvrtá část komentuje aspekty související s právní regulací a vydavatelskou situací. Příspěvek nakonec uzavírám shrnutím úvah. V následujících analýzách se budu odvolávat na případovou studii: jak na mé tradiční, knižní, tak na elektronické, částečně interaktivní sdělení, které je v obou zmíněných verzích k dispozici na adrese www.postmedia.pl.
1. Atomy a bity
Jedním z nejrozšířenějších společenských jevů spojených s digitální revolucí a její databázovou logikou je digitalizace. S rozšířením digitálních a síťových platforem se možnost překódování mnoha stávajících informačních a mediálních formátů podle požadavků digitálního řádu stala reálnou. Úkol tohoto projektu byl a zůstává jednoduchý: přimět všechny existující fixace atomů, našich metaforických zrnek písku, k tomu, aby dostaly své digitální reprezentace; přimět všechny existující způsoby uspořádání světa, aby byly kompatibilní s požadavky digitálního řízení; přimět všechny atomy, aby se duplikovaly pomocí bitů a staly se tak prvky gigantické, globálně zahrnující „databáze“. Aby se tato digitální reprezentace stala rozsáhlým digitálním repozitářem propojeným s někdejšími říšemi vybudovanými z hmoty, který by dále těžil z nekonečných možností, jež nabízí digitální zprostředkování správy digitalizovaných dat prostřednictvím algoritmů, protokolů, rozhraní, značek a metainformací, personalizace, aktualizací a upgradů. Digitalizace zredukovala a nadále redukuje předchozí mediální formáty a způsoby práce s informacemi na společný, digitální a databázový jmenovatel. Svět jako databáze, realita, v níž je znehybnění atomů doprovázeno postupným vyvoláváním a nezávaznou fixací realizovanou v řádu bitů a jejich databází – to je utopie kybernetických snílků, která se nám plní před očima.1
Digitalizace a digitální řád se promítají do komunikace a vytváření znalostí a organizačních pravidel zakódovaných v kulturní představivosti. Ocitli se před nutností obsloužit technologické změny sladěním stávajících komunikačních standardů s novými mediálními okolnostmi. Právě v této oblasti se odehrál snad nejprudší přechod,
9. Vyprávění z písku…
jehož smysl vyjadřuje název této kolektivní práce – cesta od textocentrické imaginace gutenbergovské ke způsobům správy dat zuckerbergovské éry.2
Jednu z metafor, která popisuje logiku této cesty, navrhuje mediální umělkyně Victoria Vesna, když navrhuje vidět svět v zrnkách písku. Je to jeden z mnoha poetických pokusů zachytit a pojmenovat technokulturní stav, do kterého jsme se ponořili s digitální revolucí, její digitalizací a interaktivními, síťovými médii. Zrnka písku jsou metaforou všudypřítomných dat, která se stala základním a možná i dominantním modelem současné organizace informací a znalostí. Obraz informačního světa uspořádaného z jeho zrnek naznačuje otevřenost vůči řádu, v němž mnozí neustále a různými způsoby navrhují a kombinují různé komunikační vzorce založené na přístupu k obrovskému množství informací uspořádaných podle pravidel digitálních databází.
Tato metaforická reprezentace informačního řádu prostřednictvím odkazů na kulturní sílu datového formátu a databázového řádu symbolické reality je pouze jednou z mnoha možných metaforických konceptualizací organizace kulturních zdrojů. Mnohem méně se v ní odráží inženýrská přesnost popisu databází jako technologického formátu, a více naděje a obavy spojené se stavem eroze, kdy to, co se dosud zdálo být stabilní a uspořádané v symbolickém poli, se začíná zmítat, rozpadat a již v podobě „bitového písku“ se stává náchylným k libovolným způsobům reorganizace.
Digitální text, kdysi analogový text, který byl digitalizován při příležitosti digitální změny, stejně jako text, který je již od počátku vytvářen prostřednictvím digitálních médií, ačkoli je stále organizován podle tradičních, analogových pravidel kultury s jejich médii – knihou, elektronickou knihou a interaktivní, softwarovou knihou – považuji za zdroje, které jsou stále více podřízeny vzorci databází, a které proto mění své mediální kódování směrem k otevřenosti, interaktivitě, mnohovrstevnatosti. Právě text a jeho silné, staleté médium knihy jsou důležitým polem této komunikační hry. Na jedné straně je tu stabilita a zpevnění starého média a způsobů jeho koncipování a používání. Na druhé straně se text vytržený z knihy a ponořený do digitálního prostředí stává flexibilním materiálem připraveným k tomu, aby dostal nové formáty a byl zasazen do nových komunikačních vzorců.
Takový přístup nabízí příležitost poukázat na možnosti a mýty databázové logiky, tedy na schopnost konstruovat libovolné modely informačních toků a výměn na základě formálně sjednocených zdrojů v rámci digitálního kódu. Prostřednictvím metafory částeček písku o velikosti bitů můžeme také vidět chuť absorbovat do digitálního světa jeho materiální předobraz, tedy mnohost technologických a mediálních formátů a struktur organizujících znalosti v předdigi-
Od Gutenberga k Zuckerbergovi
tální éře – to je však téma na samostatnou diskusi. Vidět zde tedy svět v zrnkách písku znamená především myslet a jednat s daty s ohledem na jejich materiální archetypy a informační prefigurace s nadějí, že digitální hry umožní nejen nostalgickou modernizaci staré dobré knihy, ale také materializaci a správu světa textu a v něm zakódovaných narativů v aktualizovaných technologických a kulturních podmínkách, v rámci daném digitálními a síťovými podmínkami.
2. Z Wordu do Excelu
Autor v situaci věku dat čelí narativním výzvám dvojího druhu. Na jedné straně je stále nucen sledovat hlavní cestu formátů, stylů a komunikačních pozic spojených s tradičním chápáním média textu, knihy a jejich kulturní situace. Jde tu o lineární organizaci promluvy, o imaginaci pracující v modu strukturovaného argumentu založeného na argumentaci a analýze a o komunikační vzorec smířený s jednosměrným přenosem od jednoho k mnoha, tedy s absencí přímé možnosti reakce ze strany čtenářů média. Na druhé straně konstrukce textu pro digitální interakci a síťový oběh směřuje k vyvážení tradičního komunikačního plánu možnostmi spojenými s formálním a komunikačním otevřením textu, řízením jeho struktury různými způsoby nebo zpřístupněním konečného spoluutváření jeho podoby bývalým čtenářům a současným spoluautorům. Vytvářet dnes text znamená jednak setrvávat v lineární struktuře, v níž autor zůstává „pánem“ jeho formy, obsahu a percepčních možností příjemce, jednak koketovat s hypertextem, který nabízí vstup do ekosystému, jenž přesahuje „plochost“ tradičního vzorce, vyjednává role autora a příjemce a navrhuje dříve nemožné interakce v podmínkách po „smrti autora“. 3
Tento abstraktní problém střetu a překrývání textových kultur v praxi ústí mimo jiné do nutnosti překročit rámec textového procesoru a sáhnout po nástrojích simultánní práce s daty. Organizace textu a přístup k němu jsou v případě tradiční knihy záležitosti, které jsou v podstatě mimo kontrolu autora projevu. Standardně je autor zodpovědný za formulaci myšlenek a strukturování textu a navíc za jeho mediální, ale prvotní fixaci například pomocí softwarového textového procesoru, který používá především v režimu elektronického psacího stroje. Teprve profesionální redaktoři a grafici nebo (v případě tradičních a současně online publikací stále častěji) specialisté na User Experience činí a realizují rozhodnutí o vlastním rozhraní knihy – od úpravy verze poskytnuté autorem přes technickou reorganizaci struktury a redakčních prvků až po návrh layoutu a rozhodnutí týkající se samotného užitného formátu knihy. Při upřednostňování
9. Vyprávění z písku…
nebo omezování se na digitální publikování v databázovém duchu zůstává toto standardní rozdělení rolí jen jednou z možností. Samozřejmě i v případě tradičních knih je toto schéma někdy modifikováno – nechybí autoři, kteří využívají pokročilé funkce textových procesorů, používají značkovací jazyky, hypertextové odkazy, odkazy na databázové zdroje, jako je SQL, pracují s editory, například z rodiny LATEX, díky čemuž role autora textu neoddělitelně splývá s rolí grafika, autora komunikačního prostředí, editora a inženýra).
Bez ohledu na konečné uspořádání rolí v celkovém autorském a publikačním procesu se zdá, že nejdůležitějším úkolem pro autora hypertextu je vymyslet a navrstvit na tradiční lineární vyprávění další interaktivní vrstvu – různé druhy technického „metatextu“. Tato vrstva zahrnuje právě nejrůznější metainformace technické i obsahové povahy, které text otevírají a formálně jej propojují s jinými texty a médii. Jde například o to, aby byl co nejvíce „uzlový“ a interaktivní, tedy vybavený vnitřními a vnějšími odkazy a vazbami, spolu se souvisejícími operačními postupy, jako je otevírání dalších oken, zásuvných modulů, interakčních polí.
V případě textu Postmedia jsem sáhl po MS Excelu, abych zpracoval jeho metatextovou vrstvu. Považoval jsem jej za nejjednodušší, široce dostupné a kompatibilní prostředí, v němž jsem byl schopen jednak snadno rozdělit souvislý text v typickém formátu textového procesoru na samostatné strukturní prvky, jednotlivé moduly, které se měly stát třídou objektů datového listu pro označování a tagování . 4 V tomto případě se jedná o odstavce a názvy oddílů. Díky tomuto rozdělení jsem mohl, za druhé, každému odstavci v relativně standardizovaném a exportovatelném formátu přiřadit libovolný počet klíčových slov, která jsem použil jako alternativní nástroj pro uspořádání extrahovaných strukturních prvků. Klíčová slova přiřazená odstavcům fungují v elektronické verzi textu jako vyvolávací fráze pro všechny obsahy, které jsem se rozhodl spojit s konkrétními z nich, a jako technická značka, která organizuje celý obsah promluvy z hlediska řízení jejího tvaru. Excel se také ukázal být vhodným nástrojem pro export takto uspořádané „databáze“ do formátu kompatibilního se zvoleným nástrojem pro publikování celku v podobě interaktivní webové stránky.
Kniha byla tradičně upravena, sepsána a vydána v brožované vazbě. Je vybavena klasickým obsahem, rejstříky, fotografiemi a kresbami. Papírová verze byla rovněž distribuována knihkupectvími a vstoupila do knihovního oběhu. Na speciální webové stránce jsem zveřejnil ve volném přístupu soubor pdf, na jehož základě byla tištěná verze vytvořena. Klíčová slova spárovaná s odstavci (tedy jednotlivými myšlenkami a argumenty) zároveň umožňují orientovat se v elektronické databázi tohoto textu jinak, než by člověk očekával podle pořadí kapitol a obsahu v tištěné verzi. V elektronické verzi je
Obrázek 1. Uspořádání textu knihy v MS Excel. Zde je vidět rozdělení na řádky s jednotlivými odstavci a sloupce, do kterých byly přiřazeny a k odstavcům připojeny popisné značky. Ke každému odstavci mohlo být přiřazeno několik různých tagů v závislosti na jeho věcných vazbách, i když jsem se zároveň snažil vyhnout přemíře tagů a počtu vazeb jednotlivých odstavců.
9. Vyprávění z písku…
režim lineárního vyprávění a jeho pdf verze pouze jednou z možností, která se v praxi ukázala jako méně důležitá než to, co nabízí interaktivní elektronická verze.
Autor pracující ve „wordovském režimu“ se tak setkal se skladatelem a aranžérem zpod kalkulačního a „databázového“ Excelu. Myšlenky a koncepty, o které se kdysi pokoušel Cortázar ve své hře Nebe, peklo, ráj (libovolné pořadí čtení částí textu) nebo Queneau ve Sto tisících miliard sonetů (událostmi řízený text, kombinatorické čtení jednotlivých vět), lze nyní realizovat bez zvláštního úsilí a nákladných edičních a publikačních řešení pomocí široce dostupných a stejně rozšířených softwarových nástrojů. 5
3. Rozhraní, přístup a komunikační procesy
Základní logika organizace textu a interaktivní klíčová slova, metainformace spárovaná s lineárním vyprávěním, musí být opatřena vhodným rozhraním, aby se stala přístupnou čtenáři. Uživatelská přívětivost, čitelnost a soulad s kompetencemi potenciálního uživatele jsou zárukou funkčnosti nabízeného řešení rozhraní. Jde jednak o vizuální reprezentaci obsahu, a jednak o návrh a umožnění interakce s textem z úrovně jeho čtenáře/prohlížeče. Tyto dva rozměry zkušenosti s rozhraním, ačkoli jsou od sebe těžko oddělitelné, představují pro projektanta a uživatele samostatné výzvy.
Již výše jsem se zmínil o práci s uspořádáním textu převedeného do formátu tabulky xls, aby bylo možné přiřadit příslušná klíčová slova ke každé samostatné řečové jednotce, v tomto případě k odstavcům. Takového dodatečného uspořádání textu lze v textovém procesoru dosáhnout jen obtížně. To, čeho by autor chtěl dosáhnout v hypertextové podobě, je obvykle možné až ve fázi sazbového softwaru, kdy lze s textovou stránkou knihy zacházet jako se stránkou novin nebo barevného časopisu, kde písmena a jejich layoutové složky nejsou jedinou nebo nejdůležitější složkou a v širším smysli sdílejí prostor s obrázky a typografií.
Pokud však chceme využít interaktivních možností, které hypertextovost v síťovém prostředí nabízí, nestačí ani dodatečné vybavení textu metainformací, ani variace v uspořádání jeho tvaru v dvourozměrném prostoru stránky, ať už na papíře, nebo v jeho jednoduché elektronické obdobě. Za nejpodstatnější v této souvislosti považuji skutečnou možnost cestování po částech textu podle potřeb a představ čtenáře a autora. Mnoho takových možností samozřejmě nelze předvídat ani technicky připravit, ale rozhodně je v dnešních podmínkách a i při minimálních zdrojích a využití svobodných a otevřených nástrojů možné učinit text fragmentovaným, vícevláknovým,
a odstavců importovaných z tabulkového souboru během vkládání a formátování na platformě Wordpress.
9. Vyprávění z písku…
interaktivním a různě ovladatelným. Této funkčnosti projevu jsem dosáhl pomocí formátu blogu na platformě Wordpress. Každý odstavec s doprovodnými metainformacemi byl importován do blogu předformátováním textu v Excelu a stal se jedním publikovaným příspěvkem na specializovaném blogu. Značky a interakce byly uspořádány pomocí typických skriptů a postupů dostupných na platformě.
Nejtěžším úkolem pro autora ponořeného do imaginace tištěného textu je však bezpochyby najít vizuální paralely, které rozšíří spektrum vyprávěného zážitku. Ihned v takové situaci vyvstává nejistota, zda opustit přímočarost a abstraktnost textu a přesunout jádro prožitku do oblasti vizuální komunikace s jejími primitivnějšími výrazovými formami, než je text. Pro textové puristy je již rozšiřování textu o obrazy nebo typografii zbytečnou ozdobou. Obrázky vyvolávají v mnoha čtenářích obavy z karikatury, zjednodušení a infantilizace. To platí zejména v případě „seriózních“ odborných, vědeckých sdělení se složitou a propracovanou argumentací. Zatímco pro tradiční textovou logiku, založenou na médiu tisku, je obraz spíše podřadným a druhotným nástrojem, ve světě digitální organizace dat se právě obraz a vizualizace ukázaly jako jedna z nejběžnějších forem komunikace. Koneckonců přístup k datům na úrovni textových znaků digitálního kódu je výsadou odborníků. Teprve když se nuly a jedničky, syntaxe protokolů a řádky kódu obléknou do grafických uživatelských rozhraní, stává se interakce s nimi dosažitelnou pro průměrného obyvatele digitálního světa. Obecně lze říci, že textová rozhraní byla v běžné uživatelské praxi překryta vizuálními formami organizujícími digitální svět podle vizuálních kódů. Proto se místo blikajícího zeleného příkazového řádku obrazovky textového rozhraní, jak tomu bylo v prostředí typu dos, objevily tapety, animace a vizualizace moderní doby. Ty proměnily digitální prostředí ve vlastní „kyberprostor“ pomocí asociací s pracovní plochou jako stolem, dokumenty a složkami na něm nebo především kurzorem jako objektem pohybujícím se v dvourozměrném prostoru tohoto pracoviště. Vizualizace textu jako databáze byla v případě mého dokumentu realizována ve dvou verzích. První byla založena na myšlence barevného zintenzivnění v místech, kde se v řádkovém grafu textu vyskytovalo určité klíčové slovo. Druhá spočívala v použití vizualizace v podobě plánu spojení mezi stanicemi metra. Tato myšlenka byla založena na skutečnosti, kdy vybraná značka ukazovala na různé linky metra, které spojovaly různé stanice pomocí klíčových slov. Cestující, který nastoupil na vybranou značku, se mohl pohybovat tak, že zastavil na vybraných textových stanicích. V obou případech jsem použil hotová vizualizační řešení dostupná online – D3.js – Data-Driven Documents. Jednoduchý a otevřený přístup, přizpůsobivost a konfigurovatelnost, stejně jako možnost používat tato řešení legálně a při-
Obrázky 3 a 4. Následující snímky obrazovky ukazují nejprve verzi vizualizace struktury textu založenou na lineárním schématu značení intenzity výskytu jednotlivých značek v celkovém textu a poté verzi „mapy podzemních spojení“, která je založena na topografické vizualizaci. V druhém případě mapa pouze odkazuje na kánon tradic grafické vizualizace (londýnské a newyorské metro), a rozložení jednotlivých „zastávek“ vyplývá z použití výchozích parametrů skriptu.
9. Vyprávění z písku…
tom zdarma při konstrukci vlastního projektu, byly pro mě klíčovými kritérii při výběru konkrétních metafor a nástrojů.
4. Self-publishing a otevřený přístup
Posledním aspektem, který bych v této analýze rád zdůraznil, je otázka vlastního publikování vědecké práce a přizpůsobení strategií otevřeného přístupu tomuto typu obsahu. S odstupem času lze říci, že vývoj digitální kultury se ukázal být do značné míry řízen liberálními a libertariánskými myšlenkami, které lze v tomto konkrétním případě označit podle amerických předloh jako DIY (také verze DIWO) a Open Access. Do It Yourself je populární termín pro možnost navrhovat a používat digitální nástroje, zatímco Do It With Others odkazuje na možnost spolupracovat při tom s ostatními. Open Access označuje možnost bezplatného přístupu ke kulturním zdrojům (včetně vědeckých) při dodržení legislativy. Self-publishing zapadá do obou těchto myšlenek a naplňuje je. Spočívá především v plné kontrole autora nad jednotlivými prvky publikačního a vydavatelského procesu a může být realizováno jako součást strategie otevřeného přístupu s využitím řady existujících licencí (jako je například paleta Creative Commons), které podrobně upravují práva, povinnosti a možnosti spojené s využíváním zdroje.
Vlastní publikování vědeckého textu ve formátu, o kterém hovořím v tomto článku, znamená snížení nákladů na publikování a změnu jeho struktury, souběžnou změnu modelu distribuce textu, formální otevřenost příspěvků k aktualizaci a modernizaci ze strany autora a jím pověřených subjektů, volný a legální přístup v různých použitelných formátech (rozhraních) a řadu způsobů monitorování využívání tohoto zdroje. Podívejme se stručně na tyto prvky.
Vydavatelské náklady spojené s přípravou, vydáním a distribucí elektronické publikace v rámci strategie vlastního vydávání, jak je definována výše, by neměly překročit rozpočty klasických odhadů vydavatelských nákladů a v mnoha případech jsou výrazně nižší. Mezi běžné nákladové položky patří recenze, redakční práce, v tomto případě také sazba a vlastní náklady vydavatele. Nejsou zde zahrnuty náklady na tisk, distribuci a skladování. Na jejich místě jsou však náklady spojené s pořízením vhodné domény a hostingu a také případná práce programátora a designéra, kteří projekt připraví po stránce databáze a rozhraní, IT jej integrují a zveřejní na adrese zvolené domény a v rámci pořízené hostingové služby. Ve srovnání s distribučním modelem tištěné knihy dostupnost elektronického textu na webu časem nezaniká, jeho náklad se nevyčerpává a je k dispozici na pověstné „kliknutí“. Kromě těchto zjev-
Od Gutenberga k Zuckerbergovi
ných výhod elektronické verze je méně zřejmou otázkou, která zde vyžaduje zvláštní pozornost, umístění takového příspěvku oproti jiným podobným příspěvkům dostupným na webu. Autor na vlastní pěst s jednorázovou publikací není schopen dosáhnout takové úrovně rozpoznatelnosti a indexovatelnosti na webu, jakou mají k dispozici institucionální subjekty operující s řadou podobných textů a v rámci promyšlené, náležitě financované a dlouhodobě plánované strategie. Aniž bychom zabíhali do podrobností, je třeba poznamenat, že pro strategii vlastního publikování je to zřejmě nejobtížnější úkol.
Elektronický text je navíc podle návrhu otevřený v čase a v rámci různých strategií přístupnosti pro různé publikum s různými udělenými oprávněními. Autor získává možnost upravovat a aktualizovat své vyprávění po jeho prvním zveřejnění, přidávat do stávající struktury další moduly a funkce. Podobným způsobem se mohou v textu chovat i další „spoluautoři“, pokud jim jsou udělena příslušná oprávnění. Komentování, přidávání dalších odkazů jsou jen některé z nejzřetelnějších způsobů spolupráce, které lze v digitálním prostředí provádět.
A konečně otázka přístupu k různým výpovědním rozhraním, která upřednostňuje volbu nejvhodnějšího z nich, jakož i volný přístup k takovému zdroji. To je jistě jedno z nejrozhodnějších a společensky nejjednoznačnějších rozhodnutí, které může autor ohledně svého textu učinit. Mohlo by zde být vyměněno mnoho argumentů ve prospěch různých řešení a hájení různých postojů a zájmů, ale na to není čas ani místo. Dovolte mi pouze stručně popsat mé chápání vzájemných vztahů, které v této souvislosti vznikají, abych odůvodnil řešení, které jsem přijal v Postmediu. Vycházel jsem z premisy, že je společensky nespravedlivé a z hlediska šíření knih neefektivní setrvávat na tradičním modelu právně a finančně omezeného přístupu. Moje elektronická kniha v různých verzích je k dispozici zdarma, protože můj výzkum byl již jednou financován z veřejných prostředků, a pokud může být zpřístupněn daňovým poplatníkům bez dalších zprostředkovatelů a nákladů, pak to stojí za to a mělo by se tak stát. Ze stejného důvodu by měl být přístup k tomuto druhu obsahu otevřený. Daňoví poplatníci financují mou práci při organizaci a zpřístupňování znalostí.
V závěru této části se budeme věnovat problematice sledování komunikačních událostí v souvislosti s elektronickým publikováním. Digitální nástroje používané v tomto a podobných publikačních projektech jsou dnes komerčním standardem. A nejen to: lze je podrobit pokročilému pozorování, pokud jde o jejich rozsah a využití. Zvídavost v tomto ohledu spolu s technologickými možnostmi závisí pouze na množství práce a paletě použitých řešení – podle zásady, že každá digitální interakce zanechává stopy, které lze stejně jako jakákoli jiná data dále zpracovávat a analyzovat mnoha způsoby. Lze říci, že elektronická publikace je v podstatě hotový výzkumný projekt,
9. Vyprávění z písku…
v němž pozorujeme používání textu, logiku jednání publika, a z toho můžeme vyvodit dalekosáhlé a poučné závěry. Postmedia mi například přinášejí zpětnou vazbu o nejčtenějších pasážích, množství času stráveného v jednotlivých částech projektu, zprávy o tom, kdo, kdy a odkud na stránky odkazuje.
5. Shrnutí
Organizace vyjádření v podobě digitální databáze a aktivace komunikačních mechanismů v této databázi, které souvisejí s otevřeností textu, interaktivitou ve vztahu k němu, je jednou z komunikačních strategií, které digitální revoluce uvedla do pohybu v mediálním komunikačním ekosystému, a tím i v prostoru imaginace a kulturní kompetence. Její energie pohání digitální humanitní vědy a podobné vědní procesy. Výsledkem tohoto procesu je možnost studovat digitalizované zdroje vědění a používat vůči nim digitální postupy a nástroje. Již není potřeba hmotných artefaktů, protože příslušné postupy a očekávané výsledky lze získat pomocí digitálních, bitových zprostředkování atomů. S digitálními zrnky písku v ruce lze optimisticky a pravděpodobně naivně předpokládat, že z takového materiálu lze vytvořit jakýkoli tvar a libovolně si s ním hrát.
Z tohoto stavu vyplývá, že organizace vědeckého vyjadřování a související způsoby šíření znalostí mohou a měly by projít obdobnou proměnou. Vybranými součástmi těchto změn jsou strategie self-publishing a volného přístupu, založené na široce dostupných digitálních nástrojích a formátech. Změny, jichž lze pomocí těchto prvků dosáhnout, znamenají demokratizaci znalostí a přístupu k nim, změnu rolí, kompetencí a postavení autorů vědeckých příspěvků, jejich editorů, vydavatelů a šiřitelů, jakož i samotného publika. Na závěr si dovolím jedno publicistické zobecnění: tvrdím, že v současné fázi ponoření se do vln digitální revoluce jsme na tom mnohem lépe, když provádíme výzkum na digitálních zdrojích nebo používáme digitální nástroje a metody ve výzkumu, než když přizpůsobujeme digitální a síťové možnosti v oblasti konstrukce a zveřejňování vědeckých výpovědí. Přitom tato poslední oblast možných změn není jen otázkou společenské odpovědnosti za znalostní okruhy a jejich kulturu nebo reformy zastaralých právních předpisů zaměřených na prospěch několika málo aktérů. V této oblasti je podle mého názoru obzvláště důležité, aby způsoby komunikace vědy se světem stejnou měrou absorbovaly dostupné digitální možnosti. To koneckonců znamená při relativně malých systémových změnách výhody pro většinu aktérů, kteří se dosud podíleli na tvorbě, zprostředkování a komunikaci znalostí.
POZNÁmK Y
1 K tématu digitalizace viz podrobněji například LÉVY, P. Becoming Virtual: reality and the digital age New York: Plenum, 1998.
2 Podrobněji viz: CELIŃSKI, P. Medialne wyobraźnie i alfabetyzmy. In: Kultura wiedzy. Krakov 2012, s. 57–74.
3 BARTHES, R. Śmierć autora. Teksty drugie. 1999, č 1–2, s. 247–250. Obšírněji o hypertextualitě viz například: MARECKI, P. a M. PISARSKI (eds.). Hiperteksty literackie. Literatura i nowe media. Krakov: Ha!art, 2011.
4 MS Excel není bezplatný program a pro zde uvedené úlohy jej lze snadno nahradit bezplatnými a otevřenými alternativami. Rozhodl jsem se je v tomto textu nepředstavit z důvodu originality produkčních řešení společnosti Microsoft, která jsou pro vývojáře alternativních řešení referenčním bodem, a proto, že použití řešení redmontského giganta nemusí nutně znamenat finanční náklady spojené s pořízením licence.
5 CORTAZ á R, J. Nebe, peklo, ráj. Praha: Dokořán, 2019; QUENEAU, R. Cent mille milliards de poèmes. Paříž: Gallimard, 1985.
O řazení textových a grafických rozhraní píši obšírněji zde: CELIŃSKI, P. Interfaces. Cyfrowe technologie w komunikowaniu . Vratislav: WUWr, 2010.
BIBLIOGRAFIE
BARTHES, R. Śmierć autora. Teksty drugie. 1999, č. 1–2, s. 247–250.
CELIŃSKI, P. Interfejsy. Cyfrowe technologie w komunikowaniu. Vratislav: WUWr, 2010.
CELIŃSKI, P. Medialne wyobraźnie i alfabetyzmy. In: CELIŃSKI, P. a J. HUDZIK (eds.). Kultura wiedzy. Krakov: Universitas, 2012.
MARECKI, P. a M. PISARSKI. Hiperteksty literackie. Literatura i nowe media. Krakov: Ha!art, 2011.
LÉVY, P. Becoming Virtual: reality and the digital age. New York: Plenum, 1998 . RAYMOND, Q. Cent mille milliards de poèmes. Paříž: Gallimard, 1985.
VESNA, V. Seeing the world in the grain of sand: the database aesthetics of everything. In: VESNA, V. (ed.). Database Aesthetics: Art in the Age of Information Overflow . Minneapolis: University of Minnesota Press, 2007. Od Gutenberga k Zuckerbergovi
Kapitola 10
Mapy a geografické informační systémy v digitálních humanitních vědách
Abstrakt: Kapitola pojednává o roli map, kartografie a geografických informačních systémů v digitálních humanitních vědách, především v kontextu výzkumu minulosti. Kapitola je rozdělena do tří podkapitol. První je úvodní a zabývá se základními informacemi o mapách a kartografii. Druhá je věnována mapám jako zdroji dat a informací. Jejím obsahem je syntetické pojednání o nejdůležitějších mapách a jejich typech od starověku po současnost s důrazem na rozdíly mezi nimi a zhodnocení jejich použitelnosti jako zdrojů v digitálních humanitních vědách. Třetí podkapitola se zabývá využitím geografických informačních systémů v digitálních humanitních vědách. Začíná stručnou definicí GIS a obecným popisem jejich využití a možností. Podstatnou součástí je pojednání – na příkladu softwaru QGIS – o jednotlivých fázích tvorby map a prostorových databází v GIS: sběr dat, správa, analýza a vizualizace. V části věnované vizualizaci jsou stručně popsány nejčastěji používané metody kartografické prezentace a takzvané osvědčené postupy.
1. Základní informace o kartografii a mapách
Mapy – nebo obecněji geografické a prostorové informace – nás obklopují v každodenním vědeckém i nevědeckém životě. Přibližně 80 % moderních informací tvoří prostorová data, tj. data, která kromě kvalitativních a kvantitativních charakteristik zahrnují také polohu, tvar a rozměry v terénu. Tento typ dat lze nejen zakreslit do
Od Gutenberga k Zuckerbergovi
mapy, ale lze je využít i pro pokročilejší analýzy, které zohledňují popisné atributy, například název, typ objektu, jeho vztah k objektům ostatním a prostorové atributy. Prostorový pohled na data zintenzivňuje zájem o kartografii a mapy v humanitních vědách. Díky němu přestává být využívání a dokonce i tvorba map doménou pouze věd o Zemi (geografie, geologie) nebo společenských věd (sociologie, bezpečnostní vědy), ale vstupuje do oblasti zájmu širších humanitních věd (archeologie, prostorové a environmentální dějiny, geopoetika).
Geografické informační systémy (GIS), které umožňují sběr, správu, analýzu a vizualizaci prostorových dat, jsou již delší dobu pevně etablovaným výzkumným nástrojem archeologů či historiků. Dostupnost otevřeného a bezplatného softwaru, například QGIS, skvěle usnadňuje a popularizuje využití GIS v humanitních vědách. Ať už přijmeme prostorový obrat jako nové výzkumné paradigma, nebo budeme mapy a GIS používat jako nástroj, prostor (nejen geografický!) je přítomen v bibliologii (prostorové rozložení vzácných knih), literární vědě (geopoetika), historii (historická geografie a prostorové dějiny), lingvistice (geografické rozložení dialektů) a mnoha dalších, kde má prostor a geografický rozměr jevů výzkumný a analytický význam. Pro studium vlivu prostoru a geografie na lidstvo a jeho práci je zapotřebí vhodný informační prostředek. Tímto médiem jsou mapy (analogové i digitální), a informace o tom, jak je efektivně a vhodně používat, poskytuje kartografie. Podle klasické definice je kartografie vědní disciplína a soubor praktických činností, zabývajících se vývojem, tvorbou a používáním map. Podstatu kartografie dokládá definice Britské kartografické společnosti z roku 1964, podle níž jde o vědu, umění a technologii tvorby map a jejich studium coby vědeckých dokumentů a uměleckých děl. Obor, který nás zajímá, v sobě tedy spojuje určitou triádu: vědu, technologii a umění – všechny rovnocenné a vzájemně se doplňující. Zjednodušeně lze říci, že vědecký aspekt kartografie představuje například logická konstrukce znaků a symbolů nebo výzkum s uživateli, technologický aspekt přesná měření a nástroje typu GIS a ten, který souvisí s uměním, grafická konstrukce, harmonie a čitelnost mapy jako (info)grafiky zprostředkovávající prostorovou informaci. Je však třeba zdůraznit, že výše uvedené úvahy se týkají současného chápání pojmu kartografie, který je vlastně jakýmsi neologismem: vznikl spojením pozdně středověkého latinského názvu pro mapu (carta) a starořeckého slova pro „kreslit, psát“ (γραϕία) a jako takový mohl být kdysi chápán různě. Na tuto skutečnost nedávno upozornil M. Edney, když tvrdí, že než se význam tohoto termínu ustálil, měli jsme co do činění s kartografií chápanou jako „psaní map“, „psaní [o něčem – TP] pomocí map“ nebo „psaní o mapách“.
Bez ohledu na přijatou definici je však mapa jádrem kartografie jako dokument, který je zdrojem úvah, inspirace a analýzy (studium
10. Mapy a geografické informační systémy…
map), a jako prostředek, kterým lze zaznamenávat prostorové vztahy a výsledky výzkumu (tvorba map). Samotný termín mapa vznikl ve středověku a znamenal ubrousek nebo kus plátna, zatímco termín karta, který má sice starobylý původ (charta je list, písmeno), se pro označení mapy začal používat až v 17. století. Dnes je mapa definována jako grafické znázornění povrchu Země, jiného nebeského tělesa nebo oblohy, zobrazené redukovaným, matematicky definovaným, zobecněným a konvenčním způsobem. Z této definice vyplývá, že imanentními znaky mapy budou zobrazení fyzického povrchu na rovině (nebo ve vztahu k ní), zobrazení jevů pomocí jednotného systému grafických znaků, podobnost těchto znaků se skutečností (graficky a matematicky z hlediska zobrazení) a generalizace, tj. redukce obsahu mapy vyplývající z jejího přizpůsobení měřítku, účelu a uživatelům. Je třeba poznamenat, že zejména v souvislosti s mapami vytvořenými v minulosti (staré mapy) nebude tato definice zcela splněna, zejména pokud jde o matematickou přesnost a preciznost. Rovněž ji plně nesplňují čistě moderní způsoby znázornění geografického prostoru, jako jsou letecké a satelitní snímky, síťové diagramy nebo anamorfní zobrazení, které přesto nazýváme mapami. Přesto lze mapu z hlediska jejích charakteristik vnímat mnoha způsoby (bez ohledu na datum jejího vzniku nebo typ): mimo jiné za obraz prostoru, soubor znaků, způsob předávání informací, model geografické reality nebo databázi. Tyto charakteristiky map ovlivňují způsob, jakým jsou vytvářeny, používány nebo analyzovány. Je zřejmé, že soubor map je velmi různorodý, neboť obsahuje zobrazení, která se od sebe liší obsahem, přesností a měřítkem, datem sestavení nebo formou prezentace.
Nejdůležitější osou klasifikace map je rozdělení z hlediska obsahu na mapy obecně zeměpisné a tematické. Zatímco první z nich poskytují obecný obraz o území tím, že prezentují jeho nejdůležitější rysy (například mapy topografické), tematické mapy se zaměřují na jednu konkrétní problematiku (nebo skupinu koncepčně souvisejících otázek) prezentovanou nejčastěji na zjednodušeném kartografickém podkladu (přizpůsobeném předmětu mapy). Na základě předchozí klasifikace jsou tematické mapy socioekonomické nebo přírodovědné, ale v éře expanze kartografie do humanitních věd je vhodné sem zařadit i „mapy zobrazující člověka a jeho dílo“, například rozmístění knižních sbírek, sítě a vazby mezi umělci, polohy zaniklých osídlení. Takové mapy, zdánlivě podobné již zavedeným socioekonomickým, se však liší svou pramennou základnou: pocházejí z historických dob, jsou často nejisté, nejasné a vyžadují interpretaci.
Druhou osou dělení je přesnost a měřítko mapy. Měřítko je zlomek, který určuje, jak moc je mapa zmenšená oproti skutečnosti: čím menší měřítko, tím větší zmenšení. Měřítko souvisí také s podrobností mapy (vysoká podrobnost vyžaduje velké měřítko). Volba měřítka mapy závisí především na jejím účelu, ale také na uchovávaných
Od Gutenberga k Zuckerbergovi
údajích, což je důležité zejména v případě historických dat, která nejsou vždy dostatečně podrobná a přesná. Přesnost naopak odpovídá matematické exaktnosti mapy a její kartometričnosti, tj. možnosti provádět s ní měření (délky, plochy). Stručně řečeno, čím je mapa starší, tím je méně přesná, a určitou cézurou v dějinách kartografie oddělující nekartometrické mapy od kartometrických je konec 18. a začátek 19. století. V tomto období se začaly hojně vytvářet mapy založené na tehdy ještě nedokonalých terénních měřeních. Měřítko je také někdy abstraktnějším pojmem, zejména v souvislosti s digitálními mapami, které lze libovolně zvětšovat a zmenšovat. Pak spíše hovoříme o měřítku (přesnosti a podrobnosti) dat, která byla připravena k prezentaci.
Mapy, zejména v kontextu jejich použití v humanitních vědách, lze také rozdělit na základě data jejich vzniku. Rané mapy (takzvané early maps nebo old maps), které ještě nejsou založeny na měření, jsou většinou spíše reprezentací prostoru než jeho zobrazením a znázorněním. Mapy vzniklé od konce 18. a počátku 19. století jsou mnohem přesnější, obsahově bohatší a rozmanitější. Ty, které vznikly od konce 19. století, se naopak od svých současníků neliší z hlediska matematické přesnosti. V humanitních vědách máme tendenci přistupovat k raným mapám jako k dokumentům „samým o sobě“: k dílům a produktům kultury. Ty pozdější, více kartometrické, lze využít i jako zdroj prostorových dat, například v programech GIS.
Z hlediska materiální podoby lze mapy také rozdělit na analogové a digitální (v našem případě především online). Analogové mapy, tištěné nebo určené k tisku, vymezovaly trendy v kartografii po mnoho let, ale digitální mapy již nějakou dobu vedou; nicméně se zdá, že analogové mapy v úplnosti nenahradí. Digitální mapy, zejména ty interaktivní, které jsou k dispozici online, nabízejí zcela nové funkce (i pro výzkum) a umožňují nejen dynamickou změnu měřítka, vyhledávání objektů nebo úpravu symboliky, ale také rozhraní pro zadávání a analýzu dat, kombinaci dat z různých zdrojů nebo spolupráci a práci více uživatelů. Rozvoj digitální kartografie je jednoznačně spojen s rozvojem GIS, který se úspěšně uplatňuje v humanitních vědách.
2. Mapy jako zdroje
Různé typy map a atlasů jsou pro badatele neocenitelným zdrojem dat a informací. Kombinací textového zdroje (mapové nápisy) a ikonografického zdroje (použití znaků) vytvářejí synergii v zobrazení prostoru a jeho prvků. Mapy jako zdroje dat lze využít ke dvěma účelům. Jednak jako informace o rozmístění objektů nebo jevů (města, lesy, cesty atd.), jednak jako pomocný zdroj pro lokalizaci míst zmi-
10. Mapy a geografické informační systémy…
ňovaných v písemných pramenech (rodiště spisovatelů, města popisovaná v denících atd.). Za druhé mohou mapy sloužit jako pramen samy o sobě: jako produkt a artefakt kultury vytvořený za určitým účelem určitými komunitami pro určité publikum; sociálně, politicky a ekonomicky podmíněný. V tomto směru se mapou zabýváme spíše coby předmětem zájmu dějin kartografie, ale také literární vědy, dějin umění nebo etnologie. Předpokladem využití map k určení polohy objektů je jejich přesnost, která je podmíněna měřítkem cílových analýz. Naproti tomu téměř každou mapu lze analyzovat jako dokument a kulturní prvek. V obou případech může humanista využít jak současné mapy – zcela běžně používané k lokalizaci objektů z jiných pramenů –, tak staré mapy, používané při výzkumu dějin kartografie a historické geografie. Pojem „starověká mapa“ by neměl být zaměňován s pojmem „historická mapa“. První z nich je mapa vytvořená v historické době, zatímco druhá představuje historickou dobu z pozdější perspektivy a byla nejčastěji vytvořena pro vědecké nebo vzdělávací účely. Stojí za to se krátce podívat na nejvýznamnější díla a úspěchy v dějinách kartografie, abychom jejich prizmatem poukázali na nejdůležitější rysy starověkých map v kontextu výzkumu v oblasti digitálních humanitních věd.
2.1. Starověké a středověké mapy
S jistotou víme, že potřeba uspořádat geografické informace prostřednictvím vývoje map existovala již ve starověku. Stačí zmínit učence: Eratosthéna (sféricita Země) a Ptolemaia (kartografické mapy a kartografické sítě) a připomenout díla, jako je nedochovaná mapa Marka Agrippy z 1. století př. n. l. nebo Tabula Peutingeriana (silniční mapa Římské říše ze 4. století). Starověké mapy, stejně jako výše zmíněná silniční mapa, jsou většinou známy jedině z pozdějších kopií. Středověké mapy, stejně jako ty antické, většinou zobrazují spíše imaginární prostory. Ve středověku byly podřízeny křesťanskému učení o rozdělení světa na tři známé kontinenty: Evropu, Asii a Afriku. Takzvané O-T mapy (Orbis terrarum) tvarem odkazovaly na řecké písmeno – (tau), symbolizující Kristův kříž, a místem spojení označovaly Jeruzalém – tehdy považovaný za střed světa. O-T mapy měly vždy východní orientaci. Podle vzoru O-T map byly vytvořeny další mapy celého světa, takzvané Mappae Mundi – zřejmě přesnější a podrobnější, které ale postrádaly kartografickou síť a v mnoha případech byly vyplněny mytologickými vrstvami nebo obrazy zvířat a příšer. V pozdním středověku začaly vznikat navigační námořní mapy, zvané portolánové, které měly ryze praktický význam. Pobřežní linie na nich zobrazené spolu s nebezpečnými místy (útesy, skály) byly spojeny loxodromami vycházejícími z větrné růžice.
Od Gutenberga k Zuckerbergovi
2.2. Mapy moderní doby
Portolánové mapy předznamenaly začátek nové éry v dějinách kartografie a přechod od zobrazování imaginárních prostorů k zobrazování reality. Kartografická revoluce v renesanci souvisela s rozvojem vědy, včetně zeměměřičských přístrojů, a s potřebou mapy vlastnit: pro navigaci, vedení válek a později i pro státní správu. Mapy novověku se důsledně vyvíjely: od map malých měřítek s malými detaily, založených na několika klíčových, astronomicky změřených souřadnicích až po topografické mapy velkých měřítek založené na triangulaci a terénních snímcích. Tento vývoj dobře ilustrují mapy polských území. Ačkoli nejstarší kartografická díla pocházejí z počátku 15. století, první originální polskou mapu vypracoval otec polské kartografie Bernard Wapowski (1450–1535) až v 16. století. Na mapě, která se bohužel dochovala jen částečně a pouze v kopiích, vyznačil nejdůležitější města, řeky, lesy a pohoří. Jeho mapa byla mnohokrát kopírována a revidována, mimo jiné i Wacławem Grodeckým (1535–1591). Jeho verze Wapowského mapy se zase dostala do slavného Orteliova atlasu Theatrum orbis terrarum, vydaného v roce 1570. Zlatý věk polské kartografie končí vydáním takzvané radziwillovské mapy: mapy Litevského velkoknížectví, kterou v roce 1613 nakreslil Tomasz Makowski. Zatímco v západní Evropě se kartografie vyvíjela směrem k podrobnosti a přesnosti (a pod záštitou a pro potřeby armády), v Polsku se v důsledku devastace severní válkou vyznačovala stagnací až do poloviny 18. století. Oživení polské kartografie přinesla až stanislavovská éra a iniciativy jako Carte de la Pologne Rizzi-Zannoniho (1:690 000, 1772) nebo Mapy szczególne województw Karola Perthéese (1:225 000, 1783–1804). Před trojím dělením Polska se však navzdory mnoha nápadům a koncepcím nepodařilo v tomto ohledu dohnat země západní Evropy, které již v té době (konec 18. století) většinou disponovaly topografickými mapami velkých měřítek.
2.3. Mapy devatenáctého a dvacátého století
Kartografii a její vývoj v devatenáctém a dvacátém století ovlivňovaly dva aspekty: již zmíněná velkoplošná topografická kartografie sloužící státu (administrativě a armádě) a vznik moderních zeměpisných atlasů (včetně tematických), díky nimž na mapě světa zmizela bílá místa. Oba tyto aspekty jsou důležité pro využití map v digitálních humanitních vědách.
Topografické mapy z přelomu 18. a 19. století jsou již natolik přesné (kartometrické), že mohou sloužit jako zdroj údajů o rozmístění objektů (například měst a silnic). Historie kartografie polských zemí
10. Mapy a geografické informační systémy…
v tomto období je dána kartografií států, jež se podílely na trojím dělení (Rakouska, Pruska a Ruska). První dvě země prováděly systematické topografické snímkování zabraných zemí již od konce 18. století. Ruská topografická kartografie se naproti tomu intenzivněji rozvíjela až od druhé poloviny 19. století a její vývoj byl jistě ovlivněn úspěchy polských vojenských kartografů z doby Kongresovky v čele s takzvanou čtvrtletní mapou (1 : 126 000, 1839–1843). Výsledkem je, že druhá polovina tohoto století přináší velké množství přesných a podrobných topografických map, vydávaných často v aktualizovaných verzích. To umožňuje srovnávací práce o dynamicky se měnící krajině rané průmyslové éry. Meziválečné období bylo v Polsku poznamenáno především činností vynikajícího Vojenského zeměpisného ústavu, zatímco v poválečném období došlo k závislosti polské vojenské kartografie na sovětské kartografii a k regresi kartografie pro civilní použití (některé mapy byly záměrně zkreslovány, i když zůstaly tajné).
Druhým aspektem kartografie tohoto období je nárůst významu zeměpisných atlasů, které, ačkoli byly známy již dříve, teprve od 19. století získaly roli, jakou známe dnes. V současnosti je geografický atlas definován jako „[...] systematický soubor geografických map, sjednocený společnou myšlenkou a společnými prostředky její kartografické realizace. Vynikajícím příkladem atlasové kartografie je Atlas in 50 Blättern, jehož autorem je Adolf Stieler. Jeho atlas vycházel více než 100 let v deseti vydáních od roku 1817 do roku 1945 a umožňuje sledovat nejen změny v kartografickém umění, ale také zanikání zmíněných bílých míst ve světě. Pokud jde o polské atlasy, je třeba zmínit zejména Eugeniusze Romera a jeho Geograficzno-statystyczny Atlas Polski, vydaný v roce 1916. Byl sestaven ve třech jazycích (polsky, německy a francouzsky) a měl mimo jiné reflektovat „národnostní, sociální a hospodářské základy polské otázky“ a jednoznačně ukázat tehdejším mocnostem, že Polsko by se po Velké válce mělo vrátit na mapu Evropy.
2.4. Digitální zdroje a staré mapy
Staré mapy, plány, atlasy nebo dokonce glóby jsou stále častěji k dispozici nejen v knihovnách a archivech, ale také v rozsáhlých digitálních sbírkách. Digitalizace sbírek v držení veřejných a soukromých institucí, které shromažďují kulturní statky (GLAM – galleries, libraries, archives, museums), podporuje výzkum v oblasti digitálních humanitních věd tím, že umožňuje snadný a rychlý přístup k digitalizovaným sbírkám. Digitální kopie uložené na serverech lze považovat za uchování existujících hmotných zdrojů: jejich virtuální reprezentaci. Je však důležité si uvědomit, že skenování, natož fotografování, nejsou metody, které by věrně reprodukovaly kartografic -
Od Gutenberga k Zuckerbergovi
ké prameny. Při kopírování je třeba brát v úvahu geometrická nebo barevná zkreslení, proto je důležité dokumentovat proces digitalizace jako součást metadat. Geometrická zkreslení jsou důležitá při zkoumání matematické přesnosti map.
Existují čtyři formy zpřístupnění kartografických zdrojů online. Lze je také označit jako digitální edice starých map: aplikace nebo zdroje, které prezentují obraz mapy nebo data v ní obsažená. Jedná se o (1) digitální knihovny a archivy, (2) digitální sbírky, (3) geoportály s kalibrovanými mapami a (4) kartografické databáze.
Základní formou zpřístupnění starých map je umístění naskenovaného obrazu mapy (obvykle ke stažení, někdy po přihlášení) spolu se základními metadaty do webové aplikace. Takovou funkci poskytují digitální knihovny, jejichž mapy tvoří poměrnou část jejich sbírek, a mapové sbírky, kde je cartographica hlavní nebo jedinou částí zdroje. Příkladem takových aplikací jsou především různé digitální knihovny a archivy. Velké digitalizované kartografické sbírky mají: v Polsku – Polona (https://polona.pl/; dostup 22. 5. 2022), knihovny sdružené ve Federacji Bibliotek Cyfrowych (https://fbc.pionier.net. pl /) a Archiwum Główne Akt Dawnych (prostřednictvím „Kartografické sbírky“: pl. „Zbiór Kartograficzny”): http://agad.gov.pl/inwentarze/402_all.xm l; dostup 22. 5. 2022), v zahraničí pak Bibliothèque nationale de France (prostřednictvím portálu „Gallica“: https://gallica.bnf.fr/; dostup 22. 5. 2022). Naopak nejvýznamnější digitální mapové sbírky jsou: v Polsku – „Mapy archiwalne Polski i Europy Środkowej“ (http://igrek.amzp.pl/; dostup 22.05.2022), kde jsou hlavním zdrojem všeobecné geografické mapy z 19. a 20. století, a v zahraničí – „David Rumsey Historical Map Collection“ (https://www.davidrumsey.com/; dostup 22.05.2022) nebo „Old Maps Online“ (https://www. oldmapsonline.org/; dostup 22.05.2022). Přístup k materiálům je nejčastěji možný pomocí vyhledávání názvu mapy (nebo jejího výřezu), někdy však i určitých klíčových slov (autor, předmět, měřítko) nebo geografického rejstříku.
Pokročilejší přístup ke starým kartografickým materiálům zajišťují geoportály, webové portály poskytující přístup ke službám prostorových dat, v tomto případě ke kalibrovaným starým mapám. Kalibrace (takzvané georeferencování) spočívá v přiřazení obrazu mapy ke geografickému souřadnicovému systému a umožňuje virtuálně překrýt mapy vytvořené v různých systémech, měřítkách a mapováních a porovnat obsah mezi nimi, stejně jako mezi nimi a současnou mapou. Mezi nejčastěji používané geoportály se starými mapami patří například: v Polsku – „Mapy s minulostí“ („Mapy z przeszłością“) ( https://atlas.ihpan.edu.pl/pastmaps/ ; dostup 14. 12. 2023) obsahující topografické mapy Polska z 19. a 20. století, a v zahraničí „Arcanum Maps – The Historical Map Portal“ (https://maps.arcanum.com/en/; dostup 22. 5. 2022) s topografickými mapami Evropy z 18. a 19. stole -
10. Mapy a geografické informační systémy…
tí. Výhodou geoportálů je možnost prohlížet si „překryvné“ řady map (včetně současných), často i ve stolním softwaru GIS prostřednictvím služeb prostorových dat. Nevýhodou je naopak (většinou) nemožnost stažení mapového souboru tak, jak to umožňují digitální knihovny.
Nejpokročilejší přístup ke starým mapám a jejich obsahu poskytují aplikace, jejichž obsahem jsou především data získaná a sestavená ze starých map. Jsou prezentovány především formou kartografické vizualizace prostorových databází a velmi často jsou doprovázeny kalibrovanými mapovými snímky. Kartografická databáze sestavená na základě mapy za prvé představuje reprezentaci jejího obsahu, a za druhé umožňuje její využití dalšími badateli. Nejvýznamnějšími mapovými edicemi tohoto druhu jsou: v Polsku – „Digitální edice mapy Gaul/Raczynski“ („Cyfrowa edycja mapy Gaula/Raczyńskiego“) ( https://atlasfontium.pl/?page_id=234 ; dostup 22. 5. 2022) a „Internetový atlas nezávislého Polska“ („Internetowy Atlas Polski Niepodległej“) (https://atlas1918.ihpan.edu.pl/; dostup 22. 5. 2022), což je databáze vytvořená na základě Geografického slovníku Polského království a ostatních slovanských zemí (Słownika Geograficznego Królestwa Polskiego i Innych Krajów Słowiańskich) a map Vojenského zeměpisného ústavu (Wojskowy Instytut Geograficzny) z let 1918–1939. V zahraničí zase máme například „GeoHistoricalData“ ( https://geohistoricaldata.org/; dostup 22. 5. 2022), což je edice Cassiniho mapy z 18. století, „Svea-Pommern“ (http://www.svea-pommern. de/; dostup 22. 5. 2022) – edice švédských map a topografických popisů Pomořanska z konce 17. a počátku 18. století) a „Beauplan’s Ukraine“ (https://dataverse.harvard.edu/dataverse/BU; dostup 22. 5. 2022) – gazetteer ruských zemí Koruny ve formě databáze založené na Beauplanových mapách ze 17. století. Kartografická data by měla být zpřístupněna v souladu se zásadami FAIR a měla by být vyhledatelná ( findable), například prostřednictvím klíčových slov; přístupná (accessible), například umístěním v přístupném datovém úložišti; interoperabilní (interoperable) – prostřednictvím identifikátorů z jiných datových sad; opakovaně použitelná (reusable) – poskytnutím dat s příslušnou licencí. Vytvoření kartografické databáze založené na mapách je ze všech forem zpřístupnění starých map časově nejnáročnější, ale přináší také nejlepší výsledky, pokud jde o analýzu mapy a jejího obsahu a její zpřístupnění.
2.5. Současné mapy a zeměpisné údaje
V humanitních vědách se běžně používají současná geografická data (mapy, prostorové databáze), protože jsou snadno dostupná a umožňují například prostorové odkazování na obsah z nekartografických zdrojů, včetně – i když v menší míře – zdrojů historických.
Od Gutenberga k Zuckerbergovi
Hlavní osou dělení současných geografických dat je jejich tvůrce: můžeme se setkat se státními (oficiálními) daty, jejichž tvůrci a správci jsou veřejné instituce (na různých úrovních), a s neoficiálními daty společenské (otevřená geografická data), vědecké (výzkumné organizace) či komerční (kartografická vydavatelství) provenience.
Pokud jde o oficiální údaje, v Polsku je hlavním přístupovým místem webová stránka „Geoportal.gov.pl“ (https://geoportal.gov.pl/; dostup 22.5.2022), často označovaná jednoduše jako Geoportal. Jedná se o webovou aplikaci, která zpřístupňuje oficiální geografická data: mapy, služby a databáze prostorových dat a také základní analytické a vizualizační nástroje. Geoportal byl spuštěn v roce 2005, od té doby se vyvíjel po etapách a jeho současná podoba je výsledkem řady vývojových prací souvisejících s rozvojem ICT infrastruktury, nástrojů pro aktualizaci a publikování sad prostorových dat či přístupových aplikací (včetně mobilních aplikací).
Geoportal je především mapová aplikace, která prezentuje prostorová data. Ty mají pro digitální humanitní vědy různou hodnotu, ale určitě stojí za to zmínit zde několik zdrojů. Pokud jde o údaje o pomístních jménech a fyziografických objektech, máme k dispozici „Státní registr geografických jmen“ (PRNG, „Państwowy Rejestr Nazw Geograficznych“) a z hlediska administrativního členění „Státní registr hranic“ (PRG, „Państwowy Rejestr Granic“), v němž máme nejen obce, kraje a provincie, ale také registrační jednotky a obvody. Oba registry si lze prohlížet ve formě vizualizací i stahovat. Pokud jde o topografické údaje, nejdůležitějším zdrojem je „Databáze topografických objektů“ (BDOT, „Baza Danych Obiektów Topograficznych“) a „Databáze obecně geografických objektů“ (BDOO, „Baza Obiektów Ogólnogeograficznych“). Jedná se o referenční prostorové databáze obsahující mimo jiné údaje o komunikační síti, půdním pokryvu (lesy, bažiny, louky), hydrografii nebo hospodářských objektech. BDOT odpovídá mapovému detailu v měřítku 1 : 10 000 a BDOO v měřítku 1 : 250 000. Od roku 2020 lze obě databáze nejen prohlížet, ale také stahovat jako soubory GIS přímo z Geoportalu. V aplikaci jsou k dispozici také kalibrované topografické mapy (bohužel nejsou ke stažení), ortofotomapy (ke stažení; rovněž ve vysokém rozlišení) a numerický model terénu s rozlišením 1 nebo 5 metrů, užitečný zejména pro archeology (ke stažení). Mezi další typy dat patří údaje z katastru nemovitostí a staveb, inženýrské sítě, geodetické údaje nebo informace o vládních programech. Geoportal, který spravuje Ústřední úřad geodézie a kartografie (Główny Urząd Geodezji i Kartografii), má rozsáhlou dokumentaci a uživatelské příručky, kde jsou k dispozici průběžně aktualizované informace o všech zdrojích a funkcích aplikace. Prostorová oficiální data poskytuje také Ústřední statistický úřad (Główny Urząd Statystyczny) prostřednictvím Statistického geoportálu (Geoportal Statystyczny) a Místní banky dat (Bank Danych
10. Mapy a geografické informační systémy…
Lokalnych). K dispozici jsou také geoportály s regionálním (vojvodství), místním (okresy, města) pokrytím.
Kromě oficiálních dat máme přístup k mnoha otevřeným zdrojům vytvořeným jinými tvůrci, jako jsou vědecké organizace nebo nadace. Mezi taková data patří „Natural Earth Data“ (https://www. naturalearthdata.com/; dostup 22. 5. 2022), jejíž zřizovatelskou institucí je NACIS – North American Cartographic Information Society, a “Open Street Map“ (https://www.openstreetmap.org/; dostup 22. 5. 2022) provozovaná nadací OpenStreetMap. Data z obou projektů prostorově pokrývají celou Zemi („Natural Earth Data“ – malé měřítko; „Open Street Map“ – velké měřítko) a jsou ke stažení jako soubory GIS. Projekt „Natural Earth Data“, který je vyvíjen od roku 2009, do značné míry řeší problém s vyhledáváním vhodných geografických dat pro tvorbu map malých měřítek. Data jsou k dispozici v měřítkách odpovídajících podrobnosti map 1 : 10 000 000, 1 : 50 000 000 a 1 : 110 000 000, a to jak ve vektorových (sociální a fyzická data), tak v rastrových (reliéf) souborech. Data jsou veřejně přístupná. „Open Street Map“ je otevřená, bezplatná a veřejná digitální mapa vytvářená od roku 2004 dobrovolnými uživateli, nazývaná kartografickou obdobou Wikipedie. Obsahuje velmi podrobné údaje získané ze satelitních snímků, úředních údajů, GPS a ověření v terénu. Přístup k datům je zajištěn prostřednictvím jednoduchého geoportálu a mnoha možností stažení: API, softwarových zásuvných modulů QGIS a webových stránek Geofabrik (https://www.geofabrik.de/; dostup 22. 5. 2022). Data jsou zpřístupněna pod licencí ODbL (Open Database License), což umožňuje jejich další využití.
3. Vývoj map v geografických informačních systémech
3.1. Geografické informační systémy
Geografický informační systém (GIS) je informační systém určený ke shromažďování, správě, analýze a vizualizaci geografických dat. Přímým předchůdcem GIS, jehož kořeny sahají do 60. let 20. století, je papírová mapa, která je charakteristická svým matematickým znázorněním, měřítkem, strukturou a rozvržením obsahu (legendou) a generalizací. GIS umožňuje přenést tradiční papírovou mapu a její vlastnosti do digitálního prostředí pomocí počítačových nástrojů a metod zpracování dat. To vyžaduje určité komponenty, jako jsou geografické databáze, počítačový hardware a software, vývojáři a uživatelé.
Od Gutenberga k Zuckerbergovi
Oblast zájmu o GIS je široká. Ačkoli je historicky spojován s geografií a územním plánováním, nachází nyní stále nové oblasti využití, někdy i daleko za hranicemi svých základních oborů. Všude tam, kde jsou relevantní geografické nebo prostorové informace, je GIS vhodným výzkumným nástrojem. Humanitním vědcům také umožňuje odhalovat vztahy týkající se hmotných i nehmotných kulturních produktů, jejich okolí a okolností, které existují nebo existovaly na daném místě a v čase. Je však třeba mít na paměti, že humanisté si při používání GIS pro svůj výzkum musí být vědomi určitých omezení. Existuje totiž jistý rozpor mezi přesností, jistotou a jasnou strukturou jazyka přírodních a technických věd a interpretační povahou humanitních věd a zdrojů dat, které se vyznačují nejistotou, nejednoznačností a neurčitostí. Praktickým důsledkem toho někdy je nutnost přizpůsobit data a výzkumné otázky daným nástrojům. Nicméně (a svědčí o tom již četné výzkumné studie, a to jak ty, které používají GIS v humanitních vědách, tak ty, které vyvíjejí Systém v kontextu humanitních věd) je to nyní nejen nástroj, ale do jisté míry i výzkumná perspektiva. To je patrné zejména v historickém a archeologickém výzkumu, ale také v literární vědě. Zbývající část textu je stručným úvodem do základů používání GIS v digitálních humanitních vědách, rozdělených na otázky týkající se sběru, analýzy a vizualizace prostorových dat.
3.2. Sběr dat
Ústřední součástí GIS jsou data povětšinou shromážděná v prostorových databázích. Základní pojmovou jednotkou je vrstva (layer), což je výsek geografické reality v určité oblasti. Vrstva je ekvivalentem prvku legendy na papírové mapě; například města, silnice nebo hranice lze považovat za různé vrstvy. Pro správu databází a souborů GIS existují různé formáty a systémy. Jedním z nejoblíbenějších je formát Shapefile vytvořený v 90. letech 20. století, který je podporován téměř všemi typy softwaru GIS, obsahuje ovšem jisté nevýhody, mezi které patří velký počet souborů na jednu vrstvu, omezení počtu znaků v názvu sloupce a poměrně značná velikost souboru. Mimo jiné i z těchto důvodů se doporučuje používat databáze jako Geodatabase (ArcGIS), GeoPackage (QGIS) nebo PostgreSQL/PostGIS (pro serverová řešení).
Vrstvy v GIS lze rozdělit na dva hlavní typy: vektorové a rastrové. Vektorová vrstva je založena na reprezentaci dat ve formě bodů, linií nebo polygonů (ploch) a je určena pro diskrétní (nespojitá) data. Vektorový model také předpokládá existenci atributové tabulky (rysy, charakteristiky) pro každou vrstvu. Ta obsahuje informace uspořádané do sloupců, například pro název, typ nebo číselnou hodnotu
10. Mapy a geografické informační systémy…
spojenou s objektem. Součástí atributové tabulky je také geometrie, tedy umístění bodů, průběh linií nebo tvar polygonů. Příkladem údajů uložených ve vektorovém modelu jsou například města (body s názvem, typem a počtem obyvatel), silnice (typ silnice, délka) nebo lesy (typ porostu, rozloha). Rastrový model je naproti tomu založen na reprezentaci dat ve formě obrazu (bitmapy) sestávajícího z pixelů tvořících mřížku (grid), jejíž oka mají číselné hodnoty. Tento model je určen k reprezentaci spojitých dat (pokrývajících celé území), jako je půdní pokryv, ale také satelitní/letecké snímky, numerický model terénu a starý mapový snímek. Oba modely nacházejí své uplatnění v GIS, ale většinou pro různé typy informací.
Aby mohla být rastrová data (obrázky, bitové mapy) použita v GIS, ať už jako zdroj vektorových dat (viz níže), nebo pouze jako data pro účely vizualizace, musí být georeferencována, jak již bylo zmíněno v souvislosti s geoportály poskytujícími přístup ke starým mapám. Georeferencování (známé také jako kalibrace) spočívá v propojení (registraci) obrazu se zeměpisným souřadnicovým systémem. Teprve po vytvoření takového spojení může být rastrový soubor (mapa, letecký snímek) zdrojem dalších analýz v GIS. Zjednodušeně řečeno, tento proces zahrnuje přiřazení informací o zeměpisné délce a šířce k pixelům rastru. Může spočívat buď v ručním zadání těchto hodnot (po zaměření konkrétního pixelu), nebo v propojení rastrového snímku s georeferencovanými daty pomocí identifikace identických objektů na kalibrovaném a referenčním snímku, např. kostelů nebo křižovatek silnic. Bez ohledu na zvolenou cestu budou výsledkem takzvané zarovnávací body, tj. rastrové pixely s přiřazenými souřadnicemi (obr. 0). Jejich počet, který je třeba získat, závisí na kartometričnosti (přesnosti) kalibrované mapy: zjednodušeně řečeno, čím méně přesná je mapa, tím více bodů je třeba. Je to dáno typem transformace, kterou software GIS provede, aby rastr přizpůsobil zeměpisnému souřadnicovému systému. V závislosti na softwaru jsou k dispozici různé typy transformací, ale zpravidla se dělí na jednoduché transformace založené na metodách podobnosti (Helmertova transformace, similarity) přes afinní (polynomiální) transformace až po lokální transformace (rubbersheeting, triangulace). Čím pokročilejší je stupeň transformace, tím více bodů nastavení je zapotřebí. Efektem podobnostních metod je pouze posun, měřítko a otočení rastru, čímž se zabrání jeho zkreslení nebo deformaci. V případě afinních transformací může dojít i ke zkreslení obrazu. Lokální transformace naproti tomu přizpůsobují body nastavení přesně tam, kde jsou uvedeny souřadnice, ale děje se tak za cenu deformace obrazu (někdy výrazné). Přesnost kalibrace se měří pomocí střední kvadratické chyby (RMSE – Root Mean Square Error), která se (nejčastěji) udává v metrech a udává rozdíl v poloze bodů nastavení na kalibrované mapě vzhledem k odpovídajícím souřadnicím. Přesnost kalibrace starých map nebude nikdy tak vysoká jako u moderních map a u map z konce
Od Gutenberga k Zuckerbergovi
18. a počátku 19. století může dosahovat až 1 000 metrů. Přijatelnost chyby závisí na typu prováděné analýzy a dostupnosti kartografického materiálu a měla by být posuzována případ od případu.
V GIS existují dva typy zdrojů vektorových dat, tedy bodů, linií nebo ploch popsaných tabulkou atributů. Prvním z nich jsou online databáze, například výše zmíněné historické nebo současné geoportály. Takto získaná data lze použít pro vlastní analýzy v souladu s licencí, pod kterou jsou zpřístupněna. Nejčastěji je lze stáhnout ve formátech GIS (Shapefile, prostorové databáze) nebo jako služby prostorových dat (například WFS – Web Feature Service). V obou případech mají uživatelé data připravena v počítači k další analýze. Druhým zdrojem dat jsou kalibrované rastrové snímky, které jsou podkladem pro extrakci geometrie a atributů, a nekartografické zdroje, z nichž lze určit atributy objektů se známou geometrií. Transformace rastrového obrazu na vektorový model se nazývá vektorizace. Nejběžnější je takzvaná rastrová vektorizace, která spočívá v ručním překreslení tvaru objektu, například bodu s městem, průběhu silnice nebo rozlohy lesa. Stále častěji se také používají automatické a poloautomatické metody vektorizace založené na algoritmech rozpoznávání obsahu obrazu. Bez ohledu na metodu je výsledkem vektorizace vektorový datový model, který je obvykle obohacen o atributy objektu, např. název pro sídlo, typ pro silnici nebo typ stanoviště pro les (obr. 1). Tyto nekartografické zdroje mohou být nejen zdrojem atributů, ale také geometrie, pokud jsou známy souřadnice objektů. Takzvaný proces geokódování převádí souřadnice (zeměpisnou délku a šířku) na objekty (obvykle body) ve vektorovém modelu. Geokódování pomocí Google nebo OpenStreetMap dat umožňuje zásuvný modul „MMQGIS“ v programu QGIS. Data v této podobě, získaná nebo sestavená z rastrových dat, jsou v dalším kroku nejčastěji předmětem atributových nebo prostorových analýz.
3.3. Analýza dat
Zpracování a analýza prostorových dat v GIS umožňují klást otázky a poskytovat odpovědi. Někdy i jednoduchá kartografická vizualizace informací, které byly dříve uloženy v podobě textu nebo tabulek, umožňuje nový pohled na zkoumanou problematiku. Možných aplikací GIS pro dolování dat je velmi mnoho a není třeba je zde všechny charakterizovat, ale spíše podat přehled těch, které mohou najít své uplatnění při kvalitativní analýze dat v oblasti humanitních věd. Vektorové analýzy dat v GIS lze rozdělit na dva typy: atributové a prostorové. První z nich se týkají popisných nebo kvantitativních charakteristik objektů, například výběru měst daného řádu nebo velikosti, a druhé prostorových, například označení měst, která se
10. Mapy a geografické informační systémy…
nacházejí v dané zemi nebo v určité vzdálenosti od silnice. Oba typy analýz se nejčastěji kombinují a vytvářejí prostorově atributové analýzy, které mohou být zapsány ve formě modelů nebo skriptů. Nejčastějšími atributovými analýzami jsou výběr (selekce), kombinování vrstev na základě atributových vztahů a různé operace prováděné nad tabulkami vrstev, například statistické operace. Výběr objektů nebo skupin objektů, které splňují požadovaná kritéria, je nejběžnějším typem atributové analýzy. Takzvaný atributový výběr umožňuje vybírat záznamy (objekty) z atributové tabulky prostorové databáze pomocí jazyka SQL (Structured Query Language). Jedná se o běžně používaný dotazovací jazyk pro manipulaci s daty v databázích. Využívají ho také nejpopulárnější programy pro GIS (ArcGIS, QGIS). SQL používá operátory pro výběr záznamů podle kritérií, jako je „rovnost (stejnost)“ a „menší/větší“. Dotazy lze kombinovat a vybírat například lokality, které jsou obcemi s více než 100 obyvateli (obr. 2). Jednou ze základních funkcí databází (včetně těch v GIS) je kombinovat dvě nebo více vrstev či tabulek. Předpokládáme-li situaci, kdy máme vrstvu lokalit (každou s jedinečným identifikátorem) a tabulku s užitečnými informacemi o lokalitách, ale bez geometrie, můžeme tyto tabulky spojit pomocí zmíněného jedinečného identifikátoru (tzv. attribute join). Operace spojení zahrnuje vytvoření vztahu mezi vrstvami na základě identity (stejnosti) klíčů: primárního klíče ve zdrojové tabulce a cizího klíče ve spojované tabulce. Příkladem takového klíče může být výše zmíněný jedinečný identifikátor lokality, který máme v obou tabulkách a který slouží k jejich vzájemnému propojení (obr. 3). Spojování vrstev je také velmi častým analytickým scénářem a umožňuje další vyhledávání, například výběr objektů nebo operace nad atributovými tabulkami. Ty se týkají především analýz statistických vlastností objektů a skupin objektů v závislosti na úrovni měření našich dat (kvalitativní/kvantitativní).
Mezi nejčastěji používané prostorové analýzy patří prostorový výběr, kombinování vrstev na základě prostorových vztahů, generování nárazníkových zón kolem objektů (zóny vlivu/dopadu), generování ohniskových bodů (centroidů) a okolí, rozdělení analyzované oblasti na menší fragmenty (tesselace) a vytváření matic vzdáleností. Výběr na základě atributů, popsaný v předchozím odstavci, je založen na popisných vlastnostech vrstvy a SQL. Prostorový výběr je naproti tomu založen na prostorových vztazích, obvykle mezi dvěma nebo více vrstvami. K tomuto účelu se používají prostorové operátory (programy GIS: ArcGIS, QGIS) nebo rozšířené SQL (databáze PostgreSQL/PostGIS). Mezi nejčastěji používané operátory prostorových vztahů mezi vrstvami lze zařadit (obr. 4): – průsečík (intersect) – dvě vrstvy se protínají; – zadržení / obsažení (contain) – jedna vrstva obsahuje jinou vrstvu (například bodové objekty jsou obsaženy v povrchové vrstvě;
Od Gutenberga k Zuckerbergovi
– vzdálenost (distance) – objekty v jedné vrstvě jsou v dané vzdálenosti od objektů v druhé vrstvě;
– nejbližší soused (closest) – objekty v jedné vrstvě jsou nejblíže objektům v druhé vrstvě.
Pomocí těchto (a dalších) operátorů lze mimo jiné vybrat města nacházející se v daném kraji, silnice procházející vybranou provincií nebo národní parky v dané zemi. Je také možné spočítat počet bodů obsažených v daném polygonu. Zajímavé je, že prostorové vztahy lze ukládat také jako popisné atributy, například atributem sídla může být jeho příslušnost k okresu nebo provincii. Pak pro vyhledání sídla v dané administrativní jednotce můžeme použít buď atributový, nebo prostorový dotaz. Prostorové dotazy a jejich operátory se také často používají ke spojení dvou vrstev na základě prostorových vztahů. Zatímco při atributovém slučování vrstev byl primárním a cizím klíčem spojovací identifikátor, v tomto případě se slučování provádí prostřednictvím prostoru a jeho vztahů pomocí výše uvedených operátorů. Spojování vrstev na tomto základě (spatial join) umožňuje využívat plnou prostorovou funkčnost GIS. Mezi další typy prostorové analýzy patří vytváření bufferů kolem objektů – oblastí, jejichž hranice jsou od objektu vzdáleny o určitou hodnotu. Buffery umožňují modelovat zóny vlivu, například definováním 10 km bufferu kolem důležité silnice a výběrem měst v jeho hranicích (obr. 5). Zajímavými analýzami, které mohou najít vlastní uplatnění v datech z oblasti humanitních věd, jsou ohniskové body (centroidy) a obálky. Centroidy se vytvářejí ve středovém bodě objektu, obvykle polygonu, ale také linie nebo souboru bodů, a umožňují modelovat geografické těžiště jevu. Specifickým typem centroidů jsou prostorové vážené průměry, jejichž poloha se vypočítává na základě kvantitativního atributu objektů. K analýze síly dopadu lze použít také takzvané obálky – polygony vytvořené kolem souboru bodů. Další často používanou analýzou je rozdělení dané oblasti na menší fragmenty (teselace), například pro regionalizaci (rozdělení na základě podobnosti atributů objektů). Existují dvě běžné metody teselace: generování čtvercové sítě nebo Thiessenových (Voronoiových) polygonů. Čtvercová síť pokrývá oblast s mřížkou čtverců a požadovanou velikostí a na základě prostorového vztahu mezi ní a objekty ležícími v jejích okách lze přenášet informace z bodu nebo linie do oblasti. Tímto způsobem lze například vypočítat hustotu jevu. Z analytického hlediska jsou zajímavější již zmíněné Thiessenovy polygony. Jsou vytvořeny tak, že hranice mezi body (například lokalitami) jsou vedeny přesně v polovině jejich vzdálenosti, což odráží sílu prostorové interakce těchto bodů (obr. 6). Základní vlastností Thiessenových polygonů je změna zobrazení jevu z bodu na plochu pomocí geostatistických a matematických operací. V důsledku toho je výsledný model prostorový, spojitý, ale negeografické povahy, protože při tvorbě polygonů
10. Mapy a geografické informační systémy…
se nezohledňují topografické překážky, ale pouze vzdálenosti mezi body. Přesto se jedná o často používaný nástroj, a to i v humanitním výzkumu, například v historické geografii pro vymezení hranic.
Jak již bylo zmíněno, atributové a prostorové analýzy se často kombinují, aby se získaly odpovědi na složité otázky a využil se potenciál GIS a synergie mezi popisnými a geografickými informacemi. Poměrně typickým analytickým scénářem je například provedení atributového nebo prostorového dotazu za účelem zúžení souboru, po němž následuje určitá prostorová analýza (například kešování) a opět výběr atributů. Regionalizace zmíněná v předchozím odstavci je rovněž založena na kombinaci obou analýz a například po výběru lokalit podle typu nemovitosti se kolem každé z nich vygenerují Thiessenovy polygony, které se následně agregují a získají se mapy nemovitostí v dané oblasti. Tímto způsobem přecházíme od velmi podrobných informací vztažených k bodům k zobecněným informacím vztaženým k ploše, které poskytují názornější a syntetičtější sdělení.
3.4. Vizualizace
Vizualizaci lze označit jako souhrn grafických metod pro vytváření, zpracování, analýzu a sdělování informací. Výsledky vědeckého výzkumu mohou být sdělovány vizuálními prostředky a grafikou především v technických a přírodních vědách, ale také ve vědách humanitních, například pomocí diagramů, sítí, grafů a map. Termín „vizualizace“ je někdy pojímán velmi široce a zahrnuje všechny činnosti, jejichž výsledkem je grafický obraz: od sběru dat až po jejich analýzu, ale pro účely této kapitoly bude zúžen na vytvoření vhodné grafické podoby. Mapa je podle mnoha definic především způsob předávání informací, druh infografiky, a jako taková by měla splňovat znaky čitelného, názorného a metodicky správného zobrazení prostoru. O tyto vlastnosti by měla usilovat i mapa vytvořená nekartografy. V době takzvané neokartografie má možnost vytvářet mapy pomocí GIS téměř každý, ale měly by se dodržovat konvence vytvořené kartografy.
Vizualizaci, chápanou jako vývoj grafické podoby, lze v jistém smyslu považovat za součást analýzy dat. Dodání vhodné symbolizace zdrojovým datům GIS umožní lepší pochopení jejich obsahu pouze prostřednictvím grafických proměnných (obr. 7). Tento druh vizualizace může být buď předstupněm atributových a prostorových analýz, nebo jejich vyvrcholením – prezentací historické mapy, která vysvětluje nebo interpretuje jevy. V závislosti na povaze a prostorovém vztažení dat by měly být použity další kartografické vyjadřovací prostředky, nazývané také metody kartografické prezentace. Zjednodušeně lze hovořit o rozdělení na kvantitativní data (mající inter-
Od Gutenberga k Zuckerbergovi
valové, proporcionální nebo ordinální charakteristiky) a kvalitativní data (mající nominální charakteristiky) se třemi různými způsoby prostorového odkazování (bodové, liniové a plošné).
Geografické údaje kvalitativní povahy jsou například lokality různého charakteru (body), silnice různého významu (linie) nebo správní jednotky (oblasti). K prezentaci bodů a linií se používá metoda signatur, kde každá signatura (kartografická značka) odpovídá dané obsahové kategorii, například u lokality je to kruh pro obec a čtverec pro město. Kvalitativní údaje lze snadno kvantifikovat a například mapu hustoty obcí nebo silnic lze vytvořit pomocí takzvané tepelné mapy (Heat Map), která zobrazuje hustotu daného jevu v předpokládaném okruhu (obr. 8). Jedná se o často používanou metodu analýzy hustoty. Kvalitativní prezentace ploch zahrnuje dvě metody: chorochromatickou metodu a metodu rozsahu. Obě umožňují zobrazit rozsah výskytu jevu souvisejícího s povrchem, ale rozdíl v jejich použití je dán povahou jevu. V případech disjunktních a vyčerpávajících jevů, jako je administrativní členění nebo mapy půdního pokryvu, používáme chorochromatickou metodu. V opačném případě a v případech, kdy jsou rozdělení potenciální povahy, používáme metodu rozsahu. Obě metody se někdy považují za společnou metodu dvou variant ploch. Kvantitativními geografickými daty jsou například lokality s počtem obyvatel (body), silnice s dopravními informacemi (linie) nebo správní jednotky s počtem obyvatel (oblasti). Pro kvantitativní vizualizaci dat se všemi třemi způsoby vztažení se používá kartodiagram, tj. diagram (graf), jehož umístění odpovídá buď bodům, liniím, nebo oblastem (obvykle středu oblasti). Existuje mnoho typů diagramů a grafů. Z hlediska tvaru se dělí na sloupcové, čtvercové a kruhové, z hlediska prostorové reference na bodové a plošné (oba se stejným grafickým vyjádřením) a páskové (lineární) a z hlediska zobrazovaných jevů na jednoduché, strukturní, souhrnné a strukturně-souhrnné. Kartodiagram lze vytvořit jak pro absolutní, tak pro relativní údaje (obr. 9). Další metodou vizualizace kvantitativních údajů (pro plošné jednotky) je kartogram, který zobrazuje průměrnou hodnotu jevu v konkrétních prostorových jednotkách (obvykle administrativních jednotkách). Kartogram využívá buď relativní údaje (například míru nezaměstnanosti), nebo údaje vztahující se k oblasti (hustotu zalidnění). Údaje v kartogramu jsou seskupeny do tříd a prezentovány v podobě barevné škály (obr. 10). Vzhledem k vysoce kvantitativní povaze vstupních dat najdou metody, jako jsou izolinie nebo bodové mapy, v humanitních vědách spíše omezené využití, přesto však stojí za zmínku.
Aby bylo možné připravit mapu pro tisk nebo webovou prezentaci, je nezbytné – bez ohledu na zvolený způsob kartografické prezentace – pamatovat na legendu, která příjemci vysvětlí použité symboly, název (někdy může být v popisku k mapě) a také měřítko. U map, které
10. Mapy a geografické informační systémy…
mají být prohlíženy na obrazovce, je mnohem lepší vytvořit (nebo vygenerovat v programu GIS) měřítko, protože bude informovat o vztahu mezi mapou a skutečností bez ohledu na zvětšení/zmenšení. Šipka severu, pokud není mapa orientována jiným směrem, není nutná.
BIBLIOGRAFIE
BODENHAMER, D. J., CORRIGAN, J. a T. HARRIS (eds.). Deep maps and spatial narratives. Bloomington: Indiana University Press, 2015.
BODENHAMER, D. J., CORRIGAN, J. a T. HARRIS (eds.). The spatial humanities: GIS and the future of humanities scholarship. Indianapolis: Indiana University Press, 2010.
DEAR, M., KETCHUM, J., LURIA S. a D. RICHARDSON. GeoHumanities. Art, history, text at the edge of place. New York: Routledge, 2011.
EDNEY, M. H. Cartography. The ideal and its history Chicago, Londýn: The University of Chicago Press, 2019.
GEDDES, A. a I. N. GREGORY (eds.). Toward spatial humanities: Historical GIS and spatial history. Bloomington: Indiana University Press, 2014.
GREGORY, I. N., DEBATS, D. a D. LAFRENIERE (eds.). The Routledge Companion to Spatial History. Georgetown: Taylor and Francis, 2018.
GREGORY, I. N. a P. ELL Historical GIS: technologies, methodologies, and scholarship. Cambridge: Cambridge University Press, 2007.
IWAŃCZAK, B. QGIS 3.14: tworzenie i analiza map. Gliwice: Helion, 2021.
JAŻDŻEWSKA, I. a Ł. LECHOWSKI. Wstęp do geoinformacji z ArcGIS. Lodž: Wydawnictwo Uniwersytetu Łódzkiego, 2018.
KNOWLES, A.. Placing history: how maps, spatial data, and GIS are changing historical scholarship. Redlands: ESRI, 2008.
KRONENBERG, A. Geopoetyka. Związki literatury i środowiska. Lodž: Wydawnictwo Uniwersytetu Łódzkiego, 2014.
MCCOY, M. Maps for time travelers: how archaeologists use technology to bring us closer to the past. Oakland: University of California Press, 2020.
MEDYŃSKA-GULIJ, B. Kartografia i geomedia. Varšava: Wydawnictwo Naukowe PWN, 2021.
PASŁAWSKI, J. (ed.). Wprowadzenie do kartografii i topografii. Vratislav Nowa Era, 2010.
RYBICKA, E. Geopoetyka. Przestrzeń i miejsce we współczesnych teoriach i praktykach literackich. Krakov: Universitas, 2014.
SIRKO, M. Zarys historii kartografii. Lublin: Wydawnictwo UMCS, 1999.
TYSZKIEWICZ, J. Geografia historyczna: Zarys problematyki. Varšava: Wydawnictwo DiG, 2014.
URBAŃSKI, J. GIS w badaniach przyrodniczych. Gdaňsk: Uniwersytet Gdański, 2012.
ŻYSZKOWSKA, W., SPALLEK, W. a D. BOROWICZ. Kartografia tematyczna Varšava: Wydawnictwo Naukowe PWN, 2012.
Obrázek 1. Georeference jednoho z mapových listů D. Gillyho (1:150 000, 1802–1803) s využitím pěti bodů nastavení určených na základě identifikace bodů prvků na staré a moderní mapě. Červené čáry označují vektory posunu, které vizualizují potenciální zkreslení mapy v důsledku georeferencování. V tabulce jsou uvedeny zdrojové souřadnice (z rastru) a cílové souřadnice (z geografického souřadnicového systému). Zdroj: vlastní zpracování na základě údajů z WWW: http://igrek.amzp.pl/ ( dostup 11 7 . 2022) .
251 10. Mapy a geografické informační systémy…
Obrázek 2. Fragment takzvané Gaulovy/Raczyńského mapy (cca 1:125 000, 1807–1812) s vyznačenými lokalitami (červené body) a jejich atributy v tabulce, například identifikátor, název, zdroj, typ. Zdroj: vlastní zpracování na základě údajů z
WWW: https://data.atlasfontium.pl/ (dostup 11 . 7 . 2022) .
Obrázek 3. Výběr objektů pomocí SQL v QGIS. Z vrstvy Settlements vybereme všechny, které představují vesnice („type_pl” = „wieś”) a mají více než 100 obyvatel („L_LUDNOSCI” > 100). Zdroj: vlastní zpracování na základě údajů z: z https://data. atlasfontium.pl/ (dostup: 11. 7. 2022).
10. Mapy a geografické informační systémy…
Obrázek 4. Příklad sloučení vrstev v QGIS podle společného klíče. Tabulka „Settlements - Gaul/Raczyński” (lokality z mapy 19. století) je spojena s tabulkou „Settlements - AHP” (lokality z historického atlasu Polska 16. století), takže můžete vidět, které lokality se mezi těmito datovými sadami překrývají a jak se změnily jejich názvy nebo typy. Primární klíč (Target field) je „id_ahp” a cizí klíč (Join field) je „id_miejsco”. Zdroj: vlastní zpracování na základě údajů z WWW:https://data.atlasfontium.pl/ (dostup: 11. 7. 2022).
Obrázek 5. Schéma vybraných prostorových vztahů mezi vrstvami GIS. Zdroj: vlastní zpracování.
6. Příklad buforů o poloměru 500 metrů kolem obce (bodů). Zdroj: vlastní zpracování na základě údajů z WWW:
https://data.atlasfontium.pl/ (dosupp: 11. 7. 2022).
10. Mapy a geografické informační systémy…
Obrázek 7. Příklad použití Thiessenových polygonů a čtvercové sítě k rozdělení oblasti pro analytické účely a k výpočtu například hustoty osídlení Zdroj: vlastní zpracování na základě údajů z WWW: https://data. atlasfontium.pl/ (dostup: 11. 7. 2022).
Obrázek 8. Příklad dat před a po symbolizaci. Nahoře data GIS z Historického atlasu Polska. Podrobné mapy 16. století a dole stejný fragment v podobě upravené mapy. Zdroj: vlastní zpracování na zákaldě dat z WWW: https://data.atlasfontium.pl/ (dostup: 11. 7. 2022) a SŁOŃ, M. ed.). Ziemie polskie Korony w drugiej połowie XVI wieku. Cz. 1, Mapy, plany. Varšava 2021
10. Mapy a geografické informační systémy…
Obrázek 9. Použití takzvané Heat Map k vizualizaci hustoty jevu na příkladu větrných mlýnů v západním Velkopolsku na počátku 19. století. Nahoře signální mapa (jeden symbol představuje jednu turbínu), dole mapa hustoty.. Zdroj: vlastní zpracování na základě dat z WWW: https:// data.atlasfontium.pl/ (dostup: 11. 7. 2022).
Obrázek 10. Jednoduchý kruhový kartodiagram znázorňující počet obyvatel (absolutní údaje) v lokalitách (referenční bod) okresu Śrem Poznaňského departementu Varšavského knížectví. Zdroj: vlastní zpracování na základě dat z WWW: https://data.atlasfontium.pl/ (dostup: 11. 7. 2022).
10. Mapy a geografické informační systémy…
Obrázek 11. Kartogram znázorňující hustotu sídelní sítě (relativní údaje) v Poznaňském departementu Varšavského knížectví. Zdroj: vlastní zpracování na zákaldě dat z WWW: https://data.atlasfontium.pl/ (dostup: 11. 7. 2022).
Bogumił Szady
Kapitola 11
Digitální technologie v historickém výzkumu1 Úvod
Digitální technologie jsou v pracovnách historiků přítomny již mnoho desetiletí. Překvapením může být relativně malé zastoupení obsahu z této oblasti ve výuce dějepisu v Polsku. Týká se to jak teoretických aspektů spojených s vlivem digitálních technologií na provádění výzkumu a šíření jeho výsledků, tak i praktických dovedností využívání IT nástrojů v každodenní badatelské praxi. Změny způsobené zavedením digitálních nástrojů do historického výzkumu mají podobný charakter jako v jiných společenských a humanitních vědách. Digitalizace v nejširším slova smyslu zahrnuje postupy shromažďování a zpřístupňování výzkumných dat v režimu otevřeného přístupu, přičemž se nejedná pouze o zveřejnění výsledků, ale o veškerý materiál shromážděný v průběhu výzkumu. Způsob správy a zpřístupňování výzkumných dat je dnes součástí hodnocení výzkumných projektů předkládaných do soutěží Evropské rady pro výzkum (ERC) nebo Národního vědeckého centra (pol. Narodowe Centrum Nauki). Většina polských vědeckých institucí (univerzit, výzkumných ústavů) již disponuje digitálními repozitáři s infrastrukturou a vyvinutými metodami pro shromažďování a sdílení výzkumných dat. Kromě toho existují repozitáře otevřeného charakteru, kde jsou k dispozici nejen informace o publikačních výstupech, ale lze zde zveřejnit i datové sady nebo digitální nástroje (aplikace, skripty, algoritmy) pro práci s nimi. Stačí zmínit platformy jako Researchgate, Academia, Zenodo, RepOD, Github. Výzkumná data mohou být také předmětem vědecké publikace. Již řadu let existují nástroje pro vyhledávání projektů
Od Gutenberga k Zuckerbergovi
a vědecké repositáře, jako je například Registry of Research Data Repositories.
Rostoucí význam digitálních technologií ve vědeckém výzkumu vedl k rozvoji vědecké infrastruktury na úrovni konkrétních projektů a institucí národního nebo globálního rozsahu. Nejvýznamnějším projektem realizujícím tyto úkoly pro potřeby evropské a polské vědy je síť DARIAH (Digital Research Infrastructure for the Arts and Humanities), jejíž součástí je i DARIAH-PL, která v současné době realizuje projekt vybudování digitální infrastruktury pro polské humanitní vědy (DARIAH-LAB). Tato infrastruktura bude mít interdisciplinární charakter. Jednotné a strukturované prostředí pro shromažďování výzkumných dat usnadní jejich integraci a výměnu, přičemž digitální řešení, analytické metody a nástroje vyvinuté v určitém oboru lze úspěšně aplikovat v jiném. Dalším projektem celostátního charakteru, zaměřeným spíše na geografické vědy s důrazem na historickou a sociální geografii, je CENAGIS (Centrum geoprostorových analýz a satelitních výpočtů, pol. Centrum Analiz Geoprzestrzennych i Obliczeń Satelitarnych) vybudované na Varšavské technické univerzitě (pol. Politechnika Warszawska) a spolupracující s více než 20 vědeckými a výzkumnými pracovišti z celého Polska, která si vyměňují data a vytvářejí analytické a výzkumné nástroje na společné platformě. Je třeba dodat, že využívání digitálních technologií si vyžádalo také vypracování některých obecných zásad pro nakládání s výzkumnými daty, které dostaly zkratku FAIR (Findable, Accessible, Interoperable, Reusable).
Tento text má sloužit jako jakési kompendium či úvod, který snad povzbudí jednotlivce nebo týmy k rozšíření jejich techniky o IT nástroje. Vzhledem k velmi širokému záběru tématu nemá článek ambice zabývat se problémy teorie či metodologie historie.2 Na jedné straně neformuluje pokročilé způsoby využití IT nástrojů ve výzkumu, na druhé straně jsou opomenuty zcela základní otázky, jako je využití katalogů a vyhledávačů v digitálních knihovnách a archivech, stejně jako technické práce, jako je skenování nebo digitální fotografie. Kapitola představuje možnosti praktického využití digitálních nástrojů na střední úrovni, vyšší než je využití textového editoru a tabulkových procesorů a nižší než strojové učení nebo umělá inteligence. Týká se především práce s písemnými prameny, a to od středověku až po současnost, s výjimkou aplikací v archeologii a starověkých dějinách, kde má digitální rozměr vědy svá specifika. Zabývá se polskými soubory dat a příklady aplikací ve vztahu k polským dějinám, přičemž pokud hovoříme o nástrojích a metodách, které mají univerzálnější charakter, jde ještě dále. Kapitola pojednává o využití digitálních technologií ve všech fázích vědecké práce historiků, počínaje (a) získáváním dat z historických pramenů a literatury k danému tématu, přes (b) postupy a technologie napomáhající kritice shromáž-
11. Digitální technologie v historickém výzkumu
děného pramenného materiálu, dále (c) jeho analýzu a interpretaci až po (d) způsoby prezentace historických poznatků pomocí digitálních nástrojů. 3 Vzhledem k dynamice změn ve vývoji dostupných nástrojů je třeba učinit výhradu, že text se vztahuje k potřebám na přelomu prvního a druhého desetiletí 21. století. Lze s vysokou mírou pravděpodobnosti předpokládat, že velká část uvedených řešení, a tedy i badatelských postupů, bude v důsledku technologického vývoje za několik let zastaralá.
Ačkoli je využití digitálních nástrojů možné v každé fázi výzkumu, použitá IT řešení jsou podmíněna řadou faktorů: tematickým rozsahem výzkumu, rozsahem IT metod a možností, finančním a organizačním prostředím a konečně kompetencemi samotných historiků a jejich kolegů. Z tohoto důvodu jsou příklady použití a návrh obsažené v kapitole z velké části vlastní a vycházejí z autorových vlastních výzkumných zkušeností. Je třeba mít na paměti, že implementace digitálních technologií do výzkumného procesu se může týkat pouze jedné z etap badatelské práce, nebo i všech dohromady. V druhém případě je vhodné celý postup přehodnotit, neboť způsob sběru a přípravy pramenného materiálu určuje další postup. Stejně jako v případě klasické rešerše – nepromyšlené a špatně naplánované penzum zdrojů brání dalšímu využití shromážděných informací.
1. Získávání údajů z historických pramenů a informací z literatury k danému tématu
1.1. Postupy a metody
Rostoucí množství historických informací na internetu změnilo a nadále mění způsob získávání podkladů pro badatelskou práci. Systematické bibliografické rešerše se již neprovádějí trpělivým procházením rejstříků v jednotlivých svazcích Bibliografie polských dějin (pol . Bibliografia historii Polski) nebo Bibliografie obsahů časopisů (pol . Bibliografia Zawartości Czasopism). První z nich má online verzi připravenou ve spolupráci Historického ústavu Polské akademie věd a Ústavu národní paměti , druhá je součástí rozsáhlých digitálních zdrojů polské Národní knihovny.Většina základních historických příruček je k dispozici také v elektronické podobě: Zeměpisný slovník Království polského a ostatních slovanských zemí (pol. Słownik geograficzny Królestwa Polskiego i innych krajów słowiańskich) je k dispozici dokonce ve dvou online verzích. Historici dnes hojně využívají tematické a institucionální digitální repositáře, kde vyhledávají bibliografické informace a digitální kopie materiálů, které
24
Od Gutenberga k Zuckerbergovi
jsou často s těmito údaji propojeny. Vznikají také portály, které tyto zdroje integrují a usnadňují jejich vyhledávání. Stačí zmínit takové kanonické nástroje pro každého historika, jako je Katalog sbírek polských vědeckých knihoven (NUKAT, pol. Katalog Zbiorów Polskich Bibliotek Naukowych), Federace digitálních knihoven (FBC, pol. Federacja Bibliotek Cyfrowych), Distribuovaný katalog polských knihoven (KARO, pol. Katalog Rozproszony Bibliotek Polskich) nebo Hledej v archivech (pol. Szukaj w Archiwach). Mnohé z nich jsou součástí evropské infrastruktury Europeana. Nedávno bylo spuštěno Národní úložiště objektů vědy a kultury (KRONIK@, pol. Krajowe Repozytorium Obiektów Nauki i Kultury), které bude integrovat všechny digitální zdroje polské kultury a vědy a bude součástí národní infrastruktury pro sdílení dat. Problémem historiků v současnosti není nedostatek přístupu k pramenným datům (vyjma soukromých sbírek, například církevních a zahraničních archivů, zejména na území bývalého SSSR), ale spíše jejich nadbytek a potřeba jejich efektivního zpracování.
Zavedení digitálních nástrojů do procesu získávání informací z historických pramenů značně usnadňuje využití shromážděných údajů za předpokladu, že jsou zachovány určité osvědčené postupy.
Důležitou otázkou je zde příprava vhodné struktury pro získané informace. Pouhé naskenování pramene nebo dokonce přečtení jeho obsahu pomocí OCR nebo HTR aplikací ještě neznamená, že mají informace charakter výzkumných dat. Informace získané z historických pramenů mohou být uspořádány pomocí různých jazyků a metod záznamu. Aniž bychom se pouštěli do terminologické diskuse o tom, která z těchto metod představuje značkovací jazyk, dotazovací jazyk nebo datový formát, lze identifikovat dvě hlavní cesty – záznam strukturovaného textu (SGML-like, ISO 8879) a relační databáze (SQL-like, ISO 9075). První přístup se častěji používá při práci s narativním textem v jeho plné podobě nebo s rozsáhlými a souvislými fragmenty pramenů (například diplomatika, epistolografie, memoáry a deníky), zatímco druhý při analýze vybraných a kratších fragmentů pramenného textu, popisujících názvy míst, osob, institucí, událostí nebo předmětů (například ekonomické prameny, geografické a statistické soupisy, osobní dotazníky). Problémem stále zůstává volba metody pro práci s prameny hromadného charakteru, jako jsou soudní protokoly nebo kanonické vizitace.4 Vzhledem k tomu, že obě cesty využívají určitý datový model a strukturu, není jejich konverze a výměna příliš obtížná. Volba primární metody sběru výzkumných dat se v podstatě shoduje s výše uvedenými kritérii, přičemž do popředí zde vystupují vlastnosti zdroje, účel sběru a IT kompetence výzkumného týmu. Důležité však je, že datový model připravený pro strukturování informací z historických zdrojů by měl být nezávislý na zvolené metodě strukturování textu
11. Digitální technologie v historickém výzkumu
nebo na použitých IT nástrojích (Computation Independent Model, Platform Independent Model). Při modelování by měly být použity metody a řešení již používané ve světě IT. Přitom by měla být zohledněna specifika historických informací a historického zdroje.
Budování struktur pro historické informace se dnes provádí mnoha způsoby. Historikové často postupují zkratkovitě tak, že do databáze nebo jiného typu sbírky vkládají již zpracované informace a přizpůsobují jejich uspořádání struktuře výzkumných otázek v projektu, který provádějí. Lze říci, že nástup IT nástrojů spíše než k prohloubení v praxi často vedl ke zploštění (zjednodušení) metodologie výzkumu. Přeneseme-li to na tradiční práci s historickými prameny, dochází často k přeskočení fáze zjišťování (čtení) pramenného textu s přímým přechodem k jeho výkladu. Historické údaje vzhledem ke svým vlastnostem vyplývajícím ze specifičnosti pramene původu (neúplnost, nepřesnost, subjektivita) vyžadují oddělení vlastní registrace od analýzy či kritiky získaných informací. Struktura pro údaje získané z historických zdrojů by měla být připravena na základě předpokladů vyplývajících z FAIR. Zaprvé by měla být připravena tak, aby bylo možné shromážděné údaje snadno transformovat a použít v jiném výzkumu, než který je hlavním cílem projektu. Za druhé: kategorie, pojmy a třídy zavedené pro strukturování informací by měly odkazovat na existující oblast znalostí: řízené slovníky, doménové ontologie a platné referenční sbírky. Za třetí, struktura dat by měla být plánována tak, aby bylo minimalizováno zkreslení (transformace) informací uložených ve zdroji. Příliš přímé svázání struktury získaných dat se strukturou výzkumných otázek nebo klasifikace vnucené shora dolů mohou vést k zobecnění a ztrátě zdrojových informací, které mohou být důležité pro jinou studii. Příkladem může být snaha zaznamenat typy historických sídel pomocí současných kategorií. Mnohé z nich dnes neexistují – považovat historickou kategorii „městečko“ za ekvivalent „města” je zobecnění, které je platné z hlediska historické geografie (typ sídla), a ne nutně z hlediska prosopografického výzkumu (místo vzniku). Výše nastíněný problém se řeší uplatněním vícemodelového přístupu ke sběru historických informací, tedy oddělením, a to jak na koncepční úrovni, tak na úrovni realizace, struktur připravených pro sběr, analýzu či zpracování a prezentaci a sdílení dat (obr. 1). Ve fázi sběru dat je vhodné připravit datový model pokud možno blízký struktuře informací v samotném historickém zdroji (Source-Driven Data Model), který bude následně transformován do analytického modelu.
Od Gutenberga k Zuckerbergovi
Obrázek 1. Schéma vícemodelového přístupu v geograficko-historickém výzkumu (B. Szady, T. Panecki, Source-driven data model for geohistorical records‘ editing: a case study of the works of Karol Perthées. Miscellanea Geographica. 2022, č. 26 (1), s. 56).
Promyšlená a ověřená struktura shromážděných informací je důležitá zejména pro rozsáhlé společné práce. Shromažďování informací pomocí serverových a síťových řešení má mnoho výhod oproti konzervativnějšímu přístupu, kdy se shromážděné zdroje nacházejí jako soubor v počítači uživatele. Během kolaborativního sběru zdro -
11. Digitální technologie v historickém výzkumu
jových informací je nutné koncepční a procedurální vyjasnění, které usnadňují instrukce a přesný popis a charakteristika dat. Je třeba si uvědomit, že pro výzkumné týmy je poměrně obtížné udržet úplnou konzistenci údajů při sběru informací z historických zdrojů. Úroveň konzistence shromážděných informací lze zlepšit zavedením různých typů mechanismů kontroly informací na úrovni databáze (klíče, omezení, spouštěče) nebo aplikace (formuláře, zaškrtávací políčka). Konzistence dat při práci v týmech a při použití serverového řešení se zlepšuje tím, že se pracuje s jednou verzí dat, a ne s tolika verzemi, kolik je členů týmu.
Z hlediska výzkumné dílny je při sběru historických výzkumných dat zásadní zachovat rozdíl mezi zdrojovými daty a kritickými informacemi, které z nich vyplývají (obr. 2). 5 Práce podle takové metodiky totiž vždy umožňuje vrátit se k pramenné základně historikových zjištění a ověřit je. Je sice pravda, že podle názoru některých odborníků je uchovávání původních i modernizovaných záznamů časově velmi náročné a nepřináší mnoho výhod, ale praxe ukazuje opak.
Obrázek 2. Rozdělení historické databáze na zdrojové a kriteriální schéma (B. Szady, Czasowo-przestrzenne bazy danych jako narzędzie w geografii historycznej. Acta Universitatis Lodziensis. Folia Geographica Socio-Oeconomica. 2013, č. 14, s. 23).
1.2. Nástroje a služby
Převod historických pramenů a vědeckých studií do digitální podoby, především prostřednictvím skenování a digitální fotografie, znamenal revoluci ve způsobu získávání materiálů pro vědecký výzkum. Pro většinu historiků z této revoluce vyplývá především změna způsobu přístupu k informacím – již totiž není nutné putovat do archivu nebo knihovny, k obrazu pramene je možné se dostat u svého počítače, na pracovišti nebo doma. Obraz pramene se stále méně často získává přímo z datových nosičů (disků, DVD či CD) a stále častěji se stahuje
Od Gutenberga k Zuckerbergovi
z některé z digitálních knihoven nebo se jednoduše prohlíží v aplikaci ve webovém prohlížeči (pdf, jpg, djvu). Přenos informací z původního zdroje, z kopie mikrofilmu nebo z digitální kopie (zejména kvalitní) může vypadat velmi podobně. Je snadné si představit historika, který při pohledu na čtečku nebo obrazovku počítače jako na knihu v archivu vezme do ruky papír a tužku, aby si připravil papír s informacemi, které ho zajímají. Můžeme si troufnout odhadnout, že většina historiků v Polsku již nahradila papír nějakou formou evidence v počítačové aplikaci a přenáší informace z pramenů, a to jak těch, které leží v archivech, tak skenů, přímo do digitální podoby (textový editor, tabulkový procesor, databáze nebo jiná aplikace).
V předchozím odstavci bylo záměrně použito poněkud obecné slovní spojení: digitální forma. Při získávání dat v digitálním věku není ani tak důležitá forma pramene, ale právě digitální forma, do které jsou historické informace zpracovány. V tomto ohledu poskytují digitální obraz a počítačové nástroje historikovi mnohem více možností, jak zkvalitnit vědeckou práci a zvýšit její kvalitu. Abychom mohli tyto možnosti využít, je třeba překročit rámec textového procesoru a obrátit zrak k pokročilejším nebo dokonce připraveným nástrojům pro vedení dotazů způsobem, který usnadní pozdější práci s informačním materiálem, jeho zpracování, analýzu a interpretaci. Snadná dostupnost mnoha pramenů v digitální podobě nesmí historiky přimět k tomu, aby opustili pracovní metodiku provádění systematických bibliografických a pramenných rešerší ve prospěch přepisu informací z pramenů či literatury přímo do odborného textu. První skupinou nástrojů, které mohou poskytnout úvod do získávání informací strukturovaným způsobem, jsou správci bibliografie. Nejedná se samozřejmě o aplikace určené pouze historikům, ale historikům se vyplatí je hojně využívat. Z nejznámějších nástrojů tohoto typu stojí za zmínku bezplatný software Zotero nebo Mendeley a komerční balík Citavi. Tyto aplikace mají desktopovou i webovou verzi. Všechny mají rozšíření (pluginy), která jim umožňují spolupracovat s prohlížeči a textovými editory. Umožňují rychlé vyhledávání bibliografických popisů z databází mnoha polských i zahraničních knihoven (například z Národní knihovny, NUKAT, Kongresové knihovny USA, Harvardovy univerzity – HOLLIS, WorldCat atd.). Výrazně zkvalitňují poznámky pod čarou v textu a převod stylu bibliografického popisu v celé publikaci, což je nyní důležité s ohledem na požadavky časopisů. K tomu se přidává možnost sdílení bibliografií, snadný import a export bibliografických popisů v nejoblíbenějších formátech, jako je ris nebo bibtex. Každý historik, který se potýká s tisíci pdf, jpg, tiffů atd. najde řešení svých problémů. Čas strávený učením a implementací správce bibliografií do vaší dílny se velmi rychle vrátí. Ke každému zpracovávanému bibliografickému titulu nebo archivní jednotce lze připojit digitální obrázek zdroje. A co je
11. Digitální technologie v historickém výzkumu
Od Gutenberga k Zuckerbergovi
nejdůležitější, některé bibliografické manažery disponují rozsáhlým systémem anotací informací, což z nich činí systém pro správu znalostí. Je možné zvýrazňovat části textu nebo obrázky a opatřovat je komentáři, značkami, kategoriemi. Díky tomu je možné při práci s článkem nebo knihou seskupovat, vyhledávat a kopírovat informace získané při rešerši.
Získávání dat pro zpracování a analýzu může probíhat ručně, plně automatizovaně nebo s podporou IT nástrojů (hybridně, řízeně). V případě výše uvedených správců bibliografie jsou k dispozici všechny tři možnosti, ale nejčastěji se jedná o ruční nebo kontrolované získávání informací. V oblasti automatického rozpoznávání tisku a rukopisu (OCR, HTR) se v posledních letech objevilo mnoho řešení a inovací. Mechanismy OCR existují již řadu let a úroveň jejich přesnosti se zvyšuje. Kvalita a míra přesnosti rozpoznávání tištěného textu závisí na mnoha prvcích: stavu předlohy a kvalitě obrazu, jazyku, použitých druzích písma atd. Lze však s jistotou říci, že v případě vědeckých studií a kvalitních tisků z 20. nebo dokonce 19. či 18. století digitální nástroje v současné době umožňují automatické nebo poloautomatické pořízení textu ve vrstvě OCR. Pokud jde o OCR, historici mají k dispozici mnoho hotových balíčků placených (například Acrobat Professional, ABBYY FineReader) nebo bezplatných (například Google Docs, Tesseract-OCR) nástrojů. Existuje také řada webových aplikací, kde lze rozpoznat text z obrázku uloženého v různých formátech (jpg, tiff, pdf) na bázi upload-convert-download (například Transkribus, Online OCR). Pokročilejší aplikace automatického rozpoznávání rukopisu (například Zohlednění písma nebo velikosti písma při rozpoznávání) vyžadují IT podporu a rozšíření stávajících nástrojů. Pokud jde o nástroje pro rozpoznávání rukopisu (HTR), jedná se stále o technologickou a obsahovou výzvu, která je nesrovnatelně obtížnější než rozpoznávání tisku. Nejdůležitějšími projekty v této oblasti zůstávají již zmíněné Transkribus a eScriptorium. K rozpoznávání rukopisu využívají strojové učení a prvky umělé inteligence. V Polsku stojí za zmínku nástroje vyvinuté v Ústavu polského jazyka Polské akademie věd pro čtení kartoték a lístků tvořících polský lexikografický fond, které využívají řešení založená na neuronových sítích.7
Nástroje pro získávání dat pro historický výzkum jsou do značné míry určeny povahou informací a potřebami a cíli výzkumu. Důležitou roli hraje také metodika práce: individuální nebo týmová, vzdálená nebo stacionární. Operační systém je dnes méně důležitý, protože velká část dostupných řešení je přizpůsobena práci v různých prostředích. Historik má dnes k dispozici celou řadu programů a aplikací, v nichž může zaznamenávat a zpracovávat získané pramenné informace. V případě výše zmíněných aplikací OCR a HTR to může být prostý textový soubor uložený ve formátu txt nebo docx. V pří-
11. Digitální technologie v historickém výzkumu
padě manuálního sběru dat, kdy člověk dává získaným informacím strukturu, lze použít tabulky nebo databáze. Databáze mají v případě historických dat mnohem větší možnosti než tabulky. Projekty historického výzkumu využívají především řešení založená na jazyce
SQL a relačním modelu (například MS Access, PostgreSQL, MySQL, SQLite). Mají k dispozici mnoho intuitivních a snadno použitelných nástrojů pro správu takového systému. Ty mohou být specializované, jako je PgAdmin (PosgtreSQL), nebo multiplatformní, jako je Dbeaver. Některé z nich, jako například MS Access, umožňují vytvoření lokální databáze nebo díky speciálním komunikačním protokolům (odbc, jdbc) mohou sloužit jako víceuživatelský databázový nástroj (například MySQL, SQLite, PostgreSQL). Existují také systémy určené historikům a humanistům, které umožňují vytvářet databáze bez větších technických znalostí, například systémy Heurist nebo Nodegoat. Některé z dostupných databází, a to jak komerčních, tak s otevřenou licencí, umožňují sběr prostorových dat podle standardů OGC (Open Geospatial Consortium). Objektově orientované databáze a rodina nerelačních databází NoSQL (například grafové nebo dokumentové databáze), jako jsou Neo4j, MongoDB, eXist-db, si mezi historiky rovněž získávají oblibu, vyžadují ale o něco větší IT kompetence kvůli nedostatku jednoduchých a intuitivních aplikací.
Digitální technologie umožňují vytvořit spojení (odkaz) mezi digitálním obrazem zdroje a informacemi získanými z tohoto zdroje. To se může týkat celého dokumentu, stránky nebo určité části obrázku.
Odtud je již jen krůček k vědecké editaci historických pramenů, o níž bude pojednáno v závěru. Digitální obraz pramene zpřístupněný ve standardu IIIF a využití standardů TEI XML a Web Annotation Data Model umožňují vytvořit specializované nástroje pro anotování textů a jejich následné zpřístupnění na internetu v podobě interaktivních aplikací (Oxygen, TEI Publisher, Mirador, EVT). V souvislosti s přípravou nástrojů pro vytěžování dat je důležitým trendem systematické oddělování nástrojů a aplikací prostřednictvím standardizace samotného záznamu informací, což usnadňuje používání stejného souboru dat v různých aplikacích. Dobrým příkladem této praxe je příprava aplikace INDXR v Historickém ústavu Polské akademie věd, která využívá standardu OGC ke spojení zdrojového obrazu a informací ze zdroje. Tímto způsobem se může jakákoli aplikace GIS stát nástrojem pro získávání informací z historických pramenů, a to jak písemných, tak kartografických, které lze přímo ukládat nejen ve formě textové anotace, ale také do databázové struktury.
pro sběr dat (a) ve webové aplikaci INDXR a (b) v desktopové aplikaci QGIS s využitím standardů OGC.
(b)
4.
Od Gutenberga k Zuckerbergovi
1.3 Příklady aplikací (oblasti výzkumu)
Na závěr této části je vhodné uvést několik příkladů sběru dat pomocí HTR, OCR a s přístupem založeným na více modelech (zdrojový model). Stále častěji se ke sběru informací z historických zdrojů používá HTR. Kvalita výsledků HTR, který je založen na strojovém a hlubokém učení, závisí na velkém a reprezentativním vzorku dat, díky čemuž je tato technologie použitelná především pro rozsáhlé sbírky pramenů psaných jednou rukou (pokud možno rovnoměrně). Zkoušky provedené Annou Skolimowskou s využitím aplikace Transkribus pro projekt věnovaný edici korespondence Jana Dantyszka (dopisy Georga Hegela, zemř. 1547, a Kaspera Hannaua, zemř. 1571) ukazují, že tento nástroj je vysoce efektivní i u obtížných epistolografických pramenů – při vhodném vzorku dat se chyba čtení dopisů pohybovala pod 5 %. 8 Autorka zároveň zdůrazňuje, že k textu získanému pomocí HTR je třeba přistupovat jako k materiálu, který je nutno standardizovat a zpracovat v dalších krocích badatelského postupu (digitální editace, databáze).
Obrázek 5. Postup HTR zahrnující fáze detekce, rozpoznávání a zpracování (IDZIAK, J. et al. Scalable Handwritten Text Recognition System for Lexicographic Sources of Under-Resource Languages and Alphabets Op cit. s. 142).
V Ústavu polského jazyka Polské akademie věd probíhají práce na specializovaném řešení pro získávání výzkumných dat z rukopisných lexikografických sbírek pro Slovník polského jazyka 17. a 18. století (pol. Słownik języka polskiego XVII i XVIII wieku) pomocí HTR na bázi neuronových sítí. Projektový tým použil poměrně složitý a vícevrstvý model (detekce, rozpoznávání, následné zpracování)
11. Digitální technologie v historickém výzkumu
využívající mimo jiné transferové učení (řešení problému objemu dat) a referenční slovník (obr. 5). Výkonnost rozpoznávání slov při použití všech prvků modelu byla 88 %. Navrhovaný nástroj, který bude rozvíjen získáváním nových dat pro učení neuronových sítí, bude sloužit k rozpoznávání velkých souborů rukopisných karet nebo zdrojových zápisů.
Příkladem zajímavého využití OCR k získání velkého množství informací pro vědecký výzkum bylo vytvoření databáze lokalit a správních jednotek obsažených v Zeměpisném slovníku Království polského a dalších slovanských zemí. Částečně indexovaný slovník, určený k prohlížení a vyhledávání lokalit, je již řadu let k dispozici na internetových stránkách ICM. Systematičtější přístup k tématu tohoto velkého díla polské geografie a historie zaujal tým Tadeusze Epszteina (Historický ústav Tadeusze Manteuffela, Polská akademie věd, Technická univerzita ve Varšavě)), který identifikoval lokality a územně správní jednotky vyskytující se v šestnácti svazcích Slovníku. S relativně malým výzkumným týmem bylo nutné vhodně přizpůsobit OCR k rozpoznání více než 200 000 místních názvů, a to pomocí aplikace QGIS a enginu Tesseract verze 4 a obalové třídy Pytesseract.
Obrázek 6. Schéma algoritmu rozpoznávání zeměpisných názvů v Geografickém slovníku Polského království a dalších slovanských zemí (GRASZKA, O. Automatyzacja procesu rozpoznawania i weryfikacji nazw geograficznych ze źródeł historycznych na przykładzie Słownika geograficznego Królestwa Polskiego. In: EPSZTEIN, T. (ed.). Od „Słownika geograficznego Królestwa Polskiego” do mapy topograficznych Wojskowego Instytutu Geograficznego. Varšava: IH PAN, 2021, s. 26).
Od Gutenberga k Zuckerbergovi
Z hlediska ručního sběru badatelských dat v pramenné předloze stojí za zmínku rozsáhlý soubor excerpcí týkajících se konskripčních rejstříků z pozdního středověku a novověku, které byly podkladem pro přípravu posledních svazků Historického atlasu Polska v druhé polovině 16. století ( 2012, pol. Atlas historyczny Polski w drugiej połowie XVI wieku) pro Velkopolsko, Kujavsko a Podlesí. Výzkumný tým zhruba desíti vědců vytvořil datový model přizpůsobený struktuře informací obsažených v historickém prameni a poté s pomocí různých nástrojů (MS Access, EMS SQL Manager for PostgreSQL, Dbeaver) vložil téměř 100 000 záznamů z více než 300 daňových rejstříků ze 16. a 17. století do zdroje v relační databázi PostgreSQL/ Postgis. Takto shromážděný zdroj výzkumných dat se stal základem pro analytickou práci na mapách a komentářích Historického atlasu Polska a byl spolu s nimi zveřejněn na portálu Atlas Fontium. Obdobnou metodikou jsou shromažďována výzkumná data pro rekonstrukci sídelní sítě a územního členění Koruny ve druhé polovině 18. století.
2. Postupy a technologie pro zjišťování a obohacování shromážděného obsahu kombinací s jinými zdroji dat. Transformace dat na informace.
2.1. Postupy a metody
Jak již bylo napsáno v předchozí části, existují řešení, která tento proces automatizují prostřednictvím využívání referenčních zdrojů (například jazykových slovníků, zeměpisných databází) při získávání výzkumných dat. V individuální výzkumné praxi je to však poměrně obtížné. Historikové přesto většinu práce při zjišťování faktů vykonávají ručně, a to vyhledáváním relevantních informací, které jsou pro data rozhodující, ve slovnících, referenčních knihách a výzkumných pracích, které jsou z velké části dostupné v digitální podobě. Ať už je zvolena jakákoli metoda zjišťování faktů (filologická, genealogická, geografická nebo srovnávací metoda), musí být zachována vazba mezi údaji získanými z historického pramene a rozhodujícími informacemi, které pocházejí z historických příruček, literatury a dalších zdrojů. Je poměrně problematické určit bod, kdy historik přechází od získávání informací z pramene ke kritice těchto informací. Je tomu tak proto, že již na úrovni samotného čtení dochází k určité základní interpretaci, spočívající ve volbě metody čtení (transliterace, transkripce, způsobu modernizace záznamů, systému řešení zkratek, proměny struktury dokumentu atd.). Digitální nástroje se
11. Digitální technologie v historickém výzkumu
ubírají směrem kombinace procesu získávání informací z historického pramene pomocí OCR nebo HTR s automatickým rozpoznáváním prvků čteného textu a jeho strukturováním. Prvky takového přístupu předznamenává výše zmíněný nástroj pro rozpoznávání obsahu karet pro Slovník polského jazyka 17. a 18. století, který jako referenční základnu využívá jazykový slovník. Odtud je již jen krůček k automatickému označování rozpoznaných slov a zacházení s výsledky rozpoznávání jako s prvky linked data.
Digitální nástroje mohou hrát důležitou roli při identifikaci a kritice obsahu historických pramenů. Jedná se především o osoby, místa a památky hmotné kultury, ale stále častěji také o identifikaci jevů s méně jednoznačnými charakteristikami, jako jsou instituce, úřady nebo historické události. Na nejvyšší a zároveň v praktické aplikaci nejobtížnější úroveň lze postavit obohacování a zjišťování obsahu historických pramenů s odkazem na různé typy pojmů a termínů, které se v nich vyskytují. Implementace digitálních nástrojů při identifikaci a interpretaci faktů (osob, míst, událostí) přítomných v historických pramenech vyžaduje paralelní práci na dvou úrovních. Je totiž nutné propojit informace v modelu pramene s modely a referenčními zdroji, které budou sloužit k této identifikaci či interpretaci. Přeneseme-li výše řečené na úroveň práce založené na klasických textových poznámkách pod čarou, na jedné straně bude fragment pramenného textu odkazující na určitou historickou osobnost, a na straně druhé životopis této osobnosti v Polském biografickém slovníku (pol. Polski Słownik Biograficzny). V jiném případě bude na jedné straněodkaz na místo vydání církevní zakládací listiny v prameni, a na druhé heslo z Historicko-geografického slovníku polských zemí ve středověku (pol. Słownik historyczno-geograficzny ziem polskich w średniowieczu) nebo Zeměpisného slovníku Polského království a ostatních slovanských zemí. Vzhledem k tomu, že na internetu je k dispozici stále více slovníkových zdrojů ve strukturované podobě, je možné propojení našich zdrojových dat s existujícími referenčními zdroji částečně automatizovat. Zde je vhodné odkázat na příručku o veřejných informačních systémech a zdrojích dat v Polsku, kterou nedávno připravila Małgorzata Jaskowska. 9 Propojení tohoto typu (link) de facto znamená transformaci slova nebo pasáže popisující osobu, místo nebo jinou historickou skutečnost v našem prameni na identifikovaný objekt, což tvoří základní prvek kritiky (faktografie).
Aby byla výše popsaná automatizace propojování záznamů v historických pramenech s referenčními zdroji účinná, je nutné shromážděný pramenný materiál řádně připravit, a to z hlediska nástrojů, které budou k přípravám použity. Zmíněné nástroje vycházejí ze dvou zásadně odlišných předpokladů. Ten technologicky méně vyspělý a při historické vědecké práci samostatně použitelný je založen na
Od Gutenberga k Zuckerbergovi
trvalém propojení vlastních pramenných zdrojů s referenčními zdroji prostřednictvím stabilních, trvalých identifikátorů (stable, permanent identifiers).10 Druhé řešení, které je specializovanější a obtížněji individuálně aplikovatelné, je založeno na propojování datových zdrojů ad hoc, pouhým uvedením souboru znaků (kritérií), které jsou porovnávány. Propojení konkrétního záznamu ve zdroji s objektem v referenční databázi pak není pevně stanoveno a počet a správnost těchto propojení často závisí na kvalitě algoritmu (skriptu, postupu), který identifikaci (propojení) provádí, a to na základě různých poměrů a kritérií. Tento proces se někdy označuje jako odsouhlasení dat. Propojení ad hoc může, ale nemusí být transformováno na stabilní propojení uložením identifikátorů z referenční databáze do vlastního fondu zdrojů. U rozsáhlých souborů dat a po příslušném ověření se transformovaný a kriticky zrevidovaný fond zdrojů může stát pomocným referenčním zdrojem pro revizi jiných datových souborů. Velmi vhodnou a stále častěji používanou metodou propojování historických dat je pro tento účel využití prostorového odkazování. Vzhledem k tomu, že většina shromážděných údajů je prostorově vztažena, lze k harmonizaci a propojení těchto údajů použít programy GIS. Jak již bylo zmíněno, v digitálním prostředí znamená propojení záznamu obsaženého v historickém prameni s objektem v referenčním zdroji identifikaci a základní kritiku tohoto záznamu. Vytvořené „odkazy“, ať už trvalé, nebo vytvořené ad hoc, jsou jakýmsi druhem digitálních poznámek pod čarou ke shromážděnému pramennému materiálu. Tyto odkazy mohou být umístěny přímo do digitálního, textového nebo databázového záznamu pramenné informace. Zde stojí za zmínku, že standard TEI, který dominuje v oblasti vědecké editace historických textů, je již od verze 5 objektově orientovaný a umožňuje odkazy na externí referenční zdroje.11 Druhým řešením je, aby si historik připravil předběžný kritický nebo polokritický model svých dat, který bude lépe přizpůsoben práci s referenčními zdroji. Ten může zahrnovat kritické (standardizované) znění vlastních jmen, která jsou v pramenech zaznamenána různě, někdy i na jedné stránce dokumentu. Tímto způsobem lze vyřešit řadu klasických problémů týkajících se práce s historickými údaji a bránících jejich zpracování v digitálních nástrojích, jako je například záznam dat v pramenech a způsob zaznamenávání neúplných a nejistých informací. Proces převodu pramenného záznamu na kritický záznam lze částečně automatizovat například pomocí regulárních výrazů a příkazů jako „replace“ nebo „ calculation“. Druhým prvkem, který lze zahrnout do takové kriteriální vrstvy spojené se zdrojovým modelem, může být mapování různých záznamů kategorií nebo pojmů přítomných ve zdroji na obecnější třídy objektů zapsané v jednom jazyce a abecedě. Například záznamy „ecclesia parochialis“, „parochialis ecclesia“, „ecclesia cum parochia“, „eine Pfarrkirche“,
11. Digitální technologie v historickém výzkumu
„ приходска́я церковь“ atd. lze v takové vrstvě redukovat na třídu „farní kostel“. Využití jak původních zdrojových záznamů, tak jejich standardizované podoby pro identifikaci značně usnadní rekonciliaci dat a zvýší míru automaticky provedených správných spojení. Bez ohledu na kvalitu a přípravu dat však musí být automaticky provedená identifikace téměř vždy provedena pod vedením experta na danou oblast (historika).
2.2. Nástroje a služby
V současné době je většina práce související s kritikou informací obsažených v pramenech, a to i s využitím digitálních nástrojů (databáze, xml editory), prováděna polskými historiky převážně ručně. Obecně dostupné nástroje pro porovnávání údajů ze dvou datových souborů, a to i těch s podobnou strukturou, nejsou příliš často využívány. Mnohdy je stále hlavní překážkou technologický přechod mezi tabulkovým procesorem (například MS Excel), který zaznamenává jev v poměrně jednoduchém a „plochém“ modelu, a relační či nerelační databází (například MS Access), která otevírá mnohem více možností práce s historickými daty.
Mezi bezplatné nástroje pro porovnávání dat s externími sbírkami, které jsou univerzální, podporují více formátů souborů a fungují na více platformách a operačních systémech (Windows, Linux, Mac), patří OpenRefine. Umožňuje porovnávat a kombinovat vlastní datové sady s bohatými externími zdroji dat (včetně Wikidata, VIAF, GND, Geonames, Getty atd.). Za zmínku stojí také fakt, že v polské vědě mají historici k dispozici pokročilé nástroje vyvinuté v jiných oborech, které slouží jejich potřebám. Do popředí zde vystupují lingvistické a korpusové aplikace připravené ve filologických vědách pro práci s různými typy literárních textů. Zvláště důležitý je celý soubor služeb připravených konsorciem CLARIN-PL, zejména těch, které se týkají automatického rozpoznávání jmen (Geolocations, NER). Obě služby odkazují mimo jiné na nástroj Liner2 pro rozpoznávání vlastních jmen v textu, přičemž služba Geolocations navíc využívá referenční slovníky OpenStreetMap a Geonames.12
Mezi nástroji pro rozpoznávání a propojování vlastních jmen jsou zvláště rozvinuté nástroje pro zpracování zeměpisných názvů. Důvodem je skutečnost, že geografické objekty mají mnoho identifikačních systémů, globálních i lokálních, které usnadňují přípravu různých služeb a nástrojů. Kromě sítě Pelagios, která funguje již řadu let, byly v posledních letech zahájeny dvě významné iniciativy, na nichž spolupracují i polští odborníci, a to World Historical Gazetteer a nástroj budovaný v rámci projektu „The Challenge of Developing Geodata-Based Gazetteer Research Technologies and Methods“
World Historical Gazetteer pro odsouhlasení zeměpisných názvů.
11. Digitální technologie v historickém výzkumu
v Herderově institutu v Marburgu. Jednotlivci s patřičnými dovednostmi mohou tyto typy automatického propojení geografických dat provádět i pomocí funkcí softwaru GIS (například spatial join, join by attributes atd .) .
2.3. Příklady použití
Výše uvedené příklady nástrojů a služeb mohou urychlit a usnadnit kritickou revizi historických dat integrací zdrojů z různých fondů a datových sad. Tyto operace lze provádět manuálně nebo poloautomatizovaně. Pokud historik nebo výzkumný tým nemá IT podporu, nejjednodušším řešením je připravit relační databázi, která může sloužit pro práci s kritikou pramenných záznamů a následně může být zdrojem pro prezentaci celého materiálu externímu publiku v podobě přílohy knihy i webové aplikace.
Jedním z nejjednodušších příkladů automatického obohacování zdrojových dat může být upscaling historických datových zdrojů na základě podobnosti znaků popisovaných objektů, jako je název, typ objektu, administrativní příslušnost atd. Ve velkém měřítku byla tato metoda použita k identifikaci hesel z Geografického slovníku Království polského a jiných slovanských zemí (1880–1902) pomocí místopisných názvů na mapách WIG (1929–1939, 1:100 000). Účinnost automatického propojení lokalit z obou souborů oscilovala kolem 50–60 %, což je třeba považovat za uspokojivý výsledek vzhledem k častým rozdílům ve zvukové podobě historických místních jmen a variabilitě správní příslušnosti. Co je velmi důležité i z metodického hlediska: projektový tým poskytl uživatelům aplikace informace o tom, která hesla Slovníku byla prostorově identifikována automatickým, a která kontrolovaným způsobem.13
V oblasti historických prostorových dat jsou hlavní referenční zdroje shromážděny v oddělení historického atlasu Historického ústavu Polské akademie věd. V současné době tým, rovněž v rámci kooperace v konsorciu DARIAH-Lab, pracuje na unifikaci polských geograficko-historických zdrojů z různých dějinných období (od 16. do 21. století), jejich propojení s polskými a nepřímo i se zahraničními referenčními databázemi (Státní registr geografických jmen, TERYT, Wikidata). Výsledky této práce jsou průběžně zveřejňovány na portálu Atlas Fontium v rozhraní Geonode. Na základě prostorových technologií jsou často unifikovány a prezentovány také historické demografické a ekonomické údaje. Ve výše zmíněných datových sadách Atlasu Fontium lze kromě názvu, typu, polohy města a jeho správní příslušnosti v minulosti nalézt informace o počtu obyvatel, vlastnictví nebo hospodářském potenciálu. Využití geografického prostoru jako referenčního základu pro různé typy in-
11. Digitální technologie v historickém výzkumu
formací umožňuje Atlas automatizovat kombinování více zdrojů pro analytické nebo prezentační účely. Mezi nejvýznamnější nadregionální sbírky vytvořené v posledních letech a týkající se polských území patří data z projektů, jako jsou GOV, MOSAIC, HistoGIS, GASID.14 Zajímavé sbírky dat se připravují také v rámci projektu „nteraktivní statisticko-demografický atlas Polského království (pol. Interaktywny Atlas statystyczno-demograficzny Królestwa Polskiego) . 15 Vzhledem k nedostatku vhodných referenčních sbírek pro historické osobnosti, události nebo instituce je obtížné pokusit se automatizovat kritickou reflexi historických informací na základě jiných než geografických kritérií. Potřeba kombinovat historické údaje z různých zdrojů vedla k důležitému prvku standardizace a přizpůsobení se různým klasifikačním systémům. Zde lze rozlišit dva proudy: genealogický a prosopografický. První (částečně komerční) souvisí s genealogickými rešeršemi a evidencí záznamů z metrických knih (například GENETEKA). Zde je vhodné využít připravené průvodce a pomůcky evidující nejdůležitější digitální zdroje polské genealogie, jako například jsou: Genealogie Poláků, Státní archivy (pol. Genealogia Polaków, Archiwa Państwowe). V současné době se také pracuje na vývoji řízených slovníků a doménových ontologií pro osobní a institucionálně-právní údaje. Z projektů v oblasti historické prosopografie v Polsku, které využívají digitální nástroje, si zaslouží pozornost Corpus Academicum Cracoviense realizovaný na Jagellonské univerzitě. Tato databáze a online vyhledávač umožňuje vyhledávat a filtrovat informace o více než 67 000 osobnostech spojených s Jagellonskou univerzitou v letech 1364–1780.1 Nemělo by se zapomínat, že historici mají k dispozici také internetový Polský biografický slovník (pol. Polski słownik biograficzny, http://www.ipsb.nina.gov.pl:8080/ ) . Práce na standardizaci popisu osobních údajů pro polské historické prameny probíhají v současné době v oddělení Polského biografického slovníku IHPAN (pol. Zakład Polskiego Słownika Biograficznego) v rámci projektu DARIAH-Lab. Navazují na světovou a evropskou zkušenost, aby datový model a polský standard byly kompatibilní s hlavními referenčními zdroji (Schema, Dbpedia, Wikidata, Getty).
Navzdory již úspěšným pokusům o automatizaci propojování historických dat se většina odkazů na externí zdroje stále vytváří ručně přidáním identifikátoru osoby, objektu nebo instituce ke zdrojovým informacím. K urychlení tohoto procesu se používají více či méně vhodné nástroje (referenční mapy, výběrové seznamy). Taková metodika se používá při anotování informací v edičních projektech, kde jsou data shromažďována ve formátech XML a SQL (například Korpus textů a korespondence Jana Dantyszky, pol. Korpus Tekstów i Korespondencji Jana Dantyszka). Vedle historických osobností a míst je nejnaléhavější potřebou připravit referenční databázi právních institucí a termínů, a to jak světských, tak církevních. Pokud jde
11. Digitální technologie v historickém výzkumu
o církevní struktury, probíhá taková práce v Centru pro výzkum historické geografie církve v Polsku Katolické univerzity v Lublinu (pol. Ośrodek Badań nad Geografią Historyczną Kościoła w Polsce KUL), kde se vytváří referenční databáze pro historické organizační jednotky latinské církve (světské a klášterní struktury). Pokud jde o využití digitálních technologií ve výzkumu institucí a právní terminologie, významnou roli v této oblasti hraje Jagellonská univerzita jako člen evropského konsorcia FONTES provozujícího sbírku IURA.
3. Digitální nástroje při analýze a interpretaci historických informací
3.1 Metody a nástroje
Některé výzkumné problémy, které dnes historici v Polsku řeší, vyžadují použití digitálních metod při kvantitativních i kvalitativních analýzách. Ty jsou od sebe neoddělitelné – vedle otázky Kolik jsou nejčastějšími otázkami Jak a Proč. Je to dáno nutností implementovat pokročilé výzkumné modely, které vyžadují vysokou matematickou a počítačovou kompetenci. Tento typ výzkumu provádějí historici zpravidla pouze s podporou odborníků na přírodní vědy. Krzysztof Narojczyk poukázal na několik oblastí využití digitálních nástrojů v historickém výzkumu: databáze a edice pramenů, analýza textového obsahu, historická statistika a demografie dějin, digitalizace a síťové sdílení pramenů, využití informačního potenciálu vizuálních dat. Jako příklady výzkumných metod uvedl analýzu případových studií (ang . event history), dedukci prostředí, analýzu časových řad, explorační analýzu dat a data mining, skupinovou analýzu a počítačové simulace.17 Je však třeba mít na paměti, že specializace vyplývající z výzkumné problematiky ovlivňuje výběr a použití specializovaných výzkumných metod a nástrojů. Metodika a výběr nástrojů se řídí potřebami výzkumníků – a tak se ve výzkumu socioekonomických dějin a demografie používají především statistické metody, zatímco pokud je zde souvislost s mapou, používají se kartografické výzkumné metody a geostatistika.
Hledání zákonitostí, korelací a vztahů mezi historickými jevy se dnes vztahuje k celé skupině přístupů používaných v datové vědě (data science), která je považována za samostatnou disciplínu a vědní obor. Tyto techniky se používají i ve fázi automatického získávání dat z historických pramenů (HTR), jak bylo uvedeno výše. Z pochopitelných důvodů není možné v krátkém textu pojednat o metodách souvisejících s data mining, strojovým učením (machine learning) nebo
Od Gutenberga k Zuckerbergovi
hlubokým učením (deep learning). Historikovi by v tom měli pomoci statistici, datoví analytici a kognitivní vědci. Za zmínku stojí pouze implementace technik explorační analýzy dat (EDA) nebo explorační prostorové analýzy dat (ESDA) rozvíjí vědeckou práci v oblasti historické demografie nebo hospodářských dějin (regresní modely, prostorová korelace). Totéž platí pro výzkum založený na prostorové analýze a retrográdních metodikách výzkumu v historické geografii.18
Obrázek 10. Obecný diagram znázorňující hlavní složky datové vědy (https://www.altexsoft.com/blog/data-science-artificial-intelligencemachine-learning-deep-learning-data-mining/, dostup 18.12.2022).
Kombinované pojednání o metodách a nástrojích v této podkapitole je způsobeno tím, že spolu velmi úzce souvisejí. V zásadě je obtížné definovat nebo specifikovat nástroje určené k analýze historických dat. V tomto případě historici a informatici, kteří s nimi pracují, používají zpravidla stejné nástroje jako datoví analytici nebo datoví inženýři. Pojem nástroje v případě analytické nebo explorační práce s daty se již neomezuje na konkrétní aplikaci nebo webovou službu. Je třeba brát v úvahu i jazyky pro práci s daty uloženými v různých formátech (například Python, R, SQL, SPARQL, RDF, XPath, XQuery), které mohou být podporovány různými aplikacemi. V poslední době se jako prostředí, které podporuje více než 40 programovacích jazyků, stal velmi populárním Jupiter Notebook. Jedná se o nástroj, který je zároveň přívětivý k člověku, protože umožňuje sledovat výsledky (a chyby) v reálném čase při psaní algoritmů nebo skriptů. Pokud jde o modelování, vyplatí se používat aplikace, jako je Visual Paradigm nebo Enterprise Architect. Pokud jde o vytváření domé -
11. Digitální technologie v historickém výzkumu
nových ontologií a práci se s OWL soubory, mají historici k dispozici Protege a WebProtege.
3.2. Příklady aplikace (oblasti výzkumu)
Využití výše uvedených metod a nástrojů v postupu analýzy a objasňování historických faktů patří k nejobtížnější a dosud nejméně rozvinuté části digitální práce historiků. Stále zde dominují kvantitativní metody, což může představovat odnož vztahu kvantitativních a počítačových metod již v minulém století. Problematický je v digitálních technologiích přechod od analýzy či vobjasňování k vizualizaci výsledků výzkumu. Mnozí historici považují vizualizaci za analytickou metodu a omezují přitom digitální humanitní vědy na prezentaci výsledků pozorování jednoho jevu – například zobrazení počtu obyvatel v různých časových úsecích v tabulce, grafu nebo na mapě. Teprve komparace dvou nebo více analytických kritérií, někdy označovaných jako objasňující podmínky, proměňuje digitální nástroje ve skutečné nástroje historického výzkumu. Významné úspěchy v této oblasti přinášejí historikům výsledky jazykovědného bádání, zejména stylistiky. Výzkumy související se zjišťováním autorství antických textů se týkají předpokladů stylistiky dvojího typu – lingvistické a matematické. Ta druhá využívá explorační analýzu dat, včetně vícerozměrného škálování a shlukové, nejbližšího souseda a síťové analýzy (jak to ostatně učinil M. Eder v souvislosti se studiem autorství Gallovy kroniky). Tímto způsobem se mu podařilo potvrdit hypotézu, s níž v rámci výzkumu přišel T. Jasiński, rovněž založenou na digitálních technologiích a zahrnující srovnání užití cursu (klauzulového rytmu) v různých středověkých textech. Je třeba dodat, že M. Eder pro svou práci použil otevřený licencovaný balíček stylo, který obsahuje soubor statistických postupů používaných ve stylistice napsaný v jazyce R.19
Polští historici se obracejí k digitálním analytickým nástrojům také v oblasti socioekonomických dějin, zejména historické demografie, hospodářských dějin a historické geografie. V současné době lze hovořit o nové polské škole historické demografie a hospodářských dějin, v níž hrají klíčovou roli statistické a geostatistické metody. Monografické studie jsou často publikovány s rozsáhlým přílohovým materiálem, zatímco články s digitálně připojenými soubory dat. Výsledky výzkumu s využitím digitálních nástrojů v oblasti historické demografie jsou prezentovány na stránkách časopisu Przeszłość Demograficznej Polski (Demografická minulost Polska) a v oblasti historické geografie v časopise Studia Geohistorica. Jako příklad zde můžeme uvést studie Bogumiła Szadyho o náboženské diferenciaci někdejší Republiky obou národů, v nichž navrhl metodu měření této
Od Gutenberga k Zuckerbergovi
diferenciace odkazující na koeficient etnolingvistické frakcionace. Piotr Rachwał ve svém nedávném výzkumu přirozeného pohybu obyvatelstva na Lublinsku v 16. až 19. století použil statistickou metodu inverzní projekce. Naproti tomu týmová analýza Mikołaje Szołtyska, Bartosze Ogórka, Radosława Poniata a Siegfrieda Grubera o modelu a životních podmínkách starších lidí v Evropě využívá explorativní analýzu prostorových dat, kde hlavní roli hrají regresní modely a multikriteriální analýza.20
V důsledku nárůstu historických dat dostupných na internetu v Polsku vznikl samostatný interdisciplinární výzkumný proud, který vyvstal z potřeby tyto zdroje sjednotit. Nutnost kombinovat data a informace z různých zdrojů (zmíněno výše) vyvolává potřebu teoretické práce o klasifikaci pojmů, budování řízených slovníků a doménových ontologií. Příkladem jsou dva nedávné projekty Historického ústavu Polské akademie věd: Ontologické základy pro budování historických geografických informačních systémů ( Ontologiczne podstawy budowy historycznych systemów informacji geograficznej) a Historická ontologie městského prostoru (Historyczna ontologia przestrzeni miejskiej). Oba projekty vyústily ve vytvoření doménových ontologií, které lze využít k budování ontologicky fundovaných databázových struktur a sjednocení zdrojů v těchto oblastech poznání. Hluboká teoretická reflexe popisovaných historických jevů, prováděná ve spolupráci s kognitivními vědci a odborníky v příbuzných oborech, vyplývající z předmětu a cíle výzkumu, je nezbytná pro přípravu datových modelů, které budou kompatibilní s dalšími soubory historických dat.
4. Prezentace historických poznatků pomocí digitálních nástrojů
4.1. Metody a nástroje
Stejně jako v případě předchozí podkapitoly budou vzhledem k úzkému vztahu mezi digitálními metodami a nástroji pro prezentaci historických poznatků zahrnuty do jednoho oddílu. S ohledem na název článku zužující záběr tématu na vědecký výzkum budou vynechány otázky spojené s popularizací historického poznání formou filmu, animace či počítačových her, které jsou součástí takzvané public history. Ti, kdo vytvářejí mediální sdělení popularizující poznatky o minulosti, samozřejmě využívají plodů historického bádání, ale současné předávání historických poznatků je častěji předmětem výzkumu kulturních a mediálních vědců než historiků. Historici se
11. Digitální technologie v historickém výzkumu
samozřejmě obracejí k filmu nebo počítačovým hrám jako k historickému prameni, ale především z hlediska antropologického výzkumu a historické paměti.
Způsob publikování výsledků historického výzkumu prošel v posledních desetiletích ve dvou oblastech poměrně zřetelným vývojem. Zaprvé se postupně stírá rozdíl mezi historickými informacemi, které vytvářejí odborníci (absolventi), a těmi, kteří se o historii zajímají, ale nemají vzdělání v oboru. Adekvátní prezentace výsledků vlastního výzkumu na internetu by měla ponechat prostor pro interakci s příjemcem dat. Ta může probíhat prostřednictvím speciálních aplikací, které umožňují editaci dat (read-write), protokolů pro zasílání komentářů nebo možnosti zveřejňovat celé datové soubory na digitální platformě (crowdsourcing) .
Druhým trendem je odklon od přípravy specializovaných aplikací prezentujících výsledky historického výzkumu k obecným úložištím výzkumných dat. Důvodů je několik. Zaprvé je poměrně obtížné definovat a identifikovat potřeby příjemce informací týkajících se minulosti. Za druhé: náklady na přípravu, údržbu a aktualizaci specializovaných nástrojů jsou poměrně vysoké. A za třetí: IT kompetence historiků se zvýšily do té míry, že se historici více zajímají o samotná data, která mohou samostatně rozvíjet pro své vlastní zvolené účely a nástroje, než aby byli odkázáni na definované a obecně omezenější funkce. Z výše popsaných důvodů jsou stále populárnější historické datové sady (datasets) s dobře popsanými metadaty, které se navíc mohou stát podkladem pro výzkumné datové dokumenty (data papers). Historici mají k dispozici stejné systémy pro správu znalostí jako jiné vědy, které umožňují ukládání a snadné vyhledávání shromážděných databází (například CKAN, DSpace). Existují také řešení určená ke shromažďování dat se specifickými vlastnostmi – příkladem jsou platformy Geonode nebo Geonetwork, které se používají především ke shromažďování prostorových dat.
V poslední době se v Evropě i ve světě objevil zajímavý trend, který bude pro humanitní výzkum implementován i v polské digitální infrastruktuře (DARIAH-Lab), a to využívání Wiki řešení k prezentaci výsledků výzkumu. Prostředí Mediawiki a Wikibase jako webové aplikace, analogické celosvětovým Wikidatům, lze využít k vytvoření znalostní báze oborových nebo institucionálních dat. Při pohledu do galerie aplikací Wikibase z posledních let je možné vidět mimo jiné Německou národní knihovnu, která testuje Wikibase jako základnu pro referenční údaje o osobách, místech a institucích (Gemainsame Normdatei, GND), a Erfurtskou univerzitu, která tímto způsobem vybudovala databázi FactGrid pro historiky.
Od Gutenberga k Zuckerbergovi
4.2 Příklady aplikace (výzkumné oblasti)
V předchozích částech tohoto článku bylo představeno mnoho příkladů implementací využívajících různé metody prezentace historických dat. Byly zde diskutovány jak datové repozitáře, tak doménově specifické webové aplikace. Nyní bude místo diskuse uveden pouze seznam odkazů na vybrané webové stránky, aplikace a úložiště důležité pro historický výzkum. V úvahu jsou zde brány především nástroje dostupné pod otevřenými licencemi, jako je Creative Commons.
archiwa.gov.pl/en/la-uzytkownikow/genealogia – Genealogie (průvodce pro provádění genealogických dotazů ve státních archivech) a tlas1918.ihpan.edu.pl – Zeměpisný slovník Polského království a dalších slovanských zemí a mapy WIG atlasfontium.pl – Atlas Fontium (polská platforma pro publikování textů a výzkumných, historických a zeměpisně-historických dat) bibliografia ipn gov pl – Bibliografie polských dějin cac.historia.uj.edu.pl – Corpus Academicum Cracoviense dane.gov.pl – Otevřená data dantiscus.ibi.uw.edu.pl – Korpus textů a korespondence Jana Dantyszka dir.icm.edu.pl/en/ – polské zdroje (široká škála indexovaných historických zdrojů, včetně Geografického slovníku Polského království a dalších slovanských zemí) traces6.paris.inria.fr – eScriptorium (nástroje pro rozpoznávání rukopisu, HTR) europeana.eu – Europeana (digitální knihovna a integrátor digitálního obsahu) fbc.pionier.net.pl – Federace digitálních knihoven gasid.co.uk – Databáze Haliče a rakouského Slezska 1857–1910 genealogia.okiem.pl/bazy.htm – Genealogie Poláků geneteka.genealodzy.pl – GENETEKA (genealogická kartotéka Polské genealogické společnosti) geo-ecclesiae.kul.pl/data-and-applications – Geoecclesiae (sbírka geografických a historických dat) github.com/tesseract-ocr/tesseract – Tesseract (nástroj OCR) gov.genealogy.net – GOV (historický adresář) heuristnetwork.org – Heurist (systém pro vývoj databází) histogis.acdh.oeaw.ac.at – HistoGIS (sbírka historicko-geografických dat)
iura.uj.edu.pl – IURA. Prameny antického práva karo.umk.pl – Distribuovaný katalog polských knihoven katalog.nukat.edu.pl – Katalog sbírek polských vědeckých knihoven katalogi.bn.org.pl – Národní knihovna, katalogy kronika.gov.pl – Národní úložiště vědeckých a kulturních zařízení
11. Digitální technologie v historickém výzkumu
lab.dariah.pl – DARIAH-PL (webové stránky projektu „Digitální výzkumná infrastruktura pro humanitní a umělecké vědy DARIAH-PL“) mendeley.com – Mendeley (správce bibliografie) censusmosaic.demog.berkeley.edu – MOSAIC, soubor geografických a historických dat nodegoat.net – Nodegoat (prostředí pro sběr, zpracování a prezentaci historických dat) openrefine.org – OpenRefine (nástroj pro sesouhlasení dat) pelagios.org – Pelagios (vědecká síť a online platforma pro propojení výsledků historického výzkumu na základě geografického prostoru) re3data.org – Registry of Research Data Repositories (informační portál o souborech výzkumných dat) readcoop.eu/transkribus – Transkribus (platforma a aplikace pro OCR a HTR) repod.icm.edu.pl – RepOD (polská platforma pro publikování textů a výzkumných dat) szukajwarchiwach.gov.pl – Hledání v archivech whgazetteer.org – World Historical Gazetteer (aplikace pro sesouhlasení geografických názvů) zotero.org – Zotero (správce bibliografie)
5. Shrnutí
Přeložená kapitola pojednává spíše v obecné rovině o metodách a digitálních nástrojích, které mohou historikovi pomoci v každé fázi jeho badatelské práce: od provádění bibliografických a pramenných rešerší přes kritiku materiálu, analýzu a interpretaci informací až po prezentaci výsledků výzkumu. Zvláštní pozornost přitahuje skutečnost, že využití digitálních technologií v každé z těchto čtyř fází vyžaduje samostatné instrumentarium přizpůsobené potřebám historikovy dílny. Z tohoto důvodu řešení navržená v textu nepředstavují celkový prohled na danou problematiku a každé z nich může být rozpracováno do samostatného článku. Shromážděné informace a popsané zkušenosti však umožňují učinit některé poznámky obecnějšího charakteru.
Možnosti digitálních nástrojů představují pro historiky řadu výzev, které s sebou nesou i rizika. Dostupnost pramenů v digitální podobě podporuje „zploštění a zjednodušení“ vědecké práíce (metodika copy-and-paste). Objevuje se přesvědčení, že již není nutné připravovat materiálové či bibliografické kartotéky, když na internetu je vše dostupné na dosah ruky. Počítačové aplikace a online služby, které jsou historikům k dispozici, by však měly vybízet k opaku, totiž
Od Gutenberga k Zuckerbergovi
k podrobování pramenného a informačního materiálu různým analytickým a metodologickým postupům, které tyto nástroje umožňují. Správné využívání digitálních nástrojů vyžaduje zachování všech klasických zásad práce historiků, ba dokonce prohloubení této práce prostřednictvím získání nových kompetencí.
Podle autora těchto slov klíčová změna, jíž přináší využití digitálních nástrojů v historickém výzkumu, se týká pohledu na historický pramen a jeho obsah. Tato změna pohledu je vynucena potřebou zpracovat obsah pramene tak, aby mohl být plně využit při počítačových analýzách. Historik, který pracuje s historickým pramenem pomocí počítačových nástrojů, je nucen obsah pramene strukturovat a řešit všechny věcné a informatické problémy, které z toho vyplývají. Efektivní využití digitálních nástrojů v historickém výzkumu je podmíněno řádným sběrem a přípravou výzkumných dat. Přitom je třeba jasně oddělit schéma pramenných (nezpracovaných) dat od schématu kritických dat. První z nich by mělo obsahovat informace z historického pramene. Kritické schéma obsahuje kromě údajů z pramene také informace z doplňkových zdrojů, předmětových slovníků nebo literatury k danému tématu, které slouží ke kritice obsahu pramene.
Ve fázi sběru a přípravy výzkumných dat hrají mnohem větší roli standardy a modely sběru dat než počítačové aplikace, které se k tomuto účelu používají. To je patrné v případě společné práce s využitím víceuživatelských databází. V dalších fázích výzkumného postupu se úloha počítačových nástrojů a aplikací zvyšuje. K uspořádání obsahu z historických zdrojů lze použít poměrně univerzální řešení, jako jsou databáze, xml editory nebo tabulkové procesory. Ve fázi zpracování dat a analýzy informací se často používají specializovaná řešení v závislosti na předmětu a účelu výzkumu. To s sebou nese potřebu rozvoje digitálních kompetencí historiků nebo podpory ze strany informatika, obvykle datového inženýra. Ještě méně obecné jsou vizualizační aplikace, které jsou vyvíjeny s ohledem jak na vlastnosti dat, tak na záměry historika-autora a potřeby potenciálního publika. Rozšíření digitálních technologií mezi historiky se změnilo a stále se mění: 1) způsob, jakým se provádí výzkum, a 2) způsob, jakým historické vědění funguje ve společnosti. Pomineme-li editaci a hloubkovou kritiku pramenného textu (stylistika, určování autorství, klasifikace textu), hlavním smyslem využití digitálních nástrojů v historickém výzkumu je rozvoj pozorování historických jevů a hledání příčinných souvislostí mezi nimi. Jde jednak o objektivizaci měření, a jednak o ověřování (či objevování) korelací mezi analyzovanými skutečnostmi. Je třeba zdůraznit, že zásadní rozdíl ve využívání digitálních nástrojů mezi historikem a lingvistou či filologem se týká předmětu zkoumání. Pro filologa je objektem výzkumu text, zatímco informace slouží k sestavení výzkumné metody
11. Digitální technologie v historickém výzkumu
a ověření výsledku. Pro historika je předmětem výzkumu informace (historický, historiografický fakt), jejíž správná interpretace odkazuje na filologické metody práce s textem. Často je tento historický fakt (zjištění autorství, filiace textu, místa vydání dokumentu) výsledkem spíše filologických analýz vyplývajících z výzkumu týkajícího se například podobnosti dokumentů či textů, a nikoliv striktně historických. V případě ikonografických nebo kartografických pramenů vyžaduje správné čtení obsahu pramene naopak vzdělání v oblasti dějin umění nebo kartografie. Zde digitální nástroje dokonale podporují interdisciplinární historickou práci. Pokud odkážeme na teoretické předpoklady provádění historického výzkumu, digitální nástroje díky rozvoji pozorovacích technik a korelačních analýz pomáhají interpretovat jednoduchá historická fakta (například stát, instituci, událost) s cílem vytvořit lépe podložené teze pro celé jevy a procesy. Na většinu problémů spojených s používáním digitálních nástrojů se zaměřuje vědecká digitální editace a zdrojová věda. Historici zde jednoznačně kráčejí ve stopách představitelů filologických věd. Přikláním se k názoru Józefa Szymańského, který se domníval, že „editace historického pramene je závěrečnou fází všech vědeckých postupů prováděných kolem pramene“.21 Tento názor potvrzují i v kapitole popsané změny, které digitální nástroje zanášejí do procesu vědecké práce historiků. Ovlivňují totiž všechny fáze práce vydavatelů historických pramenů: od čtení textu přes přípravu kritického aparátu až po formu vydání pramene. Současný historik musí čelit otázce legitimity plnotextové edice masových pramenů (například soudních zápisů, daňových rejstříků, církevních vizitací) v situaci, kdy je na internetu k dispozici sken samotného pramene. Možná by stálo za zvážení širší využití regestových nebo indexových edic v kombinaci s obrazem pramene. Taková metodika se již částečně používá a nejúspěšnější je v případě zpřístupňování a editace metrických záznamů. To samozřejmě vyvolává problémy vyplývající z širokého přístupu k informacím a ovlivňující fungování historického vědění ve společnosti. Rozsáhlá týmová práce, na níž se podílejí i laici a kterou umožňují digitální nástroje, otevírá diskusi o spolehlivosti shromážděných dat a jejich výzkumné hodnotě. Digitální technologie přispívají ke stírání rozdílu mezi akademií a veřejností, tvůrcem a příjemcem historického poznání (Citizen Science). Významně ovlivňují demokratizaci tvorby historických vědomostí. Budoucnost ukáže, zda v této soutěži o historické informace a jejich výzkumnou hodnotu zvítězí expertní systémy, nebo technologie umožňující svobodnou tvorbu historických znalostí. Úspěch Wikipedie ukazuje spíše na druhou možnost.
Od Gutenberga k Zuckerbergovi
POZNÁmK Y
1 Za konzultaci textu děkuji kolegům z oddělení historického atlasu Historického ústavu Tadeusze Manteuffela Polské akademie věd: Piotru Jaskulskému, Grzegorzi Myrdovi, Marku Słońovi a Adamu Zapalovi.
2 BOONSTRA, O., BREURE, L., DOORN, P. Past, present and future of historical information science. Historical Social Research. 2006, č. 29, s. 4–132; NAROJCZYK, K. W kierunku historii cyfrowej. Nowe możliwości – nowe wyzwania. Res Historica . 2016, č. 42, s. 329–350.
3 Tyto etapy se do jisté míry shodují s předpoklady (Laboratořemi) projektu na vybudování výzkumné infrastruktury pro humanitní a umělecké vědy DARIAH-PL, https://lab.dariah.pl/infrastruktura/komponenty/ (dostup 18 .12 .2022) .
4 SŁOŃ, M. Pryncypia edytorstwa źródeł historycznych w dobie rewolucji cyfrowej. Studia Źródłoznawcze. 2015, č. 53, s. 155–161; JUREK, T. [recenze] Janusz Tandecki, Krzysztof Kopiński, Edytorstwo źródeł historycznych, Warszawa 2014, Wydawnictwo DiG, str. 480. Kwartalnik Historyczny 2016, č. 123 (2), s. 357–362; SZADY, B. W sprawie metody opracowania repertoriów wizytacji kanonicznych epoki staropolskiej. In: KOPIŃSKI, K., MROZOWICZ, W., TANDECKI, J. Editiones sine fine Toruń: Wydawnictwo Towarzystwa Naukowego w Toruniu, 2017, s. 177–188.
5 SZADY, B. Czasowo-przestrzenne bazy danych jako narzędzie w geografii historycznej. Acta Universitatis Lodziensis. Folia Geographica Socio-Oeconomica. 2013, č 14, s. 22–29.
T.L. Gil, How to make a database in historical studies, Cham: Springer International Publishing, 2021, s. 50–51.
7 IDZIAK, J. et al. Scalable Handwritten Text Recognition System for Lexicographic Sources of Under-Resource Languages and Alphabets. In: PASZYŃSKI, M. et al. (eds.). Computational Science – ICCS 2021. Springer, Cham 2021.
8 SKOLIMOWSKA, A. Applying Handwritten Text Recognition in Scholarly Source Editing Case of the ‘Corpus of Ioannes Dantiscus’ Texts & Correspondence. In: FLACHENECKER, H., KOPINSKI, K. a J. TANDECKI (eds.). Urkundenbücher, Chroniken, Amtsbücher: Alte und neue Editionsmethoden. Editionswissenschaftliches Kolloquium 2019 , Toruń: Towarzystwo Naukowe w Toruniu, 2019, s. 253–263.
9 JASKOWSKA, M. Publiczne systemy informacyjne i źródła danych: przewodnik Krakov: Uniwersytet Jagielloński, Biblioteka Jagiellońska, 2020.
10 MYRDA, G., PANECKI, T. The problem of using persistent identifiers for historical geographical objects. Studia Geohistorica. 2020, č. 8, s. 179–193.
11 EIDE, Ø. Ontologies, Data Modeling, and TEI. Journal of the Text Encoding Initiative. 2014, č. 8, s. 2–3.
12 BEMBENIK, R. et al. (eds.). Liner2 – A Customizable Framework for Proper Names Recognition for Polish, in Intelligent Tools for Building a Scientific Information Platform. Berlin-Heidelberg: Springer, 2013, s. 231–253.
13 JAGURA, A., KOCOT, A. a P. J. KOWALSKI. Metodyka odtworzenia sieci osadniczej z obszaru II Rzeczypospolitej. In: EPSZTEIN, T. (ed.). Od „Słownika geograficznego Królestwa Polskiego” do map topograficznych Wojskowego Instytutu Geograficznego. Varšava: IH PAN Publishing House, 2021, s. 4763.
14 ZEDLITZ, J., a N. LUTTENBERGER. A Survey on Modelling Historical Administrative Information on the Semantic Web. International Journal On Advances in Internet Technology. 2014, č. 7 (3), s. 218–231; OSTAGIN, K. a D. KAIM. Historical Geoportal of Galicia and Austrian Silesia for the years 1857–1910. Yearbooks of Geomatics. 2021, č. 19 (1), s. 7–16.
15 NAROJCZYK, K. Interactive Statistical and Demographic Atlas of the Kingdom of Poland – Research Project. Przeszłość Demograficzna Polski. 2020, č. 42, s. 199–204.
1 BASTER, M. Corpus Academicum Cracoviense database of students and professors of the University of Krakow (1364–1780). In: OŻÓG, K. a M. ZDANEK. Universitätsstudium und Gesellschaft in Mitteleuropa vom 15. bis zum 18. Jahrhundert . Krakov: Towarzystwo Naukowe Societas Vistulana, 2017, s. 265–276.
11. Digitální technologie v historickém výzkumu
17 NAROJCZYK, K. W kierunku historii cyfrowej. Op. cit., s. 344–348.
18 FIEDUKOWICZ, A., GĄSIOROWSKI, J. a R. OLSZEWSKI. Wybrane metody eksploracyjnej analizy danych przestrzennych (Spatial data Mining).Varšava: Wydział Geodezji i Kartografii Politechniki Warszawskiej, 2015.
19 JASIŃSKI, T. Jak Gall Anonim tworzył veloxy? Przyczynek do poznania rytmiki Kroniki polskiej. IN: ODRZYWOLSKA-KIDAWA, A. (ed.). Klio viae et invia: Opuscula Marco Cetwiński dedicata Varšava: Wydawnictwo DiG, 2010, s. 17–23; EDER, M. Autorstwo Kroniki Anonima zwanego Gallem w świetle badań stylometrycznych: rekonesans. In: SKIBIŃSKI, E. et al. (eds.). Nobis operique favete: Studia nad Gallem Anonimem. Varšava:, Instytut Badań Literackich PAN, 2017, s. 59–74; EDERM, M., RYBICKI, J., KESTEMONT, M. Stylometry with R: A Package for Computational Text Analysis. The R Journal. 2016, č. 8, s. 107–121.
20 SZADY, B. Geografia struktur religijnych i wyznaniowych w Koronie w II połowie XVIII wieku,I Lublin: Wydawnictwo KUL, 2010, s. 229–235; RACHWAŁ, P. Ruch naturalny ludności rzymskokatolickiej w Lubelskiem w świetle rejestracji metrykalnej z lat 1582 –1900. Tamtéž, 2019; SZOŁTYSEK, M. et l.. Making a Place for Space: A Demographic Spatial Perspective on Living Arrangements Among the Elderly in Historical Europe. European Journal of Population. 2020, č. 36, s. 85–117.
21 SZYMAŃSKI, J. Nauki pomocnicze historii. Varšava 2006, s. 13.
BIBLIOGRAFIE
BASTER, M. Corpus Academicum Cracoviense database of students and professors of the University of Krakow (1364–1780). In: OŻÓG, K., a M. ZDANEK. (eds.). Universitätsstudium und Gesellschaft in Mitteleuropa vom 15. bis zum 18. Jahrhundert. Krakov: Towarzystwo Naukowe Societas Vistulana, 2017, s. 265–276.
BOONSTRA, O., BREURE, L. a P. DOORN. Past, present and future of historical information science. Historical Social Research. 2006, č. 29, s. 4–132.
EDER, M. Autorstwo Kroniki Anonima zwanego Gallem w świetle badań stylometrycznych: rekonesans. In: SKIBIŃSKI, E., WOJTOWICZ, W. a A. DĄBROWSKA (eds.). Nobis operique favete: Studia nad Gallem Anonimem. Varšava: Instytut Badań Literackich PAN, 2017, s. 59–74.
EDER, M., RYBICKI, J. a M. KESTEMONT. Stylometry with R: A Package for Computational Text Analysis. The R Journal. 2016, roč. 8, č. 1, s. 107–121.
EIDE, Ø. Ontologies, Data Modeling, and TEI. Journal of the Text Encoding Initiative. 2014, č. 8, s. 1–22.
FIEDUKOWICZ, A., GĄSIOROWSKI, J. a R. OLSZEWSKI. Wybrane metody eksploracyjnej analizy danych przestrzennych (Spatial data Mining) . Varšava: Wydział Geodezji i Kartografii Politechniki Warszawskiej, 2015.
GIL, T. L. How to make a database in historical studies. Losanna: Springer, 2021 . GRASZKA, O. Automatyzacja procesu rozpoznawania i weryfikacji nazw geograficznych ze źródeł historycznych na przykładzie Słownika geograficznego Królestwa Polskiego. In: EPSZTEIN, T. (ed.). Od „Słownika geograficznego Królestwa Polskiego” do map topograficznych Wojskowego Instytutu Geograficznego. Varšava: Wydawnictwo IH PAN, 2021, s. 21–32.
IDZIAK, J. et al. Scalable Handwritten Text Recognition System for Lexicographic Sources of Under-Resourced Languages and Alphabets. In: PA-
Od Gutenberga k Zuckerbergovi
SZYŃSKI, M. (ed.). Computational Science – ICCS 2021. Cham: Springer, 2021, s. 137–150.
JAGURA, A., KOCOT, A. a P. J. KOWALSKI. Metodyka odtworzenia sieci osadniczej z obszaru II Rzeczypospolitej. In: EPSZTEIN, T. (ed.). Od „Słownika geograficznego Królestwa Polskiego” do map topograficznych Wojskowego Instytutu Geograficznego. Varšava: Wydawnictwo IH PAN, 2021, s. 47–63.
JASIŃSKI, T. Jak Gall Anonim tworzył veloxy? Przyczynek do poznania rytmiki Kroniki polskiej. In: ODRZYWOLSKA-KIDAWA, A. (ed.). Klio viae et invia: Opuscula Marco Cetwiński dedicata. Varšava: Wydawnictwo DiG, 2010, s. 17–23.
JASKOWSKA, M. Publiczne systemy informacyjne i źródła danych: przewodnik. Krakov: Uniwersytet Jagielloński, Biblioteka Jagiellońska, 2020.
JUREK, T. [rec.] Janusz Tandecki, Krzysztof Kopiński, Edytorstwo źródeł historycznych, Warszawa 2014, Wydawnictwo DiG, ss. 480. Kwartalnik Historyczny. 2016, roč. 123, č. 2, s. 357–362.
MARCIŃCZUK, M., KOCOŃ J. a M. JANICKI. Liner2 – A Customizable Framework for Proper Names Recognition for Polish. In: BEMBENIK, R. et al. (eds.). Intelligent Tools for Building a Scientific Information Platform Berlín, Heidelberg: Springer, 2013, s. 231–253.
MYRDA, G. a T. PANECKI. The problem of using persistent identifiers for historical geographical objects. Studia Geohistorica. 2020, č. 8, s. 179–193 .
NAROJCZYK, K. Interactive Statistical and Demographic Atlas of the Kingdom of Poland – Research Project. Przeszłość Demograficzna Polski. 2020, č. 42, s. 199–204.
NAROJCZYK, K. W kierunku historii cyfrowej. Nowe możliwości – nowe wyzwania. Res Historica. 2016, č. 42, s. 329–350.
OSTAFIN, K. a D. KAIM. Geoportal historyczny Galicji i Śląska Austriackiego dla lat 1857–1910. Roczniki Geomatyki. 2021, roč. 19, č. 1, s. 7–16.
RACHWAŁ, P. Ruch naturalny ludności rzymskokatolickiej w Lubelskiem w świetle rejestracji metrykalnej z lat 1582–1900. Lublin: Wydawnictwo KUL, 2019.
SKOLIMOWSKA, A. Applying Handwritten Text Recognition in Scholarly Source Editing Case of the “Corpus of Ioannes Dantiscus’ Texts & Correspondence”. In: FLACHENECKER, H., KOPIŃSKI, K. a J. TANDECKI (eds.). Urkundenbücher, Chroniken, Amtsbücher: Alte und neue Editionsmethoden. Editionswissenschaftliches Kolloquium 2019. Toruň: Towarzystwo Naukowe w Toruniu, 2019, s. 253–263.
SŁOŃ, M. Pryncypia edytorstwa źródeł historycznych w dobie rewolucji cyfrowej. Studia Źródłoznawcze. 2015, č. 53, s. 155–161.
SZADY, B. Czasowo-przestrzenne bazy danych jako narzędzie w geografii historycznej. Acta Universitatis Lodziensis. Folia Geographica Socio-Oeconomica. 2013, č. 14, s. 17–32.
SZADY, B. Geografia struktur religijnych i wyznaniowych w Koronie w II połowie XVIII wieku. Lublin: Wydawnictwo KUL, 2010.
SZADY, B., PANECKI, T. Source-driven data model for geohistorical records’ editing: a case study of the works of Karol Perthées. Miscellanea Geographica. 2022, roč. 26, č. 1, s. 52–62.
11. Digitální technologie v historickém výzkumu
SZADY, B. W sprawie metody opracowania repertoriów wizytacji kanonicznych epoki staropolskiej. In: KOPIŃSKI, K., MROZOWICZ, W. a J. TANDECKI (eds.). Editiones sine fine. Toruň: Wydawnictwo Towarzystwa Naukowego w Toruniu, 2017, s. 177–188.
SZOŁTYSEK, M. et al. Making a Place for Space: A Demographic Spatial Perspective on Living Arrangements Among the Elderly in Historical Europe. European Journal of Population. 2020, č. 36, s. 85–117.
SZYMAŃSKI, J. Nauki pomocnicze historii. Varšava 2006.
ZEDLITZ, J. a N. LUTTENBERGER. A Survey on Modelling Historical Administrative Information on the Semantic Web. International Journal On Advances in Internet Technology. 2014, roč. 7, č. 3, s. 218–231.
Kapitola
12
Informační zdroje v digitálním prostředí – obsah, formáty, rozhraní
Abstrakt
Vývoj nových technologií měl a stále má zásadní vliv na poskytování obsahu v rámci různých typů informačních zdrojů, a to nejen v oblasti přírodních, ale i humanitních věd. Příspěvek stručně nastiňuje (r)evoluční přechod od zdrojů v tradiční podobě k podobě digitální se zvláštním zaměřením na obsah nabízený institucemi typu GLAM (galerie, knihovny, archivy a muzea), které v posledním desetiletí stále více prezentují své zdroje ve virtuálním prostoru. Mimo jiné jsou představeny základní formáty pro ukládání digitálních objektů a zpřístupňování dat. Diskutován je také význam způsobu zpřístupňování dat na rozvoj sémantického webu prostřednictvím technologií Linked Open Data, a otázka, jak lze v prostředí GLAM využívat digitální nástroje.
Obsah kapitoly
V literatuře je v souvislosti s digitálními humanitními vědami věnováno mnoho prostoru analýze různých typů textů a historických materiálů. Je však třeba připomenout, že mezi humanitní vědy patří také obory, které mají v oblasti svého zájmu kulturní a národní pa-
Od Gutenberga k Zuckerbergovi
mátkové instituce.1 Kapitola popisuje, jak mohou informační zdroje zpřístupněné knihovnami, archivy, muzei a galeriemi obohatit a podpořit výzkum prováděný v oblasti digitálních humanitních věd.
Informační zdroje
Pojem informační zdroj je v literatuře vnímán především jako prvek spojený s podnikáním, ekonomikou a zejména s řízením podniku nebo organizace. Do jisté doby zdroje v organizacích představovaly v prvé řadě hmotné statky. Ke změnám došlo (a vlastně stále dochází) relativně nedávno. Informační zdroje se dostaly do popředí s rozvojem informační společnosti, v jejímž rozvoji hrají informace stále významnější roli. Mají také významný vliv na fungování podniků. Co může být informačním zdrojem? Odpověď na tuto otázku není jednoduchá. Velmi záleží na typu organizace/podniku a na tom, jakého efektu chceme shromážděnými informačními zdroji dosáhnout. Mohou to být informace o konkurenci, jiných společnostech a produktech na trhu,také ale názory spotřebitelů, informace o jejich preferencích, zvycích, předchozích nákupech. Tyto informace jsou vlastně velmi žádoucí z pohledu podnikatele, který by chtěl co nejvíce využít potenciálu trhu a vydělat tak maximálně na svých produktech, 2 a v kontextu kulturních institucí rozšířit okruh jejich příjemců. V dnešní době prakticky každý typ organizace, instituce či podniku rád využívá různé typy informačních zdrojů. V této kapitole se blíže podíváme na zdroje využívané institucemi GLAM, které nejen využívají různé typy informačních zdrojů, ale především je samy vytvářejí a zpřístupňují.
GLAM
Předchozí kapitoly této monografie se zabývaly otázkami, jak lze technologie využít pro výzkumy související s lingvistikou, literární vědou, translatologií, historií a geografií. Je ovšem potřeba se zamyslet i nad tím, jak technologie změnily prezentaci zdrojů poskytovaných institucemi GLAM.
GLAM (Galeries, Libraries, Archives and Museums – galerie, knihovny, archivy a muzea) nejsou primárně výdělečné instituce, ale spíše instituce obohacující každodenní život o kulturní a společenské prvky, jejichž cílem je uchovávat a zpřístupňovat místní, národní, regionální nebo dokonce světové dědictví v různých formách. Knihovny se zaměřují především na uchovávání a propagaci psaného slova tím,
12. Informační zdroje v digitálním prostředí…
že organizují nejrůznější setkávání spojená s knihami nebo jejich autory. Galerie propagují především současné umění, muzea uchovávají paměť minulosti pro současné i budoucí generace 3 a archivy pomáhají dokumentovat minulost.
V kontextu těchto institucí byly a jsou informačními zdroji především katalogy různého druhu (knihovní, nakladatelské, výstavní), inventáře, prospekty atd. Tedy vše, co umožňuje nebo usnadňuje orientaci ve sbírkách těchto institucí a informuje o nich uživatele. Informačními zdroji mohou být i samotné sbírky těchto institucí, které jsou zdrojem informací pro jejich pracovníky i návštěvníky.
Technologické změny významně ovlivnily způsoby zpřístupňování informací, které dříve existovaly pouze v tištěné nebo rukopisné podobě. Změnila se také pravidla pro využívání těchto zdrojů. Přenos bibliografických, katalogizačních či archivních informací do digitálního prostředí je spojen s novými možnostmi, ale také s určitými problémy či omezeními, která budou v této kapitole popsány.
Forma informačních zdrojů
Nejprve se zamysleme nad otázkou formy zdrojů. Hovoříme-li o digitálních informačních zdrojích v institucích GLAM, je důležité rozlišovat mezi dvěma typy. Prvním jsou nepřímé informační zdroje (které poskytují informace o tom, co lze v knihovně, archivu, muzeu nalézt). Druhým typem jsou přímé informační zdroje (knihy, časopisy, umělecká díla, archiválie, které přinášejí odpovědi na otázky uživatelů a návštěvníků nebo jsou primárním cílem jejich vyhledávání).
Podívejme se nejprve na nepřímé informační zdroje. Po staletí byly informace o zdrojích v držení institucí GLAM poskytovány uživatelům v tradiční podobě. Na jedné straně hovoříme o zdrojích poskytovaných ve formě kartoték nebo katalogů (například tradiční knihovní katalogy), na straně druhé o soupisech vydávaných ve formě tištěných adresářů (například tištěné bibliografie, nakladatelské katalogy, aukční katalogy, rejstříky archivů apod.)
Možnosti vyhledávání spojené s těmito formami jsou poměrně omezené. V abecedních lístkových katalozích je pro vyhledání informací o publikaci nutné znát buď jméno autora, nebo název kolektivního či anonymního díla. V předmětových katalozích (třídních, oddílových nebo systematických) jsou karty uspořádány podle témat. Pro vyhledání zdrojů k tématu, které uživatele zajímá, je však obvykle nutné nahlédnout do seznamu předmětových hesel, seznamu tříd, oddílů nebo klasifikačního schématu literatury. Podobné možnosti nabízejí i tištěné adresáře, jež jsou uspořádané způsobem, který zvolil autor (abecedně nebo tematicky), a jež umož-
Od Gutenberga k Zuckerbergovi
ňují vyhledat informace o daném autorovi nebo tématu. Rozšířením možností vyhledávání v tomto typu zdrojů jsou indexy, které umožňují vyhledávat zdroje z různých hledisek (například prostřednictvím místa vydání, názvů děl, jména překladatele apod.) samozřejmě za předpokladu, že autor takové indexy do svého díla zahrnul. Je třeba také zmínit, že v obou případech bylo pro využití těchto typů zdrojů nutné je nejprve fyzicky získat, tedy buď navštívit příslušnou knihovnu, archiv či muzeum, jejichž součástí je kartotéka, nebo si zakoupit výtisk tištěné publikace. V případě archivů a muzeí mohl být navíc někdy přístup ke zdrojům podmíněn dalšími povoleními.
Zavedení počítačových technik do prostředí GLAM zahrnovalo převedení výše uvedených zdrojů do počítačového prostředí. Zpočátku to však nijak výrazně neovlivnilo možnosti vyhledávání ani nutnost docházet do instituce (první katalogy a digitální archivy byly dostupné pouze na stolních počítačích v institucích, které je vytvářely). Další možnosti se objevily až s využitím disket nebo CD, které bylo možné v libovolném počtu rozmnožovat a prodávat uživatelům. Problémem tohoto řešení však byla nutnost nákupu zařízení pro jejich rozmnožování a nemožnost aktualizovat informace na nosičích uložené.
Skutečná změna nastala s rozšířením internetu a jeho využitím k informování uživatelů o zdrojích, které jsou k dispozici v institucích GLAM. Knihovny si nové technologie osvojily nejrychleji – počítače sem pronikly již v 60. letech 20. století.4 První knihovní katalogy typu OPAC (Online Public Access Catalogue) se začaly v širším měřítku zavádět v 70. a 80. letech 20. století a umožnily vyhledávat informace o obsahu knihoven, aniž by bylo nutné opustit domov. Archiváři si také postupně začali uvědomovat potenciál digitálních technologií ve svých institucích. Potřeba uplatnit nové technologie při popisu artefaktů byla uznána i v muzeích. Oba typy institucí začaly postupně vyvíjet vlastní metody – zpočátku buď na základě knihovnických procesů (archivnictví), nebo ve spolupráci s knihovnami (muzejnictví) 5 , především kvůli rozmanitosti předmětů, které uchovávají, a s tím související složitosti jejich popisu. Navíc (na rozdíl od knihoven a archivů) v případě muzeí jsou zdroje (s nimiž se obvykle nepracuje) prezentovány odlišně. Při přípravě pokynů pro tvorbu muzejních záznamů bylo zároveń nutné zohlednit skutečnost, že jejich obsah se neustále mění (aby obsahoval aktuální informace o předmětech). Podobně fungují i umělecké galerie a jejich výstavní katalogy, které byly dlouhou dobu vydávány pouze v papírové podobě. Podobně fungují i umělecké galerie a jejich výstavní katalogy, které byly dlouhou dobu publikovány pouze v papírové podobě.
S rozvojem nových zobrazovacích technologií začaly instituce GLAM kromě nepřímých informačních zdrojů (o uchovávaných zdrojích) zpřístupňovat na webu i samotné zdroje v digitalizované
12. Informační zdroje v digitálním prostředí…
podobě. U knihovních fondů se digitalizace stala populárním způsobem ochrany kulturního dědictví (ochrany před zničením například publikací vydaných na takzvaném kyselém papíře ) a zpřístupnění cenných objektů běžným uživatelům, kteří by do nich v tradiční podobě nemohli nahlížet. Příkladem mohou být miliony zdrojů dostupných prostřednictvím portálu Polské federace digitálních knihoven ( https://fbc.pionier.net.pl/) nebo zdroje českých digitálních knihoven dostupné prostřednictvím portálu Česká digitální knihovna (https:// www.czechdigitallibrary.cz/cs/ ) .
Také v archivech umožnila digitalizace zajistit mnoho cenných pramenů a zpřístupnit je širšímu okruhu uživatelů. Pokud jde o státní instituce, příkladem jsou zdroje portálu Hledej v archivech ( https://www.szukajwarchiwach.gov.pl/), kde lze najít záznamy, metriky, mapy, fotografie, sbírky nebo technickou dokumentaci. Seznam odkazů na digitální archivy obsahující české archiválie lze nalézt na portálu Moje české kořeny (https://www.myczechroots.com/searchtools/digital-archives) .
Na pomezí mezi činností knihoven a archivů se nacházejí komunitní archivy, které se v posledních letech staly populárními. Obvykle se jedná o iniciativy zdola koordinované knihovnami, nadacemi, sdruženími nebo neformálními skupinami. Jejich cílem je shromažďovat a zpřístupňovat archivní materiály (fotografie, dokumenty, vzpomínky) místního charakteru a zachraňovat je tak před zapomněním. V Polsku existuje Centrum společenského archivnictví (Centrum Archiwistyki Społecznej), které tyto iniciativy integruje ( https://zbioryspoleczne.pl/ ) .
Digitalizují se však nejen tištěné publikace, ale také předměty uložené v galeriích a muzeích pomocí skenerů, fotoaparátů a kamer. Příkladem takové iniciativy je projekt Virtual Face. Jeho cílem je digitalizovat a zpřístupnit kulturní a památkové zdroje česko-polského pohraničí. Součástí projektu je mimo jiné portál www.wok4u.eu, který prezentuje digitalizované sbírky spolupracujících muzeí. Rozsáhlou sbírku zdrojů uchovávaných v institucích GLAM po celé Evropě lze prohledávat pomocí multivyhledávače Europeana (https://www. europeana.eu/pl) . 7
Zejména výzkum v oblasti literatury, umění, historie atd. vyžaduje přístup k pramenným materiálům v podobě textů, obrazů, předmětů. 8 Digitalizované verze materiálů v držení institucí GLAM vytvořily nové možnosti snadného a rychlého přístupu k datovým zdrojům, které tvoří základ velké části akademického výzkumu. Než se k šíření materiálů GLAM začal využívat internet, vyžadovalo seznámení s nimi návštěvu knihovny, archivu nebo muzea. Pokud bylo potřeba něco dalšího upřesnit, doplnit nebo zkontrolovat, bylo nutné danou instituci navštívit znovu. V současné době je mnoho předmětů
Od Gutenberga k Zuckerbergovi
Obrázek 1. Snímek obrazovky interaktivní mapy místních jmen (toponym) obsažených v záznamech polské Národní knihovny (1800–2019) a v Polské literární bibliografii (tiskoviny od roku 1988).
Zdroj: https://bibgeos.clarin-pl.eu/maps.html. Více informací o projektu: Bibliographic Data Mining. Wrocław Bibliodata Website, http://phc.uni.wroc.pl/wbw/ .
(i když samozřejmě ne všechny) dostupných online, což má významný vliv na formu a časový průběh badatelské práce.
Kromě toho převod mezidat, která byla dosud k dispozici v textové podobě, do elektronické podoby umožňuje studovat tato data různorodým způsobem a v rozsahu, který byl dříve nemožný nebo přinejmenším časově velmi náročný. Obsah bibliografických databází je proto analyzován a hledají se v něm pravidelnosti v údajích, které se v nich vyskytují (viz obrázek 1 a 7. kapitola v tomto svazku). Analyzovány jsou také grafické zdroje zpřístupňované galeriemi nebo muzei ve snaze o jejich vizualizaci (viz obrázek 2).
Aby bylo možné tento typ výzkumu provést, je nejprve nutné získat soubor dat pro analýzu uložený ve formátu vhodném pro zpracování dat. Zpracování údajů bude možné, pokud budou data správně uspořádána, jednotně zpracována a uložena ve vhodném formátu. Pokud tomu tak není, čeká nás náročný proces jejich čištění (data cleaning) .
12. Informační zdroje v digitálním prostředí…
Obrázek 2. Snímek obrazovky z videa demonstrujícího ImagePlot pro vizualizaci sbírek obrázků. Zdroj: Softwarestudies, ImagePlot.demo. images.options.mo.v https://youtu.be/JKRG3fD1oLU?list=PL364F03517D1FCD15. Více informací o programu naleznete v Software Studies Initative, Software for Digital Humanities. http://lab.softwarestudies.com/p/software-for-digital-humanities.html
Formáty záznamu digitálních objektů
Pro rozvoj digitálních humanitních věd je důležité mít k dispozici odpovídající záznam údajů, který lze následně využít pro výzkum. Rozvoj moderních informačních technologií způsobil, že instituce GLAM mají v souvislosti se zpřístupňováním digitálních zdrojů na výběr z různých typů formátů datového ukládání. Například digitalizovaná kniha (písemný objekt obsahující text) může být uživatelům zpřístupněna několika způsoby: ve formátu PDF, DjVu 9 (viz obrázek 3), JPEG atd. Kniha může být také podrobena procesu rozpoznávání textu (OCR – Optical Character Recognition) a výsledek může být uložen ve formátech jako TXT, DOC, RTF, HTML atd. Funkce OCR umožňuje fulltextové vyhledávání zdrojů a lze ji použít i v souborech PDF nebo DjVu. Jak poznamenává Anna Kamińska: „Při absenci možností fulltextového vyhledávání se vyhledávání potřebných informací v časopisech nebo novinách mění v tradiční procházení digitalizovaných dokumentů. Zdá se, že současná technologická řešení umožňují tento problém co nejvíce vyřešit, což by přispělo k dalšímu kroku na cestě k digitalizaci humanitních věd.“10 Autorka rovněž navrhuje, aby knihovníci spolupracovali s informatiky na zdokonalení technik OCR pro rukopisné materiály, jako jsou deníky, dopisy, úřední rejstříky, metrické knihy atd.11
Od Gutenberga k Zuckerbergovi
Obrázek 3. Snímek obrazovky zobrazující informace o digitalizované publikaci Bibliografia. Metodyka i organizacja, kterou vydal Z. Żmigrodzki. Publikace byla zpřístupněna v digitální knihovně Medioteka původně ve formátu DjVu. Z úrovně popisu je k dispozici také verze ve formátu PDF.
Na tomto místě je třeba zmínit, že mezi zdroji, které knihovny zpřístupňují, se stále častěji objevují i ty, které byly původně publikovány v digitální podobě (takzvaně born digital). Děje se tak obvykle díky poskytovatelům digitálního obsahu, kteří knihovnám nabízejí balíčky stránek, jež mohou čtenáři využívat (například v Polsku mezi takové poskytovatele pro veřejné knihovny patří Legimi, IBUK Libra nebo EmpikGo). Rozšíření digitálních technologií téměř ve všech oblastech našeho života vede také k vytváření digitálních uměleckých děl, která jsou pak prezentována v uměleckých galeriích nebo speciálních instalacích.12
Pro textové objekty zpřístupňované na webu je rovněž důležitý standard TEI (Text Encoding Initative) pro kódování obsahu dokumentů (digitalizovaných i born digital). Tento standard umožňuje velmi podrobnou charakteristiku obsahu dokumentů. Způsob, jakým jsou tyto informace zaznamenány, umožňuje jejich počítačové čtení. Lze je proto později použít pro výzkumné účely.13
Rychlý rozvoj informačních technologií vedl také k velkému výběru formátů pro ukládání grafických objektů. Na výběr jsou rastrové formáty TIFF, GIF, JPEG, PNG nebo vektorové SVG, ale také FITS,
12. Informační zdroje v digitálním prostředí…
PostScript nebo EPS. Pro 3D objekty se používají mimo jiné formáty OBJ, 3DS, FX, glTF.
Mezi stránkami se zvukovými zdroji najdeme také ty, které nabízejí instituce GLAM. Patří sem zvukové archivy a webové stránky zpřístupňující hudební soubory. Zvukové archivy jsou obvykle spojeny s různými veřejnými i soukromými institucemi, které vlastní audiovizuální sbírky. Mohou nabízet zvukové zdroje v otevřeném, nebo zpoplatněném přístupu.14 Do druhé skupiny patří mimo jiné muzea hudebních nástrojů, kam jsou vedle popisů a fotografií nástrojů stále častěji zařazovány i zvukové záznamy. Příkladem zvukových archivů jsou British Library Sound (https://sounds.bl.uk/), Open Music Archive (http://www.openmusicarchive.org/index.php), Free Music Archive (https://freemusicarchive.org/). Zvukový materiál v podobě analogového signálu lze digitalizovat buď do formátů využívajících ztrátovou kompresi (MP3, Ogg), nebo do formátů využívajících bezeztrátovou kompresi (například Flac, WAV), které zajišťují původní kvalitu zvuku.
Do digitální podoby lze rovněž převést filmový materiál uložený v archivech, knihovnách, galeriích nebo muzeích ve formě analogových pásů. Existuje mnoho možných formátů záznamu. Nejoblíbenější je MPEG-2, který umožňuje vysokou kompresi dat v souborech různé kvality a rozlišení. Novějším standardem je MPEG-4, který byl vyvinut pro optimalizaci přenosu videa s omezenou šířkou pásma (například pro videozáznamy z mobilních telefonů). Pro dlouhodobou archivaci je za optimální považován formát MPEG-2 spolu s metadaty uloženými v MPEG-7.15
Mezi zdroji GLAM se mohou objevit také interaktivní dokumenty, jako jsou animace, hry, interaktivní formuláře. K jejich vytvoření byl použit software Adobe Flash, podporovaný do konce roku 2020 (soubory s příponou .swf). V současné době se interaktivní webové stránky vytvářejí především v programovacím jazyce JavaScript.
Zde je třeba poznamenat, že v dnešní době lze na webu najít poměrně velké množství softwarů (komerčních i open source) pro konverzi formátů. Není tedy velký problém převést soubor PDF na DOC, JPEG na PNG, i když kvalita výstupních souborů není vždy srovnatelná s originálem.
Nezanedbatelným problémem při digitalizaci je také kvalita výsledných skenů. Stejně tak se kvalita digitální kopie zohledňuje při volbě formátu. Rozhoduje se na základě kompresních možností různých formátů a účelu digitální kopie (jinou velikost souboru a formát zvolíme, pokud chceme pouze informovat o existenci zdroje, a jiný, pokud má být digitální kopie použita k archivaci a nahrazení originálu). Stupeň komprese souboru se pak promítá do možností zvětšování/zmenšování digitálních obrazů a také do jejich automatické analýzy (například barevnosti).
Od Gutenberga k Zuckerbergovi
Metadata informačních zdrojů
S technologickými změnami přicházejí také změny ve způsobu, jakým instituce GLAM využívají své zdroje. Jak poznamenávají Cezary Mazurek, Tomasz Parkoła a Marcin Werla, „digitalizace a zpřístupňování digitálních zdrojů kulturního dědictví na internetu je klíčovým prvkem činnosti každé instituce vědy a kultury, která se chce objevit v povědomí informační společnosti, a to jak na regionální či národní úrovni, tak v mezinárodním kontextu.“1
Aby se tyto zdroje staly součástí tohoto povědomí, je kromě samotné digitalizace především nutné zajistit, aby byly na webu náležitě popsány. Samotné digitální kopie zdrojů dostupné na internetu k jejich pohodlnému využívání nestačí. Snadno si můžeme představit problém při používání knihovny s fondem několika tisíc svazků bez katalogizačních informací. Procházení statisíců nestrukturovaných stránek archiválií by bylo krkolomným úkolem. Prostředí na webu je podobné. Hlavním bodem přístupu ke zdrojům jsou vyhledávače, pomocí nichž lze najít hledané objekty. Aby bylo vyhledávání efektivní, musí být všechny objekty dostatečně popsány a jejich popisy musí být možné prohledávat. Jak zdůrazňuje Paweł Perzyna, důležité jsou především metadatové standardy, popis těchto jednotek a teprve poté jejich digitalizace.17
Všechny informační zdroje v držení institucí GLAM byly vždy popsány pomocí dat. Data popisující jiná data (zdroje) se označují jako metadata. Zde je třeba poznamenat, že metadata nejsou produktem digitálního světa – již popisy muzejních předmětů, galerií, archivů, publikací vytvořené v tradiční podobě jsou metadaty, tedy informacemi o informacích.
U textových dokumentů, které byly podrobeny výše uvedené technice OCR, lze vyhledávání do určité míry provádět bez metadat. U grafických materiálů jsou však metadata klíčová, protože samotný materiál nám toho může říci jen velmi málo. Jak upozorňuje Elke Bauer, teprve popis fotografie a její zasazení do širšího kontextu (autor, datum, místo, okolnosti vzniku fotografie) umožňuje její hlubší analýzu. Všechny tyto informace by měla poskytnout metadata přiřazená digitálnímu objektu. To platí jak pro tradiční fotografii, tak pro její digitální kopii umístěnou například v digitálním muzeu nebo archivu.18
Metadata mohou sloužit k různým účelům. V literatuře se obvykle uvádí několik typů metadat: – deskriptivní (rešeršní) – slouží k vyhledávání, identifikaci a pochopení předmětu; lze je považovat za ekvivalent klasických bibliografických údajů; zahrnují informace o autorství, datu vydání předmětu, vydavateli, doplňkovém materiálu;
12. Informační zdroje v digitálním prostředí…
– technická – informují o hardwarové a softwarové platformě potřebné ke čtení a prezentaci obsahu dokumentu, formátu uložení a nosiči dat; často podporují proces archivace objektu díky uloženým informacím o plánovaných nebo provedených konzervačních pracích na publikacích; – administrativní – týkají se správy digitálních publikací ve sbírce; zahrnují informace o existujících verzích publikací, pořízených kopiích a také o právech jednotlivých zaměstnanců provádět určité činnosti s objekty; – strukturální – popisují vztah mezi různými digitálními objekty (například vztah mezi jednotlivými stránkami a celou knihou, mezi článkem a časopisem nebo mezi muzejním předmětem a celou sbírkou). – právní (praktické) – informují o rozsahu použití zdroje, který může být někdy omezen například z důvodu platných právních předpisů o autorských právech; definuje podmínky pro sdílení, reprodukci, přenos objektů.19 Při posuzování informačních zdrojů GLAM z hlediska jejich vhodnosti pro výzkum DH jsou nejdůležitější strukturovaná metadata, která lze analyzovat.
Standardizace metadat
S postupem času a rozšiřováním technologických nástrojů v institucích GLAM pro tvorbu informací o zdrojích vyvstala také potřeba vytvořit jednotné standardy pro evidenci tohoto typu údajů. Zpočátku byla tato doporučení lokální (platná pro jednotlivé instituce). Poté byla zavedena doporučení o celostátní působnosti. Nakonec však technologický rozvoj a s ním spojené možnosti sběru, zpracování, přenosu a výměny dat mezi subjekty na celém světě vedly ke vzniku mezinárodních pravidel upravujících způsob popisu zdrojů v různých typech institucí.
Standardizace formálních popisů objektů není jednoduchá. Po celém světě, ale i v samotné Evropě, používají různé kulturní instituce různé formáty metadat. Metadatové standardy se liší v závislosti na typu instituce (jiné standardy mají knihovny, jiná muzea nebo archivy). Je to dáno především charakteristikou sbírek uchovávaných v těchto institucích. Tentýž předmět může být totiž vytvořen odlišně v závislosti na tom, která instituce jej vlastní. Dalším problémem standardizace metadat je mnohočetnost výkladů byť i jednoho standardu (příkladem je metadatová sada Dublin Core).
Od Gutenberga k Zuckerbergovi
Standardizace v knihovnách
Z hlediska standardizace metadat v prostředí knihoven byla nejdůležitější doporučení ISBD (International Standard Bibliographic Description), která v 70. letech 20. století zavedla IFLA (International Federation of Library Associations and Institutions). Do konce 90. let 20. století vypracovala mezinárodní skupina odborníků doporučení prakticky pro všechny typy zdrojů shromažďovaných v knihovnách (knihy, časopisy, elektronické dokumenty, patenty, rukopisy, archiválie). Normy byly přizpůsobeny stávajícím nebo novým národním katalogizačním předpisům (v Polsku v jednotlivých listech polské bibliografické normy PN 01152). Zde je třeba zdůraznit, že standard ISBD neukládá konkrétní formát pro záznam údajů. Nepředstavuje ani striktní katalogizační pravidla. Jedná se o vodítko, které ovlivnilo podobu takových formátů záznamu údajů, jako např. MARC, ONIX a katalogizační předpisy jako AACR, RDA, PN 01152. Na počátku 60. let 20. století vznikly také tzv. pařížské zásady – mezinárodní doporučení pro základ a výběr autorských a názvových záznamů v abecedních katalozích. Ty se staly základem pro doporučení GARE (Guidelines for Authority Records and Reference Entries) zveřejněná v roce 1984. Ta poskytují specifikaci mezinárodního systému autorit pro tři typy záznamů: osobní, korporativní a názvové záznamy, pomocí nichž můžeme vyhledávat v souborech publikačních informací.
Standardizace v archivech
V případě archivních údajů se na standardizaci začalo pracovat v 90. letech 20. století. V letech 1990–2008 byly s podporou Mezinárodní archivní rady (ICA – International Council on Archives) vypracovány čtyři standardy: 1) Mezinárodní standard pro víceúrovňový archivní popis ISAD(G) – Obecný mezinárodní standardní archivní popis; 2) Mezinárodní standard pro záznam archivní autority pro korporátní subjekty, osoby a rodiny (CPF) ISAAR – Mezinárodní standardní záznam archivní autority pro korporátní subjekty, osoby a rodiny; 3) Mezinárodní standard pro popis institucí s archivními fondy ISDIAH – Mezinárodní standard pro popis institucí s archivními fondy a 4) Mezinárodní standard pro popis funkcí původců archiválií ISDF.20 Stejně jako v knihovnictví jsou standardy jako ISAD(G) pouze obecným vodítkem, z něhož by měly vycházet národní předpisy pro popis archiválií.
12. Informační zdroje v digitálním prostředí…
Standardizace v muzeích
V oblasti muzejních dat byly zpočátku činěny pokusy o využití řešení přijatých v knihovnictví. Nakonec však zastupitelé muzeí s rozvojem technologií a s ohledem na specifika muzejních sbírek vyvinuli vlastní řešení. Důležitým standardem v tomto ohledu je CDWA (Categories of Description of Work of Arts). Definuje rámec pro popis a přístup k informacím o uměleckých dílech v databázích. Obsahuje 532 kategorií a podkategorií, které lze použít k popisu uměleckých děl. Stala se datovou strukturou pro informace o různých typech předmětů shromažďovaných muzei. Používá se také ve vlastních i komerčních systémech pro správu sbírek. Druhým standardem v muzejnictví je CCO (Cataloging Cultural Objectst), který vydává doporučení, jak strukturovat prvky popisu vizuálních objektů.21
Formáty dat a metadat
Technologický vývoj v oblasti možností zaznamenávání, přenosu a zpracování dat vedl k používání digitálních řešení pro záznam dat o objektech uchovávaných v každém prostředí GLAM. To vyžadovalo vytvoření vhodných formátů, které by strukturovaně zaznamenávaly informace nezbytné pro identifikaci majetku. Zavedení výše zmíněných mezinárodních standardů významně ovlivnilo možnosti výměny dat. V současné době se to promítá do možnosti výzkumu těchto zdrojů v rámci digitálních humanitních věd.
Knihovny
Zpracování stejných publikací v desítkách nebo dokonce stovkách knihoven najednou by se mohlo zjednodušit výměnou hotových záznamů. To přispělo k urychlení práce při zpracování fondů, a tím i k úspoře času a peněz. Standardizace popisů tak měla v knihovnickém prostředí velmi praktický rozměr.
Pro knihovníky je nejcennějším (a zároveň nejspornějším) formátem MARC (Machine Readable Cataloguing), který byl vyvinut v 60. letech 20. století, a jeho různé varianty (MARC BN, UNIMARC, MARC 21 nebo MARC XML, zavedený v 90. letech 20. století). S rozšířením internetu a vznikem stále většího počtu elektronických publikací se objevily i další formáty, z nichž nejrozšířenější je nyní formát Dublin Core (DC) používaný pro zdroje, jako jsou digitální knihovny
Od Gutenberga k Zuckerbergovi
a repozitáře. Tento mnohem jednodušší standard vytvořený pro popis digitálních dokumentů v knihovnách byl velmi rychle použit i pro konstrukci dalších schémat. Ve skutečnosti téměř všechna z nich umožňují převod z/do DC.
Aby bylo možné vyměňovat metadata mezi různými knihovnami, bylo na jedné straně zapotřebí standardizovaných formátů, na straně druhé technologických řešení pro přenos dat mezi institucemi. K tomu slouží webové protokoly, jako je Z39.50, SRU (Search / Retrieve via URL), protokoly SRW (Search Retrieve Web Service) nebo OAI (Open Archive Initiative).
S rozvojem technologií se nová řešení zaváděla i v knihovnách. V Kongresové knihovně byla vyvinuta verze formátu MARC v jazyce XML neboli MODS (Metadata Object Description Standard). Tento formát nebyl vyvíjen pouze s ohledem na knihovny. Byl také navržen pro použití v repozitářích a dalších digitálních sbírkách na webu. MODS umožňuje zaznamenávat informace o objektu pomocí značek v přirozeném jazyce (nikoli číselných značek jako ve formátu MARC). Kromě toho lze informace zaznamenané ve formátu MARC snadno převést do formátu MODS (bohužel převod opačným směrem již není bezeztrátový). Toto schéma je bohatší než standard DC, kompatibilnější s knihovními daty než ONIX a mnohem jednodušší než formát MARC.22 Mimo jiné přispělo ke zjednodušení a zvýšení efektivity procesů mezinárodní výměny dat.23 Archivy
V rámci archivní komunity byla práce na formátu, který by zohledňoval rozmanitost shromažďovaných zdrojů, mnohem obtížnější. V 80. letech 20. století se však objevily formáty jako americký MARC AMC (Machine Readable Cataloging – Archival and Manuscripts Control Format), který vycházel z formátu knihovního, byl ovšem přizpůsoben potřebám archivů. V Kanadě vznikl formát RDDA (Régles pour la description des documents d‘archives) a ve Velké Británii MAD (Manual of Archival Description). Na základě amerických předpisů AACR vytvořily archivy v roce 1983 vlastní standard APPM (Archives, Personal Papers and Manuscripts). Tento standard byl zaveden především kvůli potřebě zadávat informace o archivech do bibliografických systémů pomocí formátu MARC. Na polském území v 90. letech 20. století Bohdan Ryszewski navrhl standard FOPAR Archival Description Format, který se ukázal být kompatibilní se standardy MRA. Univerzálně použitelným standardem se však nestal.24
Populární je také mezinárodní standard pro záznam informací o archivních fondech EAD (Encoded Archival Description), za který
12. Informační zdroje v digitálním prostředí…
v současnosti odpovídá Kongresová knihovna. Tento standard, vyvíjený od 90. let 20. století, slouží především jako archivní inventář. Je také v souladu se směrnicemi ISAD(G). Původně byl vyvinut v jazyce SGML, od roku 2002 je vyvíjen také v jazyce XML. Toto schéma umožňuje zachycovat a sdílet údaje o archivech ve standardizované elektronické podobě. Důležitá je zde také možnost výměny informací o složitých hierarchických vztazích, které jsou pro archivní sbírky charakteristické. S rostoucím využíváním tohoto formátu (v současnosti jej používají významné archivy v USA a zemích EU) klesá používání obsahových standardů AACR a APPM, které jsou spojeny s formátem MARC.25
V roce 2004 byla zveřejněna další norma, která má pomoci standardizovat výměnu a záznam informací o archivních materiálech – DACS (Describing Archives: A Content Standard). Je natolik neutrální, že ji lze použít k popisu prakticky všech typů archiválií bez ohledu na úroveň popisu a použitou formu, médium nebo datovou strukturu. Jak se domnívá Grażyna Piotrowicz, formát MARC spolu se standardy EAD a DACS „dává archivům základní sadu metadatových standardů.“2
Vývoj společných standardů pro metadata používaná v muzejním prostředí byl mnohem obtížnější. Zaprvé kvůli různorodosti předmětů v těchto institucích, za druhé kvůli způsobu zpřístupňování těchto předmětů uživatelům, který ani neumožňuje přímý kontakt mezi návštěvníkem muzea a předmětem (ve většině muzeí je zakázáno dotýkat se exponátů). Za třetí tyto problémy vyplývají také z obsahu sestavovaných popisů. Pro muzea jsou v popisu důležité informace, jako je technika a materiál výroby nebo historie vzniku a používání. Nebylo také třeba vytvářet veřejně přístupné zdroje poskytující informace o muzejních sbírkách, dokud se neobjevily v digitální podobě na webu. Vývoj standardů byl rovněž silně ovlivněn zahájením výměny informací o zdrojích mezi institucemi v elektronické podobě.
Zpočátku se podobně jako v archivnictví pokoušeli využít k popisu muzejních exponátů schémata, která fungovala v knihovnách. Postupem času však byly vyvinuty standardy speciálně pro muzejní předměty. Na základě standardu CDWA a v souladu s pokyny CCO vyvinul fond J. Paul GettyTrust formát CDWA Lite. Jedná se o schéma založené na XML určené k popisu uměleckých děl a hmotné kultury způsobem, který umožňuje sklízení pomocí protokolu OAI-PMH. Záznamy uložené v tomto formátu lze proto prohledávat a vyhledávat agregátory zdrojů (například Europeana). Schéma využívá 19 kate -
Od Gutenberga k Zuckerbergovi
gorií CDWA pro popisná metadata a přidává tři další administrativní metadatové prvky.27
Alternativou k CDWA Lite je formát museumdat XML Schema, který vyvinula pracovní skupina pro dokumentaci Německého svazu muzeí (Fachgruppe Dokumentation des Deutschen Museumsbundes). Tento standard definuje třiadvacet prvků, z nichž pouze tři jsou povinné. Stejně jako CDWA Lite je museumdat formátem pro popis uměleckých děl, který umožňuje především výměnu a sklízení dat. Lze jej použít nejen k popisu uměleckých děl, ale i dalších kulturních, technických, přírodovědných a sociálně historických objektů. Je také kompatibilní se standardem CIDOC CRM popsaným níže.28
V kulturních institucích se pro popis grafických objektů souvisejících s architekturou, uměním a kulturou často používá také formát
Visual Resources Association Core (VRA Core). Toto schéma, založené především na Dublin Core, se skládá z devatenácti základních kategorií. Patří mezi ně prvky specifické pro umění, jako je například „stylePeriod“. Záznamy jsou kódovány ve formátu XML. Jak poznamenává Marek Nahotko, „jeho jedinečnou vlastností je možnost popsat umělecké dílo a jeho grafickou reprezentaci odděleně.“29 Kromě toho se na webu pro kulturní zdroje používá řada dalších metadatových schémat. Příkladem je schéma vytvořené pro filmový materiál zveřejněný na platformě YouTube. Vlastní schéma bylo vyvinuto také v polské filmové databázi vytvořené PWSFTViT v Lodži. 30
Standard RDF
Při diskusi o metadatech pro digitální zdroje GLAM je třeba zmínit také RDF (Resource Description Framework). Jedná se o jazyk/metodu pro popis zdrojů na internetu vyvinutou konsorciem W3C. Syntaxe tohoto jazyka je založena na XML (srov. 3. kapitolu tohoto svazku). Hlavní myšlenkou je popsat zdroje tak, aby jim rozuměly počítače (nikoliv lidé). Je to standard, který přispívá k rozvoji sémantické sítě. Jak se můžeme dočíst ve Wikipedii: „Cílem RDF je vytvořit celosvětový standard pro zápis metadat (údajů o datech), ve kterém by nebyl prostor pro libovůli, jako je tomu například u značek <meta>. Ziskem z toho bude umožnit strojové zpracování abstraktních popisů zdrojů automatizovaným způsobem. Lze je použít jak pro vyhledávání dat, tak pro sledování informací o daném tématu.“31 Namísto značek používá RDF zápis výrazů sestávající ze tří prvků: subjektu, úsudku/predikátu (vlastnosti) a doplňku/objektu (hodnoty). K identifikaci těchto prvků se používá URI (Unifrom Resource Identifier) (viz obrázky 4 a 5).
12. Informační zdroje v digitálním prostředí…
Obrázek 4. Záznam RDF. Zdroj: Resource Description Framework. In: Wikipedia. Free encyclopedia. Dostup: 2. 9. 2022. https://en.wikipedia.org/ wiki/Resource_Description_Framework
Obrázek 5. Příklad popisu v modelu RDF. Zdroj: Resource Description Framework. In Wikipedia. Free encyclopedia. Dostup: 2. 9. 2022. https:// pl.wikipedia.org/wiki/Resource_Description_Framework .
Mapování metadat
Rychlé technologické změny, zejména v oblasti IT, mají silný dopad i na instituce GLAM. Nové jazyky pro záznam dat na webu (jako HTML, XML, CSS, RDF) utvářejí dnešní online realitu. Aby zůstaly na webu viditelné, musí i instituce GLAM své informace aktualizovat podle požadavků a standardů nových technologií. V éře rozvoje informační společnosti a umělé inteligence založené na sémantickém
Od Gutenberga k Zuckerbergovi
webu se velmi často objevuje otázka interoperability, propojitelnosti a opakovaného použití dat (ang . reuse). Jak vyplývá z předchozího oddílu, na webu existuje mnoho formátů pro popis různých typů zdrojů. To značně ztěžuje možnosti následných institucí využívat jednou vytvořená data. Bylo by užitečné mít jeden mezinárodní standard pro všechny typy institucí a objektů, už jen kvůli agregátorům dat, jako je Europeana. V současné době to však není možné. Řešením pro množství formátů je proces mapování metadat, tedy převod dat uložených v jednom formátu do jiného. Pro Europeanu bylo vyvinuto speciální vícejazyčné schéma popisu muzejních dat LIDO (Lightweight Information Describing Object), které se používá jako zprostředkující formát pro převod a sklízení dat. Schéma LIDO je založeno na standardu CDWA Lite, modelu CIDOC CRM a formátech meseumdat a otevřeném standardu SPECTRUM pro správu sbírek vyvinutém britskou organizací Collection Trust. 32 Mezinárodní výměnu informací podporuje také standard METS (Metadata Encoding and Transmission Standard), který vyvinula Kongresová knihovna. Definuje způsob kódování popisných, strukturálních a administrativních metadat pomocí XML. Lze jej použít nejen k popisu textových a obrazových dokumentů, ale také zvukových a audiovizuálních objektů. Při vývoji METS byla věnována pozornost také tomu, aby standard umožňoval interoperabilitu mezi různými systémy používanými digitálními knihovnami. 33 Je dostatečně flexibilní, aby se dnes mohl používat v různých typech informačních systémů o zdrojích. 34 Formát METS používá mimo jiné archiv Sounds British Library. 35
Ontologie, slovníky
Nejen formáty, které definují strukturu ukládání dat, hrají významnou roli při standardizaci v prostředí GLAM. Neméně důležité je úsilí o sjednocení obsahu používaného v těchto formátech. Na mezinárodní úrovni vznikají při popisu zdrojů různé terminologické problémy. Ty se ještě více projevují při výměně informací mezi různými institucemi. Pro usnadnění výměny se proto vytvářejí vícejazyčné glosáře termínů, které pomáhají klasifikovat a popisovat sbírky. 3
Tvorba tezaurů, klasifikací a terminologických slovníků je již dlouho doménou knihovníků a informačních pracovníků. Na této půdě vyrostl vývoj, jako jsou klasifikace KDD, UKD, předmětové hesláře LCSH, RAMEAU, JHP BN, KABA. Jak poznamenává A. Kamińska, „v této oblasti společného zájmu pomáhají informační pracovníci v oblasti digital humanities především teoretickými znalostmi o tvorbě taxonomií nebo ontologií (...) a také poskytují hotové
12. Informační zdroje v digitálním prostředí…
nástroje v podobě konkrétních SSOW [síťových systémů organizace znalostí]. Díky používání datových formátů kompatibilních s webovými standardy (například standard Simple Knowledge Organisation System, SKOS) lze v digitálních vědeckých projektech využívat stále více SSOW. 37
Výše zmíněný muzejní standard CCO obsahuje ustanovení podporující používání slovníků a tezaurů ve vývoji, jako jsou TGM (Thesaurus for Graphic Materials), AAT (The Art. and Architecture Thesaurus), ULAN (The Union List of Artist Names), TGN (The Getty Thesaurus of Geographic Names).
Pro muzejní zdroje je důležitým standardem také CIDOC CRM (Conceptual Reference Model), ontologie vyvinutá dokumentačním výborem Mezinárodní rady muzeí (CIDOC). Zahrnuje pojmy a informace v dokumentaci kulturního dědictví a muzeí a vztahy, které mezi nimi mohou existovat (80 tříd a 130 vlastností/vztahů). Cílem vytvoření této normy bylo umožnit mezinárodní integraci a výměnu údajů z různých informačních zdrojů o objektech kulturního dědictví. 38
Došlo také k vyvinutí jazyka pro popis vytváření ontologií na webu.. Jazyk OWL (Web Ontology Language) je rozšířením jazyka RDF, je rozsáhlejší a má větší slovník a silnější syntaxi. Méně formalizovaným řešením je použití SKOS (Simple Knowledge Organisation Systems). Jedná se o rodinu formálních jazyků určených k popisu tezaurů, klasifikačních schémat, taxonomií a dalších podobných terminologických nástrojů. SKOS je rovněž založen na standardu RDF (Resource Description Framework).
Do online digitální podoby byly převedeny také hlavní soubory hesel, které uchovávají informace o osobních, firemních a titulových variantách jmen – například VIAF (Virtual International Authority File), na který odkazují mimo jiné zdroje Wikipedie.
Pro shrnutí problematiky související se standardizací metadat digitálního obsahu je vhodné představit typologii standardů navrženou v publikaci Introduction to metadaat. Podle této typologie lze normy rozdělit do čtyř hlavních kategorií: (1) standardy struktury dat; (2) standardy hodnot dat; (3) standardy obsahu dat a (4) standardy formátu/technické výměny dat (viz tabulka 1).
Tabulka 1. Typologie datových standardů. Zdroj: Introduction to metadata, ed. M. Baca, 3. vydání, Los Angeles 2016, s. 3. Vlastní překlad.
Typ Příklad
Standardy struktury dat (sady prvků metadat, schémata). Jedná se o „kategorie“ nebo „kontejnery“ dat, které tvoří záznam nebo jiný informační objekt.
Formát MARC (Machine-Readable Cataloging), EAD (Encoded Archival Description), BIBFRAME (Bibliographic Framework), Dublin Core Metadata Element Set, CDWA (Categories for the Description of Works of Art), VRA Core.
Standardy datových hodnot (řízený slovník, tezaury, řízené seznamy). Jedná se o termíny, názvy a další hodnoty, které se používají k naplnění standardů datových struktur nebo sad prvků metadat.
Standardy obsahu dat (katalogizační pravidla, kódy). Pokyny pro formát a syntaxi datových hodnot, které se používají k vyplňování prvků metadat.
Formát/standardy technické výměny dat (standardy metadat vyjádřené ve strojově čitelné podobě). Tyto standardy jsou často projevem určitého standardu datové struktury, zakódované nebo označené pro strojové zpracování
Library of Congress Subject Headings (LCSH), Name Authority File a Thesaurus for Graphic Materials, vytvořený Getty Art & Architecture Thesaurus, Union List of Artist Names (ULAN) nebo Thesaurus of Geographic Names; ICONCLASS, Medical Subject Headings
Anglo-americká katalogizační pravidla, popis zdrojů a přístup k nim, mezinárodní standardní bibliografický popis, katalogizace kulturních objektů, popis archivů: obsahový standard (DACS).
Resource Description Framework, MARC 21, MARCXML, EAD XML
DTD, METS, BIBFRAME, LIDO XML, Simple Dublin Core XML, Qualified Dublin Core XML, VRA Core 4.0 XML.
Standardy zmíněné dříve v textu, které jsou vypracovány institucemi GLAM, lze přiřadit k různým typům standardů v tabulce 1. Z hlediska institucí příklady standardů používaných institucemi GLAM podle jednotlivých typů ilustrativně uvedla Mary W. Elings a Günter Waibel ve své publikaci Metadata for all (viz tabulka 2).
Tabulka 2. Zastoupení základních norem používaných různými komunitami.
Zdroj: M. W. Elings, G. Waibel, Metadata for all. Descriptive standards and metadata sharing across libraries, archives and museums. First Monday 2007 . Od Gutenberga k Zuckerbergovi
12. Informační zdroje v digitálním prostředí…
Mezi knihovníky a archiváři probíhá diskuse o zjednodušení pravidel pro tvorbu metadat o objektech. Řešení vyvinutá v druhé polovině 20. století se ukazují jako velmi časově náročná, a tudíž i nákladná. Proto se v 21. století objevily standardy, které mají proces katalogizace zjednodušit a zároveň ovlivnit kvalitu využívání informačních systémů o zdrojích. V muzejní komunitě se naopak často objevují iniciativy využívající folksonomie k vytváření metadat. 39
Folksonomie, crowdsourcing v metadatech GLAM
Rozvoj nových technologií a vznik takzvaného internetu druhé generace (Web 2.0) si našel cestu i do institucí GLAM. Spoluvytváření webových zdrojů s jejich uživateli přineslo nové možnosti i pro muzea, knihovny, archivy a galerie. Vznikají projekty, jejichž cílem je zapojit uživatele do tvorby a především do rozvoje zdrojů.
Účast uživatelů na tvorbě metadat zdrojů je stále diskutabilní. V literatuře se uvádějí jak výhody (prezentace různých úhlů pohledu, zjednodušená terminologie přívětivější pro uživatele), tak nevýhody podobných řešení (vnášení chaosu do sběru informací o zdrojích, polysémie atd.). Na webu účast uživatelů nicméně roste. Stále častěji se také hovoří o koexistenci obou forem katalogizace zdrojů (tagování a folksonomie vs. Řízený slovník) spíše než o jejich konkurenci.
Příkladem mohou být iniciativy, jako je projekt dostupný na platformě Flickr, The Commons (https://flickr.com/commons). Jedná se o mezinárodní snahu o šíření archivních fotografií zpřístupněných veřejnými institucemi, jako jsou muzea, archivy, knihovny a nadace. Přihlášení uživatelé mohou k fotografiím nahraným na portál přidávat komentáře a tagy. Tím se zvyšuje jejich viditelnost na webu.
Instituce GLAM se také stávají centry komunitních iniciativ. V dubnu 2022 bylo v Polsku téměř 700 komunitních archivů40 . Jedná se především o iniciativy zaměřené na uchování dědictví lokálního charakteru. Mnohé z nich jsou organizovány a koordinovány institucemi GLAM. Na podobném základě pracuje nezisková organizace Historypin (https://www.historypin.org/en/), která spolupracuje s místními zástupci na ochraně dědictví.
Sdílení dat
Mapování a převod dat, popsané v předchozí části, jsou důležité z několika důvodů. Obvykle se po vytvoření a rozšíření nového formátu předchozí formáty nerozvíjejí a neaktualizují. Nenabízí tedy možnost
Od Gutenberga k Zuckerbergovi
držet krok s případnými změnami (například vznikem nových typů objektů, které již nelze popsat pomocí starého formátu). Potřeba používat nová řešení generuje problém slučování dat v rámci jednoho zdroje (například jednoho katalogu, databáze apod.) – stará data tak musí být převedena, aby mohla koexistovat s daty novými.41
Data se také stále častěji převádějí k dalšímu zpracování. Použití vhodné struktury popisu umožňuje rychlou konverzi dat. Příkladem je umožnění exportu bibliografických informací z knihovních katalogů nebo multivyhledávačů a jejich import do bibliografických manažerů (například Zotero, EndNote) (viz obr. 6).
Obrázek 6. Snímek obrazovky s možnostmi exportu bibliografických údajů v multivyhledávači EBSCO (dostup 5. 4. 2022).
Stále častěji se v činnostech prováděných institucemi GLAM v síťovém prostředí setkáváme také se sdílením jejich metadat prostřednictvím rozhraní pro programování aplikací (ang . application programming interface, API). Jedná se o řešení, které podporuje především opakované použití dat dalšími zájemci. Specializovaný přístupový bod totiž snižuje práci spojenou s vyhledáváním původních dat v knihovně, muzeu nebo archivní databázi. Kromě toho jsou data prostřednictvím rozhraní API obvykle zpřístupněna v několika různých formátech pro jejich výměnu, například v JSON (JavaScript Object Notation), XML. Data se vydávají také ve formátech založených na syntaxi již citovaného RDF. Mezi ně budou patřit formáty jako Turtle (Terse RDF Triple Language), JSON-LD, N-Triples, RDF/XML. Očekává se, že vývoj dat v těchto formátech a jejich zpřístupnění prostřednictvím rozhraní API přispěje především k rozvoji
12. Informační zdroje v digitálním prostředí…
sémantického webu. Instituce GLAM jsou ve virtuálním prostředí často uváděny jako tvůrci vysoce standardních a spolehlivých metadat. Vhodná příprava dat z jejich strany může přispět k tomu, aby tyto instituce měly na webu zajištěno odpovídající místo.
Pro instituce GLAM je také důležité jasně definovat autorská práva nebo licence, pod kterými jsou zdroje na webu zpřístupňovány. Je vhodné uvést, co je uživatelům zdrojů povoleno a co nikoli. V případě použití například licence Creative Commons by měl být u zdroje uveden odkaz na celý obsah licence. To je velmi důležité pro uživatele, kteří by měli snadno zjistit, co mohou používat a v jakém rozsahu. Informování o právech ke zdrojům se netýká pouze zdrojů přímé povahy. Při zpřístupňování metadat na webu je vhodné také uvést, za jakých podmínek lze metadata stahovat, analyzovat a zpracovávat.
Linked Open Data v prostředí GLAM
Mnohé studie a příspěvky na konferencích zdůrazňují, že kvalitní a strukturovaná data nestačí k tomu, aby je uživatelé chtěli používat. Jsou totiž stále více zvyklí na jediný vyhledávač a stále méně často využívají zdroje, které prostřednictvím tohoto vyhledávače nelze nalézt. Další překážkou mohou být nesrozumitelná nebo komplikovaná pravidla vyhledávání, která jsou k dispozici pro digitální obsah. Z pohledu uživatele by byl nejlepším řešením jediný vyhledávač, který by umožnil přístup ke všem zdrojům bez znalosti jejich struktury nebo jazyka dotazů. Proto se v posledních letech stalo tak důležité prezentovat data způsobem, který je srozumitelný nejen pro jiného člověka, ale i pro počítač. Stroj by měl na základě příslušných odkazů „pochopit“, na co se uživatel ptá, a naznačit mu relevantní odpověď.
Takto to viděl Tim Berners-Lee, když hovořil o zásadách Linked Open Data (LOD) (myšlenka zpřístupnění dat na webu podle pětihvězdičkové stupnice je znázorněna na obrázku 7). Aby byl zajištěn rozvoj sémantického webu, musí být data zpřístupněna pod svobodnou licencí, nejlépe v otevřeném formátu, který umožňuje opakované použití. Nejlepším řešením je tudíž použití technologie RDF – označování dat trojicemi a URI a následné přidávání odkazů na naše data s jinými daty, která již na webu existují. Příprava dat podle zásad LOD totiž zvyšuje viditelnost zdrojů institucí GLAM na webu. Umožňuje také jejich opakované použití. Příkladem projektů, které implementovaly řešení LOD pro své vlastní zdroje, jsou portály národních knihoven Francie (data.bnf.fr) a Španělska (datos.bne.es).42 Metadata z národních bibliografií, katalogů a digitálních knihoven byla zpřístupněna ve formátu RDF a propojena s dalšími zdroji na webu (například s VIAF, Wikidata, katalogy jiných knihoven).
Od Gutenberga k Zuckerbergovi
Obrázek 7. Pětihvězdičkové schéma otevřených dat. Zdroj: Michael 2015
Jak upozorňují Simon Burrows a Michael Falk, využití této techniky k vytvoření nových nástrojů pro využití datových souborů je dalším velkým úkolem pro DH v budoucnosti. Úkol související s budováním sémantického webu. Autoři zároveň zdůrazňují, že v současné době největší praktický význam DH ilustruje změna formy sdílení materiálů v akademickém prostředí. Už totiž nezáleží na tom, zda má být zdroj zpřístupněn studentovi nebo profesorovi – oba mají stejné technické možnosti a mohou tyto sbírky vyhledávat a analyzovat stejně rychle a snadno.43
Správně připravená metadata také umožňují lepší viditelnost zdrojů na webu. Vhodné formáty pro ukládání metadat a jejich propojení s dalšími zdroji je také zviditelňují pro vyhledávače. Tím se rozšiřuje okruh potenciálních příjemců, kteří k nim mohou přistupovat. Jak poznamenává A. Kamińska: „Digitální dokumenty, i ty nejlépe připravené z technického hlediska, ztrácejí svůj význam, pokud je k nim obtížný přístup, a míra jejich využití ve vědeckém výzkumu tak není tak vysoká, jak by mohla být.“44
Rozhraní digitálního obsahu
Není pochyb o tom, že využití nových technologií k prezentaci zdrojů institucí GLAM má obecně svůj hlavní účel v jejich zpřístupnění uživatelům. Koneckonců, všechny instituce mají v úmyslu své zdroje shromažďovat, rozvíjet a uchovávat, aby je mohly zpřístupnit. Je třeba také poznamenat, že online přístup ke zdrojům GLAM neroz-
12. Informační zdroje v digitálním prostředí…
šířil pouze jejich publikum. Ovlivnil rovněž vznik nové uživatelské kategorie– a sice kategoriepříležitostných, jednorázových, anonymních uživatelů. Jedná se obvykle o uživatele, kteří neznají strukturu databáze, ale proces vyhledávání chtějí provést rychle a efektivně.
Vývoj uživatelsky přívětivého rozhraní, které uživateli umožní efektivní vyhledávání relevantních informací, má proto v tomto případě značný význam.
V případě institucí GLAM neměla dostupnost informačních zdrojů na webu s příchodem internetu na vyhledávací možnosti a atraktivitu rozhraní zpočátku významný vliv.45 Ke standardním možnostem vyhledávání (autor, název, předmětové heslo, klasifikační symbol) se postupně přidávaly další prvky, jako je možnost vytvářet složité dotazy (pomocí booleovských operátorů) nebo filtrovat získané výsledky. Rovněž se vyvíjely typy uživatelských rozhraní (user interface), neboť v institucích GLAM byla implementována nová technologická řešení. Prošla vývojem od textových rozhraní přes systémy typu menu a rozhraní grafická až k rozhraním dotykovým a hlasovým.4 Příkladem bibliografického zdroje, který se vyvíjí spolu s technologií, je portál Polska Bibliografia Literacka (viz obr. 8 a 9).
Obrázek 8. Rozhraní portálu Polské literární bibliografie a možnosti vyhledávání v aktuální verzi. http://pbl.ibl.poznan.pl/dostep/ (dostup 20 4 2022)
Od Gutenberga k Zuckerbergovi
Obrázek 9. Rozhraní portálu Polská literární bibliografie a možnosti pokročilého vyhledávání dostupné v beta verzi. Dostupné na WWW: https://pbl.ibl.waw.pl/advanced-search (dostup 20 4 2022)
Jak poznamenal M. Werla, je důležité spojit bohaté možnosti pokročilého vyhledávání, které poskytují strukturované databáze, s přístupným uživatelským rozhraním. Je totiž možné použít strukturovanou databázi a zpřístupnit ji pro vyhledávání prostřednictvím specializovaných dotazovacích jazyků, jako je SPARQL nebo SQL. To však pak bude užitečné řešení jen pro úzký okruh uživatelů. Bez dobře navrženého rozhraní bude obsluha databáze vyžadovat proškolení uživatelů.47 V případě uživatele internetu, který je zvyklý na mechanismus vyhledávače Google, to bude pravděpodobně znamenat upuštění od používání databáze.
K podobným závěrům dospěla Aleksandra Flach na základě srovnávací analýzy možností vyhledávání ve fonotéce Akademie hudby v Krakově (prostřednictvím centrálního katalogu NUKAT) a na portálu YouTube. Jak autorka studie uzavírá, „ideálním řešením by bylo vytvoření portálu, který by spojoval výhody obou prezentovaných služeb: informačně spolehlivý jako katalog NUKAT – s minimálně stejně snadným používáním jako YouTube.“48 Využití nejnovějších technologií vytváří obrovský potenciál pro prezentaci bohatých zdrojů institucí GLAM způsobem, který je pro uživatele atraktivní. Důležité je nejen zavedení vhodného grafického designu, ale také mechanismů, které za tímto designem stojí.
12. Informační zdroje v digitálním prostředí…
Nástroje
používané pro digitální obsah
GLAM
Nové technologie v institucích GLAM se však netýkají pouze metadat a digitálních zdrojů. Jde také o nástroje, které mohou tyto instituce využívat. Hovoříme o nástrojích vytvořených a zpřístupněných pro odborníky v oboru digitálních humanitních věd pro analýzu zdrojů, například pro vizualizaci dat. Příkladem mohou být řešení, která nabízí databáze SCOPUS nebo Web of Science pro vizualizaci bibliometrických informací. Mezi takovými řešeními můžeme zmínit také mechanismy pro převod tradičních katalogů do digitálních, nástroje pro čtení starých tisků a rukopisů, vytváření anotací, poznámek pod čarou nebo komentářů k prezentovaným zdrojům (takovou možnost nabízejí některé digitální knihovny).
IT řešení také umožňují vytvářet agregátory obsahu. Příkladem databáze, která umožňuje vyhledávání v několika databázích, je szukajwarchiwach.pl spuštěná v roce 2009. Kromě funkce vyhledávání informací o archivech obsahuje také možnost připojit skeny těchto archiválií (což v předchozích databázích, jako je IZA nebo SEZAM, nebylo možné). Nové technologické možnosti tak rozšiřují i funkčnost informačních zdrojů. Portál Kronik@ (Národní repozitář předmětů vědy a kultury), který integruje zdroje z oblasti kultury a vědy (a tedy i instituce GLAM) v celém Polsku, shromáždil téměř 12 milionů předmětů v jediném vyhledávači.49
V rámci archivního prostředí vyvinula MRA v prvním desetiletí 21. století také bezplatný software ICA-AtoM (International Council on Archives – Access to Memory), který umožňuje přípravu elektronických databází archivních fondů. V oblasti archivnictví v Polsku existuje také OSA (Open Archival System), bezplatný nástroj pro sestavování a prohledávání fondů společenských archivů.
V muzeích a památkové péči lze použít moderní nástroje, jako je ortofotografie a měření laserovým skenerem. Ty umožňují velmi přesné zobrazení různých typů objektů ve třech rozměrech. Jak poznamenává A. Gontarz, „Vzniká nový, dosud neznámý typ dokumentace exponátů, který umožňuje velmi přesné zmapování všech detailů muzejního předmětu, což dříve nebylo možné. Díky tomu je možné přesně porovnávat různé předměty mezi sebou, určovat jejich původ na základě analogických znaků a vlastností materiálu, určovat jejich stáří. A to vše bez nutnosti cestovat na místo, kde jsou originály uloženy. [...] Tímto způsobem lze také vytvořit databázi muzejních předmětů, která je nesmírně cenná z poznávacího hlediska a velmi užitečná pro badatele, milovníky historie a turisty.“50 Další technologií, kterou lze využít v muzeologii, je takzvaná rozšíření realita (anh. Agumented Reality – AR), která umožňuje do reálného prostředí vepsat virtuální, počítačem vytvořené objekty.
Od Gutenberga k Zuckerbergovi
Podle A. Kępczyńské-Walczakové „je díky tomu možné například rekonstruovat a vizualizovat objekty, které již neexistují, a vnímat je ve vztahu k pozůstatkům památky a jejímu současnému okolí. Technologie AR rozšířila možnosti využití digitálního zobrazování při rozhodování v oblasti památkové péče, při zkoumání historie a dřívější podoby nejen jednotlivých budov, ale i urbanistických celků měst. S doplněním audioprůvodce se navíc taková forma komunikace stává mimořádně atraktivním turistickým produktem, který podporuje propagaci kulturního dědictví.“51 Na trhu jsou již k dispozici speciální aplikace, s jejichž pomocí mohou muzea zatraktivnit své zdroje pomocí rozšířené reality (například ViewAR).
Prostředky poskytované systémem GLAM lze využít také v rámci takzvaného streamingu. Ten umožňuje znázornit obraz nebo zvuk na webové stránce. Tyto objekty jsou však vloženy na jiných serverech a jsou stahovány a zobrazovány v reálném čase. Jak uvádí A. Kamińska, „díky streamingu by mohly skeny dokumentů zpřístupněné prostřednictvím knihoven a digitálních archivů najít širší využití v rámci takzvaného reuse (tedy opakovaného použití) při tvorbě různých typů multimediálních vědeckých publikací.“52 Instituce GLAM mohou také poskytnout informace o dostupných nástrojích, které umožňují využívat jejich zdroje. Zvukový archiv Britské knihovny poskytuje na svých webových stránkách informace o otevřených i komerčních nástrojích, jako jsou přehrávače zvukových souborů, zvukové editory, nástroje pro vizualizaci a analýzu zvuku. 53
Analýza digitálního světa materiálů poskytovaných památkovými a kulturními institucemi je součástí výzkumné oblasti těžko definovatelných digitálních humanitních věd. Zdroje uchovávané a zpřístupňované institucemi GLAM jsou již po staletí předmětem výzkumu mnoha humanistů. Stejně tak se samotné GLAM instituce postupem času staly předmětem studia oborů, jako je muzeologie, archivnictví a knihovnictví. Není proto překvapivé, že se pole výzkumu těchto disciplín rozšířilo o studie věnované fungování těchto institucí v digitálním prostředí. Digitální knihovny, virtuální muzea, digitální archivy jako produkty současné kultury jsou také předmětem výzkumu humanistů. Z hlediska vymezení digitálních humanitních věd je to důležité. V jejich definicích se totiž objevují dva aspekty digitalizace. Na jedné straně jsou za digitální humanitní vědy považovány ty oblasti humanitních věd, které při svém výzkumu využívají digitální nástroje, na straně druhé se o nich hovoří jako o vědách, jejichž předmětem zájmu jsou digitální objekty (knihovny, knihy, muzea, exponáty, archivy, dokumenty).
12. Informační zdroje v digitálním prostředí…
Shrneme-li fungování institucí GLAM v rámci digitálních humanitních věd, můžeme rozlišit několik oblastí. První z nich bude poskytování výzkumných objektů odborníkům v oboru digitálních humanitních věd prostřednictvím: (1) digitalizace zdrojů a jejich zpřístupnění pomocí vhodných technologií a standardů, které umožní jejich další zpracování a analýzu, a (2) vytváření metadat pro digitální i tradiční zdroje ve formě strukturovaných dat; to může mít dvě podoby – převod analogových dat na digitální (například retrokonverze katalogů) nebo vytváření metadat od nuly. Druhou oblastí bude využití znalostí, které mají pracovníci GLAM, v projektech digitálních humanitních věd. Jedná se především o jejich znalosti tvorby systémů organizace znalostí, tvorby metadat a znalosti přizpůsobování informačních systémů potřebám uživatelů. Třetí oblastí je vytvoření nástrojů pro digitální humanitní vědy, které by umožnily analýzu dat zpřístupněných institucemi GLAM. Tato oblast by mohla zahrnovat také vytvoření řešení určených k archivaci zdrojů, které tyto instituce mají.
Problémy diskutované v této kapitole naznačují, že dnešní odborníci na GLAM při své práci stále více využívají digitální nástroje. Kromě dovedností souvisejících s katalogizací, klasifikací, uživatelskou podporou atd. se v jejich práci stále více osvědčují technické dovednosti. V průběhu staletého vývoje, který v oblasti GLAM proběhl, se totiž změnil nejen obsah zájmu. Změnily se také nástroje, které mají tito pracovníci k dispozici. V gutenbergovské době stačilo umět číst, psát a umět organizovat práci v instituci. Vývoj technologií měl obrovský vliv na podobu různých prvků sektoru GLAM. Není však pochyb o tom, že k největšímu rozvoji došlo ve druhé polovině 20. a na počátku 21. století. Zprvu stačilo, aby se zaměstnanci seznámili s knihovním, archivním nebo muzejním . Postupně začalo být důležité i využívání vybavení, jako jsou počítače, skenery, digitální fotoaparáty, grafické programy, knihovní, archivní a muzejní systémy. V současné době se objevuje stále více řešení, která nutí pracovníky GLAM zasahovat i do technické stránky zpřístupňovaných informačních zdrojů (například využívání technik OCR, standardu TEI, technologie LOD). Není pochyb, že se proto i zaměstnanci tohoto sektoru stávají odborníky v oblasti digitálních humanitních věd.
POZNÁmK Y
1 Za zmínku stojí, že v Polsku byla bibliologie a informatika nedávno zařazena mezi obory sociální komunikace a mediálních věd, čímž se přesunula z oblasti humanitních věd do věd společenských. V současné době (duben 2022) probíhají práce věnované vymezení aktuálních oblastí výzkumu prováděného v bibliologii a informatice.
2 Další informace o hodnotě informací na webu najdete v textu Łukasza Olejnika – srov. OLEJNIK, L. Ile jesteś warty? Real-Time Bidding, czyli Twoje dane sprze -
Od Gutenberga k Zuckerbergovi
dawane za 0,0005 dol., w mniej niż 100 milisekund. Wszystko co najważniejsze 14 února 2015. Dostupné na WWW: https://wszystkoconajwazniejsze.pl/lukasz-olejnikile-jestes-warty-real-time-bidding-czyli-twoje-dane-sprzedawane-za-00005-dol-wmniej-niz-100-milisekund/ (dostup .12 .2022) .
3 Na tomto místě musíme poznamenat, že o vymezení rozdílů mezi uměleckou galerií a muzeem je třeba ještě diskutovat. Výchozým bodem k podobné diskusi mohou být články: Czym różni się galeria sztuki od muzeum? Czy to synonimy? PKT.PL. Dostupné na WWW: https://www.pkt.pl/artykul/czym-rozni-sie-galeria-sztuki-odmuzeum-26338%2 0 (dostup 4 . .2023) nebo DELAGRANGE, J. Art gallery versus museum: What is the difference? CAI. 8. 10. 2021. Dostupné na WWW: https://www. contemporaryartissue.com/what-is-the-difference-between-an-art-gallery-and-amuseum/ (dostup 4 . . 2023) .
4 Srov. mj. CARPINONE, E. C. Museum Collections Management Systems. One size does not fit all. Magisterská diplomová práce- South Orange: Seton Hall University, 2010, s. 7–10. Dostupné na WWW: https://scholarship.shu.edu/dissertations/236 (dostup 4.6.2023); PARRY, R. Recoding the museum digital heritage and the technologies of change. Londýn, 2007, s. 22–23.
5 Srov. CARPINONE, E.C. Museum Collections Management Systems. Op. cit., s . 11 .
Více o kyselém papíru in: Memoriał o potrzebie ratowania dziedzictwa kultury polskiej w zbiorach bibliotecznych i archiwalnych XIX i XX w. Archeion. 1998, č. 99, s. 21–35; WASILEWSKA, J. Chora książka. Starzenie się papierów. Bu.kul.PL. 13 . 12. 2004. Dostupné na WWW: https://www.bu.kul.pl/chora-ksiazka-starzenie-sie-papierow,art_10735.htm l (dostup . 12 . 2022) .
7 Česká republika poskytuje prostřednictvím portálu informace o více než 832 000 objektech. Více než 270 000 z nich pochází z Národního památkového ústavu, 175 000 z Institutu umění Divadelního ústavu, 149 000 z rukopisů Národní knihovny ČR a více než 89 000 objektů z Archeologického informačního systému ČR – stav k 16. 3. 2022 na základě obsahu a dostupných filtrů v Europeaně: https://www.europeana.eu/ pl/search?page=2&qf=COUNTRY%3A%22Czech%20Republic%22&query=&view=grid (dostup . 12 . 2022) .
8 I když je třeba poznamenat, že výzkumní pracovníci ve všech oborech skutečně využívají zpřístupnění různých typů zdrojů online.
9 Formát DjVu se stal v Polsku velmi populární v 90. letech. – v době rozkvětu digitálních knihoven. Společnost si jej vybrala kvůli vysokému kompresnímu poměru při zachování vysoké kvality souborů. Postupem času se však ukázalo, že tento formát již není dále rozvíjen. Oblíbeným se stal formát PDF. V současné době většina webových prohlížečů format DjVu již nepodporuje, což donutilo digitální knihovny zpřístupňovat své zdroje jako konvertované soubory PDF.
10 KAMIŃSKA, A. Cyfrowa humanistyka. Koncepcja, kierunki i stan rozwoju oraz powiązania z informatologią. Disertační prace. 2021, s. 210.
11 Tamtéž, s. 209.
12 O problémech spojených s uchováváním tohoto typu uměleckých předmětů viz přednášku Joanny Phillips a Deeny Engel na konferenci When the Digital Humanities Meete Art Galleries pořádané New York University – NYU Center for the Humanities, When Digital Humanities Meets Art Galleries. 21. dubna 2017, https://www.youtube. com/watch?v=PScx1vK2mf 8 (dostup 0 .12 2022)
13 KAMIŃSKA, A. Cyfrowa humanistyka. Koncepcja, kierunki i stan rozwoju oraz powiązania z informatologią. Op. cit., s. 209.
14 Jak poznamenává Liliana Bether, zvukové archivy je někdy obtížné odlišit od hudebních databází provozovaných na internetu – BETHER, L. Wybrane kolekcje dźwiękowe on-line na świecie. Praktyka—edukacja—promocja, in: Archiwa dźwiękowe w Polsce—Kolekcje, popularyzacja, rekonstrukcja, ed. M. Kozłowska, Warszawa 2019, s. 147-156.
15 JANUSZKO-SZAKIEL, A. Archiwistyka cyfrowa. Długoterminowa ochrona dziedzictwa nauki i kultury. Varšava 2017, s. 107.
12. Informační zdroje v digitálním prostředí…
1 MAZUREK, C. et al. Digitalizacja oraz długoterminowe przechowywanie danych w kontekście muzealnych zasobów dziedzictwa kulturowego. In: SEIDEL-GRZESIŃSKA, A. a K. STANICKA-BRZEZICKA (ed.). Vratislav, s. 151.
17 PERZYNA, P. Standaryzacja opisu archiwalnego a digitalizacja. In: BEDNAREK, J. a P. PERZYNA (eds.). Standaryzacja opisu archiwalnego. Varšava 2016, s. 19.
18 BAUER, E. Visual history. The value of historical photographs as a source in the age of digitization. In: Obraz i metoda Op. cit., s. 86.
19 Srov. JANUSZKO-SZAKIEL, A. Archiwistyka cyfrowa. Długoterminowa ochrona dziedzictwa nauki i kultury. Op. cit., s. 109–110; NAHOTKO, M. Biblioteczne i pozabiblioteczne standardy opisu fotografii i filmów w Internecie. In: Zbiory fotograficzne i filmowe w Internecie. Aspekty prawne i technologiczne . Gdańsk 2010, s. 82.
20 LASZUK, A. Standardy Międzynarodowej Rady Archiwaliów. Od praktyki do teorii?. In: CHORĄŻYCZEWSKI, W. a A. ROSA (eds.). Toruň, s. 227–246.
21 PIOTROWICZ, G. Cyfrowa konwergencja bibliotek, archiwów i muzeów w erze informacji. In: HERDEN, E. et al. (eds.). Dobra kultury w Sieci. Vratislav 2012, s. 30.
22 SIWECKA, D. Światowy model informacji bibliograficznej. Programy i projekty (1950-2010). Vratislav, Varšava 2015, s. 168.
23 PIOTROWICZ, G. Cyfrowa konwergencja bibliotek, archiwów i muzeów w erze informacji. Op. cit., s. 27.
24 Tamtéž, s. 28.
25 Srov. BEDNAREK, J. a P. PERZYNA (eds.). Standaryzacja opisu archiwalnego Varšava, Lodź 2016 a PIOTROWICZ, G. Cyfrowa konwergencja bibliotek, archiwów i muzeów w erze informacji . Op. cit.
2 Tamtéž, s. 28.
27 Tamtéž, s. 31.
28 Tamtéž, s. 32.
29 NAHOTKO, M. Nahotko. Biblioteczne i pozabiblioteczne standardy opisu fotografii i filmów w Internecie. In: Zbiory fotograficzne i filmowe w Internecie. Aspekty prawne i technologiczne Op. cit., s. 84.
30 Tamtéž, s. 89–90.
31 Resource Description Framework. In: Wikipedia, the free encyclopedia, Dostupné na WWW: http://pl.wikipedia.org/wiki/Resource_Description_Framework (dostup .12 .2022) .
32 ŚLIWIŃSKA, M. a P. KOZURNO. Wirtualne Muzeum Europejskie In: Obraz i metoda. Op. cit., s. 270.
33 MCDONOUGH, J. P. METS: Standardized encoding for digital library objects. International Journal on Digital Libraries. 2006, roč. 6, č. 2, s. 148–158.
34 SIWECKA, D. Światowy model informacji bibliograficznej. Programy i projekty (1950-2010), Op. cit., s. 169.
35 British Library, Audio tools . British Library – Sounds . https://sounds.bl.uk/Information/Audio-Tools/ (dostup12 04 2022)
3 PIOTROWICZ, G. Cyfrowa konwergencja bibliotek, archiwów i muzeów w erze informacji. Op. cit. s., 29.
37 KAMIŃSKA, A. Co mogą zaoferować cyfrowej humanistyce biblioteki i ośrodki informacji ?. Zagadnienia Informacji Naukowej – Studia Informacyjne. 2017, roč. 55, č. 2, s. 178.
38 PIOTROWICZ, G. Cyfrowa konwergencja bibliotek, archiwów i muzeów w erze informacji. Op. cit., s. 30–31.
39 PIOTROWICZ, G. Cyfrowa konwergencja bibliotek, archiwów i muzeów w erze informacji . Op. cit., s. 34.
40 Centrum Archiwistyki Społecznej, Baza archiwów społecznych, Centrum Archiwistyki Społecznej, https://cas.org.pl/baza-archiwow/ (dostup 19 . 4 . 2022) .
41 Samozřejmě je také možné vytvořit druhý zdroj v novém formátu a starý zavřít. To však představuje řadu problémů pro uživatele, kteří se v závislosti na hledaném materiálu musí podívat do dvou nebo více zdrojů, aby mohli provést vyhledávání.
Od Gutenberga k Zuckerbergovi
42 Seznam projektů LOD realizovaných v evropských národních knihovnách je k dispozici na adrese: http://phc.uni.wroc.pl/bibliografie/lodp_show.php
43 BURROWS, S. a M. FALK. Digital Humanities In: Oxford Encyclopedia of Literary Theory . Oxford 2020. Dostupné na WWW: https://kar.kent.ac.uk/82711/11/ 20200904%20Approved%20Manuscript.pdf (dostup 0 .12 2022)
44 KAMIŃSKA, A. Cyfrowa humanistyka. Koncepcja, kierunki i stan rozwoju oraz powiązania z informatologią Op. cit., s. 210.
45 Prof. M. Nahotko hovořil o dalších generacích informačních technologií v automatizaci knihoven na XII. národní konferenci z cyklu „Automatyzacja bibliotek s názvem Biblioteki w cyberprzestrzeni: Inspiracje Światowego Kongresu IFLA Wrocław 2017, 13.–14. listopadu 2018 ve Varšavě – viz NAHOTKO, M. Generacje technologii informacyjnych w automatyzacji bibliotek. Ewolucja i rewolucje [příspěvek na konferenci]. XII. národní konference z cyklu „Automatyzacja bibliotek” s názvem: Biblioteki w cyberprzestrzeni: Inspiracje Światowego Kongresu IFLA Wrocław 2017, Varšava 13. l istopadu 2018 4 Více o typech rozhraní viz mimo jiné TOMASZCZYK, J. Zasady projektowania interfejsów. Zagadnienia Informacji Naukowej. 2004, č. 1, s. 83–119.
47 ŚNIEGOWSKA, E., BOHDANOWICZ, K. et al. Wyszukiwanie zaawansowane w bibliograficznych bazach danych jako narzędzie badawcze [prezentace na konferenci]. Humanistyka cyfrowa a instytucje dziedzictwa. – Čtvrtá konference DARIAH-PL : 16.–17. listopadu 2017. Biblioteka Uniwersytecka Uniwersytetu Mikołaja Kopernika w Toruiu, Toruń.
48 FLACH, A. Fonoteka vs YouTube. Do czego jest potrzebna studentom fonoteka?. IN:: Archiwa dźwiękowe w Polsce. Kolekcje, popularyzacja, rekonstrukcja,. Varšava 2019, s. 177.
49 Kronik@, Obiekty. Dostupné na WWW: https://kronika.gov.pl/obiekty?search=&ocr=false&only_title=false&id=false (dostup 2 9 2022)
50 GONTARZ, A. Historia wzbogacona. Computerworld. 8. 5. 2006. Dostupné na WWW: https://www.computerworld.pl/news/Historia-wzbogacona,317578.htm l (dostup . 12 2022)
51 KĘPCZYŃSKA-WALCZAK, A. Wirtualne dziedzictwo. I do dalej?. In: Obraz i metoda. Op. cit., s. 94.
52 KAMIŃSKA, A. Cyfrowa humanistyka. Koncepcja, kierunki i stan rozwoju oraz powiązania z informatologią. Op. cit., s. 214.
53 British Library, Audio tools, op. cit.
BIBLIOGRAFIE
BAUER, E. Visual history. The value of historical photographs as a source in the age of digitization. In: SEIDEL-GRZESIŃSKA, A. a K. STANICKABRZEZICKA (eds.). Obraz i metoda. Vratislav 2014, s. 81–89.
BEARMAN, D. a J. PERKINS . Standards Framework for the Computer Interchange of Museum Information. Dostupné na WWW: https://cool.culturalheritage.org/byorg/cimi/cimifram.html (dostup: 20. 5. 2022).
BETHER, L. Wybrane kolekcje dźwiękowe on-line na świecie. Praktyka –edukacja – promocja. In: KOZŁOWSKA, M. (ed.). Archiwa dźwiękowe w Polsce. Kolekcje, popularyzacja, rekonstrukcja. Varšava 2019, s. 147–156. British Library, Audio tools. British Library – Sounds. Dostupné na WWW: https://sounds.bl.uk/Information/Audio-Tools/ (dostup 12 .04 .2022) .
BURROWS, S. a M. FALK. Digital Humanities. In:: Oxford Encyclopedia of Literary Theory. Oxford 2020. Dostupné na WWW: https://kar.kent.
12. Informační zdroje v digitálním prostředí…
ac.uk/82711/11/20200904%20Approved%20Manuscript.pdf (dostup: 6. 12 . 2022)
CALHOUN, K. The Changing Nature of the Catalog and its Integration with other Discovery Tools. Ithaca 2006.
Centrum Archiwistyki Społecznej, Baza archiwów społecznych, Centrum Archiwistyki Społecznej. Dostupné na WWW: https://cas.org.pl/baza-archiwow/ (dostęp: 19. 4. 2022).
DZIĘGLEWSKI, M., FIŃ, A.. a A. GUZIK. Przemiany praktyk i strategii udostępniania i odbioru dziedzictwa kulturowego w formie cyfrowej w latach 2004-2014. Raport końcowy. [b. m.] 2018.
ELINGS, M. W. a G. WAIBEL. Metadata for all: Descriptive standards and metadata sharing across libraries, archives and museums. First Monday . 2007. Dostupné na WWW:https://doi.org/10.5210/fm.v12i3.1628 .
Ellin E., Museums and the computer: An appraisal of new potentials, „Computers and the Humanities” 1969, t. 4, nr 1, s. 25–30. https://doi.org/10.1007/ BF02393447
FLACH, A. Fonoteka vs YouTube. Do czego jest potrzebna studentom fonoteka?. In: KOZŁOWSKA, M. (ed.). Archiwa dźwiękowe w Polsce. Kolekcje, popularyzacja, rekonstrukcja. Varšava 2019, s. 157–180.
GONTARZ, A. Historia wzbogacona. Computerworld 8. 5. 2006. Dostupné na WWW: https://www.computerworld.pl/news/Historia-wzbogacona,317578. html (dostup: 6. 12. 2022).
GREENE, M. a D. MEISSNER. More Product, Less Process: Revamping Traditional Archival Processing. The American Archivist. 2005, roč. 68, č. 2, s. 208–263.
BACA, M. (ed.). Introduction to metadata. Los Angeles 2016.
JANUSZKO-SZAKIEL, A. Archiwistyka cyfrowa. Długoterminowa ochrona dziedzictwa nauki i kultury. Varšava 2017.
KAMIŃSKA, A. Co mogą zaoferować cyfrowej humanistyce biblioteki i ośrodki informacji?. Zagadnienia Informacji Naukowej – Studia Informacyjne. 2017, roč. 55, č. 2, s. 171–181. Dostupné na WWW: https://doi. org/10.36702/zin.372 .
KAMIŃSKA, A. Cyfrowa humanistyka. Koncepcja, kierunki i stan rozwoju oraz powiązania z informatologią. Disertační prace. Varšava: Uniwersytet Warszawski, Wydział Dziennikarstwa, Informacji i Bibliologii], 2021. Dostupné na WWW: https://depotuw.ceon.pl/handle/item/3853 (dostup: 6. 12 . 2022) .
KĘPCZYŃSKA-WALCZAK, A.. Wirtualne dziedzictwo. I do dalej? In: SEIDEL-GRZESIŃSKA, A. a K. STANICKA-BRZEZICKA (eds.). Obraz i metoda. Vratislav 2014, s. 90–96. Kronik@, Obiekty. Dostupné na WWW: https://kronika.gov.pl/obiekty?search=&ocr=false&only_title=false&id=false (dostęp: 2. 9. 2022).
LASZUK, A. Standardy Międzynarodowej Rady Archiwaliów. Od praktyki do teorii?. In: CHORĄŻYCZEWSKI, W. a A. ROSA (eds.). Teoria archiwalna. Wczoraj – dziś – jutro. Toruň, s. 227–246. WHITE, J. W. a H. GILBERT (eds.). Laying the Foundation. Digital Humanities in Academic Libraries. West Lafayette 2016. MAZUREK, C., PARKOŁA, T. a M. WERLA. Digitalizacja oraz długoterminowe przechowywanie danych w kontekście muzealnych zasobów dziedzic-
Od Gutenberga k Zuckerbergovi
twa kulturowego. In: SEIDEL-GRZESIŃSKA, A. a K. STANICKA-BRZEZICKA (eds.). Obraz i metoda. Vratislav 2014, s. 151–156.
MCDONOUGH, J. P. METS: Standardized encoding for digital library objects. International Journal on Digital Libraries. 2006, roč. 6, č. 2, s. 148–158. Dostupné na WWW: https://doi.org/10.1007/s00799-005-0132-1
Memoriał o potrzebie ratowania dziedzictwa kultury polskiej w zbiorach bibliotecznych i archiwalnych XIX i XX w. Archeion. 1998, roč. 99, s. 21–35. Michael, 5-star Open Data, 2015. Dostupné na WWW: http://5stardata.info/ en/ (dostup: 6. 12. 2022).
NAHOTKO, M. Biblioteczne i pozabiblioteczne standardy opisu fotografii i filmów w Internecie. In: Zbiory fotograficzne i filmowe w Internecie. Aspekty prawne i technologiczne. Gdańsk 2010, s. 79–92. Dostupné na WWW: https://depot.ceon.pl/handle/123456789/8228 (dostup 0 .12 .2022) .
NAhotko, M. Generacje technologii informacyjnych w automatyzacji bibliotek. Ewolucja i rewolucje [příspěvek na konferenci]. XII Ogólnopolska Konferencja z cyklu „Automatyzacja bibliotek” pt.: Biblioteki w cyberprzestrzeni: Inspiracje Światowego Kongresu IFLA Wrocław 2017. Varšava, 13. 11. 2018. Dostupné na WWW: http://www.sbp.pl/repository/dokumenty/2018/Konferencja/prezentacje/S1_01_Marek_Nahotko.pdf
NYU Center for the Humanities, When Digital Humanities Meets Art Galleries, 21. 5. 2017. Dostupné na WWW: https://www.youtube.com/watch?v=PScx1vK2mf8 (dostup: 6. 12. 2022).
OLEJNIK, Ł. Ile jesteś warty? Real-Time Bidding czyli Twoje dane sprzedawane za 0,0005 dol., w mniej niż 100 milisekund. Wszystko co najważniejsze. 14. 2. 2015. Dostupné na WWW:https://wszystkoconajwazniejsze.pl/ lukasz-olejnik-ile-jestes-warty-real-time-bidding-czyli-twoje-dane-sprzedawane-za-00005-dol-w-mniej-niz-100-milisekund/ (dostup: 6. 12. 2022).
PERZYNA, P. Standaryzacja opisu archiwalnego a digitalizacja. In: BEDNAREK, J. a P. PERZYNA (eds.). Standaryzacja opisu archiwalnego Varšava, Lodž 2016, s. 17–41.
PIOTROWICZ, G. Cyfrowa konwergencja bibliotek, archiwów i muzeów w erze informacji. In: HERDEN, E., SEIDEL-GRZESIŃSKA, A. a K. STANICKA-BRZEZICKA (eds.). Dobra kultury w Sieci. Vratislav 2012, s. 23–39. Resource Description Framework. In: Wikipedia, wolna encyklopedia Dostupné na WWW: http://pl.wikipedia.org/wiki/Resource_Description_Framework (dostęp: 6. 12. 2022).
SIWECKA, D. Światowy model informacji bibliograficznej. Programy i projekty (1950-2010). Vratislav, Varšava 2015.
ŚLIWIŃSKA, M. a P. KOŻURNO. Wirtualne Muzeum Europejskie. In: SEIDEL-GRZESIŃSKA, A. a K. STANICKA-BRZEZICKA (eds.). Obraz i metoda. Vratislav 2014, s. 264–274.
ŚNIEGOWSKA, E., BOHDANOWICZ, K., MARGRAF, A. a M. WERLA. Wyszukiwanie zaawansowane w bibliograficznych bazach danych jako narzędzie badawcze [Příspěvek na konferenci]. Humanistyka cyfrowa a instytucje dziedzictwa – IV Konferencja DARIAH-PL : 16-17 listopada 2017 : Biblioteka Uniwerstecka Uniwersytetu Mikołaja Kopernika w Toruniu . Toruň 2017.. Dostupné na WWW: https://kpbc.umk.pl/dlibra/publication/185603/edition/187707
12. Informační zdroje v digitálním prostředí…
BEDNAREK, J. a P. PERZYNA. Standaryzacja opisu archiwalnego. Varšava, Lodž 2016.
TOMASZCZYK, J. Zasady projektowania interfejsów. Zagadnienia Informacji Naukowej. 2004, č. 1, s. 83–119.
VAN HOOLAND, S. a R. VERBORGH. Linked data for libraries, archives and museums. How to clean, link and publish your metadata. Londýn 201 .
WASILEWSKA, J. Chora książka: Starzenie się papierów . 13 . 12 . 2004 . Dostupné na WWW: https://www.bu.kul.pl/chora-ksiazka-starzenie-sie-papierow,art_10735.html (dostup: 6. 12. 2022).
WERLA, M. a M. MARYL. Humanistyczne projekty cyfrowe w Polsce [Zpráva]. Poznaň, Varšava 2014. Dostupné na WWW: https://lib.psnc.pl/dlibra/publication/831/edition/655 .
ZHANG, Y., LIU, S. a E. MATHEWS. Convergence of digital humanities and digital libraries. Library Management. 2015, roč. 36, č. 4–5, s. 362–377. Dostupné na WWW: https://doi.org/10.1108/LM-09-2014-011 .
Kapitola 13
Rozsáhlé bibliografie v digitálních
humanitních vědách
1. Bibliografie jako předmět výzkumu1
V moderní době byly rozsáhlé bibliografie vždy jedním ze základních nástrojů pro práci humanitního vědce. Původně byly jejich funkce čistě praktické a omezovaly se na evidenci produkce jednotlivých autorů a/nebo oborů. Soupisy sestavené bibliografy pak sloužily uživatelům k vyhledávání konkrétních děl podle předem stanovených kritérií. S postupným nárůstem objemu takto shromážděných údajů však začal být oceňován poznávací potenciál v nich obsažený, který jim umožnil uspokojovat potřeby daleko přesahující čistě utilitární aspekty. Zde je třeba zdůraznit, že pouze ve své primární funkci jsou bibliografické popisy pomocnými metadaty, odkazujícími na publikace nebo jiné objekty. Lze k nim přistupovat i objektivně jako k samostatným dokumentům a zdrojům poznání, které přímo popisují mimotextovou realitu, a nikoliv pouze odkazujícím na konkrétní díla. Díky tomuto přístupu se bibliografie stává korpusem (mikro)textů – prohledávatelným a zpracovatelným metodami NLP.
Při respektování zásad katalogizačního umění umožňují dnes existující rozsáhlé bibliografie ve spojení s nástroji informačních technologií vytvořit široké panorama kultury a civilizace, 2 a to i s ohledem na jejich historický vývoj. V případě generálních (národních) bibliografií má toto panorama oprávněný nárok na úplnost, neboť je z definice založeno na celém spektru publikací vydaných v daném časovém období. Tyto publikace nejsou vybírány podle žádných arbitrárních pravidel – například podle kvality (pouze hodnotná literatura), funkce (umělecké texty, učebnice, praktická literatura
Od Gutenberga k Zuckerbergovi
atd.) nebo ideologie (pouze politicky korektní literatura, v souladu s dominantní ideologií atd.). Díky pečlivosti, s jakou byly záznamy sestavovány, a velkému objemu bibliografických údajů lze zobecnění učiněná na základě jejich analýzy považovat za reprezentativní pro celou kulturu daného období. Je tomu tak proto, že sestavování údajů neprovádějí amatéři (jako je tomu u komunitních zdrojů), ale profesionálové – pracovníci informačních středisek a knihoven na plný úvazek, kteří důsledně uplatňují popisné standardy národního a mezinárodního informačního systému. Změny v metodách katalogizace (pokud k nim dochází) jsou pomalé a opatrné. Nemají tedy výrazný vliv na stabilitu opakovaného základního schématu metadat, nýbrž pouze zvyšují podrobnost popisu přidáním podpolí, která doplňují základní pole. Reprezentativnost ovlivňují také kvantitativní charakteristiky popisovaných zdrojů. Vždyť typická národní bibliografie (nebo její funkční ekvivalent) obsahuje až několik milionů záznamů a je každoročně zásobována přílivem nových publikací, jejichž počet ve středně velké zemi dosahuje desítek tisíc ročně. 3
Mezinárodní standardizace struktury bibliografických záznamů je proto obrovským přínosem, který umožňuje srovnávací výzkum v mnoha kulturách a jazycích. Z hlediska vědců z oboru digitálních humanitních věd, kteří se zabývají zpracováním bibliografických zdrojů, má tato skutečnost další význam. Zbavuje je zdlouhavého, únavného a především nákladného procesu získávání a ověřování dat, jak je tomu například v případě korpusových jazykových nebo grafických studií. Uvažujeme-li z hlediska vědecké efektivity, lze říci, že poměr mezi úsilím vynaloženým na přípravu bibliografických záznamů pro výzkum pomocí metod NLP a poznávací hodnotou získaných výsledků je mimořádně příznivý.
Co ovlivnilo tak rychlou akceleraci, ba průlom ve studiu bibliografie v posledních letech? Co učinilo z tohoto „pomocného nástroje“ humanitních věd plnohodnotný a subjektivní předmět výzkumu? Za prvé došlo k překročení kritické masy dat, tedy objemu potřebného k vyvození spolehlivých závěrů a zobecnění vědecké povahy, a zároveň k vyloučení ruční práce na papíře. Zadruhé: data se badatelům stala digitálně dostupná a jakoby se přerušila kvazifeudální vazba na místo uložení papírových originálů. Vědci kdekoli a v jakékoliv zeměpisné šířce mohou zpracovávat rozsáhlé bibliografické databáze, stažené prostřednictvím softwarových rozhraní (API). Zatřetí se objevily nové výzkumné nástroje pro rychlou analýzu polí záznamů v textovém formátu, které simulují lidskou jazykovou kompetenci. Konkrétně bylo možné využívat metody korpusové lingvistiky, text miningu (dolování dat) a automatizované taxonomie a další prvky umělé inteligence, stejně jako propojení bibliografií s mapami, slovníky a bibliografickými databázemi (tento proces se označuje jako projekce). V kombinaci s fenomenálními možnostmi počítačové gra-
13. Rozsáhlé bibliografie v digitálních humanitních vědách
fiky to umožňuje prezentovat výsledky výzkumu ve vysoce estetické, kompaktní a sdělné podobě.
2. Několik poznámek k historii bibliografického výzkumu
Cílem této kapitoly není představit historii bibliografického výzkumu – k tomuto tématu existuje rozsáhlá literatura (srov. Bestermen 1936; Schneider 1943; Malclès 1963; Korpała 1969; Blum 1980; Breslauer, Folter 1984; Balsamo 1990, Tanselle 2009). Je však třeba poznamenat, že stejně jako v jiných oblastech humanitních věd nejsou současní vědci průkopníky objevujícími nové země. Dnešní koncepty mají nejčastěji v minulosti své předchůdce, kteří se svým nástupcům vyrovnali intuicí a pronikavostí, zpravidla je předčili v erudici, ale chyběla jim výpočetní síla, s níž by své inovativní koncepty proměnili ve skutečnost. Automatické analýzy rozsáhlých bibliografií jsou toho dobrým příkladem.
Jednou z prvních metodologických aplikací statistiky při studiu bibliografických soupisů je práce Gustava Schwetschkeho, publikovaná v roce 1850. Schwetschke na základě katalogů knižních veletrhů ve Frankfurtu nad Mohanem a Lipsku z let 1564–1846 poukázal na geografické a početní rozložení německého tisku v 16. až 19. století (Schwetschke 1850, 1887). Navzdory malé přesnosti a neúplnosti údajů z obchodních adresářů se tehdy uplatňovaný koncept rekonstrukce prostorového rozložení míst vydání (a implicitně i dalších objektů či událostí) na jejich základě stal běžnou praxí v dnešních digitálních humanitních vědách.
Ambicióznější pokusy o vytvoření rozsáhlých bibliografických zdrojů pro kvantitativní výzkum, prototyp dnešního přístupu k velkým datům, se však objevily až koncem devatenáctého století. Zasloužili se o to pracovníci Mezinárodního bibliografického institutu,4 který v roce 1895 v Bruselu založili Paul Otlet a Henri La Fontaine – zakladatelé moderní bibliograficko-informační vědy (srov. Babik 2010, Sosińska-Kalata 2010, Zarębska 2010). Cílem ústavu bylo shromáždit na jednom místě reprezentaci veškerého lidského vědění, 5 čehož mělo být dosaženo vytvořením Univerzálního bibliografického katalogu. Podle záměru jeho tvůrců a v souladu s technologickou úrovní doby měl mít tento katalog podobu systému katalogizačních krabic naplněných kartami (obr. 1).
Byl prozíravý podnik Paula Otleta a Henriho La Fontaina v gutenbergovském světě možný? Teoreticky ano, ale kvůli technologickým a nákladovým omezením neměl v praxi šanci na úspěch. Ve veřejné
338
Od Gutenberga k Zuckerbergovi
kulturní instituci si lze jen těžko představit efektivní manipulaci s tisíci skříněmi a zásuvkami naplněnými katalogovými listy, která by funkčně přesahovala výkon jednoduchého vyhledávacího příkazu. Je třeba také přiznat, že z dnešního pohledu byly poznávací cíle Mezinárodního bibliografického institutu skromné. Prioritou bylo shromažďování a katalogizace informací o postupně vydávaných publikacích a samotný ústav do jisté míry napodoboval fungování ústředních statistických úřadů, kvantifikoval a parametrizoval základní oblasti společenské a především ekonomické činnosti, avšak bez ambice vytvářet nové poznatky. Na druhou stranu nikdo neuvažoval o tom, co je dnes podstatou digitálních humanitních věd – například o projekci bibliografických zdrojů do jiných databází nebo o sémantické analýze –, protože to bylo za hranicemi tehdejších technologických možností (obšírněji o tom píšeme ve 3. části této kapitoly). Nemělo by nás proto překvapit, že Mezinárodní bibliografický institut koncem dvacátých let 20. století ukončil svou činnost a již nikdy ji neobnovil, a že cíle shodné s jeho deklarovaným posláním sledovaly v následujících desetiletích národní knihovny nebo jim podobné instituce.
Mnohem odolnější vůči působení času byly ambiciózní a průkopnické koncepty Paula Otleta a Henriho La Fontaina a jejich četných spolupracovníků. Vůdčí myšlenkou těchto průkopníků moderní vědy o informacích a dokumentaci byl odvěký sen člověka shromáždit na jednom místě veškeré vědění lidstva – když ne v úplné podobě, tak alespoň v podobě nepřímé, tedy formou bibliografických záznamů. Takovým cílem, samozřejmě v kombinaci s praktickým využitím, se řídili již tvůrci starověké Alexandrijské knihovny a v moderní době mimo jiné francouzští encyklopedisté a jejich následovníci ve většině zemí světa. Plný text dokumentu, encyklopedické heslo a bibliografický popis samozřejmě nelze ztotožňovat – jejich objem a informační obsah se liší. Ve všech případech je však myšlenka autorů stejná: shromáždit veškeré lidské vědění do jediné databáze.
Dnes plní obdobnou funkci, jakou měl bývalý Bibliografický ústav v Bruselu, WorldCat – souborný katalog několika tisíců knihoven z celého světa, sdružených v organizaci OCLC (Online Computer Library Center, dříve Ohio College Library Center). Počet členských knihoven OCLC se uvádí „asi na 30 000“, což umožňuje více či méně odhadnout plný počet záznamů zpracovávaných WorldCatem na více než jednu miliardu.
Abychom si uvědomili obrovský potenciál poznání, který se v těchto bibliografiích skrývá, je třeba zmínit výzkum polských zdrojů, který v 50. letech 20. století provedla Maria Czarnowska, pracovnice statistického oddělení Národní knihovny ve Varšavě. Na základě údajů z polských retrospektivních bibliografií (Estreicherova polská bibliografie, pol. Bibliografia polska Estreicherów) a aktuálních bibliografií (různá vydání Bibliografického průvodce, pol. Przewodnik
13. Rozsáhlé bibliografie v digitálních humanitních vědách
Obrázek 1. Katalogové zásuvky Mezinárodního bibliografického institutu, které jsou dnes vystaveny v muzeu Mundaneum v belgickém Monsu (zdroj: Wikipedia).
Bibliograficzny, Oficiální seznam tisků, Urzędowy Wykaz Druków) kvantitativně představila vývoj polských vydavatelských procesů v letech 1501–1965. Její kniha je vydána v ne zrovna atraktivní podobě, typograficky odpovídající nízkým standardům komunistické éry, ovšem tabulkové výsledky v souhrnu, převedené do nového grafického prostředí, poskytují mimořádně zajímavý obraz síly velkých bibliografických dat (graf 1). Průběh linie časové řady, vytvořené na základě údajů Marie Czarnowské, úzce koreluje s polskými dějinami. Roste ve vzácných okamžicích prosperity, propadá se během válek, povstání a jiných přelomových událostí, což ilustruje jejich ničivou sílu,7 a poté se vrací k pravděpodobně exponenciálnímu růstu. Tento příklad ukazuje, jak sémantické interpretace kvantitativních dat v kombinaci s odkazy na jiné sféry reality – v tomto případě lineární čas a vývoj dějin – představují novou hodnotu, kterou přináší analýza rozsáhlých bibliografií pomocí metod digitálních humanitních věd.
Od Gutenberga k Zuckerbergovi
Graf 1. Počet publikací v Polsku v letech 1505–1965 (vlastní zpracování podle Marie Czarnowské, srov. Czarnowska 1967).
3. Bibliografické údaje v praxi digitálních humanitních věd
Hodnocení bibliografických údajů v kontextu digitálních humanitních věd, zejména na pozadí korpusového jazykového výzkumu (jenž je pro naše úvahy nejlepším referenčním bodem), se jeví jako nadmíru příznivé. Příkladné projekty digitálních humanitních věd integrují dimenze času a prostoru a využívají – podle typu zdroje – obsah v textových, číselných, zvukových a grafických formátech (srov. Pawłowski v tomto svazku). Všechny tyto kategorie informací lze nalézt ve správně srovnaném bibliografickém záznamu (obr. 2). Ten obsahuje diskurzivní části textu s vysokou informační hodnotou (název), krátké informační jednotky unitermů (předmětová hesla nebo deskriptory), chronologické údaje (rok vydání) a místopisné názvy (toponyma), kterým jsou přiřazeny zeměpisné souřadnice promítnuté do mapy. Pomocí metod NLP lze běžná slova z názvů automaticky přiřadit k sémantickým třídám nebo je svázat do tematických shluků (tedy témat) a rozpoznat také osobní jména (antroponyma). Díky těmto opatřením se záznamy nejen promítají na mapu a časovou osu, ale také se propojují s dalšími zdroji, jako jsou biografické, lingvistické a terminologické slovníky, tezaury nebo encyklopedie. Jak je patrné z výše uvedeného, rozsáhlé bibliografie jsou pro výzkum v oblasti digitálních humanitních věd téměř ideální: jsou strukturované (pole ve formátu MARC 21 jsou důsledně číslovány, tudíž se snadno zpracovávají), reprezentují různé kultury a jazyky, pokrývají
13. Rozsáhlé bibliografie v digitálních humanitních vědách
Obrázek 2. Příklad bibliografického záznamu, ve kterém jsou kategorie rozpoznané pomocí čísel polí a/nebo technik NLP barevně označeny a promítnuty do jiných databází nebo zdrojů.
velké časové úseky (na rozdíl od nesčetných proudů bajtů generovaných v digitálním věku – nepochybně zajímavých, ale krátkých!) a konečně mají poznávací potenciál, protože název a klíčová slova jsou vždy jakousi syntézou obsahu díla, nikoli sémanticky prázdným a opakujícím se označením. Lze říci, že materiálově „lehký“, standardizovaný a snadno zpracovatelný digitální záznam v kombinaci s aparátem digitálních humanitních věd umožnil po více než sto letech naplnit sny vizionářů bibliografického výzkumu z přelomu 19. a 20. století.
Od Gutenberga k Zuckerbergovi
4. Případová studie – rozdělení autorů knih podle pohlaví
4.1. Rovnost pohlaví a její měření
Složité a dlouhodobé procesy vedoucí k vyváženému zapojení obou pohlaví do společenského, vědeckého, hospodářského a kulturního života probíhají v Evropě již nejméně dvě století. Jejich výrazem a veřejnou reprezentací bylo v minulosti feministické hnutí, iniciované v USA v polovině 19. století (sjezd žen v Seneca Falls, USA, 1848). Skutečné, nikoli očekávané či deklarované postavení genderu v evropských zemích je však do značné míry nezávislé na oficiální politice a jednotlivých událostech zveřejňovaných médii. Současnou situaci a rozsah změn v této oblasti mohou odhalit pouze analýzy velkých datových souborů, které konzistentně a synteticky odrážejí stav věcí v dlouhém časovém období. Velká data jsou necitlivá k okázalým exponentům postavení žen, jako jsou významné pozice v politice nebo ocenění. Místo toho agregují informace, které jsou rozptýlené napříč zdroji, a tudíž pro neodborné pozorovatele neviditelné.
Dosud se při studiu sociálních procesů souvisejících s rovností žen a mužů nejčastěji používaly ekonomické a právní nástroje (například analýza příjmů, kupní síly, nabytých práv). Těžko jim však lze důvěřovat při analýze více než dvousetletého období v politicky nestabilním regionu s pohnutou historií. A za takovou lze střední Evropu rozhodně považovat. Nacházela se mezi Ruskem a Německem, po desetiletí se s ní zacházelo jako s velkou kolonií, byla zmítána válkami nebo povstáními, ve vztahu k metropolím opomíjena, používala mnoho různých měnových a právních systémů, k čemuž se přidávaly náboženské a jazykové rozdíly udržované rozdělovacími státy. Měřítka, jako jsou například příjmy žen a mužů, jejich majetkový stav nebo vzdělání, jsou proto velmi obtížně srovnatelná, pokud se bere v úvahu celé období pozdního novověku (zde jako cézuru bereme rok 1800). Pro zdůvodnění výše uvedené teze si položme jednoduchou otázku: Co znamenalo v letech 1800, 1850, 1900, 1950 znamenalo v různých oblastech střední Evropy „vysokoškolské vzdělání“? V případě Polska na ni neexistuje jednoduchá a jednoznačná odpověď, neboť kritéria pro hodnocení úrovně vzdělání v různých obdobích a záborech jsou nesrovnatelná. Lze zde připomenout nikoliv nepravdivý názor mnoha akademiků, že absolventi maturitní zkoušky v humanitním oboru z 20. a 30. let 20. století byli vzdělanější než dnešní absolventi filologických oborů. Je proto nutné určit jiné měřítko: takové, které je spolehlivé, kvantifikovatelné a zároveň agreguje maximální množství detailních informací, které zajímají ekonomy, sociální historiky nebo genderové badatele.
13. Rozsáhlé bibliografie v digitálních humanitních vědách
Bez zbytečných obav lze za (dříve nepoužívaný) parametr splňující výše uvedené podmínky považovat autorství knih. K napsání učebnice, vědecké monografie, příručky nebo literárního díla (básnické sbírky, románu) nestačí dobré úmysly. Člověk potřebuje vzdělání a znalosti, finanční prostředky, dostatečně vysokou intelektuální úroveň a sečtělost. Taková snaha tedy zahrnuje vše, co patří k proměnným vzdělání a ekonomického a sociálního statusu, ale co pro tradiční ekonomii nebo historickou sociologii může být z objektivních důvodů nedosažitelné. Kromě toho je pro vydání knihy nezbytná společenské přijetí osoby autora s ohledem na jeho pohlaví a původ. Například medicína, exaktní či přírodní vědy byly v 19. století téměř zcela maskulinizovány. Proto by ženy jako autorky prací například z oblasti chirurgie nebo fyziky jednoduše nebyly uznány – ergo žádný nakladatel by jejich díla nevydal, protože by nenašla dostatečný počet kupujících. Podíl žen mezi autory samostatných publikací je proto dobrým měřítkem rovnosti pohlaví a svědectvím o sociální (ne)spravedlnosti, nezávisle na místě a době. Toto měřítko se zdá být obzvláště užitečné ve středoevropském kontextu, kde jsou podrobné ekonomické ukazatele za dlouhé časové období obtížně odhadnutelné a nejisté.
Níže uvádíme výsledky srovnání podílu žen a mužů mezi autory samostatných publikací vydaných dvěma evropskými národy nebo, v závislosti na přístupu, jazykovými společenstvími v letech 1800 až 2020, tedy v období pozdního novověku. Výraz „jazykové společenství“ je v souvislosti s německými údaji vhodný, protože použitá databáze zohledňuje publikace vydané v různých státních útvarech (například NDR, SRN, Rakousko, Švýcarsko) – jedná se tedy o komunitní zdroj založený na jazykovém, nikoli národním či kulturním základě. V souladu s výše uvedeným zdůvodněním jsme předpokládali, že autorství knih agreguje mnoho proměnných, které je obtížné zachytit a kvantifikovat, což z něj činí efektivní měřítko genderové rovnosti, které je odolné vůči vnějším okolnostem – měřítko, které díky svým velkým objemům kompenzuje odchylky od faktické pravdy způsobené náhodnými nebo systematickými faktory. To vše tak umožňuje v širokém proudu bibliografických dat vidět skryté trendy a vztahy, které přesahují jednotlivá pozorování – což je koneckonců jedním z cílů digitálních humanitních věd a vědy jako celku.
4.2. Polsko a Německo – proč je srovnávat?
Výsledky jakéhokoli empirického výzkumu jsou přesvědčivé, pokud pro ně existuje srovnávací základna. V tomto případě použitý výzkumný materiál reprezentuje dvě největší kulturní oblasti střední Evropy – polskou a německou jazykovou oblast. Polsko a Německo
Od Gutenberga k Zuckerbergovi
jsou geograficky a kulturně blízké země, historicky se ale liší velikostí a postavením. Navzdory nestabilitě hranic, politických systémů, válkám a obtížným epizodám si německá kultura po celé 19. a 20. století zachovala kontinuitu udržovanou různými státními organismy (včetně Rýnského spolku, Německé (druhé) říše, Výmarské republiky, Třetí říše, Německé demokratické republiky, Spolkové republiky Německo). Kromě toho – v 19. století patřily německy mluvící státy v oblasti vědy a kultury ke světové špičce. Situace Polska byla až do roku 1989 diametrálně odlišná. Polsko ztratilo svou státnost na konci 18. století a prakticky až do první světové války existovalo pouze jako pomyslný útvar, ztotožňovaný s kulturou, historií a náboženstvím, ale především s jazykem. I tento status imaginárního společenství byl neustále podkopáván pruskými, ruskými a rakouskými okupačními úřady. Po roce 1918 dochází ke znovuzrození státu, který je v letech 1939–1945 opět okupován Třetí říší a Sovětským svazem. Po roce 1945 je Polsko státem s omezenou suverenitou, vazalským státem SSSR, a téměř plnou suverenitu získává zpět po roce 1989. Takto rozdílné cesty historického vývoje tedy ospravedlňují komparaci německých a polských dat. Zejména naznačují, že výsledky výzkumu bibliografických korpusů obou zemí se budou výrazně lišit, že odhalí odlišné profily zájmu Poláků a Němců (respektive Polek a Němek). Zmíněné vstupní postřehy lze považovat za pracovní hypotézu a ověřit je prostřednictvím rozsáhlých bibliografií.
4.3. Zdroje bibliografických dat a jejich preprocessing
Výzkum byl proveden na základě rozsáhlých bibliografií sestavených národními knihovnami Polska a Německa a zpřístupněných veřejnosti ve formě databázových souborů. 8 Přestože se nejedná o úplné a ucelené národní bibliografie, 9 v námi zkoumaném období splňují většinu podmínek pro takovéto monumentální repozitáře. Zejména mají předvídatelnou strukturu, stálou péči ústřední instituce a snahu o zahrnutí veškeré literatury. Je třeba dodat, že vzhledem k neexistenci instituce polského státu v 19. století (do roku 1918) neexistovala v tomto období žádná centrální instituce, která by publikační činnost evidovala. Proto byly do výzkumu zahrnuty záznamy získané poloautomatickou metodou z Estreicherovy polské bibliografie (EPB), která registruje polská díla a polonika z období, které je v katalogu Národní knihovny zastoupeno nedostatečně. K tomuto účelu byla použita část EPB dostupná online, jež pokrývá cca 40 % celkového fondu.10 Standardní postup získávání rozsáhlých bibliografických dat je založen na využívání veřejně dostupných rozhraní API, která umožňují stahování dat ve formě komprimovaných souborů. Tato data mají různý status a ne vždy se nazývají bibliografií – například Pol-
13. Rozsáhlé bibliografie v digitálních humanitních vědách
ská národní knihovna poskytuje přístup k obsahu svých katalogů, takže námi zpracovávaný materiál byl de facto katalogovou databází. Z hlediska analýz prováděných v oblasti digitálních humanitních věd to však nemá žádný význam. Důležitá je poznávací hodnota obsahu milionů záznamů, nikoli oficiální označení celého zdroje. Samotná technika získávání dat závisí na převládajících standardech a je rovněž nepodstatná.
Zajímavějším problémem jsou kritéria pro zařazení publikací do databáze. Ta jsou důležitá do té míry, že umožňují považovat takové bibliografie za objektivní reprezentaci určitého národního nebo jazykového společenství, a nikoli za výsledek preferencí konkrétních jednotlivců nebo institucí. První skupina těchto kritérií se týká uznání publikace za součást národního (nebo komunitního) zdroje. Obecně se uznává, že zařazení knihy nebo jiného díla do takového zdroje je dáno národností autora, jazykem, tématem a někdy i územím, na kterém byla publikace vydána. Podobné otázky bývají sporné (a to nejen v případě starých děl), ale vědec z oboru digitálních humanitních věd zpracovávající údaje je v tomto ohledu oprávněn spoléhat se na kompetence pracovníků zpracovávajících knihovní fond a na autoritu knihovny jako jedné z ústředních institucí té které země. Právě tuto strategii důvěry jsme přijali v našem výzkumu.
Značný význam – a to je druhá skupina kritérií – má žánrová a formální příslušnost publikací zařazených do databáze. V tomto ohledu existují mezi jednotlivými zeměmi značné rozdíly. Například německá bibliografie zahrnuje kromě knih a periodik také mapy, notové záznamy a hudební nahrávky na různých nosičích (například vinylové desky). V polské bibliografii však tyto údaje zahrnuty nejsou, neboť jsou umístěny v samostatných databázích. Odlišně se zachází také s disertačními pracemi. V německém systému musí mít každá obhájená doktorská práce své vlastní číslo ISBN – jedná se tedy o oficiální samostatnou publikaci, i když do tisku putuje jen několik exemplářů. V polském systému požadavek na takovou registraci neexistuje. Poměrně novým problémem je také katalogizace elektronických vydání. Polské předpisy zpočátku pro formáty EPUB, MOBI nebo jiné digitální formáty nevyžadovaly samostatná čísla ISBN. Německý systém naopak považuje každé médium za samostatnou publikaci. Výsledkem je, že většina knih vydaných v Německu má dnes tři čísla ISBN, reprezentovaná třemi záznamy, přestože za nimi stojí jedno dílo (obr. 3).
Zmíněné rozdíly proto vyžadují předzpracování, aby se odfiltrovaly neúplné, nerelevantní a nadbytečné záznamy. Z technického hlediska vyžadují pravidla předzpracování pro bibliografické databáze určení příslušných čísel polí formátu MARC (například autor, jazyk nebo typ publikace).11 Tyto činnosti jsou logicky jednoduché, ale u mnohamilionových objemů databází vyžadují pečlivost a pokročilé
Obrázek 3. Příklad označení publikace z nakladatelství De Gruyter (kolektivní monografie Quantitative Approaches to Universality and Individuality in Language), kde jsou patrné tři čísla ISBN pro stejné dílo.
programátorské dovednosti. Shrneme-li výše uvedené poznámky, je třeba konstatovat, že předzpracování rozsáhlých bibliografických dat je nezbytnou a důležitou fází. Umožňuje respektovat dvě běžné zásady analýzy dat, které jsou relevantní i v digitálních humanitních vědách. První z nich zní: porovnávat pouze srovnatelné objekty, druhá vyrůstá z programátorské praxe a funguje v anglické verzi jako rubish in, rubish out – vyhnout se chybným datům na vstupu, protože algoritmus z nich bude produkovat chybné výsledky.
4.4. Selekce dat a metody jejich zpracování
V rámci předzpracování byly odfiltrovány záznamy bez autorů nebo názvů (analýza pole č. 245). Byla přijata zásada, že s editory děl se bude zacházet stejně jako s autory (analýza pole č. 700). Vynechány byly všechny netextové dokumenty (vinylové desky, mapy, nahrávky na jiných nosičích atd.). Tato podmínka byla ověřena na základě obsahu pole č. 336. Vyřazeny byly i periodické publikace (pole č. 773), jelikož z definice nemají autora. V případě děl převzatých z Estreicherovy polské bibliografie bylo jako dolní hranice přijatelného rozsahu akceptováno 5 stran (EPB registruje mnoho malých publikací, dokonce i jednostránkových). V zásadě byla z obou bibliografií vyřazena většina děl v jiných jazycích než polštině nebo němčině. Jazykové kritérium bylo ověřováno na základě pole č. 008. Toto kritérium bylo nejproblematičtější, protože neexistuje způsob, jak automaticky odlišit díla německých (nebo polských) autorů píšících v jiných jazycích od autorů jiných národností, ale publikujících v Německu nebo Polsku (častým příkladem z 20. století jsou disertace publikované v Německu v angličtině). Z tohoto pravidla však existuje výjimka. Ručně vyčleněna a zařazena byla řada děl polských autorů z 19. století, kteOd Gutenberga k Zuckerbergovi
13. Rozsáhlé bibliografie v digitálních humanitních vědách
rá byla z politických důvodů vydána v jazyce státu okupujícího polské území (především v němčině) nebo v některém mezinárodním jazyce (především v latině, francouzštině a rusínštině). Vzhledem k objemu dat v databázi Deutsche Nationalbibliothek bohužel nebyly odstraněny duplicity (digitální verze jako kopie papírových verzí), což uměle navyšuje počet knih vydaných v Německu od konce 90. let 20. století. Pro podrobný popis výpočetních technik použitých v práci odkazujeme na online článek Pawłowski, Walkowiak 2023.
4.5. Objem dat – analýza
Nejprve uvádíme analýzu objemu dat získaných po odfiltrování nerelevantních záznamů. V tabulce 1 jsou uvedeny počty knih vydaných v jednotlivých pětadvacetiletých obdobích. Údaje ukazují slabé zastoupení publikační produkce v 19. století a vysoké zastoupení ve 20. století. Je také patrný výrazný rozdíl v objemu německých a polských dat ve 20. století, který vyplývá nejen z rozdílného potenciálu obou kulturních oblastí, ale také z výše zmíněného principu generování dalších záznamů pro digitální verze.
Tabulka 1. Počty titulů zahrnutých do analýzy publikací v němčině a polštině.
RokyPolskéNěmeckéRokyPolskéNěmecké 1800–1825 8 1804 79 1926–1950 87 149711 131 1826–1850 15 2147 822 1951–1975 159 9351 09 .034 1851–1875 22 .8 87 .882 1976–2000 253 .9721 .805 .247 1876–1900 3 .11320 .747 2001–2020 4 47 . 453 .052 .243 1901–1925 5 .281341 .549
O dynamice změn v počtu publikovaných prací nám mnohem více řekne historický graf (Graf 2). Potvrzuje, že německá kultura byla a je velmi produktivní. Prakticky každý rok (nebo v delších obdobích) je počet knižních titulů vydaných v Německu nejméně pětkrát, a v některých letech v určitých okamžicích dokonce desetkrát vyšší než odpovídající parametr v Polsku. To je z polského pohledu nepříznivý výsledek, protože rozdíl v počtu obyvatel obou zemí by ospravedlnil převahu (přibližně) pouze trojnásobnou. Alespoň částečně jej lze vysvětlit připomenutím dřívějších poznámek o rozdílech v systémech katalogizace. V německém systému je zavedeno samostatné číslo ISBN pro každou publikaci (v pevné nebo měkké vazbě, na různých nosičích) a jsou do něj zahrnuty všechny disertační práce (v Polsku takový požadavek neexistuje). Jak ukazuje obrázek 2, prudký nárůst počtu knih vydaných v Německu od konce 90. let 20. století je tedy výsledkem kombinace několika faktorů, což znesnadňuje interpreta-
Od Gutenberga k Zuckerbergovi
ci a srovnání s polskými údaji. Kvůli technickým obtížím bohužel nebyly odfiltrovány publikace vydané v několika různých formátech.
Graf 2. Počet knižních titulů vydaných v Polsku a Německu v letech 1800–2020 (vlastní zpracování).
Při podrobnější analýze údajů lze rovněž zjistit zajímavé výkyvy v hodnotě tohoto ukazatele. Patrný je propad v období druhé světové války (v případě Německa z pochopitelných důvodů o několik let) a také politické změny v Polsku. Pozornost si zaslouží období stanného práva a konce Polské lidové republiky (1981–1989), charakterizované stagnací rozvoje země, po němž od roku 1990 následovalo období intenzivního dohánění mnohaletého zpoždění, kdy se sešly tři faktory: zánik totalitního režimu a zrušení cenzury (uvolnění tvůrčí energie společnosti), technologická revoluce (snížení ceny tisku) a rozšíření osobních počítačů (zvýšení rychlosti, s níž mohli autoři texty vytvářet). V tomto období se nepříznivý poměr Německa a Polska neustále zlepšoval. Důvodem zmíněného obratu po roce 2000 je změna dlouhodobého trendu v německých údajích. Nebyla způsobena tím, že by Německo náhle začalo vydávat více titulů, ale změnou způsobu katalogizace elektronických publikací, jak bylo popsáno výše.12 Významným momentem poválečné německé historie je rok 1968, který znamenal počátek hlubokých změn ve společnosti. Tehdy je patrné zpomalení, po němž následuje rychlá intenzifikace vydavatelské produkce.
Některé informace nelze v grafu rozeznat kvůli vlivu měřítka, které způsobuje, že se výkyvy obou křivek v 19. století zplošťují. Analýza samotných čísel v tabulkové podobě (tabulky zde z důvodu rozsahu neuvádíme) však ukazuje vysokou citlivost tohoto parametru na společenské jevy i v dřívějším období. Patrný je negativní vliv kata-
13. Rozsáhlé bibliografie v digitálních humanitních vědách
strofických událostí (například národních povstání v Polsku v letech 1830 a 1861). Zajímavým anomálním jevem je vrchol křivky v roce 1900 (Německo a Polsko) a menší v roce 1850. Jedná se pravděpodobně o vliv kulatého data, tedy iracionální tendence lidí kumulovat svou energii kolem symbolických bodů na časové ose. Vyvstává otázka, proč se tak výrazný vrchol nemůže projevit v roce milénia (2000). Nejspíše je to způsobeno přesunem velké části informačního toku z tisku (knih a novin) do nových médií, tedy televize a internetu, kde se efekt milénia jasně projevil.13
Jak je z výše uvedeného patrné, nástroje digitálních humanitních věd aplikované na analýzu bibliografických korpusů odhalují mnoho zajímavých informací, pokud má badatel k dispozici dostatek spolehlivých dat a softwarových nástrojů. Časová řada tvořená počtem vydaných titulů je jako barometr procesů probíhajících v kultuře, politice a ekonomice – může tedy usnadnit různé typy analýz. Je třeba také zdůraznit, že rozdíly v německých a polských publikacích nemají vliv na analýzu poměrného zastoupení autorů a autorek (srov. 4.6), neboť vlastností proporcionálních ukazatelů je vyrovnávání absolutních rozdílů. Mimochodem, algoritmy automatické excerpce klíčových slov fungují podobně – excerpce není funkčně vázána na objem dat (srov. 4.7).
4.6. Pohlaví a autorství knih – podíl autorek a autorů
Záznamy ve formátu MARC nikdy neobsahovaly pole pro pohlaví autorů, protože z hlediska katalogizace a/nebo vyhledávání publikací nebyla tato informace relevantní. Bylo proto nutné buď automaticky rozpoznat pohlaví, nebo tuto informaci získat z jiného zdroje v souladu s filozofií linked open data. Pokud jde o propojení dat, přijatelným řešením by bylo dotazování na takzvané referenční adresáře, což jsou referenční databáze autorů děl zařazených do oficiálních katalogů.14 Obsahují údaje o pohlaví autorů zařazených do katalogů a lze je propojit se záznamy MARC. Od této metody však bylo upuštěno, protože dotazování databáze by trvalo velmi dlouho a vyvolalo by mnoho otázek ohledně skutečné identity autorů s populárními jmény. Efektivnějším řešením bylo automatické rozpoznávání pohlaví prostřednictvím křestního jména. Tak se stalo, že v polštině je spojení jména s rodem téměř jednoznačné, ženský rod je navíc v polštině vždy označen příponou -a. V případě polské báze bylo tedy rozpoznávání založeno na tomto pravidle. Naproti tomu němčina tak důsledná není, neboť některá starohornoněmecká jména končí na souhlásku (například Annetrud, Adelgund, Edeltraut, Gudrun atd.). Další potíží v němčině je velké množství přejatých jmen (zejména v období po roce 1945). Z tohoto důvodu byl na základě externích zdrojů připra-
Od Gutenberga k Zuckerbergovi
ven referenční katalog německých mužských a ženských jmen a pohlaví autorů pak bylo určeno automatickým porovnáním jejich jmen s tímto referenčním seznamem. Případy, kdy nebylo uvedeno křestní jméno, byly vyřazeny. Je třeba dodat, že v poslední době módní genderová fluktuace, vyjádřená neutrálními jmény, nebyla v případě naší studie patrná. Rovněž jsme nevěnovali pozornost pracím napsaným pod pseudonymy, neboť jejich přínos není statisticky patrný.
Graf 3. Podíl knižních titulů napsaných muži a ženami v Polsku a Německu mezi lety 1800 a 2020 (vlastní zpracování).
Nejdůležitější výsledek probíhajících analýz velkých bibliografických dat, dosažený v interdisciplinární oblasti digitálních humanitních věd pomocí metod NLP, je uveden na obrázku 3. Velmi sugestivně ukazuje dynamiku podílu žen a mužů na vydávání knih za posledních dvě stě let a nepopiratelný nárůst podílu žen píšících a vydávajících knihy. To svědčí o rostoucí míře faktické rovnosti, chápané jako rovnocenná účast obou pohlaví na intelektuálním a kulturním životě národního a/nebo jazykového společenství. Je zajímavé, že navzdory výrazným rozdílům mezi německou a polskou kulturní oblastí mají obě křivky velmi podobný průběh, což svědčí o univerzálnosti pozorovaného jevu. Pouze při bližším zkoumání jsou patrné mírné odchylky. Některé z nich jsou dlouhodobé, některé představují dočasné narušení stabilního trendu. První nápadnou pravidelností je mírně vyšší podíl ženských autorek v polské základně oproti německé. Jak lze tento zdánlivě překvapivý jev vysvětlit? A že je překvapivý, o tom není pochyb, protože v Evropě je podle současného přesvědčení emancipace žen spojena s úrovní kulturního a technického pokroku. Nám se ukazuje, že Polsko – formálně vymazané z mapy Evropy
13. Rozsáhlé bibliografie v digitálních humanitních vědách
v 19. století a více než sto dvacet let s přestávkami zaměstnané udržováním nadějí na suverenitu místo budování moderního státu – je v tomto ohledu otevřenější a pokrokovější. Zdá se, že právě tato extrémní situace, která v praxi znamenala neustálé represe – konfiskace majetku, zatýkání, vyhnanství na Sibiř a často i smrt těch, kteří bojovali – v první řadě vyčerpala mužskou populaci a způsobila, že ženy brzy začaly přebírat všechny společenské a profesní role, nejen ty, které patriarchální společnost 19. století umožňovala. Emblematickým příkladem této otevřenosti je nositelka Nobelovy ceny Marie Skłodowska-Curie (1867–1934). Je nejen jedinou ženou, která získala dvě Nobelovy ceny, ale také jedinou osobou polské národnosti, která dosáhla takového úspěchu v oblasti silně maskulinizovaných přírodních a technických věd. Za pozoruhodnou kuriozitu je třeba považovat, že tento velký proces emancipace polských žen v 19. století probíhal pod vlivem vnějších událostí, v podstatě bez účasti feministické ideologie.
Situace v Německu (zejména v Prusku), stejně jako v celé západní Evropě, byla velmi odlišná. V devatenáctém století se jednalo o oblast rozvoje, bohatství a stability, v níž bylo možné udržet podřízené postavení žen vyňatých z většiny profesních povinností a vojenské služby – a tedy i ze vzdělávání. Ve druhé polovině devatenáctého století v bismarckovském Prusku tento fenomén dokonce získal symbolické označení „tři K“ (německy Kinder, Küche, Kirche – děti, kuchyně, kostel), které vytyčovalo a zároveň omezovalo ženské teritorium.
Tuto stabilitu ukončila až první světová válka, kdy na frontách zahynulo více než 8 milionů mužů a několikanásobně více se jich stalo invalidy. Analýza velkých bibliografických dat, provedená v oblasti digitálních humanitních věd s využitím metod NLP a text miningu výše uvedenou diagnózu potvrzuje.
Co přesně ukazuje obrázek 3? V průběhu dvou set let se zvýšil nárůst, který syntetickým způsobem představuje úroveň rovnoprávnosti žen v Polsku i Německu z přibližně 5 % na přibližně 43 % (při konstantním podílu neuznaných údajů na úrovni přibližně 10 %). To znamená, že rozdíl ve prospěch autorů-mužů se nyní v obou případech pohybuje kolem 10 %. Změna, k níž došlo v polské a německé společnosti a pravděpodobně i v celé Evropě (zde vyjádřená uvedenými údaj, je tedy obrovská, ba přímo epochální. Je vidět, že v polských a německých údajích mají linie podílu žen a mužů jako autorů podobný průběh a vykazují velmi pomalý vzestupný trend téměř až do poloviny 20. století. V Německu je mezním datem, které naznačuje zrychlení růstu podílu žen na publikační činnosti, sociální a morální revoluce v roce 1968. V Polsku dochází k výraznému zrychlení rozvoje ženského písemnictví po roce 1990, což je třeba považovat za jedno z mnoha svědectví odhalujících absurditu lidového Polska. Je tomu tak proto, že zhroucení sovětské verze socialismu, která měla na
Od Gutenberga k Zuckerbergovi
svých praporech mimo jiné napsáno sociální spravedlnost a rovnost pohlaví, znamenalo počátek pohotové a stále intenzivnější účasti žen na intelektuálním a vědeckém životě. Jak jsme již zmínili, převahu procenta píšících a publikujících autorek v Polsku ve srovnání s oblastí německé kultury lze pozorovat téměř po celých dvě stě let. Rozdíl v čase kolísá, ale při zprůměrování celé křivky činí 1,02 %.
Jaký bude následující vývoj tohoto ukazatele? Byl by ideálem zcela vyrovnaný podíl autorů obou pohlaví, nebo obrácení stávající převahy mužů ve prospěch žen? Na tyto otázky neexistuje jednoznačná odpověď, ale lze připomenout, že dokonalé symetrie jsou častěji výplodem lidské fantazie než společenských systémů či přírody. Ve světě lidských bytostí je proto třeba k rovným paritám přistupovat s velkou nedůvěrou a vnímat je spíše jako pokusy o realizaci nových utopií, které se ve své podstatě neliší od těch, které v minulosti vymysleli například Thomas More (Utopie)15 nebo Tommaso Campanella (Sluneční stát) . 1 Rozdíly v osobních vlastnostech a zájmech obou pohlaví existovaly vždy – i když se dnes mnozí snaží tuto skutečnost zpochybnit – a promítly se do rozdílů v úrovni publikační činnosti mužů a žen. Za nejpřínosnější a nejvyváženější bychom považovali spíše relativně vyrovnaný podíl obou pohlaví mezi autory knih. Takový poměr by zaručoval účast celých společností na tvůrčí práci pro společnost a zároveň by respektoval specifickou kolektivní identitu autorů a autorek. A jak se od sebe liší, ukazuje náš výzkum v následující kapitoly (4.7, 4.8).
4.7. Pohlaví a autorství knih – preferované literární žánry
Výše zmíněná změna je bezpochyby pozitivní, i když nám z pohledu velkých dat unikají některé důležité detaily popisovaného jevu, které se skrývají v agregovaných ukazatelích. Abychom lépe pochopili, co skrývají řádky a čísla zvýrazněná na obrázku 3, použili jsme informace o literárních žánrech a propojili je s pohlavím autorů. Tyto údaje se povinně zapisují do záznamů MARC 21 (pole č. 655) a pracovníci oddělení záznamů publikací je berou velmi vážně. Kvantitativní převaha údajů z dvacátého století je v celé databázi tak výrazná, že dosažený výsledek (obrázek 4) lze považovat za aktuální reprezentaci současnosti. Vzhledem k technickým omezením jsme provedli analýzu pouze pro polské údaje.17 Je však třeba předpokládat, že z hlediska struktury – přinejmenším ve 20. století – se německé údaje nebudou od polských výrazně lišit.
Zde je třeba poznamenat, že knihovní klasifikační systém pro písemné dokumenty nekopíruje literární genealogii. Je spíše praktickým nástrojem pro třídění velkého množství děl, která musí knihovny katalogizovat. Pro získávání dat metodami text-mining je proto
13. Rozsáhlé bibliografie v digitálních humanitních vědách
třeba tento složitý systém poněkud zjednodušit a převést na malý počet intuitivně srozumitelných kategorií. V případě katalogizačních databází Polské národní knihovny byl celkový počet přítomných žánrů více než 6000, což se zdá být téměř astronomické. A skutečně tomu tak je, neboť více než polovina z nich se v důsledku lidské chyby objevila s velmi nízkou četností. Zbývající kategorie jsme v několika fázích zredukovali na racionální a čitelný soubor asi 30 agregovaných žánrů, částečně odpovídající literární a lingvistické genealogii.
Obrázek, který vyplývá z výše popsané analýzy – zejména v souvislosti s dříve uvedenými výsledky – může být překvapivý. Vyplývá z něj obrovská převaha mužů ve většině oblastí psaní a převaha žen v několika oblastech tradičně považovaných za feminizované. Ženy tak mnohem častěji než muži píší texty klasifikované jako romance, kuchařky a dětské knihy. O něco častěji než muži jsou dámy autorkami slabikářů pro děti a publikací indexovaných jako bibliografie. Podobné rozložení jako v celkové statistice na obrázku 3 lze pozorovat u textů katalogizovaných jako próza, příručka a věda. V ostatních žánrech se dominance mužských autorů zvyšuje a dosahuje extrémní úrovně u projevů (politických, filozofických) – v této kategorii jsou ženy autorkami méně než 3 % děl. Bez jakéhokoli komentáře či pokusu o interpretaci upozorňujeme také na skutečnost, že mezi publikacemi indexovanými deskriptorem humor je podíl ženských autorek přibližně 5 % a v kategoriích komedie a satira asi 7 %.
Publikace pro děti Kuchařka Román
Primer
Průvodce Bibliografie
Věda
Příručka Próza
Mapa
Slovník Poezie
Populární nakladatelství Novinářský rozhovor
Grafika
Turistický průvodce Umění Film Legenda Pohádka Literatura
Akademická učebnice Životopis Encyklopedie Hudba Deník
Dopis
Náboženské texty Drama Literární skeč Žurnalistika Aforismus Medicína Fotografie
Řeč Humor Libreto Komedie Satira Komika
Obrázek 4. Rozdělení pohlaví autorů knih v polské databázi podle žánru (1800–2020) (vlastní zpracování).
Od Gutenberga k Zuckerbergovi
Vzhledem k předchozím údajům je třeba si na tomto místě položit otázku, jak je možné, že celkové rozložení autorství činí 43 % (F) až 57 % (M) při tak nerovnoměrném a značně odlišném specifickém rozložení v rámci spisovatelských žánrů. Tato hádanka má jednoduché vysvětlení: příliv publikací v oblasti literatury – především prózy, kam spadají i romance, tedy díla nejčastěji psaná ženami pro ženy – je tak velký, že z kvantitativního hlediska anuluje vliv ostatních žánrů.
4.8. Pohlaví a autorství knih – klíčová slova v názvech
Abychom lépe porozuměli jevu popsanému v oddíle 4.7, tedy volnému umístění autorů a autorek v oddělených tematických oblastech, rozhodli jsme se podrobit názvy publikací sémantické analýze. Jejím cílem bylo pomocí automaticky extrahovaných klíčových slov identifikovat obsah odlišující psaní obou pohlaví. Tato slova byla seskupena do souborů označovaných jako témata (jejich názvy jsou psány velkými písmeny).
K analýze jsme vybrali pouze knihy s jedním autorem, čímž jsme vyloučili kolektivní díla, u nichž nikdy není zřejmé skutečné úsilí jednotlivců. Generování klíčových slov jsme provedli pomocí algoritmu c-TF-IDF a vektorů extrahovaných z hlubokých neuronových sítí Sentence-BERT (vysvětlení těchto technik lze nalézt v práci Pawłowski, Walkowiak 2023, viz také kapitola 6 v tomto svazku).
Abychom zohlednili vliv změn ve společenském vědomí, k nimž docházelo v průběhu více než dvou století, nesrovnávali jsme celé korpusy, ale rozdělili jsme je do chronologických úseků. Pro přehlednost jsme německé termíny přeložili do polštiny. Protože jsme do tabulek nezařadili samotná klíčová slova, uvádíme několik příkladů témat s jejich „obsahem“. INFORMATIKA v polském korpusu mužských autorů za roky 2000–2021 obsahuje lexémy „programování“ (9,4 %), „Windows“ (5,3 %), „Excel“ (4,6 %) a „Microsoft“ (3,8 %). Naproti tomu téma ŠKOLA pro ženy 2000–2021 tvoří lexémy „třída“ (20,4 %), „škola“ (18,5 %), „základní“ (9,3 %) a „učebnice“ (7,8 %). V případě německých dat je příkladové téma VAŘEN í v korpusu žen 2000–2021 tvořeno výrazy: „Rezepte“ (11,6 %), „Kochbuch“ (5,8 %), „kochen“ (4,4 %), „Ernährung“ (4,3 %), „Essen“ (3,5 %), „Rezept“ (3,2 %). Naproti tomu téma V ěDECK ý V ý ZKUM v korpusu německých mužů 2000–2021 tvoří výrazy „Charakterisierung“ (1,9 %), „Mittels“ (1,9 %), „Untersuchungen“ (1,9 %), „Entwicklung“ (1,8 %), „Untersuchung“ (1,6 %), „Eigenschaften“ (1,6 %). Index C, který je uveden v tabulce, by měl být interpretován jako míra relevance topik.
13. Rozsáhlé bibliografie v digitálních humanitních vědách
Tabulka 2. Nejvýraznější témata generovaná z polských knižních titulů.
Období Témata žen (C)
1801–1910
1911–1945
1946–1980
1981–1999
2000–2021
ŽENA (5,7)
M L á DEŽ (4,8)
PŘ í BěH (2,8)
M L á DEŽ (4,9)
ROMANTIKA/PŘ í BěH (3,1)
ROM á N (2,1)
Dí T ě (4,7)
JAZYK (2,6)
ŠKOLA (2,6)
ŠKOLA (4,2)
DěTI (3,8)
ROMANTIKA/PŘ í BěH (3,3)
ŠKOLA (6,3)
DěTI (3,6)
ŽENA (3,6)
Témata mužů (C)
OBHAJOBA DOKTOR áTU (8,8)
ZPR áVA (5,6)
AKADEMICK ý TEXT (4,3)
PR áVO/Z á KON (3,9)
PŘEDNá ŠKA/ŘEČ (3,1)
AKADEMICK ý TEXT (2,2)
ELEKTŘINA (4,7)
STAVBA/KONSTRUKCE (4,1)
DOPRAVA (4,0)
DOPRAVA (4,8)
ELEKTŘINA (4,4)
STAVBA/KONSTRUKCE (3,8)
STROJ (4,8)
VOJNA (4,7)
INFORMATIKA (3,9)
Tabulka 3. Nejvýraznější témata (topika) generovaná z německých knižních titulů.
Období Témata pro ženy (C) Témata mužů (C)
1801–1910
1911–1945
1946–1980
1981–1999
2000–2021
PŘ í BěH (4,6)
ROM á N (2,5)
Pí SMENA (1,9)
PŘ í BěH (3,5)
ROM á N (3,3)
DěTI (3,2)
ROM á N/PŘ í BěH (3,3)
ŽENA (3,1)
DěT I (2,8)
DěT I (2,8)
ROMANTIKA/PŘ í BěH (2,3)
MEDICí NA (2,0)
ROMANTIKA/PŘ í BěH (3,1)
DěTI (2,8)
VAŘEN í (2,1)
N ě MECKO (3,3)
PROJEV/ZPR áVA (3,1)
Ná BOŽENSTV í (3,0)
DAN ě (5,7)
EKONOMIE (3,0)
PR áVO/Z á KON (2,9)
V ěDA (3,6)
PR áVO/Z á KON (3,2)
ELEKTŘINA (2,8)
INFORMATIKA (3,2)
MATEMATIKA (2,8)
A PLIKOVANÉ V ěDY (2,8)
V ý ZKUM (2,3)
FINANCE (2,1)
Ná BOŽENSTV í (1,8)
Analýza tohoto materiálu potvrzuje dřívější připomínky a pozorování. Ženská témata v polské i německé literatuře lze označit za tradiční a stereotypní. Obraz ženské autorky v obou jazykových oblastech tvoří publikace, v jejichž titulech vystupují do popředí zejména citové otázky (romance jako dominantní žánr), péče o domácnost (kuchařky) a výchova dětí (učebnice pro základní školy, slabikáře). Liší se nějak profil žen v polských a německých publikacích? Našli jsme pouze jednu takovou tematickou oblast: označili jsme ji jako MEDICí NA. Představuje mimo jiné práce o technikách in vitro a seberozvoji. Kromě tohoto rozdílu jsou témata ženských publikací
Od Gutenberga k Zuckerbergovi
– pokud o tom svědčí názvy – velmi podobná a odpovídají tradičnímu genderovému kulturnímu profilu.
K podobným závěrům lze dojít i při analýze charakteristických klíčových slov v názvech publikací mužských autorů, i když rozdíly jsou zde větší než u žen. Společná pro polské a německé autory jsou témata týkající se techniky v jejích různých podobách. Muži tak píší o elektřině, mechanice, stavebnictví a v poslední době také o informatice. Kromě toho lze v oblasti „mužských“ témat – především německých – nalézt náboženství a teologii (v korpusu polských titulů jsou tato témata také výrazná, ale ne tak výrazně). Jedná se o prostý důsledek převahy mužů mezi duchovními a religionisty. Skutečný rozdíl mezi světem mužských publikací v Polsku a Německu je naopak v tematických oblastech vymezených jako FINANCE a EKONOMIE. To má dva důvody. Za prvé, Němci jsou národem s dlouhou kupeckou tradicí, poznamenaným protestantským pojetím bohatství jako jednoho z projevů Boží milosti ve smrtelném životě, a jsou si ekonomických otázek vědomi více než Poláci. Za druhé – v německém systému již po léta existuje povinnost využívat daňové a finanční poradenství, které nabízejí certifikovaní poradci (Steuerberater, Finanzberater). Což má vliv na zvýšenou produkci publikací o spoření nebo investičním poradenství. Silná přítomnost aktuálního tématu Vá L KA v současné polské literatuře v mužském korpusu 2000–2021 (a dále i v dřívějších korpusech) je s největší pravděpodobností důsledkem traumatu z druhé světové války.
Interpretace výsledků uvedených v oddílech 4.6 – 4.8 nám umožňuje konstatovat, že ačkoli celkový objem knih napsaných ženami neustále roste a je silně dynamickým jevem, rozložení zájmů obou pohlaví zůstává velmi odlišné. Tyto rozdílné preference navíc přetrvávají po celé generace. Chceme-li tento jev vyjádřit obecně, spíše než s odkazem na jednotlivé příklady, které může každý vidět ve svém okolí, je třeba říci, že obě pohlaví – dnes již zcela z vlastního rozhodnutí – obsazují svá vlastní teritoria, v nichž se projevuje jejich tvůrčí činnost. Tento obraz neodpovídá současným očekáváním, často poznamenaným ideologií rovnostářství, ale je založen na tak rozsáhlém empirickém materiálu, že jej lze jen stěží zpochybnit. Tituly publikací jako jakási syntéza prací, pokud jsou k dispozici ve velkých svazcích, potvrzují obrovský pokrok, jehož bylo v oblasti rovnosti žen a mužů dosaženo. Neboť, jak jsme se již zmínili, vydání knihy není pouhou odbornou činností, ale hmotným dokladem vzdělání, kompetence a vysokého společenského a finančního postavení.
13. Rozsáhlé bibliografie v digitálních humanitních vědách
5. Shrnutí
Vycházíme-li z předpokladu, že empirickým jádrem digitálních humanitních věd jsou velká data a jejich funkčním znakem je sdružování zdrojů v různých formátech, zapadá studium bibliografií do tohoto trendu téměř dokonale. S využitím existujících knihovních zdrojů a technik automatického zpracování jazyka se nám podařilo ukázat složité společenské, kulturní a ekonomické procesy probíhající v rozsáhlých oblastech Evropy v průběhu více než dvou století. V tomto případě jsme srovnali polské a německé údaje, ale stejným způsobem lze zpracovat rozsáhlé bibliografie všech zemí světa se serióznějšími písemnými zdroji. To dává možnost dosáhnout zastoupení významné části lidmi vytvořených a nashromážděných znalostí. Závěrem lze říci, že studium rozsáhlých bibliografií, které bylo po léta opomíjeno, se stává nedílnou a důležitou součástí hlavního proudu digitálních humanitních věd a otevírá nové, dříve neznámé vědecké možnosti.18
POZNÁmK Y
1 Za cenné rady ohledně teorie bibliografie autoři děkují Dr. Elżbietě Herden z Ústavu informačních a mediálních věd na Vratislavské univerzitě.
2 Tento pojem zahrnuje souhrn vědomých a záměrných lidských výtvorů – materiálních i nemateriálních.
3 Ve většině evropských zemí platí předpisy, které nakladatelům ukládají povinnost zasílat vybraným knihovnám takzvaný povinný výtisk.
4 Nejprve Office international de bibliographie a poté Institut international de bibliographie. Na tomto místě je třeba připomenout, že s Mezinárodním bibliografickým institutem spolupracoval při statistickém zpracování dat poněkud pozapomenutý polský badatel a politický aktivista Bolesław Iwiński (srov. Migoń 1995).
5 „En 1895 fut fondé l‘Institut International de Bibliographie, premier institut qui envisagea à un certain point de vue, l‘ensemble de toutes les connaissances.“ [„V roce 1895 byl založen Mezinárodní bibliografický institut, který se z určitého hlediska zabýval souhrnem veškerého poznání.“]. (Otlet 1935, s. 263).
Údaje o počtu objektů v katalogu WorldCat a počtu knihoven v konsorciu OCLC se neustále vyvíjejí. Aktuální hodnoty naleznete na stránkách https://www.worldcat. org/ a https://www.oclc.org/en/about.htm l
7 Zde lze připomenout známý Ciceronův citát: inter arma silent musae (Mezi zbraněmi Múzy mlčí).
8 Údaje z Polské národní knihovny viz: https://data.bn.org.pl/ Údaje z Deutsche Nationalbibliothek viz: https://www.dnb.de/DE/Professionell/Metadatendienste/Datenbezug/LDS/lds_node.htm l
9 Národní bibliografie by měla zaznamenávat všechny dokumenty vydané v dané zemi nebo týkající se dané kultury.
10 Celý zdroj i popis Estreicherovy polské bibliografie najdete na adrese: https:// www.estreicher.uj.edu.pl/xixwieku/baza/
11 Popis formátu MARC s čísly polí lze nalézt mimo jiné v článku Grzędzińska 2012 a v online dokumentu MARC 21 Format for Bibliographic Data. Library of Congress. Network Development and MARC Standards Office 1999. Dostupné na WWW: https:// www.loc.gov/marc/bibliographic/ .
Od Gutenberga k Zuckerbergovi
12 Dlouhodobé společenské trendy se prakticky nikdy nemění náhle a bez vlivu silných vnějších faktorů.
13 Bizarním příkladem je nespočet publikací o údajném mileniálním viru.
14 Například Kongresová knihovna USA nabízí takový soubor na adrese https:// id.loc.gov/authorities/subjects.htm l, zatímco indexová karta Polské národní knihovny je k vidění na adrese https://dbn.bn.org.pl/
15 Celý původní název: Libellus aureus nec minus salutaris quam festivus de optimo Reipublicae statu de que nova insula Utopia (151)
1 Celý původní název: Civitas solis poetica . Idea reipublicae philosophicae (123) .
17 Plánujeme provést srovnávací studie distribuce spisovných žánrů pro několik jazyků (včetně němčiny a češtiny).
18 Uvedený příklad výzkumu nevyčerpává možnosti zkoumání rozsáhlých bibliografií. Jejich využití pro zkoumání geolokace publikací na mapě lze sledovat prostřednictvím stránky http://phc.uni.wroc.pl/wbw/ .
BIBLIOGRAFIE
BABIK, W. Paul Otlet: od klasyfikacji do organizacji i zarzadzania wiedzą. Praktyka i Teoria Informacji Naukowej i Technicznej. 2010, roč. 18, č. 1, s. 21–26. Dostupné na WWW: https://www.ptin.us.edu.pl/WP/wp-content/ uploads/2019/pelne_teksty/2010_1.pdf .
BALSAMO, L. Bibliography: history of a tradition. Berkely: Bernard M. Rosenthal, 1990.
BESTERMEN, T. The Beginnings of systematic Bibliography. Londýn: Oxford University Press, 1936.
BLUM, R. Bibliographia: an Inquiry into its Definition and Designations . Chicago: American Library Association, Folkestone: Dawson, 1980.
BRESLAUER, B. H. a R. FOLTER. Bibliography: its history and development. New York: Grollier Club, 1984.
GRZĘDZIŃSKA, K. (ed.). Format MARC 21 rekordu bibliograficznego dla książki. Varšava: Wydawnictwo Stowarzyszenia Bibliotekarzy Polskich, 2012
KORPAŁA, J. Dzieje bibliografii w Polsce. Varšava: Stowarzyszenie Bibliotekarzy Polskich, 1969.
MALCLÉS, L.-N. Manuel de bibliographie. Paříž: Presses Universitaires de France, 1963.
CZARNOWSKA, M. Ilościowy rozwój polskiego ruchu wydawniczego 1501–1965: dane szczegółowe o książkach 1929–1938, i 1951–1960 oraz o czasopismach 1933–1937 i 1956–1938. Varšava: Biblioteka Narodowa, 1967.
MIGOŃ, K. Bolesław Iwiński i międzynarodowa statystyka druków. In: KOCÓJOWA, M. (ed.). Studia bibliograficzno-bibliologiczne. Praca zbiorowa dla uczczenia 45-lecia pracy naukowej Profesora Wiesława Bieńkowskiego. Krakov: Wydawnictwo Uniwersytetu Jagiellońskiego, 1995, s. 209–219.
OTLET, P. Monde. Essai d’universalisme. Brusel : Editions Mondaneum, 1935 .
PAWŁOWSKI, A. a T. WALKOWIAK. Great Bibliographies as a Source of Data for the Humanities – NLP in the Analysis of Gender of Book Authors in German Countries and in Poland (1801–2021). In: Proceedings of the 7th Joint SIGHUM Workshop on Computational Linguistics for Cul-
13. Rozsáhlé bibliografie v digitálních humanitních vědách
tural Heritage, Social Sciences, Humanities and Literature. Dubrovník: Association for Computational Linguistics, 2023, s. 63–71. Dostupné na WWW: https://aclanthology.org/2023.latechclfl-1.7 .
SCHNEIDER, G. Theory and history of bibliography. New York: Columbia University Press, 1943.
SCHWETSCHKE, K. G. Codex nundinarius Germaniae literatae bisecularis Teil: 1564–1765. Halle: G. Schwetschke’s Verlags-Handlung und Buchdruckerei, 1850.
SCHWETSCHKE, K. G. Codex nundinarius Germaniae literatae bisecularis . Die Jahre 1766 bis einschließlich 1846 umfassend. Halle: Schwetschke.
SOSIŃSKA-KALATA, B. Paula Otleta antycypacje nowoczesnej technologii informacyjnej. Praktyka i Teoria Informacji Naukowej i Technicznej. Roč. 18, č. 1, s. 3–20. Dostupné na WWW: https://ptin.us.edu.pl/wp-content/ uploads/2023/10/2010_1-1.pdf
TANSELLE, T. G. Bibliographical analysis: a historical introduction. Cambridge etc.: Cambridge University Press, 2009.
ZARĘBSKA, H. Śmiałe pomysły Paula Otleta – belgijskiego naukowca, twórcy informacji naukowej. Nowa Biblioteka. 2010, roč. 2, č. 7, 83–96.
Kapitola
14
Obraz v digitálních humanitních vědách
Grafika představuje v digitálních humanitních vědách specifický prostor pro vytváření imaginárních světů. Jejich budování umožňují grafické programy, které překračují hranice tradiční designérské a umělecké dílny. Obraz může být umělecký, ale také utilitární, neboť je prvkem každodenní lidské zkušenosti. Pak je nástrojem pro sdělování různých obsahů, a ne pouze zprostředkováním lidských tužeb. Obraz v digitálních humanitních vědách lze umístit do širokého spektra děl získaných pomocí elektromagnetických nástrojů. Správné zasazení předmětu do výzkumu vyžaduje pochopení tří fází vzniku digitálního obrazu, bez nichž by vůbec nemohl existovat. Jedná se o1. technologickou, 2. kreativní a 3. expoziční fázi.
Technologická fáze zahrnuje činnosti prováděné pomocí počítačových nástrojů. Těmi jsou zařízení s výpočetní funkcí (hardware) a pro ně napsaný program (software). Jedná se o oblast technologických inovací, která zahrnuje také proces získávání dovedností v používání systémů a softwaru, což umožňuje jejich informované používání.
Kreativní fáze vyžaduje, aby tvůrce digitálního obrazu měl znalosti z dějin umění, kompozice a estetiky. Tyto znalosti jsou nezbytné pro definování tvůrčího problému. Jejím výsledkem je vytvoření díla, které pak může mít různé vizualizace – od 2D pixelové grafiky přes vektorové výpočty až po 3D pohyblivé animační efekty.
Expoziční fáze je na první pohled zřejmou, ale vzhledem k profilu díla, které je digitálním obrazem, je závislá na elektronickém médiu. Výsledný obraz je bezkontaktní a nehmatatelné dílo. Výsledek práce tedy není možný bez dalších nástrojů, jako je monitor nebo tiskárna. Důležitým aspektem je zde znalost používání následných nástrojů, výrobních postupů a způsobu propagace zveřejněného obrazu. Zde je třeba vzít v úvahu současné způsoby tvorby a šíření díla prostřednictvím sociálních médií v oblacích internetu.
Od Gutenberga k Zuckerbergovi
Kreativita prolínající se mezi těmito vzájemně závislými fázemi je tedy procesem, který probíhá od koncepce až po realizaci vizualizace v aktuálně převládajícím digitálním prostředí.
1. Obrau
Termín „obraz“ označuje především dílo vytvořené člověkem na ploše (například plátně, desce, papíře, zdi), ale lze jej chápat také jako formu prostorové kompozice. V tomto případě již malba nemusí být nutně produktem lidských rukou, ale může se jednat o krajinu nebo působení vody, elektřiny, světelných vln atd.1. Obvykle je obraz zarámován a zavěšen na zeď (malba, grafika, kresba). Obrazem je však také zobrazení na obrazovce získané promítáním videosignálu z televize, počítače, tabletu a podobných zařízení. Obraz může být statický nebo pohyblivý (film, animace). Obraz je také „pohled na někoho nebo něco” ve smyslu výjevu, inscenace nebo produktu vzpomínek z paměti, z představivosti (mystika, náboženství, fantazie). Obraz může vzniknout jako zobrazení pomocí odražených nebo lomených paprsků, například na fotografickém filmu, nebo jako výsledek zobrazení prvků přiřazených k dané množině pro určitou funkci (schémata, grafy). Složky obrazu, tj. barvy a tvary, umožňují vědomou interpretaci viděného světa, což dává pojmu „obraz” rozměr přímo související s humanitními vědami.
Původně byla jedinou formou tvorby obrazu mechanická interakce. Jednalo se o otisk nebo jiný způsob přeměny hmoty. Příkladem může být malba, sochařství, dekorace, prostorová kompozice, architektura nebo zahradní kompozice. Všechny obrazy získané ručními a mechanickými prostředky se označují jako analogové. Tvůrci se také vždy inspirovali zachycováním a zaznamenáváním efektů, které vytváří světlo.2 Od 19. století, kdy došlo k vynalezení techniky umožňující uchovat světelný obraz pomocí přeexponování, 3 vznikla fotografie a později film. Začalo docházet k emitaci světelné vlny požadované délky a k ovlivňování světelného zobrazování. Od poloviny 20. století vstoupil obraz do digitálního věku, začal se vytvářet pomocí elektřiny a elektromagnetického pole. Elektromagnetická interakce se od mechanické liší tím, že obrobek nevyžaduje kontakt se zobrazovaným objektem. Zařízení, která vytvářejí bezkontaktní obrazy, jsou fotoaparáty, videokamery, skenery, počítače atd. Ty mohou mít další optické, mechanické nebo elektronické součásti, které umožňují záznam obrazu a zlepšují jeho kvalitu. V digitálním věku se ke zpracování a korekci obrazu používají softwarové nástroje, které se používají v počítačových zařízeních.
14. Obraz v digitálních humanitních vědách
2. Obraz v humanitních vědách
Obraz v humanitních vědách označuje vědomé vytvoření kompozice tvůrcem pro dané publikum. Existují čtyři typy vizualizace vytvořené člověkem: 1. projektování obrazu, 2. zachycení obrazu, 3. tvůrčí expresionismus a 4. obrazová fantazie.
2.1 Projektování obrazu
je tvůrčí fáze mezi ideou a fyzickou realizací díla. Realizátorem návrhu nemusí být nutně sám tvůrce. Pokud se návrh týká úpravy prostoru, jsou těmi, kdo dílo, které se stane prostorovou malbou, dotvářejí, odborníci a řemeslníci. V prostorových kompozicích má tvůrčí obraz podobu technických výkresů, schémat nebo plánů. Příkladem mohou být návrhy interiérů nebo zahrad (japonské zahrady), konstrukce budov, mostů a dalších staveb (například Eiffelova věž), nebo dokonce koncepce celého města (například město Palmanova). Součástí projektů jsou i dílčí snímky, které doplňují jiný obsah, například koncept loga nebo grafická vizualizace v podobě šablon a diagramů. Syntézu nereálného umění zahájil v roce 1914 Černý čtverec na bílém pozadí ruského malíře Kazimira Maleviče. Od té doby se grafický znak, který byl po staletí vizualizován jako erb na štítu bez autorských práv, mohl stát autorským logotypem. Syntetická grafická výpověď získala rysy uměleckého díla a její tvůrce získal možnost podepsat vytvořené dílo. Příkladem může být logo WWF (World Wide Fund for Nature), které v roce 1961 vytvořil Brit Peter Scott. Jedná se o soubor černých skvrn na bílém pozadí, které jsou uspořádány vedle sebe tak, že vytvářejí iluzi definovaného informačního obrazu. Divák v něm vidí pandu, zatímco ve skutečnosti jde o složené tvary.
Obrázek 1. Logo WWF, 1961. (Zdroj: https://www.wwf.pl/o-nas/historia) .
Od Gutenberga k Zuckerbergovi
2.2. Zachycení obrazu
je reprodukce přirozeného světa, věrné uchování vizuální stránky doby, ilustrace toho, co vidíme, co nás obklopuje. Je to odvěká potřeba zanechat po sobě snímek vnímání reálných zážitků. Tento záznam byl vždy vysoce ceněn, zejména proto, že jen málo umělců se dokázalo postavit výzvě realisticky zaznamenat každodenní život. Reprezentují jej obory jako realistická malba, kresba, sochařství a grafika. Od poloviny 19. století začala ruční vizuální zobrazení vytlačovat fotografie a filmové dokumenty.
2.3. Zobrazení tvůrčího expresionismu
Fotografie, která se rozšířila od konce 19. století, ve 20. století fakticky nahradila potřebu zaznamenávat realitu ve výtvarných obrazech. Vzniklé volné místo v oblasti tvorby rychle zaplnili autoři obrazů, v nichž mohla estetiku kompozice utvářet nekontrolovaná nahodilost. Začala převládat kreativita vizí nesouvisejících s realitou. Vznikl obor pro ty, kteří nemuseli nutně ovládat výtvarné řemeslo, ale měli potřebu expresivního vyjádření založeného výhradně na emocích. Vznikly nové proudy: kubismus, fauvismus, expresionismus, dadaismus, abstrakcionismus a mnoho dalších. Formy, které neodrážely přirozené vnímání, byly plasticky upraveny. Extravagantní křik začal mít nad tradičním řemeslem převahu. Důležitá už nebyla forma, ale signalizace odlišnosti a pohrdání předchozími hodnotami. V západoevropském umění se nová éra vzpoury a rebelství rozhořela díky obchodníkům s uměním, včetně těch s kapitálem z komunistických států.4 Cílem bylo degradovat estetiku vycházející ze západních tradic, zatímco ve východní Evropě se pěstovalo a oslavovalo řemeslo realistického zobrazování (socialistický realismus).
2.4 Obrazová fantazie
je nezjevná ilustrační práce. Vychází z vědomých myšlenkových proměn člověka, které mu umožňují měnit vnímanou realitu. Obrazovou fantazii bylo vždy snazší popsat slovy než ručně ilustrovat. Věk digitalizace dal této oblasti vyjádření nekonečné možnosti vizualizace neskutečných obrazů.
14. Obraz v digitálních humanitních vědách
3. Obrazová fantazie
Ve skupině imaginativního zobrazování rozlišujeme mystiku, vizionářství a iluze.
3.1 Obrazová fantazie inspirovaná mystikou
je založena na obrazech z hlubšího podvědomí člověka. Vztahuje se k nadpřirozeným jevům, a proto je na vědeckém základě obtížně vysvětlitelná. Za tímto účelem si každá civilizace vytvořila vlastní diskurzy vysvětlující katastrofické události, jako jsou údery blesku, zemětřesení a smrt. Do pozadí těchto příběhů byly často umisťovány postavy připodobňované ke křížencům kombinujícím lidské a zvířecí vlastnosti. Ve staroegyptské mytologii vystupovala božstva s lidským trupem a zvířecí hlavou. Mezi příklady patří Sobek s krokodýlí hlavou(ochránce jezer, patron vojsk), Horus se sokolí hlavou (bůh oblohy), Anubis se šakalí hlavou (spojován s mumifikací a posmrtným životem). Postavy byly zobrazeny v klasickém staroegyptském uspořádání uměleckého kánonu, známém jako kontrapunkt. 5
Obrázek 2. Horus z Kom Ombo, ok. 200 r. př. n. l... (Zdroj fot. autor: Rafał Werszler).
Od Gutenberga k Zuckerbergovi
V panteonu bohů ve starověkém Řecku je příkladem kentaur, který má trup a hlavu člověka a břicho a kopyta koně, a satyr, který je napůl kozel (nohy, ocas a rohy) a napůl člověk (trup a hlava). Satyr se díky své povaze a přítomnosti v dionýském průvodu, kde se konaly bujaré a opulentní večírky, stal v křesťanském středověku archetypem ďábla. Jeho obraz se tak začal ztotožňovat s fantaskní představou nemravného satyra, který se stal ztělesněním zla. Jiným modelem stvůry pro křesťanskou kulturu byla stará biblická postava ženy s ptačími křídly. Lilith, která má původ v mezopotámské tradici, byla v židovském folklóru strašidelnou postavou nebezpečnou pro těhotné ženy a kojence. Věřilo se, že je první manželkou biblického Adama. Její původní akkadské jméno bylo Lilitu, z hebrejského slova lulti, což znamená chlípnost. Od středověku vzniklo mnoho vyobrazení ďábla v křesťanských obrazech. Fresky zobrazující satanské postavy vznikaly v kostelech až do šestého století. Nejčastěji byly malovány ve scénách zobrazujících poslední soud s peklem na stěně naproti presbytáři.7
Moderní doba přinesla evropským umělcům větší svobodu projevu. Abstraktní figury už nemusely být spojovány pouze s poselstvím náboženské hrůzy. Došlo k návratu k personifikovanému zobrazování postav ze starořecké a římské mytologie. 8
Obrázek 3. Jednorožec z Aberdeenského bestiáře, ok. 1200 (Zdroj – veřejně přístupný: https://pl.wikipedia.org/wiki/Jednorożec/media/Plik:F15r-aberdeen-best-detail.jpg)
14. Obraz v digitálních humanitních vědách
Důležitou inspirací pro podněcování představivosti byla literární díla a cestopisy. Marco Polo, který žil na přelomu 13. a 14. století, popsal ve 13. století čtyřnohé zvíře, „které má jeden roh, na čele vskutku velký a hlavu skloněnou dolů.“9 Autor měl na mysli v Evropě neznámého nosorožce, kterého viděl na své cestě do Číny. Tento nejasný popis inspiroval řadu ilustrátorů, jejichž nadinterpretace a umělecké kolorování daly vzniknout archetypu jednorožce, jak ho známe dnes.10
Podobně byla na americkém kontinentu v mayské kultuře zobrazována puma. V té době tam byla nejnebezpečnějším tvorem. Byla uctívána v četných zobrazeních vytvořených na pyramidách na Yucatánu. Lze také uvést příklady svíjejících se hadů proměněných časem v draky, které vznikly v asijských kulturách, kde v džungli číhali velcí a nebezpeční plazi.11 V Číně, Laosu nebo Thajsku je drak se svíjejícím se hadím ocasem dodnes důležitou ozdobou mnoha chrámů.
Obrázek 4. Zábradlí schodiště do chrámu Wat Phrathat Doi Suthep koło Chiang Mai, (Thajsko) z roku 1383. (Zdroj fot. autor: R. Werszler).
Ve většině kultur byly původní pověry nahrazovány novými. Po mýtech a náboženstvích zůstaly jen stopy v podobě obrazů. Výjimkou je indická kultura, kde navzdory pokusům islámu vytlačit starší víru nebyly původní mystické tradice opuštěny. Jak původní božstva, tak i ta, která následovala, se tam pěstují po staletí, což svědčí o nábo -
Od Gutenberga k Zuckerbergovi
ženské toleranci, která je ve světě zcela ojedinělá. V Indii se setkáme s bohy džinismu, hinduismu, buddhismu, monoteistické víry křesťanství či islámu a dalšími. Příkladem hinduistického boha zobrazeného v lidské i zvířecí podobě je Ganéša s hlavou slona. Je patronem učenců a vědy a bohem hojnosti a prosperity.12 Hanuman má zase lidský trup s hlavou opice.
Obrázek 5. Ganéša, oltář Shekhawat v Mardavě, 2019 (Indie). (Zdroj fot. autor: R. Werszler).
3.2 Fantazie vizionářského zobrazování je typem díla, které se ve své době nedočkalo realizace. Jedná se o obrazy ztotožňované s fantaziemi, které jsou nereálné nebo obtížně uskutečnitelné. Některé z těchto vizionářských představ byly realizovány až mnoho let po vzniku projektu. Příkladem jsou ilustrace strojů italského mistra Leonarda da Vinciho nebo německého jezuity Athanasia Kirchera.13
14. Obraz v digitálních humanitních vědách
Obrázek 6. Kircher, Musurgia universalis, 1643. (Zdroj – veřejně přístupný: https://commons.wikimedia.org/wiki/File:Kircher,_A.,_%22Musurgia_ universalis%22,_hydraulic_organ_Wellcome_L0015993.jpg) .
3.3 Fantazie iluzionistického zobrazování
je tvůrčí sférou zobrazující prostory, které jsou neskutečné, ale zakotvené ve vizuálním vnímání světa. Jedná se o díla, která podněcují divákovu představivost do té míry, že ztotožněním se s obrazem může ztratit pojem o realitě. Od nepaměti se u mnoha umělců projevuje tendence vytvářet nereálné náměty. Digitální věk vytvořil dříve neznámé možnosti realizace takových děl.
Nejstarší příklady takových vyobrazení se dochovaly v jižní Francii nedaleko Marseille, ve Vallon-Pont-d‘Arc v údolí Ardèche. V roce 1994 narazila skupina speleologů pod vedením Jean-Marie Chauvetta na jeskyni s ilustracemi, které zde zanechal neolitický člověk. Jeskynní malby pocházejí z doby 32 000 až 30 000 let před Kristem, tedy mnoho tisíc let před stvořením Adama, biblického prvního člověka popsaného v Genesis.14 V zájmu zachování Chauvettovy jeskyně byla v roce 2015 zpřístupněna její replika, vybudovaná na ploše 8 500 m2 . Ilustrace dochované v interiéru jsou ukázkou figurálních kreseb, kterým chtěli autoři reprodukcí po sobě jdoucích kreseb dodat iluzi dynamického pohybu. Tento typ iluzionistické fantazie je patrný i v ilustracích pohádek a kreslených filmů.
Od Gutenberga k Zuckerbergovi
Obrázek 7. Kresby v Chauvettově jeskyni,asi 30 000 let př. n. l., poblíž Marseille (Francie). (Zdroj: https://www.grottechauvet2ardeche.com/) .
Obrázek 8. Hans Holbein mladší, Vyslanci, 1533. The National Galery, London. (Zdroj – veřejně přístupný: https://en.wikipedia.org/wiki/Hans_ Holbein_the_Younger) .
14. Obraz v digitálních humanitních vědách
Obrázek 9. Giuseppe Arcimboldi Vertumnus, 1591. (Zdroj – veřejně přístupný: https://en.wikipedia.org/wiki/Giuseppe_Arcimboldo)
V novověku se trend zobrazování iluzí intenzivně rozvíjel v severní Evropě. V roce 1506 vytvořil holandský malíř Hieronymus Bosch neskutečné vize ve svém triptychu Zahrada pozemských slastí (Madrid, muzeum Prado). Pieter Bruegel namaloval v roce 1562 v Bruselu obraz Pád vzbouřených andělů ( Museum des Beaux-Arts). Mezi umělce zobrazující různé stvůry patří italský humanista Ulysses Aldrovandi, autor rytin v Monstrum historia (1642, Bologna). Na dílech těchto umělců pozorujeme svět, který známe, v pozměněných měřítkách, perspektivách a s nepřirozenými doplněními. Jde o sdělení zřejmé i neskutečné – vytvořené umělcovou tvůrčí fantazijně-iluzionistickou představivostí.
Další iluzi použil bavorský malíř Hans Holbein mladší, autor obrazu Vyslanci z roku 1533 (Londýn, Národní galerie). Věděl, že jeho dílo bude viset mezi mnoha jinými v úzké chodbě, kde si nikdo nevšimne snahy o mistrovství realistické malby. Proto se rozhodl upozornit veřejnost na svůj obraz jiným způsobem. Využil optického klamu a namaloval lebku v protáhlé perspektivě, takže její tvar je vidět ze vzdáleného předklonu.
Od Gutenberga k Zuckerbergovi
Obrázek 10. Wenzel Lorenz Reiner a Martin Geyer z Prahy, freska v Hochberské kapli v kostele svatého Vincence a Jakuba. Vratislav, 1724. (Zdroj fot. autor: R. Werszler).
Iluzi tvaru využil ve svých portrétních dílech Ital Giuseppe Arcimboldi, který v období manýrismu působil na dvorech v Praze, Vídni a Miláně. Inspiroval se prostředím portrétované osoby. Pokud měl někdo ovocné sady, Arcimboldi komponoval portrét z hrušek a jablek. Milovníka růžové zahrady vytvořil z květin a knihovníka z knih. Jeho iluzionistický přístup k realistické reprodukci přinesl portrétu nový rozměr interpretace. To, co bylo skutečné, se stalo neskutečným a nejasným.
V 17. a 18. století, s nástupem baroka, vytvořilo mnoho mistrů iluzionistickou zkrácenou malbu v klenbách kopulí a uliček kostelních, knihovních nebo palácových interiérů. Malba se stala pokračováním vlastní architektury interiéru. Polychromie plynule napodobovala balustrády a postavy za nimi. Příkladem z Vratislavi je dílo Rakušana Johanna Michaela Rottmayra, který vymaloval stěny a klenby univerzitního kostela Nejsvětějšího jména Ježíš pomocí série iluzionistických fresek (1703–1706), a polychromované klenby v barokní Hochberské kapli kostela svatého Vincence a Jakuba (1724), dílo Wenzela Lorenze Reinera a Martina Geyera z Prahy. Leopoldinský sál (1732) a Oratorium Marianum (1733) v budově dnešní vratislavské univerzity vyzdobil iluzionistickými polychromiemi Čech Johann Christoph Handke. Již dříve Handke namaloval polychromii v kos -
14. Obraz v digitálních humanitních vědách
Obrázek 11. Salvador Dali. Muzeum v Figures (Španělsko). (Zdroj: fot. autor: R. Werszler).
tele Panny Marie Sněžné v Olomouci (1726), do kteréhožto města se později vrátil a také zde zemřel. Na díla tohoto typu bylo třeba se dívat z velké vzdálenosti –výsledná perspektiva se pak stávala optickým klamem. Podobného efektu bylo dosaženo i v Panoramatu Racławickém, vytvořeném v roce 1893. Toto dílo namalovali ve Lvově
Jan Styka a Wojciech Kossak s týmem asistentů na počest 100. výročí ozbrojeného střetu polské a ruské armády v roce 1794. V roce 1980, v období takzvané první Solidarity, byl tento obraz vystaven v rotundě ve Vratislavi. Vznikla zde realistická panoramatická perspektiva, která je nahlížena zevnitř. Mezi obrazem a divákem byla vytvořena iluze z rekvizit, které byly naaranžovány tak, aby splynuly s kompozicí: před řadou namalovaných stromů stojí fyzický strom, polovina plotu je skutečná, druhá polovina je malířskou iluzí. Celek je mistrovskou kombinací přírodního a imaginárního prostoru.
Od Gutenberga k Zuckerbergovi
V roce 1924 se ve výtvarném umění objevil směr zvaný surrealismus. Do kompozic z reálného světa byly vneseny prvky fantazie a iluze. Surrealistický pohled na svět reprezentoval katalánský malíř a výsostný excentrik Salvadore.15 Ve stejném směru působil i nizozemský malíř a grafik Maurits Cornelis Escher. Na plochém materiálu vizuálně prostorově ztvárnil tělesa, která nebylo možné fyzicky realizovat. Z mnoha umělců tohoto směru je dalším příkladem kanadský malíř Rob Gonsalves, jehož styl byl popsán jako magický realismus.
K surrealistům patří také řada tvůrců perspektivních chodníkových maleb, dnes označovaných jako 3D, například britský umělec Julian Beever. Při pohledu ze správné vzdálenosti dílo představuje trojrozměrnou perspektivu. Takové zobrazení odkazuje na výše zmíněnou zkrácenou lebku namalovanou Holbeinem. Zajímavou formu iluzionistického zobrazování představuje ve svých dílech také ukrajinský umělec Oleg Šupljak. Jeho portréty jsou zároveň ilustracemi krajin a prostorů. Jedna kompozice zobrazuje iluzi několika estetických dimenzí. Citované příklady patří k dílům vytvořeným ručně, individuálně a v kontaktu s hmotou. Jedná se o analogová díla.
Technologická revoluce umožnila prezentovaný obraz znásobit. V 15. století sestrojil Johannes Gutenberg první tiskařský stroj v Evropě a před ním byly vyvinuty xylografické tiskařské stroje. Až do 18. století vytvářel tvůrce šablony pro tištěnou grafiku ručně.1 V 19. století byly vyvinuty přístroje pro uchovávání a prezentaci exponovaných snímků. V roce 1839 vytvořila společnost Susse Frères zařízení, které pořizovalo fotografie technikou daguerrotypie. Jednalo se o fotografii na leštěné a postříbřené měděné desce. Následně bylo dosaženo iluze optického pohybu ve fotoplastech a nakonec pomocí filmových přehrávačů. Ve 20. století došlo k prudkému rozvoji fotografie a filmu. Technologie mechanického zachycení obrazu byla brzy nahrazena digitálními nástroji a díla vytvořená s jejich pomocí se označují jako počítačová grafika.
4. Obraz v počítačové grafice
Díky rozvoji počítačové techniky se ve 20. století objevily digitální obrazy. Za počátek počítačové grafiky se považuje zavedení stroje Whirlwind s obrazovkou CRT (Cathode Ray Tube) v roce 1951,17 který se používal pro letecký dohled amerických ozbrojených sil. Díky moni-
14. Obraz v digitálních humanitních vědách
toru mohl uživatel vidět výsledek práce stroje v reálném čase, a ne až po vytištění. To byl počátek elektronických grafických manipulací. V roce 1951 se začaly zkoumat možnosti využití elektroniky v projektování. První pokusy převést signál na monitoru osciloskopu do grafické struktury sloužily k zábavným účelům. V roce 1958 vytvořil ve Spojených státech fyzik William Higinbotham interaktivní program simulující hru tenisu.
Obrázek 12. William Higinbotham, Tennis for Two, 1958. Zdroj – veřejně přístupný: https://pl.wikipedia.org/wiki/Tennis_for_Two) .
V roce 1959 v Massachusetts vyvinul Douglas T. Ross matematický program pro generování vektorových obrázků, který nazval CAD (computer aided design).18 Vývoj elektronických přístrojů vyústil v nové koncepce programování. V roce 1959 bylo pro počítač TX-2 v Lincolnově laboratoři vyvinuto pero (skicák) pro kreslení jednoduchých tvarů na obrazovku. Systém navrhl počítačový vědec Ivan Sutherland, inspirovaný koncepčním systémem Memex19 , který představil Vannevar Bush ve svém článku As We May Think20 . V následujících letech byla vyvinuta řada algoritmů pro tvarování grafiky. Mimo jiné americký vědec a umělec William Fetter, kreativní ředitel společnosti Boeing a tvůrce termínu počítačová grafika (CG,
Od Gutenberga k Zuckerbergovi
computer graphics, 1960), vytvořil první 3D počítačový model lidské siluety a použil jej při návrhu kokpitu letadla. Tím dal vzniknout inženýrské počítačové grafice. V roce 1968 byla zaregistrována firma Evans & Sutherland, první společnost vyrábějící hardware pro počítačovou grafiku. Ve Francii vytvořil grafik Pierre Bézier, zaměstnanec společnosti Renault, matematický algoritmus pro zlepšení návrhu karoserií automobilů, takzvanou bézierovu křivku (1977). Systém se tehdy nazýval UNISURF.
Vývoj počítačové grafiky byl silně ovlivněn kinematografií. Již na konci 19. století bylo zjištěno, jak silně pohyblivý obraz působí na diváka. Když návštěvníci kina 25. ledna 1896 poprvé spatřili z plátna přijíždějící vlak, zděšeně utekli. Jednalo se o mistrovské dílo francouzské němé kinematografie L‘arrivée d‘un train à La Ciotat (Příjezd vlaku na nádraží La Ciotat), které natočili bratři Lumièrové. Podobně silně zapůsobil na diváky v kinech v roce 1977 obraz a zvuk vjezdu vesmírné lodi, který zahajoval film Hvězdné války, jehož autorem je George Lucas. Při výrobě tohoto filmu byly využity možnosti počítačové grafiky.
Obrázek 13. Záběr z filmu Příjezdu vlaku na nádraží La Ciotat bratrů Lumièrových, 1896. (Zdroj: https://en.wikipedia.org/wiki/L‘Arrivée_ d‘27un_train_en_gare_de_La_Ciotat) .
Od 70. let 20. století se vývoj hardwaru a softwaru zrychlil. Byl vyvinut první mikroprocesor a paměť, která umožňovala stabilní ukládání obrazu. To v roce 1973 umožnilo použít první grafický software
14. Obraz v digitálních humanitních vědách
SuperPaint 21 , propojený s počítačovým systémem. První počítačovou animaci vytvořil v roce 1976 Edwin Catmull z univerzity v Utahu. Demonstrovala otevírání a svírání dlaně a byla promítána ve filmu Future World (1976). Catmull založil v roce 1979 studio počítačové animace Pixar, které ve spolupráci s Walt Disney Pictures vytvořilo v roce 1995 první plně počítačově animovaný film Toy Story .
Obrázek 14. Pixar Studio: Toy Story, 1995. (Zdroj: https://en.wikipedia. org/wiki/Toy_Story)
Pro vývoj a šíření počítačové grafiky byla rovněž stěžejní technologie periferních zařízení. Její první produkty bylo možné v dostatečné kvalitě zobrazit pouze na obrazovce. Koncem 70. let se na trhu objevily domácí počítače s monitory, mezi něž patřily Commodore PET (1977), Atari (1979), Apple III (1980), IBM PC (1981), Amiga (1985). Vyráběly se i takové, které se připojovaly k domácím elektronkovým televizorům, jako například ZX Spectrum (1982) od anglické společnosti Sinclair Research.
Od Gutenberga k Zuckerbergovi
V roce 1983 vyvinul newyorský vědec Gene Dolgoff při práci na jasu CRT monitoru technologii LCD (Liquid Crystal Display. Ta spočívala v silném světelném toku, procházejícím soustavou průsvitných krystalů, které na principu hranolu rozdělovaly světlo na tři základní barvy.22 Dalším krokem v technologii monitorů byl vývoj technologie DLP (Digital Light Processing) společností Texas Instruments v roce 1987. Zlepšila kontrast a detaily, a zmenšila mechanismy zodpovědné za výslednou podobu obrazu. První laserovou tiskárnu vyrobila firma Xerox v roce 1959. Již od počátku 60. let byla tiskárna v prodeji. Naproti tomu první laserový stolní počítač navrhla společnost Hewlett-Packard v roce 1984: HP Laser Jet.
Pozdější rychlý pokrok v technologii tisku umožnil vydávat atraktivní publikace ve velmi dobré kvalitě.23 Elektronický obraz začal přecházet z digitálního média do fyzického světa.
V roce 1985 představila kanadská společnost Corel grafický program CorelDraw. Používal se k vytváření vektorové grafiky založené na bézierových křivkách a k profesionální sazbě textu na počítačích IBM. Ve stejném roce vyvinula společnost Aldus program Page Maker, který sloužil ke kompozici textu pro počítače Macintosh. Ve společnosti Adobe Systems v USA byla navržena technologie PostScript. V roce 1988 zde byl vyvinut program Photoshop, zpočátku určený pro rastrovou korekci pixelů fotografií. Osmdesátá léta byla také počátkem éry počítačových her, které využívaly matematické algoritmy k vytváření digitálních herních desek. V roce 1982 byly při výrobě filmu Tron využity animační efekty používané v počítačových hrách. V 90. letech 20. století již osobní počítače dokázaly renderovat 24 a provádět úlohy 3D modelování. To vedlo k nárůstu popularity počítačové grafiky. Dvě skupiny konkurenčních vývojářů zdokonalovaly řešení a vyvíjely vylepšení pro operační systém MAC OS a Windows. Po deseti letech byly tyto souboje o zákazníky vyřešeny zkonstruováním softwaru s možností použití v obou systémech. Vznikl tak 3D animační a grafický software od společnosti Autodesk: 3DS Studio Max (1996), Maya (1998), Autocad (1982) a další. Od konce 20. století dominuje počítačová animace a pohyb ve filmu a televizi. V roce 1999 byl natočen film Matrix, který využíval velké množství speciálních počítačových efektů.25 Digitální technologie umožnila ve světě filmové fikce stírat hranice mezi iluzí a zobrazením reality. Průkopníkem počítačového umění byl německý matematik Frieder Nake, který v roce 1965 představil na výstavě své práce v žánru algoritmického fraktálního umění.2 Příkladem pop-surrealistického umělce pracu-
14. Obraz v digitálních humanitních vědách
jícího s počítačovým programem Maya je Ray Caesar nebo Zdzisław Beksiński. Beksiński skenoval a přetvářel své analogové fotografie mimo jiné pomocí programů Adobe Photoshop, Corel PhotoPaint, Bryce 3D a SuperGoo. Dnešní grafici, stejně jako Beksiński, často používají několik grafických programů,27 aby dosáhli požadovaného efektu.
Obrázek 15. Frieder Nake, Polygonal Course No. 7, papír 40x40 cm, 1965. Práce vytvořená počítačem. (Zdroj: http://dada.compart-bremen. de/item/agent/68)
K aplikacím Photoshop a PhotoPaint existuje také řada alternativních programů pro tvorbu 2D grafiky, například Gimp (1996) od Spencera Kimballa, Metacreations Fractal (1997), Painter (1999), KAI SuperGoo od Kaie Krausera, stejně jako software od jiných vývojářů: Photo Impact4 (2000), Paint Tool SAI (2008), Photopea (2013), Inscape nebo Krita.
Od druhého desetiletí 21. století umožnil technologický vývoj miniaturizaci kreativně-přijímacích zařízení, což se projevilo ve zlepšení kvality a zvýšení kapacity a možností datových nosičů.28 Uživatelé z celého světa vytvářející digitální snímky se s expozicí přesunuli do online světa, dostupného prostřednictvím mobilních zařízení. Byl představen systém Android (2003) a s ním řada aplikací, včetně grafických a zobrazovacích, vyvinutých různými společnostmi. Příkla-
Obrázek 16. Zdzisław Beksiński, bez názvu, počítačová grafika 2000. (Zdroj CC BY-SA 3.0: https://pl.wikipedia.org/wiki/Zdzisław_Beksiński) .
dem nástroje je čínský TikTok (2016), který umožňuje mobilní tvorbu, transformaci a zobrazování digitálních obrázků kombinujících grafické a komunikační funkce.
5. Rozsah pojmu „počítačová grafika“
Termín „počítačová grafika“ je dvojznačný, protože naznačuje, že se obrázky vytvářejí samy v počítači. Ve skutečnosti musí každý počítačový obraz nejprve navrhnout člověk. Existuje mnoho klasifikací počítačové grafiky. Jednou z nich je dělení na statické a pohyblivé obrazy. Mnohem důležitější je však dělení podle způsobu generování obrazu, které umožňuje rozlišovat mezi trojrozměrnou grafikou, vektorovou grafikou a rastrovou grafikou.29
5.1 Trojrozměrná
grafika
se používá v projektování, hrách, filmech a animacích a v tisku. 30 Může být reprezentována polygony (trojúhelníky, čtyřúhelníky), voxely (krychlemi) a matematickými popisy (nurbs, bezier). 3D obrazem lze ve virtuálním prostoru programu libovolně otáčet. Polohu
14. Obraz v digitálních humanitních vědách
kamery lze měnit. Efekt je prezentován ve formě animace (filmu) nebo je vykreslen do dvourozměrného obrazu. 3D využívá vektorovou grafiku při vytváření pohlcujících instalací virtuální reality.
5.2 Vektorová grafika
je záznam vytvořený pomocí matematického souřadnicového systému . 31 Soubor obsahuje posloupnost znaků zpracovaných algoritmy počítačem pro zobrazení na monitoru. Vektorová grafika se škáluje bezeztrátově. Obrázky tohoto typu se používají při navrhování log, ikon, architektonických šablon, mechanických, grafů, tabulek atd.
Obrázek 17. Rafał Werszler, Plusk, vektorová grafika 1992. (Zdroj fot. autor: R. Werszler).
5. 3 Rastrová grafika,
známá také jako bitmapová nebo pixelová grafika, je reprezentována hustotou bodů (pixelů) ve dvourozměrném (2D) poli. 32 Takovou grafiku lze popsat rovněž barevnou škálou modelů RGB, CMYK nebo jiných. Z definice se jedná o ztrátový formát: podléhá ztrátám se při transformacích, jako jsou změny měřítka, rozlišení, ostrosti, komprese. Některé grafické formáty, například PNG, mají navíc alfa kanál, který slouží k určení průhlednosti obrázku.
Od Gutenberga k Zuckerbergovi
Obrázek 18. Rafał Werszler, Badudvarnok, rastrová grafika 2000. (Zdroj fot. autor: R. Werszler).
Jak již bylo zmíněno, grafické obrazy vytvářené pomocí počítačového softwaru byly původně označovány termínem CAD, který v roce 1959 zavedl Douglas Ross. 33 Metodika CAD našla uplatnění mimo jiné ve strojírenství, elektrotechnice a stavebnictví. V roce 1960 zavedl William Fetter pro odlišení terminologie umělecké grafiky od termínů souvisejících s technikou pojem CG (computer graphics)34 , který se při popisu scén z filmu Malý navigátor 35 (1986) vyvinul na CGI (computer-generated imagery – počítačem generované obrazy). Po mnoho let se pod pojmem CGI rozuměly všechny obrazové prvky vytvořené výhradně pomocí softwaru a určené k prezentaci na obrazovce počítače. V té době se vizualizovala především počítačová grafika používaná pro kinematografii. Vznikly tak významné filmové tituly, které by bez CGI efektů v žádném případě neobešly: Terminátor 2 (1991, režie James Cameron); Jurský park (1993, režie Steven Spielberg); Titanic (1997, režie James Cameron); Matrix (1999, režie sourozenci Wachowští). Ve třetí dekádě 21. století se již termín CGI používá výhradně pro označení 3D grafických děl, která se přímo vztahují k filmovým speciálním efektům. 3
14. Obraz v digitálních humanitních vědách
Umělecká počítačová grafika tak zůstala bez vlastního jména. V roce 1999 Rafał Werszler upozornil na to, že používání termínu CAD v oblasti umělecké počítačové grafiky je pro vnímání tohoto typu práce špatné. Navrhl specifikovat díla vytvořená vektorovou, pixelovou a 3D technikou. 37 V popisu grafických technik se tyto návrhy bohužel neujaly, ale zaznamenal je a dobře jim rozumí každý umělec pracující v současné grafice. Reakcí na tento pociťovaný nedostatek přesnosti popisu bylo rozhodnutí mezinárodní organizace FISAE 38 sdružující společnosti a nadšence exlibris dát technikám počítačové grafiky oficiální zkratku CGD (Computer Generated Design) a CRD (Computer Reproduced Design). Tyto názvy byly přijaty v roce 2002 na konferenci v dánském Frederikshavnu. Komunitou tvůrců digitálního obrazu však stále nejsou zcela respektovány. 39
6. Metody prezentace digitálních snímků
Na počátku digitálního věku počítačová grafika nenadchla každého. Nejprve se mnoho tradičních umělců stavělo k novému médiu velmi odmítavě. Mladší generace absolventů uměleckých akademií na přelomu 20. a 21. století se však s nadšením pustila do práce s novými nástroji, protože pochopila perspektivy digitálního zobrazování. V současné době elektronizace prakticky vytlačila ruční designérskou tvorbu (od návrhů domů přes přípravu prezentací až po návrhy předmětů denní potřeby). Na uměleckých akademiích se už nemalují typografické nápisy štětcem na výstavní tabule. Efekty počítačové grafiky nacházejí všestranné uplatnění. Grafičtí designéři pod tímto pojmem vidí uměleckou tvorbu. Redaktoři používají skenery k přenosu analogového obsahu do elektronického světa typografie. Fotografové pořizují a upravují snímky vytvořené světlem v počítači. Programátoři vytvářejí digitální textury a umění pro zobrazování her. V kancelářích vznikají grafy, šablony a prezentace. Filmaři využívají animační efekt. Architekti a inženýři využívají grafické efekty při navrhování prostor a stavebních objektů. V generaci, která je od narození vystavena technologiím, se již objevily nové vzorce chování. Malé dítě, které ještě nemluví, věří, že když prsty přejede přes obraz mouchy, který vidí na skle, může ho zvětšit. Jak je překvapené, když se ukáže, že sklo je jen sklo a moucha je skutečná a zkrátka odlétá! Iluzionistická představivost našla v digitalizaci skvělý nástroj pro podporu nereálných uměleckých představ. Autoři softwaru Corel pro návrh a sazbu publikací rychle zdůraznili, že jejich produkt neslouží jen inženýrům. V rukou výtvarného umělce se program stával ekvivalentem štětce a malířského stojanu a výsledky byly neuvěřitelné. Ilustrace se vytvářely pomocí algoritmu pro kreslení čar. Umělci tím-
Od Gutenberga k Zuckerbergovi
to nástrojem zvýrazňovali dojem hloubky, perspektivy a plastické estetiky. V Kanadě byla od roku 1989 umělcům nabízena možnost účastnit se výstav Corel ArtShow,40 později vydaných na CD a distribuovaných po celém světě. Nejlepší práce byly odměněny finančními a věcnými cenami (například bezplatným softwarem).41 Poprvé se tohoto podniku zúčastnilo velké množství umělců z celého světa. Nápad na výstavy, které se setkaly s obrovským ohlasem, dokázal, že existuje mnoho grafiků, kteří pro navrhování používají nástroje , a že jejich potenciál je obrovský.
Obrázek 19. Obálka katalogu s oceněnými pracemi v soutěži Corel ArtShow 1994 s CD. (Zdroj fot. autor: R. Werszler).
Jediným problémem, kterému tehdy patrně málokdo věnoval pozornost, byla skutečnost, že mezi diváky s neomezeným přístupem k dílům byli i nepoctivci se sklonem přivlastňovat si cizí výtvory. Díla vydaná na discích často nelegálně využívala četná efemérní grafická studia, jejichž zaměstnanci za sebou neměli žádné formální vzdělání v oblasti výtvarného umění. V Polsku a dalších středoevropských zemích devadesátých let, kde se po komunistické éře rozvíjel nekontrolovaný volný trh, byly podobné případy zcela běžné. V tehdejší právní situaci bylo obtížné vymáhat duševní vlastnictví. Autorské právo ve vztahu k digitálnímu médiu se teprve formovalo a výsledkem péče o autorství díla je kontroverzní směrnice Evropské unie GDPR 42 zavedená v roce 2018.
14. Obraz v digitálních humanitních vědách
Společnost Corel nadále provozuje jakýsi inkubátor talentů43 , ale dnes s mnohem větším omezením vystavování materiálů k přímému zpracování, aby autoři děl nebyli vystaveni zneužití ze strany možného podvodného příjemce.
Z kulturních snah, které zohledňují současný obraz v digitálních humanitních vědách, je důležité připomenout projekt Artmedia, který v roce 1985 inicioval filozof Mario Costa na univerzitě v Salernu. Do roku 2009 se jednalo o vědecký projekt zabývající se vztahem mezi uměním, technologií, filozofií a estetikou. Další aktivitou byl každoroční festival digitální kultury ArtFutura (od roku 1990), za nímž stojí počítačový grafik Montxo Algora. Nejprve se konal v Barceloně, poté v Buenos Aires, na Ibize, v Londýně a Montevideu. V roce 1997 bylo založeno první muzeum zaměřené výhradně na prezentaci digitálního umění, AMODA (Austin Museum of Digital Art). Založili ho Harold Chaput, Samantha Krukowski a Chris Rankin v texaském Austinu. V roce 2004 bylo v Kalifornii v USA založeno LACDA (Los Angeles Center for Digital Art). Zakladatelem a ředitelem centra je Bruce Rex.44
Obrázek 20. Webové stránky muzea digitálního umění AMODA v Austinu. (Zdroj: https://amoda-org.tumblr.com/) .
Od Gutenberga k Zuckerbergovi
V Polsku bylo po politických změnách v roce 1989 z iniciativy Violetty Kutlubasis-Krajewské, Piotra Krajewského a Zbigniewa Kupisze založeno Mezinárodní bienále mediálního umění WRO ve Vratislavi,45 jehož cílem bylo propagovat vizuální díla, multimédia, performance a nová média obecně. Mezi přihlášenými díly bylo mnoho prací založených na počítačových technologiích a nástrojích. Pro mladé ambiciózní uživatele grafického softwaru inicioval Anton Bubenek ze Studia VISO v roce 1990 evropskou soutěž YEA (Young Electronic Arts).4 Soutěže v počítačové grafice se rozšířily v 21. století. Většina z nich byla zaměřena na mladé lidi, kteří rychleji přijímali technologické novinky. Od prvního desetiletí 21. století byly vyhlašovány také soutěže v grafickém designu pro firmy. V Polsku byla nejstarší prezentace současných trendů v počítačové grafice navržena v roce 1995 v Gliwicích, kdy vznikla bienální Mezinárodní grafická soutěž o explibris, která se koná dodnes. Pořádá ji Městská veřejná knihovna v Gliwicích.47
Je přitom smutné, že umělci z oboru nových médií se některých tradičních soutěží v grafickém designu nemohli dlouho účastnit.48 Naštěstí jsou tyto doby neochoty, nepochopení a netolerance k digitálnímu umění již jen nechvalně proslulou minulostí. Až na několik výjimek si organizátoři polských grafických výstav rychle všimli potenciálu elektromagnetických nástrojů a díla vytvořená s jejich využitím jsou nyní prezentována s uznáním.49 Významnou celostátní výstavu exlibris vytvořených pomocí počítačového softwaru uspořádal Andrzej Znamirowski. První výstava Polski Ekslibris Komputerowy se konala v Domě kultury Podgórze v Krakově v roce 2004. V úvodu katalogu Znamirowski napsal:
Každá novinka se umění nepřizpůsobuje snadno. Nebylo a není tomu jinak ani u grafických technik. Než novinka získala právo být zařazena mezi stávajícími používanými technikami, vedly se ostré diskuse a spory o to, zda je novinka skutečně uměleckou technikou, zda ji lze považovat za rovnocennou stávajícím technikám a zda ji lze používat, vystavovat a hodnotit na stejné úrovni jako je tomu u nich. 50
Na konci 20. století poskytovaly informace o technologických novinkách tištěné všeobecné časopisy. Od 80. let 20. století vycházely časopisy věnované výhradně počítačovým tématům, o grafice se zmiňovaly jen okrajově. Prvním polským časopisem zabývajícím se problematikou nových technologií byl Bajtek, který vycházel v letech 1985–1995 a jehož redaktorem byl Maciej Hoffman. Na základě tohoto časopisu vznikly specializované samostatné publikace a měsíčník Komputer, který v roce 1991 odkoupilo vydavatelství IDG. V roce 2008 byl název změněn na PC World Komputer . 51 V Německu vyšel
14. Obraz v digitálních humanitních vědách
první dvoutýdenní počítačový časopis pod názvem C‘T – Magazin für Computertechnik v roce 1983. Již dříve, v roce 1978, začalo německé vydavatelství Chip Communications GmbH vydávat časopis s názvem CHIP věnovaný informatice. Od roku 1991 vycházel CHIP také v České republice (Burda International CZ s.r.o.). V roce 1993 se tištěný měsíčník CHIP dostal do Polska a byl vydáván s doprovodným DVD. Jeho vydavatel, společnost Phoenix Intermedia, sídlil ve Vratislavi; v roce 2017 nový vydavatel, společnost Burda Communications, přesunul redakci do Varšavy, odkud časopis vychází výhradně online. V roce 1990 byl ve varšavském vydavatelství Lupus (později se změnilo na Vogel Burda Communications Polska) založen polský počítačový časopis ENTER. Poslední číslo vyšlo v roce 2010. Existovalo mnoho počítačových časopisů, ale jen několik z nich se věnovalo grafice. 52 Jedním z těch významnějších je Graphis. The International Journal of Visual Communication53 , jehož prvním vydavatelem byl od roku 1944 grafický designér Walter Herdeg v Curychu. Časopis pojednával o umělecké grafice v nejširším slova smyslu i s jejími proměnami do digitálních technik. V roce 1986 nový majitel Martin Pedersen přesunul redakci časopisu do New Yorku. V roce 2006 časopis vstoupil do éry online distribuce. Dalším významným titulem věnovaným počítačovým obrázkům je Computer Bild německého vydavatelství Axel Springer SE. Jeho první číslo vyšlo v roce 1996. V Polsku vychází časopis 3D. CAD Design, Computer Graphics, který vydává Helion v Gliwicích a jehož šéfredaktorem je Tomasz Czarnecki. Časopis byl původně čtvrtletníkem, ale pro velký zájem byla v roce 1997 frekvence zvýšena na dvouměsíčník. V roce 2001 byl v Krakově založen čtvrtletník 2+3D, věnovaný užité grafice a průmyslovému designu. V tištěné podobě vycházel až do roku 2016. V prvním desetiletí 21. století poptávka po tištěných časopisech dramaticky poklesla. Na konci dvacátého století se mnoho titulů objevilo na internetu. 54 Informace na internetu se rychle šíří, a to nejen prostřednictvím autorizovaných článků, ale především prostřednictvím samotných uživatelů, kteří vytvářejí tematické stránky, blogy, fóra.
V důsledku návrhů webových wizualizací se digitální grafika záhy objebila na webu. Její popularita byla důsledkem rozšíření vynálezu digitální fotografie. V roce 1975 sestrojil Steven Sasson ze společnosti Kodak prototyp digitálního fotoaparátu. Vylepšené modely zařízení se prodávaly od počátku 21. století. Došlo k průlomu v oblasti zachycení fotografického obrazu. Zařízení zaznamenávající obraz na elektromagnetickou matrici rychle vytlačila tradiční fotoaparáty využívající analogový film, který vyžadoval dlouhé chemické procesy.
Od Gutenberga k Zuckerbergovi
Digitální obraz se objevil okamžitě a byl vhodný pro přímé přehrávání na počítačích a brzy i na telefonech.
První telefon s fotoaparátem vyrobila společnost Samsung v roce 2000. Dokázal uložit 20 fotografií s rozlišením 0,35 megapixelu. Od té doby přinesl technologický pokrok převratné změny v oblasti fotografování. V roce 2006 byla vyvinuta technologie zobrazování na monitoru s LED diodami jako zdrojem světla. To umožnilo nahradit obloukové lampy, což vedlo k dalšímu snížení počtu zařízení. Od roku 2014 je nyní na Zemi více mobilních telefonů než lidí. V dnešní době, vybavené stále lepšími digitálními fotoaparáty, máme možnost pořizovat téměř neomezené množství fotografií a videí a následně je upravovat pomocí grafického softwaru. Uživatelé jsou omezeni pouze svou fantazií. Čím vynalézavější jsou, tím zajímavější jsou výsledky, které později tvůrci zveřejňují na webu nebo v tisku.
Dalším prostorem, kde se objevila možnost prezentace grafických děl, byla internetová digitální komunikace (chatovací místnosti, blogy), která byla spuštěna díky protokolu ICQ, vynalezenému izraelskými programátory. Rozvoj technologie umožnil obohatit textové chaty o grafickou vrstvu (zpočátku statickou a později dynamickou). V roce 2000 vytvořil v Polsku Łukasz Foltyn aplikaci Gadu-Gadu . V roce 2004 vytvořili v Kalifornii Mark Zuckerberg a Eduard Saverin sociální síť Facebook. V roce 2005 Niklas Zennström a Janus Friis se skupinou vývojářů z Tallinnu spustili aplikaci Skype (sky-peerto-peer) pro zasílání rychlých zpráv. V roce 2005 také Jawed Karim, Steve Chen a Chad Hurley vytvořili službu YouTube, která umožňuje lidem zdarma zveřejňovat, hodnotit a komentovat videa. V roce 2006 otevřeli Maciej Popowicz a Arkadiusz Pernal ve Vratislavi sociální síť Nasza Klasa55 , která uživatelům usnadňuje obnovení známostí ze školních let zveřejňováním fotografického a grafického materiálu. V témže roce zároveň Jack Dorsey, Evan Williams, Noah Glass a Christopher Stone spustili sociální síť Twitter. Následovalo mnoho dalších. Tyto stránky jsou nesmírně populární a neustále se vyvíjejí, upravují a šíří. Umožňují zasílání multimediálních materiálů: grafiky, filmů a zvuku. Slouží k zábavě, ale především ke kontaktům mezi lidmi se společnými zájmy.
7. Praktické aspekty zpracování obrazu v digitálních humanitních vědách
V oblasti informatizace, stejně jako v jiných oblastech, se nic neděje samo od sebe. Za náhodným efektem vždy stojí člověk a jeho intelektuální iniciativa. Současné produkty optické představivosti jsou
14. Obraz v digitálních humanitních vědách
výsledkem mnoha předchozích inženýrských, matematických, fyzikálních, technických a uměleckých nápadů, zatímco obrazotvornost v digitálních humanitních vědách je výsledkem důsledné a vědomé transformace reálného světa do vizualizací, které nejsou zřejmé a nereprezentují skutečnost. Někdy se k tomu používají mechanismy, které nutně nepotřebují lidské úsilí (například fotosenzory, fotopast), ale umělecké vyjádření je vždy spíše výsledkem citlivé a intelektuální práce konkrétního člověka než uspořádáním náhodných tvarů barevných skvrn. Obraz v digital humanities je transformací reality do nového díla plného fantazie, vytvořeného díky schopnostem tvůrce s pomocí instrumentária počítačových programů. Nejjednodušším příkladem je zkrášlení fotografie modelky, která má být zveřejněna na obálce časopisu. Ve skutečnosti se na fotografii mohou odrážet její přirozené nedostatky, jako je mateřské znaménko, vráska, pohled nesprávným směrem, neodpovídající barva očí, nějaký zbytečný předmět v pozadí kompozice. Digitální zobrazování umožňuje tyto nežádoucí prvky původní fotografie opravit, což při přepracování vypadá mnohem lépe. Je to výsledek práce člověka, jeho vynalézavosti, koncepce a představivosti, kterou přinesla znalost softwarových technik.
Technika grafických transformací je založena na principech správného použití vrstev a modulace masek. Tato struktura díla připomíná transformace, které se ve 20. století nazývaly koláží. Původ-
Obrázek 21. Svetlana Petrova: Lady with an Ermine by Leonardo da Vinci. (Zdroj: https://fatcatart.com/?lang=en) .
Od Gutenberga k Zuckerbergovi
ně výtvarná technika koláže spočívala ve vytváření kompozic z různých materiálů a hmot spojováním tvarů, významů, symbolů a jejich lepením na plátno nebo papír. Slovo „koláž“ pochází z francouzského slovesa coller, které znamená lepit. První koláže vytvořili představitelé kubismu na počátku 20. století – průkopnickými se stala díla Georgese Braqua.
Koláž v digitálních kompozicích (eCollage nebo digitální koláž) je základem pro vytváření imaginativních, iluzionistických obrazů, které nelze ve skutečnosti pozorovat. Pomocí grafických programů se kombinují různé fotografie a vytváří se tak nápaditý efekt. Příkladem může být práce Rusky Světlany Petrovové, která digitálně přetvořila mnoho známých uměleckých děl začleněním motivu kočky. 5
Digitální umělecká díla se spoléhají na speciální efekty, které programy nabízejí. Široká paleta efektů se týká barev, světla a tvaru (dlaždice, průhlednost, stín, výplň obrysů, zkreslení, šum a mnoho dalších). Nejpůsobivější vizualizací těchto efektů je zobrazení iluze. Jedná se o dávkování dojmů, které nelze ve skutečnosti realizovat, a které divákovi takříkajíc lžou. Zvláště patrné je to v kinematografii, kde obrazy vytvořené pomocí počítačové techniky v 21. století dokáží vyvolat realistický pocit vizualizace fantazijního světa. 57 Příkladem mohou být efekty ve filmech, jako je série Harry Potter (2001–2011) nebo Pán prstenů (2001–2003), a četné animované produkce (například Shrek, 2001) .
Na začátku třetí dekády 21. století se stále více využívá oblast 3D grafiky, která se díky nejnovějším nástrojům umožňujícím 3D tisk rozvíjí i v reálných realizacích. Příkladem na obrazovce může být 3D virtuální prohlídka muzeí nebo světových měst. Významným projektem v oblasti tvorby globální vizualizace je GoogleMaps . 58 Jeho
Obrázek 22. Příklad 3D zobrazení mapy z Google Maps. (Zdroj: https://www.google.pl/maps)
14. Obraz v digitálních humanitních vědách
cílem je virtuálně zobrazit celý svět. Zpracované snímky, pořízené sférickými a 3D kamerami, se spojují do obrovské databáze snímků, která je k dispozici libovolnému publiku online. Plochou verzi mapy lze transformovat do podoby pohybu v trojrozměrném prostoru. 59 Projekt společnosti Google se již netýká pouze Země, ale přesahuje do vesmíru.
8. Kompozice
Každá malba by měla vycházet z kompozičníchzásad. Kompozice je definována jako správný soulad všech prvků určitého celku. Svět kolem nás představuje dva kontrastní vzory. Jsou to kompozice symetrické a nesymetrické. Člověk je vnímá jako běžné jevy. Při pohledu na jiné lidi a pomocí zrcadla vidíme svět symetrie, v němž se obraz, který vidíme, skládá ze dvou částí, přičemž každá část je jakýmsi zrcadlovým obrazem té druhé. Lidé a svět přírody (zvířata, rostliny, nerosty) jsou toho příkladem. Pokud se však na jednotlivé případy podíváme z odstupu, je nedostatek symetrie zřejmý. V asymetrii vnímáme krajinu, rozložení hor, les s polámanými stromy, město, skupiny lidí a mnoho dalšího. Tyto dva obrazové světy jsou neustále přítomny a vzájemně se doplňují. Přestože jsou odlišné, tvoří harmonii, v níž se od sebe odlišuje několik kontrastních kompozic. Patří mezi ně otevřené a uzavřené, statické a dynamické, symetrické a asymetrické, diagonální a horizontálně-vertikální, abstraktní a realistické, dostředivé a odstředivé, vládní, pásové a kulisové kompozice.
Již před staletími se umělci a teoretici snažili vyřešit problém kompozice. Ve starověkém Řecku byl vyvinut zlatý řez (latinsky sectio aurea), známý také jako zlatý poměr nebo božská proporce. Znamenalo to rozdělit řez tak, aby poměr délky jeho delší části k jeho kratší části byl stejný jako poměr délky celého řezu k jeho delší části. Jinými slovy: délka delší části je geometrickým průměrem délek kratší části a celého úseku. Toto jednoduché pravidlo je ideálním řešením problémů při kompozici a tvorbě všech grafických a typografických návrhů. Touto zásadou se dodnes řídí všichni profesionální designéři a vytvářejí dokonale proporčně vyvážená díla.
Podle pravidla zlatého dělení ve středověku určil Ital Leonardo Fibonacci posloupnost čísel, jejichž geometrickou přítomnost lze pozorovat v každé dobré kompozici. Ve Fibonacciho posloupnosti je každé následující slovo (kromě prvního, které se rovná nule, a druhého, které se rovná jedné) součtem předchozích dvou. Lze ji znázornit asymetrickou linií spirály, jejíž obrys lze spatřit v mnoha přírodních tvarech – rostlinách nebo mušlích. Navrhování obrazu podle těchto kompozičních principů vždy přináší dobré výsledky, a to jak tehdy,
Od Gutenberga k Zuckerbergovi
když umisťujeme jednotlivé prvky vedle sebe, tak tehdy, když operujeme s „prázdnou“ rovinou, tedy světlem.
Obrázek 23. Kompozice „zlatého řezu” posloupnosti Leonarda Fibonacciho na obraze Leonarda da Vinciho Mona Lisa (Zdroj: H. E. Huntley, The Divine Proportion, Dover, New York 1970, s. 101).
Světlo je hovorový výraz pro jakýkoli prázdný prostor mezi obrazovými prvky. Používá se v tradičním tisku i ve webovém designu, fotografii, filmu, logu, rozvržení tabulek, ve všech uměleckých grafických dílech a ve všech dalších obrazových dílech, která identifikují sdělení. Světlo lze použít jak na prázdných místech, tak na plném
14. Obraz v digitálních humanitních vědách
nebo vzorovaném pozadí. Je nezbytné pro estetickou a funkční prezentaci textových a grafických informací. Přílišná hustota prvků na stránce má za následek nedostatek světla, takže výsledek „nedýchá“. Divák má dojem nadměrné komprese, přeplněnosti a někdy i nepořádku – a to i v případě, že jsou prvky projektu správně uspořádány ve vzájemném vztahu. Takové zhuštění brání vnímání sdělení. Na druhou stranu je téměř ve všech situacích povoleno použití nadbytku světla, jehož proporce závisí na koncepci designéra.
Dodržování kompozičních zásad je povinností tvůrce, ať už navrhuje vzhled uměleckého díla, rozvržení knihy, katalogu, alba, webové stránky, prezentace nebo prvky šablony či schématu. Hlavní zásadou při navrhování všech druhů obrazů je totiž respektování diváka – jeho percepčních schopností, očekávání a zvyklostí při zacházení s vizuálním sdělením.
9. Kódový obraz
Jedním z nejdůležitějších kroků v digitalizaci reálného světa bylo rozsáhlé zavedení čárových kódů, které se přiřazují lidem, předmětům a dalším objektům.
Numerický obraz obsahující čísla vznikl před mnoha lety. Nejextrémnější realizací této myšlenky bylo tetování identifikačních čísel na těla táborových vězňů nacisty. Metoda, kterou pro Třetí říši vytvořila společnost IBM, byla v druhé polovině 20. století převzata po celém světě, i když od zásahu do lidského těla bylo upuštěno. Pro identifikaci veřejnosti se začaly všem lidem přidělovat numerické obrazy. Každá osoba byla identifikována digitálním kódem, ale také mnoha sekvencemi dalších čísel. Čísla byla přidělována předmětům, místům a prováděným úkonům (například registrační číslo vozidla, číslo bankovního účtu, číslo záručního listu, IP číslo počítače atd.)
V Polsku byl v 70. letech 20. století právě za tímto účelem vytvořen systém PESEL.
Obraz, který identifikuje prakticky každý předmět, událost a další lidskou činnost, se stal „kódem“. V roce 1932 byl na Harvardově univerzitě pod vedením Wallace Flinta navržen systém algoritmů pro děrné štítky, který měl usnadnit nakupujícím v katalozích výběr sortimentu prodavačem ze skladu. V roce 1948 zahájili Bernard Silver a Norman Woodland na Drexelově polytechnickém institutu ve Filadelfii výzkum vývoje zařízení pro automatické čtení informací o výrobcích. 0 Grafické čárové kódy s přiřazenou numerologií byly poprvé použity v americkém průmyslu v roce 1966 ke zlepšení prodeje potravinářských výrobků v rámci NAFC (The National Association of Food Chains). Od roku 1974 byl systém dále rozvíjen zavede -
Od Gutenberga k Zuckerbergovi
ním zařízení pro snímání kódů na americkém trhu. Rozšíření tohoto typu označování zboží začalo v roce 1981, kdy americké ministerstvo obrany začalo používat kód 39 1 k označování všech výrobků prodávaných armádě.
Číselné kódování a počítačová grafika se setkaly v roce 1994, kdy dceřiná společnost Toyoty, Denso Wave, vyvinula QR kódy. QR kód je rozšířením čárového kódu, který obsahoval pouze čísla, a zvyšování počtu čísel vedlo ke stále delšímu pásu programovatelných řádků. QR je soubor proužků čárových kódů naskládaných nad sebou, které tvoří čtvercovou kompozici. Tento obrázkový kód umožňoval také definovat písmena abecedy, takže se stal pro webové stránky relé do virtuálního světa. Od 21. století jsou obrazové QR kódy, které lze číst a skenovat pomocí jednotlivých mobilních zařízení (telefon, tablet) 2 . Ve čtvercové kompozici QR kódu jsou vepsány tři rohové čtverce, které umožňují snímacímu zařízení přečíst začátek a konec záznamu.
Obrázek 24. Příklad grafiky QR kódu. (Zdroj: https://pl.wikipedia.org/ wiki/Kod_QR)
10. Shrnutí
Před nástupem digitálního věku se obrazy vytvářely manuálně-mechanickou technikou. Při manuálním způsobu musel umělec znát technologii získávání pigmentů z přírodních látek. Produkt jeho práce byl předveden malému počtu diváků, ke kterým se přímo dostal. Od zavedení mechanických vylepšení se výsledek práce stal závislým na přípravné práci třetích osob. Patřili k nim návrháři a výrobci grafických strojů nebo barvírny. Tvůrce již mohl používat prefabrikáty, například barvy v tubách. Od 20. století docházelo k rozvoji elektronického a posléze digitálního obrazu. Čtení takového obrazu vyžadovalo nástroje, jako jsou monitory a projektory. Dosah publikace mechanicko-elektronických obrazů byl širší – místní, celostátní, protože
14. Obraz v digitálních humanitních vědách
příjemcem filmového nebo albového/knižního sdělení se stal široký okruh lidí komunikujících stejným jazykem.
Digitální obraz, který je od poloviny 20. století vytvářen pomocí výpočetní techniky, vyžaduje k prezentaci elektronická a síťová zařízení a od 21. století také přístup k internetu. V důsledku toho se digitální umělec stal zcela závislým na vynálezech a výtvorech jiných. Zároveň však získal více času na vlastní tvorbu, která je díky digitální technologii velmi pohlcující. Dosah takového obrazu se od dob internetu stal globálním, protože k němu mají přístup diváci z celého světa.
V jistém smyslu lze tedy dřívější tvořivost popsat schématem: od jednotlivce k celku. Naproti tomu tvořivost vytvářená mechanickodigitálními metodami – od celku k jednotlivci, protože nejprve musela skupina lidí vymyslet, navrhnout, sestrojit nástroj, tj. výpočetní stroj (hardware), a další tým programátorů musel napsat a navrhnout příslušný program (software). Sám tvůrce, než se pustí do tvorby obrazu, musí projít cestou specializovaného IT vzdělání. Teprve po splnění těchto podmínek může vzniknout tvůrčí představivost, jejímž výsledkem je vytvoření jediného obrazu digitálními metodami. Život každého člověka se skládá z okolních vnuknutí, z nichž se formují vzpomínky, představy a fantazie. Toto působení je ovlivněno skutečnými i imaginárními obrazy vytvořenými jinými lidmi. Proto je velmi důležité uvědomovat si a být zodpovědný vůči tvůrcům, jejichž díla mohou mít různé dopady a účinky. O psychologickém a ideologickém vlivu obrazů se diskutuje již po staletí a zároveň jsou vizualizační techniky záměrně využívány k ovlivňování společenského podvědomí. Vhodně prezentované obrazy mohou mít pregnantní účinek, jak opakovaně prokázala historie.
S dnešními nástroji se může stát umělcem každý, kdo zvládne umělecké řemeslo a naučí se s ním zacházet. Komputerizace otevřela dveře každému, kdo se chce vyjádřit v prostoru digitálního záznamu. Mechanismy používané v grafických programech uvolnily možnosti vytváření ještě nemožnějších obrazových vizualizací – navrhování nereálné architektury a vytváření pohyblivých efektů. Produkt počítačových programů lze realizovat ve veřejném prostoru, v architektuře.
Ve třetím desetiletí 21. století již obrazy digitálně nevytvářejí pouze lidé, ale také stroje, které dostávají zadání. Příkladem je algoritmus umělé inteligence DALL-E mini, který vytvořil Američan Boris Dayma a který byl v červnu 2022 spuštěn na webové stránce Craiyon. V současné době jej může používat každý ve svém jazyce.3 Program vytváří digitální obraz na základě zadaných klíčových slov. Chceme-li květiny u moře, program nám nabídne vizuální grafické výsledky, které sám vytvoří. Moderní inteligentní technologie digi-
Od Gutenberga k Zuckerbergovi
tálního obrazu usnadňuje práci lidem, kteří nemají vlohy či talent pro malování nebo neumějí používat grafické programy.
Obrázek 25. Květiny u moře, prosinec 2022, snímek vytvořený algoritmem umělé inteligence (AI) DALL-E mini, přístupný na adrese: : https:// www.craiyon.com, na základě klíčových slov zadaných Rafałem Werszlerem.
Aby se však obraz stal uměleckým dílem, musí splňovat požadavky individuálního uměleckého pojetí, správné kompozice, estetiky a celkové myšlenky díla. Musí tedy splňovat stejná kritéria, jaká jsou uplatňována na manuální techniky, které může každý člověk také volně používat – například požitek z malování barvami, pokud tuto dovednost má. Umělá inteligence se to teprve začíná učit.
Revoluce v digitálních humanitních vědách jako novinka je teprve v plenkách. Vše, co je nové, je vždy znepokojující, protože je jiné, iracionální, a proto se může zdát nebezpečné. Zkrocená jinakost se však stává srozumitelnou, pak bezpečnou a nakonec přirozenou. Právě to se děje s pokrokem ve vědě a digitalizací. Dříve umělecké techniky fungovaly až několik set let, dnes – v době dynamických změn nástrojů – zastarávají po několika letech. Obraz jako výsledek činnosti zaznamenávající aktuální události je však trvalý a stává se archivem pro budoucnost.
14. Obraz v digitálních humanitních vědách
POZNÁmK Y
1 Słownik języka polskiego. Varšava 1998, Díl L-P, s. 401; Popularna Encyklopedia Powszechna, Krakov 1996, Díl 12, s. 561.
2 Kresba italského lékaře a inženýra Johannese de Fontany (1395–1455) z roku 1420 je nejstarším známým vyobrazením prototypu zařízení, které dokázalo zobrazit obraz. Další pokusy provedli Pierre Fournier (1515, Francie), Giovanni Battista della Porta (1589, Itálie), Athanasius Kircher (1646, Německo), Christiaan Huygens (1659, Nizozemsko), Thomas Rasmusser Walgenstein (1660, Dánsko), Claude Millet (1674, Francie). V roce 1646 porýnský jezuitský učenec Athanasius Kircher v knize Ars Magna Lucis et Umbrae ( Velké umění šerosvitu, 1646) popsal a vyobrazoval zařízení, které odráželo sluneční světlo v zrcadle přes čočky na plátno. Prototyp kouzelné lucerny byl představen až v roce 1659 v Haagu. Nizozemský matematik Christiaan Huygens se spojil s londýnským optikem Richardem Reevesem a společně od roku 1663 vyráběli a prodávali kouzelné lucerny. Jednalo se o zařízení sestávající z mechanicky posuvných sklíček osvětlených parafínovou lampou.
3 První klišé byly skleněné desky se světlocitlivou emulzí.
4 Kapitál komunistické strany sponzoroval mimo jiné dílo Pabla Picassa. Současně propaganda SSSR líčila kubismus a příbuzné proudy jako důkaz dekadence a předzvěst úpadku Západu.
5 FULIŃSKA, A., KLECZAR, A. Mitologia w obrazach. Varšava 2018.
Dalšími příklady jsou žena s křídly (freska v podkarpatském kostele sv. Michaela Archanděla v Kańczugě z poloviny 16. století), čert s kozlíma nohama a křídly na ilustraci z pohádek Jeana de la Fontaina a žena s atributy slepice a křídly (německý dřevoryt ze 14. století).
7 Příklad takovýchto reprezentací: Michael Pacher: Setkání svatého Augustina s ďáblem (1483); miniatura z rukopisu Le Somme Le Roy, který vznikl ve Francii na konci 13. století; Ďábel při setkání s papežem Silvestrem II, Martinus Oppaviensis , Chronicon pontificum et imperatorum (14 0)
8 Příklad takovýchto reprezentací: Albrecht. Dürer: Satyr (1505), Peter Paul Rubens: Satyr (119)
9 BERGREEN, L. Od Wenecji do Xanad . Přel. M. Dziurosz, Poznań 2008.]
10 Příklad takovýchto reprezentací: Manuel Puile, Livres des proprietes des animaux, Ms. 3401, Paris 1566.
11 Příkladem takových vyobrazení jsou balustrády schodišť chrámů Wat Lok Molee, Wat Chedi Lusang, Wat Chedi Luang, Wat Phrathat Doi Suthep v thajském Chiang ma i .
12 Příklad takovýchto reprezentací: Ganéša s hlavou slona, freska v paláci Dzodhpur, Indie.
13 Příklad takovýchto reprezentací: Obraz kouzelné lucerny – ilustrace německého jezuity Athanasia Kirchera, Ars Magna Lucis et Umbrae, 1671; obraz šifrovacího stroje – ilustrace téhož autora, Arte Magnetica (1 43) .
14 Podle biblických a talmudických výpočtů byl Adam stvořen kolem roku 3760 př. n l
15 Salvador Dalí, celé jméno Salvador Domènec Felip Jacint Dalí i Domènech, marquès de Dalí de Púbol (1904-1989, Figueres).
1 Vynález tisku byl znám již dříve v Číně, kde alchymista a kovář Bi Sheng (9551055), který žil v provincii Yangxi za dynastie Song, vyrobil písmo vypálené z hlíny, vosku a rýžového popela. (WERSZLER, R. Wyposażenie i aranżacja bibliotek na Śląsku. Do końca XIX wieku. Varšava, 2019, s. 44.).
17 Základem technologie CRT jsou tři elektronky, v nichž elektronové paprsky dopadají na fosforový povrch.
18 CAD (computer aided design) – použití počítačového hardwaru a softwaru při navrhování. ROSS, D. T. Computer-Aided Design: A Statement of Objectives MIT
USAF 8436-TM-4. 1961. Dostupné na WWW: http://images.designworldonline.com. s3.amazonaws.com/CADhistory/8436-TM-5.pdf (dostup 21 . 7 . 2021) .
19 Memex je paměťový výpočetní stroj, který v roce 1945 popsal vědec a inženýr Vannevar Bush. Memex je zkratka anglických slov memory extender (rozšiřovač paměti).
20 BUSH, V. As We May Think. The Atlantic Monthly 1945
21 SuperPaint byl průkopnický grafický program a systém vyrovnávací paměti snímků, který vyvinul Richard Shoup ve společnosti Xerox PARC. Jeho koncept vznikl koncem roku 1972 a první stabilní obrázek byl vytvořen v dubnu 1973.
22 Tříbarevný režim RGB (Red, Green, Blue) na obrazovce umožňuje dosáhnout plného barevného gamutu na displejích monitorů a projektorů.
23 Čtyřbarevný model CMYK (Cyan, Magenta, Yellow, Black) umožňuje dosáhnout plné palety barev pro tisk.
24 Renderování (eng. rendering) – grafické znázornění digitálně zaznamenaného obsahu v podobě vhodné pro dané prostředí.
25 PIETRZAK, W. Grafika komputerowa. Definicja, historia, podział, wykorzystanie. 2021. Dostupné na WWW: https://wojciechpietrzak.com.pl/grafika-komputerowa/ (dostup 21 7 2021)
2 SMITH, G. Wywiad z Friederem Nake . Kunst. 2019, č. 8, s. 69.
27 CHROSTOWSKI, J. Wywiad: Beksiński, grafik komputerowy. Informator ZPAP Wrocław. 2000, č. 1, s. 30.
28 Příklad: pevný disk počítače z roku 1993 měl v té době kapacitu 100 megabajtů, na kterých byl uložen operační systém, grafické programy a rozdělaná práce. Ve třetí dekádě 21. století zabere jedna fotografie pořízená fotoaparátem telefonu 1 až 10 MB.
29 WERSZLER, R. Refleksje nad nowoczesnym warsztatem plastyka. Książka i Czytelnik. 2001, č. 1s. 54.
30 Oblíbené přípony souborů 3D: OBJ, FBX, 3DS, PLY, STL, BLEND, 3DS, MAX.
31 Oblíbené formáty vektorové grafiky: SVG, AI, EPS.
32 Oblíbené formáty rastrové grafiky: JPEG, JPG, PNG, WEBP, GIF, BMP.
33 ROSS, D.T. Computer-Aided Design: A Statement of Objectives. MIT USAF 8436-TM-4. 1961. Dostupné na WWW: http://images.designworldonline.com.s3.amazonaws.com/CADhistory/8436-TM-5.pdf (dostup 21 7 2021)
34 FRANKE, H.W. Computergraphik Computerkunst. Mnichov 1971.
35 HEARN, M. The Cinema of George Lucas . New York, 2005, s. 156.
3 SADOWSKI, M. Historia efektów specjalnych. efekty komputerowe i filmy. CGI 2013. Dostupné na WWW: http://Audiowizualni.pl (dostup 17 . . 2018) .
37 WERSZLER, R. Ołówek niczego sam nie narysuje CHIP, magazyn komputerowy 2000, č. 5, , s. 149; Tentýž. Komputer – narzędzie graficzne. Informator ZPAP/Wrocław. 2000, č. 1, s. 28.
38 FISAE – Fédération Internationale des Sociétés d‘Amateurs d‘Ex-libris, mezinárodní organizace sdružující společnosti a nadšence pro exlibris z celého světa, která působí od roku 1953.
39 Mnoho grafiků tyto zkratky neuznává a popisuje svou práci plným názvem, například jako “digitální tisk“.
40 Ukázka vítězů soutěže Corel ArtShow: 2019: Rogelio Hernandez (Roy Monster), Mexiko; 2013 a 2009: Alexey Oglushevich, Rusko; 2011: Roland Joseph Diaz a Fabio Selani.
41 R. Werszler – Cena za sérii uměleckých vektorových prací na Corel ArtShow v roce 1995.
42 GDPR (obecné nařízení o ochraně osobních údajů), nařízení EU obsahující ustanovení o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a ustanovení o volném pohybu osobních údajů. Úřední věstník Evropské unie L 119, 4. května 2016. Rozesláno ke dni 25. května 2018.
43 Virtuální soutěž společnosti Corel. Dostupné na WWW:: https://contest.corel. com/pl/corelDRAW/ (dostup 21 7 2021)
44 Digital Art. On-line: https://en.wikipedia.org/wiki/Digital_art (dostup 21 . 7 . 2021) .
14. Obraz v digitálních humanitních vědách
45 Webové stránky uměleckého centra WRO. On-line: https://wrocenter.pl/pl/ (dostup 21 7 2021)
4 R. Werszler – Cena za umělecká díla vytvořená pomocí počítačového nástroje na veletrhu YEA 1992/93.
47 Mezinárodní grafická soutěž pro Exlibris v Gliwicích, Gliwice (od roku 1995).
48 Příklad: Mezinárodní bienále současného exlibris, Malbork.
49 Příklady: Mezinárodní bienále drobné grafiky a exlibris, Ostrów Wielkopolski (od roku 1985); Krakovské bienále polského exlibris, Krakov (1994-2002).
50 ZNAMIROWSKI, A. Polski Ekslibris Komputerowy. Krakov 2004, s. 1.
51 On-line: https://www.computerworld.pl/ (dostup 21 7 2021)
52 On-line: https://pl.wikipedia.org/wiki/Kategoria:Czasopisma_komputerowe (dostup 21 7 2021)
53 On-line: https://www.graphis.com/ (navštíveno 21.7.2021).
54 Příklad: Pismo Polskiego Ekslibrisu Współczesnego. On-line: http://ekslibrispolski.pl/ (dostup 21 7 2021)
55 Nasza Klasa je od roku 2015 spravována německo-švýcarským konglomerátem Ringier Axel Springer Polska.
5 S. Petrova. On-line: FatCatArt.com (dostup 21. 7. 2021).
57 CZYŻEWSKI, S. a P. SITARSKI. ABC Filmu, Słownik pojęć filmowych., EdukacjaFilmowa.pl. Dostupné na WWW: https://edukacjafilmowa.pl/abc-filmu/ (dostup 1 . 7 . 2020) .
58 Mapy Google 3D. On-line: https://earth.google.com/web/ (dostup 21 7 2021)
59 K vizualizačnímu systému je připojen také modul GPS.
0 Dne 20. října 1949 podali Norman Woodland a Bernard Silver patentovou přihlášku s názvem „Klasifikační zařízení a metody“. Vynálezci svůj vynález popsali jako „umění klasifikace předmětů pomocí identifikace vzorů“ (Classifying Apparatus and Method).
1 Kód 39 je alfanumerický čárový kód s pevnou šířkou jednoho znaku. Tento kód byl vytvořen v roce 1974 a rozšířil se poté, co jej začalo používat americké ministerstvo obrany k označování zásilek od dodavatelů.
2 WEIGHTMAN, G. The History of the Bar Code, 2015. Dostupné na WWW: https:// www.smithsonianmag.com/innovation/history-bar-code-180956704/ (dostup 21. 7. 2021); JERCZYŃSKA, M. a A. KORZENIOWSKI (eds.). Kody kreskowe: rodzaje, standardy, sprzęt, zastosowania. Poznaň 2000.
3 Každý si může vytvořit vlastní obrázek s klíčovými slovy pomocí následující webové stránky: https://www.craiyon.com .
BIBLIOGRAFIE
BERGREEN, L. Marco Polo. Od Wenecji do Xanadu. Poznaň: Wyd. Rebis, 2008
BUSH, V. As We May Think. The Atlantic Monthly . 1945 . CHROSTOWSKI, J. Wywiad: Beksiński, grafik komputerowy. Informator ZPAP Wrocław. 2000, č. 1.
CZYŻEWSKI, S. a P. SITARSKI. ABC Filmu, Słownik pojęć filmowych. EdukacjaFilmowa.pl. Dostupné na WWW: https://edukacjafilmowa.pl/abc-filmu/ (dostup 2020-07-1) .
FRANKE, H. W. Computergraphik Computerkunst. Mnichov: Bruckmann, 1971
FULIŃSKA, A. a A. KLĘCZAR. Mitologia w obrazach. Varšava: Horyzonty, 2018 .
HEARN, M. The Cinema of George Lucas. New York: Harry N. Abrams, Inc., 2005 .
JERCZYŃSKA, M. a A. KORZENIOWSKI. (eds.). Kody kreskowe: rodzaje, standardy, sprzęt, zastosowania. Poznaň: Instytut Logistyki i Magazynowania, 2000.
PIETRZAK, W. Grafika komputerowa. Definicja, Historia, Podział, Wykorzystanie. 2021. Dostupné na WWW: https://wojciechpietrzak.com.pl/grafikakomputerowa/ (dostup: 21. 7. 2021).
Popularna Encyklopedia Powszechna, Krakov 1996.
ROSS, D. T. Computer-Aided Design: A Statement of Objectives. MIT USAF 8436-TM-4. 1961. Dostupné na WWW: http://images.designworldonline . com.s3.amazonaws.com/CADhistory/8436-TM-5.pdf (dostup: 21. 7. 2021).
SADOWSKI, M. Historia efektów specjalnych. efekty komputerowe i filmy. CGI. 2013. Dostupné na WWW: http://Audiowizualni.pl (dostup: 17. 6. 2018)
Słownik języka polskiego. Varšava: Wyd. Naukowe PWN, 1998.
SMITH, G. Wywiad z Friederem Nake. Kunst. 2019, roč. 8, č. 2.
TUBALICKA, A. Krótka historia grafiki komputerowej. Grafmag.pl . Dostupné na WWW: https://grafmag.pl/artykuly/krotka-historia-grafiki-komputerowej (dostup 21 7 2021)
WEIGHTMAN, G. The History of the Bar Code, 2015. Dostupné na WWW: https:// www.smithsonianmag.com/innovation/history-bar-code-180956704/ (dostup 21 . 7 . 2021) .
WERSZLER, R. Komputer – narzędzie graficzne. Informator ZPAP/Wrocław 2000, č. 1.
WERSZLER, R. Refleksje nad nowoczesnym warsztatem plastyka. Książka i czytelnik. 2000, č. 1.
WERSZLER, R. Ołówek niczego sam nie narysuje. CHIP, magazyn komputerowy. 2000, č. 5.
WERSZLER, R. Wyposażenie i aranżacja bibliotek na Śląsku. Do końca XIX wieku. Varšava: SBP, 2019.
ZNAMIROWSKI, A. Polski Ekslibris Komputerowy. Krakov: Galeria Ekslibrisu, DK Podgórze, 2004.
Kapitola 15
Dějiny umění ve věku digitálních humanitních věd1
Úvod
Otázka specifičnosti využití digitálních technologií v dějinách umění je neoddělitelně spjata s otázkou definice oboru jako takového. Podle výstižné formulace Jana Bialostockého jsou „dějiny umění historickou vědou, která popisuje a analyzuje umělecká díla z hlediska jejich formy, obsahu a funkce; zkoumá okolnosti, které přispěly k jejich vzniku, vysvětluje genezi kvality forem a obsahu těchto děl v nejširším kontextu, ale také popisuje a analyzuje proces [jejich] recepce.“2 Ačkoli se dějiny umění od svého vzniku zásadně potýkají s problémem vymezením svého předmětu – navíc je obtížné jednoznačně určit, co znamená pojem umění –, v zásadě stále platí, že předmětem jejich úvah zůstává individuální dílo umělce. 3 A navzdory tomu, že přinejmenším od významné eseje Waltera Benjamina o reprodukovatelnosti díla 4 se fakt jeho reprodukovatelnosti, a to jak ve vztahu k dílům historickým, tak (a to především) k dílům současným, stal důležitou otázkou nastolenou v různých badatelských, poznávacích a dokumentačních souvislostech. To, co historika umění zajímá, je hmotný či nehmotný artefakt, identifikovaný jako konkrétní kopie určitého typu díla. Proto je třeba jasně rozlišovat mezi hlediskem dějin umění, které analyzuje a dokumentuje dílo v jeho jedinečnosti a materiálnosti, a badatelským hlediskem těch oborů, jejichž předmětem jsou například literární nebo hudební díla s velkými náklady či podléhající velkým nákladům publikací nebo opakovaným provedením. 5
Od Gutenberga k Zuckerbergovi
Aby však závěry formulované na základě analýzy jednotlivého díla byly směrodatné, je třeba probrat mnoho dalších otázek souvisejících s uměleckou tvorbou. Jak totiž zdůrazňuje Piotr Skubiszewski, „z hlediska metodologie je třeba přísně rozlišovat mezi operacemi, jejichž cílem je vysvětlit umělecké dílo jako fyzikální a chemický jev a jako materiální objekt vytvořený lidskou činností v čase a prostoru, a operacemi, jejichž cílem je odhalit umělecké kvality uměleckého díla a vysvětlit ‘historičnost’ těchto kvalit.“ V tradici oboru se tak rozlišuje mezi takzvanou první historií umění, orientovanou na analýzu uměleckého díla jako takového, a druhou, která studuje široké souvislosti jeho vzniku a fungování. Předmětem studia dějin umění se tudíž stávají na jedné straně formy a široce chápané styly v umění, techniky výtvarného umění a jejich aplikace nebo materiály používané umělci, na straně druhé teorie umění a umělecká kritika, otázky uměleckého mecenátu, organizace tvorby nebo otázky recepce umění. Současně zůstávají ve sféře zájmu historiků umění náboženské, sociální či politické otázky, které provázejí vznik a společenskou funkci uměleckého díla. V důsledku toho dějiny umění vyvinuly řadu metod orientovaných na přímou analýzu uměleckých děl a jejich souborů, přičemž se opírají o výdobytky jiných humanitních oborů a jejich metodologie, aby rekonstruovaly genezi a historii zkoumaných artefaktů.
Situace dějin umění v kontextu komunikačních a informačních technologií (ICT – Information and Communication Technologies) je podobná. Dnes používané výzkumné metody a nástroje jsou součástí širšího trendu digitálních fenoménů, které se označují jako digitální humanitní vědy a jejichž počátky lze vysledovat již ve 40. letech 20. století. Tehdy, od roku 1946, vznikal z iniciativy jezuitského učence
Roberta Busy takzvaný Index Thomisticus, jehož cílem bylo vytvořit konkordanci všech slov – včetně spojek, předložek a zájmen – obsažených v dílech Tomáše Akvinského.7 Samotná myšlenka vytvoření indexu rozsáhlého spisu nebyla nová; novost tohoto počinu spočívala spíše v jeho rozsahu a v použití mechanismů automatického zpracování dat k analýze textů, které daleko přesahovaly tradiční index. Díky automatickému zpracování dat bylo možné pokrýt studium všech slovních druhů v jejich vzájemných souvislostech. Ve větším měřítku se tento typ projektu stal možným až na přelomu 70. a 80. let 20. století, kdy se do masové výroby dostaly osobní počítače. V té době začaly vznikat textové databáze, které se také staly prvními digitálními specializovanými nástroji pro dokumentaci kulturního dědictví. Příkladem takových iniciativ je francouzská databáze Joconde 8 , budovaná od roku 1975, která shromažďuje informace o památkách umístěných v muzeích se statutem musée de France. Krátce poté, v polovině 80. let 20. století, se objevil také termín digitální dějiny umění (digital art history – DAH ), který odkazoval na změny, jež
15. Dějiny umění ve věku digitálních humanitních věd
do dějin umění jako oboru přinese využívání digitálních a komunikačních technologií.9 Další možnosti automatizace procesů analýzy dat a zpřístupnění jejich výsledků se historikům umění otevřely díky intenzivnímu rozvoji počítačové grafiky, započatému v 90. letech 20. století, a síťovým řešením včetně internetu z počátku tohoto století. Digitální technologie se tak staly důležitou podporou uměleckého výzkumu. Již více než půl století jsou historické objekty vyvíjeny (evidovány,10 inventarizovány,11 katalogizovány12 , dokumentovány13 a zkoumány 14) pomocí digitálních nástrojů, spravovány, například pomocí informačního systému pro muzea 15 , a znalosti o nich jsou stále více zpřístupňovány online prostřednictvím webových portálů, databází, sociálních médií a dokonce i her. Data v oblasti dějin umění jsou zpracovávána pomocí aplikací, které umožňují sběr a analýzu textů, obrazů a multimédií, takže – a to je třeba rovněž zdůraznit – škála digitálních metod a nástrojů, které historici umění používají, je mnohem širší než v oborech zaměřených na studium textů.1 Jejich syntetický přehled bude uveden níže.
Umělecké dílo jako předmět studia
Umělecké dílo v širším slova smyslu je pro historika umění základním předmětem zájmu a zpravidla i primárním pramenem. Analýza jeho formy, použitých technických a uměleckých prostředků a obsahu, který sdělují, je pro jeho poznání a interpretaci zásadní. Toto poznávání se však nejčastěji provádí ve vztahu k jiným dílům. Proto mají v dějinách umění velký význam všechny metody analýzy struktury a ikonografie díla, stejně jako metody, které umožňují srovnávací studium a formulaci jeho širokého kulturního kontext. Digitální metody zpracování grafických a textových dat dnes podporují jak analýzu díla, tak studium jeho kulturního kontextu.
Digitální obraz
Využití digitální grafiky při studiu umění navazuje na tradici kresby, rytiny, malby a v pozdějších dobách i fotografie uměleckého díla jako formy „vnější paměti“.17 Reprodukce uměleckého díla, zde chápaná jako jakákoli jeho reprezentace, tradičně podporovala uměnovědné studie a ilustrované procesy odvozování téměř od počátku oboru a zároveň poskytovala určitou formu zabezpečení pro případ zničení nebo odcizení díla. Techniky digitálního pořizování a zpracování obrazu všechny tyto funkce významně podpořily a rozšířily a ve spojení s webovými službami převratně zjednodušily přístup k jeho obrazové
Od Gutenberga k Zuckerbergovi
dokumentaci.18 Samostatnou hodnotu mají také takzvaná paradata, přiřazovaná digitálním obrazům zpravidla automaticky a zachycující technické parametry, pomocí nichž byla fotografie nebo sken pořízena. Je třeba poznamenat, že v oblasti digitálních metod získávání a zpracování obrazu jsou historici umění především příjemci výdobytků technických věd: stavebnictví, architektury, geodézie a dalších, pro jejichž potřeby jsou vyvíjeny nástroje pro navrhování, měření nebo modelování prostorových objektů. Z oblasti technických věd si do oboru dějin umění našly cestu mimo jiné digitální fotogrammetrie nebo 3D skenování a modelování.
Digitální obrazy ve výzkumu dějin umění – přehled technologií
Pořizování obrazů uměleckých děl se v současnosti provádí pomocí digitální fotografie a filmu, 2D a 3D skenování a vývoj jejich prostorových modelů se provádí pomocí softwaru pro tvorbu 3D grafiky (3D modelování).
Téměř veškerá vizuální dokumentace kulturního dědictví, a to jak muzejních exponátů, tak památek v péči památkářů v terénu, se dnes provádí pomocí technologie digitální fotografie. Změna, kterou tato technologie přinesla do kvality reprodukcí děl dostupných historikům umění, se týká především detailů zobrazení. Přestože se pro účely běžné dokumentace předmětů doporučuje pořizovat fotografie v rozlišení, které umožňuje jejich tisk,19 rozlišení fotografií určených pro výzkumné a konzervátorské účely je již obvykle mnohonásobně vyšší. V takových situacích se nezřídka využívá digitální makrofotografie, která umožňuje získat fotografie označované jako gigapixelové.20 Snímky v jiných elektromagnetických vlnových délkách, například v infračervené oblasti, lze rovněž pořizovat ve vysokém rozlišení.21 Ačkoli se takové snímky používají již desítky let například při výzkumu malířství, kdy umožňují mimo jiné sledovat náčrty nebo přípravné kresby zachované pod vrstvami barev, digitální technologie jejich použití značně usnadnily a výrazně rozšířily možnosti analýzy.22
Snímky získané 2D a 3D skenováním slouží historikům umění podobným způsobem. Muzea a památkové péče experimentují s využitím skenerů k dokumentaci svých sbírek již od 90. let 20. století.23 Dnes se pro tyto účely používají jak laserové technologie, tak postupy využívající strukturované světlo.24 Historici umění a muzeologové mají k dispozici také specializované skenery pro velkoformátová díla, založené jak na průběžném čtení obrazu, tak na kombinaci optiky kamery s takzvanými digitálními stěnami. Skenování ve 2D umožňuje nejen detailně reprodukovat malířská, grafická nebo dokonce
15. Dějiny umění ve věku digitálních humanitních věd
řemeslná díla, ale také – při vhodném zacházení s osvětlením dokumentovaného objektu – vizualizovat jeho texturu. Při analýze městských půdorysů a architektonických objektů jsou data LiDAR cenným příspěvkem k výzkumu.25
Pro výzkum a dokumentaci dějin umění je otázka barevné reprodukce nesmírně důležitá. V tomto ohledu jsou digitální technologie pro tento obor také velkým přínosem. Profesionální mechanismy a metody kalibrace zařízení, jejichž prostřednictvím je obraz získáván, a zařízení, jejichž prostřednictvím je zobrazován nebo tištěn, umožňují velmi dobrou kontrolu barevné reprodukce díla.2
Digitální obraz může získat fyzickou podobu díky 2D a 3D tisku, které již našly své specifické využití i v dějinách umění. Za zmínku stojí zejména simulakra, tedy digitální tisky fotografických reprodukcí uměleckých děl. Pro lepší vizuální efekt se takové tisky zhotovují například na plátno, jako v případě rekonstrukce vybavení Artusova dvora v Gdaňsku (1999–2001), kde jimi byly nahrazeny ztracené obrazy Antona Möllera z počátku 17. století. Zdrojem grafiky použité jako integrující prvek interiéru byly v tomto případě černobílé fotografie z doby před rokem 1945, které byly podrobeny speciální analýze za účelem rekonstrukce barevné palety obrazů.27
Analýza digitálního obrazu
Samotná digitizace (ang. digitisation28) je však pouze výchozím bodem pro vlastní analýzy, které jsou nyní podporovány také řadou specializovaných aplikací a technologií. Tyto nástroje na jedné straně usnadňují výzkumným pracovníkům provádět činnosti v rámci tradičních metodik, na druhé straně umožňují automaticky analyzovat vlastnosti digitálních obrazů. Mezi historiky umění existují zastánci teze, že právě automatické zpracování obrazů za účelem analýzy je třeba považovat za podstatu metodologických změn, k nimž v oboru dochází pod vlivem rozvoje digitálních technologií.29
V současné době je díky příslušným standardům a technologiím možné v síťovém prostředí pohodlně sdílet snímky s vysokým rozlišením, 30 pružně mezi rozlišeními, ve kterých jsou sdíleny, přecházet, skládat je do synchronního zobrazení nebo překrývat snímky s různými parametry a využívat takzvaný efekt průhlednosti. Experimenty v oblasti automatické analýzy formy a obsahu obrazu sahají od postupů týkajících se základních vizuálních vlastností, například barevné palety nebo kompozice, až po sémantickou identifikaci zobrazených motivů nebo symbolů. Zajímavým příkladem takového výzkumu je automatické zkoumání rozložení světla jako jedna z metod určování atribuce malířských děl. 31 Algoritmy pro zpracování obrazu (například detekce hran, prostorová filtrace, zvýšení kontrastu) jsou
Od Gutenberga k Zuckerbergovi
vyvíjeny již desítky let s cílem zlepšit čitelnost. 32 Ve spojení s metodikou dějin umění se zkoumají také možnosti takzvaného počítačového vidění. 33 Tyto pokusy zahrnují mimo jiné „trénink“ systémů umělé inteligence k porovnávání obrazů, které se liší provedením a stylem, což by vedlo k možnosti vyhledávat v určeném digitálním zdroji různé typy podobností, například kopie nebo napodobeniny kompozic, stejné ikonografické motivy, kompoziční uspořádání nebo pózy zobrazených postav, a také identifikovat zobrazení konkrétních objektů na obrazech. Výsledky těchto experimentů založených na umělé inteligenci 34 se zdají být stále slibnější, i když stále nechybí doprovodná kritická reflexe.
Využití technik 3D skenování v dějinách umění také významně rozšířilo možnosti analýzy uměleckých děl. Potenciál této technologie skvěle ilustruje projekt realizovaný v Louvru v roce 2006, jehož cílem bylo vytvořit digitální model Mony Lisy od Leonarda da Vinciho . 35 Na základě měření provedených pomocí vhodně kalibrovaného laserového skeneru bylo možné zpracovat kompletní geometrii obrazu, zohlednit případné deformace a trhliny na plátně a dokonce i tloušťku vrstev barvy, a získat tak nové informace o jeho současném fyzickém stavu, Leonardově technice a stavu vrstev barvy. Přesnost reprodukce, počítaná v mikronech, umožnila pozorovat i ty nejmenší stopy malířských nástrojů nebo krakeláže. Velkolepá je také škála možných aplikací 3D skenování. V případě drobných předmětů – jako jsou medaile nebo mince – umožňuje detailní zobrazení povrchů a zároveň se vyhýbá šerosvitným efektům, které jsou vlastní fotografii; 3 v případě architektury nebo urbanismu umožňuje rychlé měření objektů s velkými objemy a propracovanými formami v terénu a přesouvá zátěž dokumentačních a analytických prací do „kabinetní” fáze. V druhém případě také odstraňuje nebo alespoň výrazně omezuje případnou potřebu ověřování výsledků měření v terénu – postup, který je vlastní práci prováděné tradičními metodami s použitím pásek nebo dokonce laserových měřidel. Kromě toho je třeba zdůraznit neinvazivnost výzkumu založeného na digitálních snímcích, jakož i možnost omezit práce vyžadující přímý kontakt s dílem ve prospěch zpracování a analýzy získaných údajů pořízením jejich digitální dokumentace.
Další možnosti spojené s využitím obrazů pro výzkum kulturního dědictví poskytují technologie, které umožňují propojení objektů v různých grafických a textových formátech prostřednictvím vztahů vytvořených mezi obrazovými prvky a databázovými záznamy nebo daty přímo přístupnými na webu, jejichž konkrétními příklady jsou prostředí jako BIM 37 nebo GIS. 38 Zejména badatelům v oblasti raného umění poskytují nové, interaktivní a multimediální metody argumentace hypotéz a prezentace závěrů, a proto se mezi historiky umění stále častěji ozývá volání po umožnění prostorových digitál-
15. Dějiny umění ve věku digitálních humanitních věd
ních modelů jako formy vědecké monografie objektu nebo metody ověřování výzkumných hypotéz. 39
Od metadatových standardů k ontologiím
Poznávací hodnota digitálního objektu, a zejména efektivita vyhledávání v digitálních zdrojích, je však stále silně závislá na textových údajích, které jej popisují. Tato data jsou historikům umění k dispozici v takzvaném přirozeném jazyce, jako označené texty nebo informace uspořádané v určité struktuře.40
V přirozeném jazyce mají historici umění – stejně jako všichni ostatní uživatelé plnotextových online repozitářů – přístup k pramenům a textovým studiím, které byly digitalizovány nebo vytvořeny v digitální podobě (born digital). Některé z dostupných webových zdrojů jsou také označeny, což umožňuje jejich anotaci pomocí různých indexů a zavedení interaktivních funkcí.41 Badatelé v oblasti dějin umění upozorňují, že aby taková řešení přinesla větší poznávací přínos, je třeba specializovat značkovací jazyk a CHML (Cultural Heritage Markup Language) je příkladem návrhu, který se tímto směrem ubírá.42 Obrovské množství informací je také uloženo v relačních databázích, které již léta používají muzea, kulturní instituce a výzkumná centra jako základní nástroj pro dokumentaci, analýzu a správu informací. Aby bylo možné v těchto zdrojích efektivně vyhledávat pomocí složitých dotazů, jeví se stále jako nezbytné je strukturovat a tato otázka je jedním z ústředních problémů automatického zpracování dat o kultuře a umění v digitálním prostředí.
Uspokojivé strukturování informací o uměleckých dílech a hmotných kulturních památkách není vzhledem k jejich mimořádné složitosti a jedinečnosti snadným úkolem. Knihovník dokumentuje vznik uměleckého díla, které existovalo ve stovkách či tisících exemplářů, muzeolog, včetně historika umění, se zabývá jednotlivými předměty a je nucen si neustále klást otázku po racionálním rozsahu popisu jejich rozmanitosti v rámci strukturovaných informací. Tento proces přizpůsobování metod zpracování digitálních dat teoretickým předpokladům oboru se mimochodem jeví jako jedna z nejzajímavějších otázek spojených s aplikací digitálních nástrojů v uměleckohistorickém výzkumu a význam otázek v jeho rámci kladených roste s tím, jak se zvyšují očekávání meziinstitucionální spolupráce a výměny a agregace dat. Rozsah a složitost problému do jisté míry ilustruje projekt Getty Provenance Index,43 poskytující přístup k rozsáhlé sbírce digitálních dokumentů: archivních inventářů, katalogů a inventárních knih v rámci jediného vyhledávacího rozhraní. V souvislosti s tímto typem projektu přerůstá formulace všeobecně přijatelných formátů metadat, stejně jako standardizace a klasifikace pojmů
Od Gutenberga k Zuckerbergovi
popisujících artefakty a jejich vlastnosti, v zásadní metodické otázky. Digitální technologie zde zpochybnily dlouhodobě zažité zvyklosti historiků umění a zvýšený význam meziinstitucionální spolupráce si vyžádal revizi dosavadních obecně přijímaných řešení.
Metadata
Větší dostupnost výpočetní techniky vedla k tomu, že se ve výzkumných centrech a muzejních institucích začalo pracovat na přizpůsobení principů popisu artefaktů možnostem, které nabízejí databázové systémy. K uspořádání tohoto popisu byla určena především metadatová schémata.44 Taková schémata byla vyvíjena již od 90. let 20. století. Ambicí tvůrců schémat aspirujících na postavení standardů bylo vytvořit soubory kategorií pro popis uměleckých děl nebo v širším smyslu kulturních statků, které by splňovaly očekávání co nejširšího spektra institucí spravujících tento typ sbírek. Z mnoha modelů, které od té doby vznikly, si několik zaslouží zvláštní pozornost vzhledem k jejich popularitě a vlivu na pozdější vývoj. Jsou to standardy ObjectID45 , The Categories for the Description of Works of Art (CDWA)4 a MIDAS 47. Každý z nich ilustruje specifické trendy a koncepce v oblasti strukturování informací o dílech výtvarného umění.
ObjectID a CDWA byly vyvinuty z iniciativy Getty Research Institute, výzkumné instituce spolupracující s muzeem. 48 ObjectID lze považovat za jeden z prvních standardů v oblasti kulturního dědictví, který funguje v digitálním prostředí49. Vznikl v rámci projektu zahájeného v roce 1993 s cílem vyvinout mezinárodní standard pro shromažďování informací k identifikaci kulturních objektů. Projekt byl zasazen do kontextu celosvětového úsilí o boj proti nelegálnímu obchodu s předměty kulturního dědictví a byl realizován ve spolupráci s muzejními odborníky, policií, celními orgány, obchodníky s uměním, pojišťovacím průmyslem a odhadci umění a starožitností. Původně byl koncipován jako praktický nástroj pro usnadnění identifikace a znovuzískání odcizených děl prostřednictvím co nejrychlejšího sdílení základních informací o nich, postupem času se však stal oblíbeným a účinným nástrojem pro základní inventarizaci sbírek. Tento systém, který zahrnuje deset kategorií, se vyznačoval vysokou mírou volnosti, pokud jde o syntaxi zaznamenávání informací.
Identifikace předmětů však nebyla standardem určeným pro úplný soupis artefaktů. Takovou úlohu, především v muzeích, měl plnit jiný systém – Categories for the Description of Works of Art (CDWA). 50 Ten pro muzea zůstává dodnes doporučeným standardem pro popis jejich exponátů. 51 Jeho rozsáhlá struktura zahrnuje až 532 kategorií a podkategorií. Obsahuje jak indexovaná pole, kde je vyžadován řízený nebo standardizovaný slovník (soubory autorit), tak
15. Dějiny umění ve věku digitálních humanitních věd
i volná textová pole, a co je velmi důležité, umožňuje definovat vztahy mezi záznamy týkajícími se jednotlivých předmětů. Jak však zdůrazňují sami tvůrci CDWA, schéma by nemělo být vnímáno jako datový model, ale spíše jako soubor pokynů, které nabízejí určitý koncepční rámec pro správnou praxi při katalogizaci kulturních statků v širším slova smyslu, včetně architektonických a uměleckých děl a jejich ikonografické dokumentace.52 Standard rozlišuje tzv. core, což je minimální množství údajů nezbytných pro identifikaci a základní popis díla.
Ve stejné době se podobného úkolu ujalo Deutsches Dokumentationszentrum für Kunstgeschichte – Bildarchiv Foto Marburg při Philipps-Universität Marburg. Výsledkem práce bylo vypracování standardu s názvem MIDAS – Marburger Informations-, Documentation- and Administration-System. Schéma se běžně označuje jako hybridní řešení, protože na jedné straně nabízí logický rámec pro organizaci informací, na druhé straně poskytuje vlastní strukturu metadat pro relační databáze, které z něj vznikají. Komplexní struktura tříd a jejich vlastností, která byla do MIDASu zahrnuta a popsána tisíci takzvanými aspekty, představuje zajímavý pokus o řešení souhrnu věcných problémů, s nimiž se historik umění při svém výzkumu setkává. Rozsáhlé, a přitom flexibilní formuláře umožňují shromažďovat podrobné informace jak o díle samotném, tak o osobách a institucích s ním spojených, o místech a událostech, znacích, pramenech či literatuře a tyto informace spojovat do sítě sémantických vztahů. Zdá se, že mezi metadatovými modely, které vznikly na konci 20. století, formát navržený v MIDAS nejvíce odráží složitost problematiky spojené s mnohostranným studiem starověkých a současných uměleckých fenoménů.
Všechny výše uvedené standardy však nevyhnutelně podléhají změnám v místních zdrojích v důsledku nutnosti přizpůsobit je specifikům sbírky nebo specifickým funkcím instituce. Požadavky meziinstitucionální spolupráce a snaha automatizovat sémantickou analýzu rozsáhlých online zdrojů inspirovaly historiky umění k hledání dalších řešení.
Doménové ontologie
V případě schémat metadat je základním prvkem, který zajišťuje čitelnost a použitelnost informací, jež organizují, formální uspořádání analyzovaných pojmů na základě konkrétního dotazníku. S takovým přístupem jsou však spojena určitá omezení, která jsou důsledkem předem stanovených úkolů, pro jejichž realizaci byla schémata vytvořena. Volitelné řešení problému uspořádání informací nabízejí formální ontologie, jejichž podstatou je definice tříd (entit) a jejich vlastností a vztahů mezi nimi. Jedná se o takzvané doménové ontolo -
Od Gutenberga k Zuckerbergovi
gie, které pokrývají určitou oblast, doménu, a zastřešující referenční ontologie, které ve skutečnosti umožňují výměnu dat v širším rozsahu a kontextu. Jednou z nejpoužívanějších referenčních ontologií vytvořených pro dokumentaci kulturního dědictví je v současnosti konceptuální referenční model CIDOC (CIDOC CRM), který od poloviny 90. let 20. století vyvíjí CIDOC, dokumentační výbor Mezinárodní rady muzeí (ICOM). 53
CIDOC CRM je obecný koncepční model, který usnadňuje integraci, přístup a výměnu informací o kulturním dědictví různých struktur v oblasti kultury. Namísto pevného, monolitického metadatového schématu navrhuje soubor tříd, jejich vlastností a vzájemných vztahů. Jeho základ tvoří entity typu: fyzický objekt (E18 Physical Thing), konceptuální objekt (E28 Conceptual Object), osoba (E39 Actor), místo (E53 Place), časové rozpětí (E52 Time-span) a typ (E55 Type), 54 které propojeny vztahy integrují údaje na základě otázek „kdo-cokdy-kde-jak“. Ve spojení s CIDOC CRM jsou vyvíjeny další nástroje, které zahrnují myšlenky sémantického webu 55 a propojených dat, zejména již široce používaný formát pro výměnu strukturovaných dat xml Lightweight Information Describing Objects (LIDO). 5 LIDO se někdy používá jak pro přenos dat (například z jedné databáze do druhé), tak – díky rozsáhlým metadatovým schématům na něm založeným – pro popis objektů v rámci jednotlivých uměleckých žánrů – např. malířství nebo sochařství. 57 Další výzvou pro historiky umění, kteří ve své dílně využívají informační a komunikační technologie, jež se objevila spolu s rozvojem ontologií, byl vývoj vhodného souboru nástrojů pro jejich zpracování. Příkladem virtuálního prostředí, které bylo vyvinuto pro flexibilní správu sémanticky propojených dat kulturního dědictví, je Wissenschaftliche Kommunikations-Infrastruktur (WissKI). 58 Většina implementací WissKI, včetně databáze Germanisches Nationalmuseum (GNM), 59 využívá právě referenční model CIDOC. 0 Šíření propojených otevřených dat a s tím související zájem o nelicencovaný (open source) software v současné době podporuje také rostoucí popularitu softwaru Wikibase, který stojí za databází Wikidata a který díky své integraci do ekosystému Wikimedia otevírá další možnosti, jak u indexovaných dat definovat souvislosti a vztahy, a vytváří tak příležitost „vyprávět zcela nové příběhy“.1
Řízená slovní zásoba
Kromě uspořádání schémat metadat je v dokumentační i výzkumné praxi nesmírně důležité zachovat přísnost pojmového aparátu. Tato otázka nabývá zvláštního významu v souvislosti s kombinací metodologie humanitních věd s informačními a komunikačními techno -
15. Dějiny umění ve věku digitálních humanitních věd
logiemi. K tomu slouží řízené slovníky, které na jedné straně doporučují pojmy pro označování, indexování nebo kategorizaci objektů a na druhé straně podporují procesy vyhledávání a výměny informací. V oblasti dokumentace kulturního dědictví se nejčastěji používají řízené seznamy, tezaury a hlavní záznamy, známé také jako soubory autorit. První z nich jsou jednoduché seznamy termínů, musí však splňovat kritéria, jako je jedinečnost termínů nebo to, že patří do stejné třídy. Tezaury jsou složitější struktury, které odrážejí sémantické – hierarchické nebo polyhierarchické – vztahy mezi pojmy. 2
Vytvoření doporučeného slovníku pro dějiny umění je z mnoha důvodů nesmírně obtížný úkol, neboť odráží složitost kulturního dědictví v jeho historických, regionálních a technických aspektech. Základním problémem je samozřejmě rozmanitost, ale také „nebinarita” uměleckých jevů, které se nejen v digitálním kontextu vymykají jednoznačným klasifikacím. V této souvislosti je velmi aktuální i otázka individuálního charakteru konceptualizace kulturních jevů v rámci jednotlivých jazyků. Přesto se v oboru objevují pokusy o vytvoření doporučených pojmových zdrojů. Vznikají slovníky s univerzálnějším rozměrem (například Getty Vocabularies 3), specializovanější slovníky (například Material Thesaurus of the British Museum 4 , Digizaurus 5), vhodné pro téměř globální využití, nebo zpracované jako lokální řešení (například specializované slovníky pro regionální jevy nebo přizpůsobené správním a právním systémům dané země), hierarchické (například Iconclass ) a polyhierarchické (například Art and Architecture Thesaurus 7) a v neposlední řadě jednojazyčné a vícejazyčné slovníky. 8
Pro dějiny umění jsou nesmírně důležité hlavní záznamy, které slouží ke standardizaci záznamu vlastních jmen tím, že shromažďují a pod jedním jedinečným číselným identifikátorem prezentují různé verze daného záznamu. Nebylo by možné je zde všechny vyjmenovat – mezi nejznámější, a to i v praxi historika/historika umění, patří jistě Virtual International Authority File (VIAF) 9 , Cultural Object Name Authority (CONA)70 , Union List of Artist Names (ULAN)71 , nebo konečně německý Gemeinsame Normdatei (GND)72 , který je důležitý i v kontextu dokumentace a výzkumu v současném Polsku.
Agregace, výměna a interoperabilita údajů o kulturním dědictví
Pro fungování současných dějin umění má velký význam zesíťování výzkumu. Na jedné straně se tento pojem samozřejmě vztahuje k infrastruktuře a aplikacím, které má věda k dispozici, ale na druhé
Od Gutenberga k Zuckerbergovi
straně má také sociální rozměr: internet na jedné straně umožňuje zpřístupnit cenné prameny a materiály, a na straně druhé straně nabízí kolektivní spolupráci mezi badateli z různých center, čímž se odbourávají prostorové a časové bariéry. Formy této spolupráce nabývají v rámci oboru nejrůznějších podob, od využívání online sbírek přes práci na společných dokumentech či databázích až po využívání herního prostředí.73
V současné době se stále více muzejních a vědeckých institucí rozhoduje zpřístupnit své zdroje na webu, čímž zavádí politiku otevřeného přístupu a systematicky obohacuje dokumentaci umění dostupnou online. Rozšiřuje se také nabídka agregačních portálů. V této souvislosti je však třeba upozornit na diferencovanou situaci digitálních objektů z oblasti výtvarného umění a architektury na specializovaných portálech a v univerzálních digitálních knihovnách. Portály obecnějšího charakteru, které prezentují zdroje z oblasti kulturního dědictví v nejširším slova smyslu, jako je Europeana nebo Deutsche Digitale Bibliothek, umožňují vyhledávat v milionových zdrojích a získávat výsledky v mezioborovém rozsahu. Omezením při vyhledávání objektů jsou v tomto případě zjednodušená popisná metadata spojená s různorodostí shromážděného materiálu a v důsledku toho i určitá nahodilost výsledků vyhledávání. Portály věnované konkrétním sbírkám nebo problematice umožňují mnohem přesnější formulaci vyhledávání, a tedy i přesnější vyhledávání, avšak omezené na vybrané jevy, problematiku nebo sbírky. Přesto specializované portály pro muzea, vědu a design v současné době poskytují neocenitelnou podporu pro výzkum v oboru. Institucionální portály, jako je Bildindex der Kunst und Architektur – databáze prezentující fotografie uměleckých a architektonických děl v Evropě, využívaná především pro výzkumné a výukové účely 74 , prometheus – Das verteilte digitale Bildarchiv für Forschung & Lehre – digitální obrazový archiv, který v současné době propojuje 114 databází ústavů, výzkumných institucí a muzeí prostřednictvím jednotného rozhraní75 nebo nizozemská RKD – Nederlands Instituut voor Kunstgeschiedenis, která nabízí přístup k několika tematickým databázím, včetně fototéky a biografické databáze umělců.7 Umělecké sbírky tvoří také významný podíl online zdrojů poskytovaných takzvanými akademickými výzkumnými sbírkami.77 Historici umění také rádi přistupují k nabídkám vytvořeným v rámci komunitních iniciativ, jako je například porska. org.
Také digitální datové sady vytvořené v rámci projektů, jako je Mapping Gothic France 78 nebo Digital Mellini,79 představují působivý vizuální materiál, který umožňuje objevovat nové významy děl a vztahy mezi nimi a podporuje nové přístupy k výzkumu dějin umění. Zvláště významné přínosy pro dějiny umění vyplývají z možnosti virtuálně propojit prostorově rozptýlené zdroje nebo vizualizovat po -
15. Dějiny umění ve věku digitálních humanitních věd
hyb objektů či umělců nebo měnící se umístění institucí, a ukázat tak geografické vztahy ovlivňující umělecké postupy, výstavy atd.
Jsme tedy v podstatě svědky vzniku obrovské a zároveň trvale otevřené výzkumné infrastruktury coby výsledku bezprecedentní publikační ofenzívy, jejíž rozsah a povaha současně stimulují formulování otázek v akademickém prostředí, a tím i spolupráci mezi infrastrukturou a výzkumnými projekty. Připočteme-li k tomu alespoň částečně mizející bariéry pro digitální reprezentaci ve veřejném prostoru v důsledku ochrany autorských práv a s tím související online dostupnost materiálů vytvořených a zpřístupněných v rámci jiných akademických disciplín, 80 je zřejmé, že historikové umění, ať už v roli badatelů nebo dokumentátorů, mají nyní k dispozici možnosti rekonstrukce kontextu vzniku uměleckého díla a jeho zamýšlených funkcí, které jim dříve nebyly nikdy dostupné.
Shrnutí
Je těžké popřít, že rozvoj digitálních nástrojů a zdrojů vedl k proměně „infrastruktury“ dějin umění a v důsledku toho k revizi a modifikaci mnoha metod a postupů v uměleckém výzkumu a způsobů, jakými jsou jeho výsledky prezentovány. Nepochybně také inicioval hlubokou reflexi umění: oboru a v konečném důsledku i způsobů výkonu profese. Přispěl k novým oblastem snažení, od rozsáhlých kampaní na digitalizaci uměleckých děl až po vytváření stále bohatších, uživatelsky přívětivějších databází a online publikací. Vedle značně usnadněného přístupu k reprodukcím děl, písemným a ikonografickým pramenům a literatuře k tématu, který je pro badatele tak důležitý, došlo také k usnadnění zpřístupnění informací o umění širší veřejnosti, která je stále více zvyklá komunikovat se světem prostřednictvím digitálních rozhraní. Tuto perspektivu doplňují digitální obrazy kulturních statků využívané v prostředích virtuální a rozšířené reality. 81 Digitální obraz se tak stal – kromě „náhrady originálu“ dostupné na webu – také důležitým prvkem, který doplňuje a vylepšuje prezentaci objektů in situ nebo ve výstavním prostoru. 82
Intenzivní diskuse probíhají také kolem otázky nových modelů vědeckého publikování v dějinách umění. Tváří v tvář dostupným digitálním aplikacím a možnostem síťového propojení přestává vyhovovat klasická monografie o umělci nebo uměleckém fenoménu založená na eseji a katalogu děl ilustrovaném reprodukcemi malého formátu. 83 Spíše se zdá, že můžeme očekávat optimalizaci výzkumných metod, což je důkazem zásadní změny, která způsobuje revoluci v oboru a jeho základních postupech. 84 Tato změna určuje volbu metod a nástrojů, schémat či modelů na základě analýzy potřeb a mož-
Od Gutenberga k Zuckerbergovi
ností s přihlédnutím k účelu, povaze a množství shromažďovaných dat, předpokládaným způsobům prezentace a metodám vyhledávání, případně i výzkumným otázkám, pokud se tyto týkají dokumentace znalostí, a – v neposlední řadě – technickému a informačnímu zázemí. Za všemi úrovněmi metadat, a to jak z hlediska struktury, tak obsahu, však stojí jedna zásada: „čím více dáš, tím více dostaneš“. 85 To znamená, že čím bohatší a strukturovanější jsou metadata, tím větší je pravděpodobnost, že výsledky provedeného vyhledávání budou shromážděný materiál prezentovat co nejúplněji. Přidání co nejkomplexnějších informací o tématech, místech, osobách nebo časových obdobích tedy znamená, že shromážděné údaje uvidí a bude sdílet a používat více lidí.
Je třeba zdůraznit, že aby bylo všech těchto efektů skutečně dosaženo, je důležité, aby digitalizace kulturního dědictví probíhala v souladu se současným stavem poznání a takzvanými osvědčenými postupy, které zaručují kvalitu digitálních objektů a jejich udržitelnost. Procesy digitalizace musí být dobře naplánovány a realizovány v souladu s přijatými standardy, přičemž nesmí chybět širší reflexe kultury a toho, jakou přidanou hodnotu má její digitalizace přinést. Naděje na vyřešení těchto otázek spočívá mimo jiné ve formulaci a prosazování osvědčených postupů, které by měly poskytnout záruku důvěryhodnosti materiálu zpřístupněného v digitální podobě. Jsou formulována doporučení věnovaná výhradně digitální podobě kulturního dědictví, jako je London Charter for the Computer Based Visualization of Cultural Heritage 8 nebo pokyny pro uchovávání digitálního dědictví. 87 V praktické sféře stanovují technické normy pro digitalizaci kulturních statků různých typů příslušná národní kompetenční centra. V Polsku takovou úlohu plní například Národní institut muzeologie a ochrany sbírek (Narodowy Instytut Muzeów – NIM), v Německu například Německé vědecké společenství (Deutsche Forschung sgemeinschaft DFG).
Digitalizace kulturních statků v nejširším slova smyslu, včetně uměleckých děl, rovněž podléhá stejným pravidlům, která se v současnosti vztahují na veškerý digitální obsah. Patří mezi ně zásady známé pod zkratkami FAIR a CARE. Vyhlášeno v roce 2016. FAIR 88 hovoří o čtyřech požadovaných vlastnostech dat, která by měla být: nalezitelná (searchable), přístupná (accessible), interoperabilní (interoperabilable) a opakovaně použitelná (reusable). CARE, vyvinutý Globální aliancí pro domorodá data (Global Indigenous Data Alliance, GIDA), se zabývá etickými aspekty zpracování dat a zahrnuje čtyři skupiny otázek: kolektivní prospěch ve smyslu společného využívání dat, oprávnění ke kontrole, odpovědnost a etiku. 89
V neposlední řadě je třeba zmínit některé širší problémy, o nichž se dnes diskutuje nejen v oblasti dějin umění, ale i v jiných humanitních oborech. Především se v souvislosti s globálními procesy digitalizace
15. Dějiny umění ve věku digitálních humanitních věd
a standardizace a interoperability dat stává stále aktuálnější otázka interdisciplinarity, a tedy i identity oborů. Ty – jak již bylo ukázáno na příkladu dějin umění – se do jisté míry nově definují, nebo alespoň reflektují změny vyplývající z nových metod a nástrojů. Hledají v nich přidanou hodnotu ve vztahu k možnostem, které existovaly v „analogových dobách“. Současně sílí volání po tom, aby se pojmy „analogový“ a „digitální“ neslučovaly a aby se integrací „tradičních“ a „digitálních“ aspektů ve výzkumu či odborné praxi spoluvytvářely nové, „hybridní“ postupy dělání humanitních věd.90 V tomto pojetí je digitální revoluce chápána jako (další) technologická změna, která však stricto sensu nemění jednotlivé obory. Tento problém výstižně shrnuje Anna Bentkowska-Kafelová, když si klade otázku „Jsem digitální humanitní vědkyně, nebo digitální historička umění, nebo prostě historička umění?“91 Tento diskurz jistě je a v blízké budoucnosti bude jedním z nejzajímavějších vláken podnikaných v rámci humanitních věd i mimo ně.92
POZNÁmK Y
1 Vzhledem k dynamice diskurzu je třeba upozornit, že literatura citovaná v tomto textu má povahu prezentace případových studií a neaspiruje na kritický přehled literatury vztahující se k tématu.
2 BIAŁOSTOCKI, J. a P. SKUBISZEWSKI. Pojęcia, kierunki i metody historii sztuki. In: SKUBISZEWSKI, P. (ed.). Wstęp do historii sztuki. Varšava, 1973, s 197–312.
3 SKUBISZEWSKI, P. O dwóch sposobach uprawiania historii sztuki. Teksty: teoria literatury, krytyka, interpretacja. 1974, č. 5, s. 58.
4 BENJAMIN, W. Das Kunstwerk im Zeitalter seiner technischen Reproduzierbarkeit. In: W. B. Gesammelte Schriften. 1. díl. Frankfurt nad Mohanem, 1980, s. 473.
5 Toto rozlišení je jasně definováno v ontologii Functional Requirements for Bibliographic Records (FRBR), která uvádí čtyři možné formy (entity) fungování produktů ( products) intelektuální nebo umělecké činnosti: dílo (work), vyjádření (expression), provedení (manifestation) a jednotka (item); viz Functional Requirements for Bibliographic Records Final Report, 2008, s. 13–14. Dostupné na WWW: https://www. ifla.org/wp-content/uploads/2019/05/assets/cataloguing/frbr/frbr_2008.pdf (dostup 11 7 2022)
SKUBISZEWSKI, P. O dwóch sposobach… Op. cit., s. 59.
7 Práce na indexu pokračovaly až do 70. let 20. století a vyvrcholily zveřejněním získaných výsledků; viz BUSA, R. The Annals of Humanities Computing: the Index Thomisticus. Computers and the Humanities. 1980, č. 14, s. 83–90. Dostupné na WWW: https://www.alice.id.tue.nl/references/busa-1980.pdf (dostup 15. 09. 2020). Index je nyní k dispozici také v digitální podobě online: https://www.corpusthomisticum.org/ it/index.age (dostup 15 9 2020)
8 Databáze Joconde se vyvíjí od roku 1975. Vznikla jako digitální centrální katalog, který má všem zájemcům usnadnit přístup k informacím o předmětech uložených v institucích se statusem musée de France https://www.culture.gouv.fr/Thematiques/Musees/Pour-les-professionnels/Rendre-les-collections-accessibles-aux-publics/ Assurer-la-diffusion-numerique-des-collections/Participer-a-Joconde-cataloguecollectif-des-collections-des-musees-de-France/https-www.culture.gouv.fr-Sitesthematiques-Musees-V2-Pour-les-professionnels-Tout-savoir-sur-Joconde (dostup 15. 7. 2022). V roce 1995 byla databáze zpřístupněna online: https://www.pop.culture.
Od Gutenberga k Zuckerbergovi
gouv.fr/search/list?base=%5B%22Collections%20des%20mus%C3%A9es%20de%20France%20%28Joconde%29%22%5D (dostup 15 . 7 . 2022) .
9 Digital Art History (Getty Foundation), https://www.getty.edu/foundation/initiatives/current/dah/index.htm l (dostup 15 7 2022)
10 Příklady zahrnují: Památkový rejstřík Národního památkového ústavu (pol. Rejestr Zabytków Narodowego Instytutu Dziedzictwa), https://nid.pl/zasoby/rejestrzabytkow-zasoby/ (dostup 11 . 7 . 2011) .
11 The Corpus of Romanesque Sculpture in Britain and Ireland, https://www. vads.ac.uk/digital/collection/CRSBI (dostup 15. 7. 2022); BENTKOWSKA-KAFEL, A Electronic Corpora of Artefacts: The Example of the Corpus of Romanesque Sculpture in Britain and Ireland. In: GREENGRASS, M., HUGHES, L. (eds.). The Virtual Representation of the Past . 2008, s. 179–190; CLEMENS, H. Zur Geschichte der computergestützten Inventarisation. In: Sammlungsdokumentation. Geschichte, Wege, Beispiele. Berlin, 2001. (MuseumsBausteine; 6).
12 Příklady takových projektů dostupných online: portál poskytovaný NID – https:// mapy.zabytek.gov.pl/nid – který zveřejňuje základní údaje obsažené v polském registru památek; katalog památek Berlína – Denkmaldatenbank des Landesdenkmalamts Berlin, https://www.berlin.de/landesdenkmalamt/denkmale/liste-karte-datenbank/ denkmaldatenbank/; Kulturdenkmälern in Hessen – databanka památek Hesenska, spravovaná Landesamt für Denkmalpflege Hessen, https://denkxweb.denkmalpflegehessen.de/; The Corpus of Romanesque Sculpture in Britain and Ireland, https://www. crsbi.ac.uk/index.php?WINID=160067778030 9 (dostup 15 . 11 . 2020) .
13 Příklady: Bildkatalog Herder Institut in Marburg, Herder-Institut: Bildkatalog; Bildindex für Kunst und Architektur, https://bildindex.de/ (dostup 15 . 7 . 2022) .
14 Nebylo by možné zde neuvést alespoň reprezentativní počet výzkumných projektů v oblasti dějin umění. K mnoha příkladům patří: mezinárodní výzkumný projekt „Forschungsinfrastruktur Kunstdenkmäler in Ostmitteleuropa” (FoKO), který v letech 2014–2018 realizoval Herder Institut v Marburgu ve spolupráci s Deutsche Dokumentationszentrum für Kunstgeschichte – Bildarchiv Foto Marburg, LeibnizInstitut für Geschichte und Kultur des östlichen Europa (GWZO) na univerzitě v Lipsku, akademiemi věd v Polsku, na Slovensku a v Maďarsku, Muzeem paláce Rundale v Lotyšsku a Výzkumným ústavem litevské kultury ve Vilniusu: https://foko-project. eu/ (dostup 11. 7. 2022) a projekt „Gerson Digital“ – ZAUCHA, T. Gerson Digital – cyfrowa monografia historyczno-artystyczna. Muzealnictwo. 2014, č. 55, s. 164–168.
15 Termín informační systém pro musea (Collection management software) označuje digitální infrastrukturu pro dokumentaci, správu a sdílení digitálních muzejních sbirek.
1 Ucelenější přehled tématu v polskojazyčných edicích nabízí knižní edice „Cyfrowe spotkania z zabytkami“, jejímž editorem je Piotr Oszczanowski a autory této eseje (například: HERDEN, E., SEIDEL-GRZESIŃSKA A. a K. STANICKA-BRZEZICKA. (eds.). Dobra kultury w Sieci. Vratislav, 2012 (Cyfrowe spotkania z zabytkami; 3) (Acta Universitatis Wratislaviensis; 3385. Książka, Dokument, Informacja))
17 WRÓBLEWSKA, M. Obraz i metoda. Fotograficzne reprodukcje w warsztacie historyków sztuki w XIX i początkach XX wieku. In: SEIDEL-GRZESIŃSKA A. a K. STANICKA-BRZEZICKA. (eds.). Obraz i metoda. Vratislav, 2014 , s. 58. (Cyfrowe spotkania z zabytkami; 4).
18 KARASCH, A. Architektur- und Kunstgeschichte: Bildrecherche, Abbildungssammlungen und Bilddatenbanken im Überblick . Freiburg: Universitätsbibliothek, 2 001. (UB-Tutor / Universitätsbibliothek Freiburg; 8) (Schriften der Universitätsbibliothek Freiburg im Breisgau; 26).
19 Jedná se o 300 ppi nebo 600 ppi při měřítku mapování 1:1. Viz BUNSCH, E. et al Cyfrowe odwzorowania muzealiów – parametry techniczne, modelowe rozwiązania, Narodowy Instytut Muzealnictwa i Ochrony Zbiorów. Varšava, 2012.
20 Například při dokumentaci Gentského oltářního obrazu, pořízené pro účely konzervace v rámci projektu Blíže k van Eyckovi, pokrýval jeden snímek fotografické dokumentace plochu přibližně 20 x 15 cm a snímky byly pořízeny fotoaparátem s oh-
15. Dějiny umění ve věku digitálních humanitních věd
niskovou vzdáleností 120 mm s digitálním nástavcem (takzvaný digitální zadní fotoaparát) s rozlišením 50 a 100 megapixelů, s velikostí pixelu 7,2 mikronu. ( http://legacy. closertovaneyck.be/#home/sub=method s; dostup 10. 6. 2022); projekt byl realizován ve spolupráci s projektem VERONA, který vedl Královský institut pro kulturní dědictví (KIK-IRPA, Brusel); viz FRANSEN, B., TEMMERMANS, F. a C. CURRIE. Imaging techniques and methodologies for acquisition, processing and distribution of multimodal image data from the oeuvre of Jan van Eyck , Proc. SPIE 11353, Optics, Photonics and Digital Technologies for Imaging Applications VI, 113530C.
21 RIBES, A. et al. Studying That Smile: A tutorial on multispectral imaging of paintings using the Mona Lisa as a case study. IEEE Signal Processing Magazine, August 2008; CARDINALI M. Digital Tools and Technical Views: The Intersection of Digital Art History and Technical Art History in a Digital Archive on the Painting Technique of Caravaggio and His Followers. Visual Resources 2019. Dostupné na WWW: https:// www.academia.edu/39081780/Digital_Tools_and_Technical_Views_The_Intersection_of_Digital_Art_History_and_Technical_Art_History_in_a_Digital_Archive_ on_the_Painting_Technique_of_Caravaggio_and_His_Followers_Visual_Resource s (dostup 15 . 7 . 2022) .
22 Viz například materiály zpřístupněné v rámci projektu Cranach Digital Archive – https://lucascranach.org/en/search/ (dostup 15 . 7 . 2022) .
23 KUŚMIDROWICZ-KRÓL, A. Odwzorowanie cyfrowe dzieła sztuki i techniki multimedialne – perspektywa rozwojowa czy konkurencja dla współczesnego muzealnictwa? In: SEIDEL-GRZESIŃSKA, A. a K. STANICKA-BRZEZICKA (eds.). Nowoczesne metody gromadzenia i udostępniania wiedzy o zabytkach, Vratislav, 2008. s. 121–130. (Cyfrowe spotkania z zabytkami; 1).
24 HESS, M. 3D Laser Scanning. In: BENTKOWSKA-KAFEL, A. a L. MACDONALD (eds.). Digital Techniques for Documenting and Preserving Cultural Heritage . Kalamazoo-Bradford, 2017, s. 199–206; PAVLIDIS, G. a ROYO S. 3D Depth Sensing. Tamtéž, s. 195–198; BUNSCH, E. Kryteria doboru techniki 3D do dokumentacji obiektów dziedzictwa kulturowego. Varšava: Narodowy Instytut Muzealnictwa i Ochrony Zbiorów, 2014; SITNIK, R. a M. KARASZEWSKI. Automated processing of data from 3D scanning of cultural heritage objects. Lecture Notes in Computer Science. 6436, Berlin–Heidelberg, 2010, s. 28–41.
25 YAAGOUBI, R. a Y. MIKY. Developing a combined Light Detecting And Ranging (LiDAR) and Building Information Modeling (BIM) approach for documentation and deformation assessment of Historical Buildings. In: MATEC Web of Conferences 149, 02011 (2018). Dostupné na WWW: https://www.matec-conferences.org/articles/matecconf/pdf/2018/08/matecconf_cmss2018_02011.pdf (dostup 15. 7. 2022); HAUCK, O. a P. KUROCZYŃSKI. Cultural Heritage Markup Language – Designing A Domain Ontology For Digital Reconstructions. In: Virtual Archaeology. Methods and benefits. Proceedings of the Second International Conference, the State Hermitage Museum, 1.– 3. června 2015, s. 251. Dostupné na WWW: https://www.academia.edu/25387608/ CULTURAL_HERITAGE_MARKUP_LANGUAGE_DESIGNING_A_DOMAIN_ ONTOLOGY_FOR_DIGITAL_RECONSTRUCTIONS (dostup 15 . 7 . 2022) .
2 KARASZEWSKI, M. et al. In the Pursuit of Perfect 3D Digitization of Surfaces of Paintings: Geometry and Color Optimization. In: IOANNIDES, M. et al. (eds). Digital Heritage. Progress in Cultural Heritage: Documentation, Preservation, and Protection. EuroMed 2014 Lecture Notes in Computer Science, č. 8740. Dostupné na WWW: https://link.springer.com/chapter/10.1007/978-3-319-13695-0_ 3 (dostup 12 . 7 . 2022) .
27 Použité fotografie pocházejí z pozůstalosti dvou vědců: Williho Drosta a Ericha Keysera; v současné době jsou uloženy ve sbírce Herder Institut v Marburgu. Viz také: DARECKA, K. a I. JASTRZEMBSKA-OLKOWSKA. Dwór Artusa w Gdańsku. Straty wojenne. Dostupné na WWW: https://muzeumgdansk.pl/fileadmin/user_upload/Straty_wojenne_Dwor_Artusa_2020.pdf (dostup 12 . 7 . 2022) .
28 V angličtině se rozlišuje mezi pojmy digitisation a digitalisation; viz také Schelbert, G. Digital Art History – Digitale Kunstgeschichte, Überlegungen zum aktuellen Stand. In: KUROCZYŃSKI, P., BELL, P. a L. DIECKMANN (eds.). Computing Art
Od Gutenberga k Zuckerbergovi
Reader: Einführung in die digitale Kunstgeschichte, Heidelberg: arthistoricum.net, 2018. (Computing in Art and Architecture; 1), s. 40–57. Dostupné na WWW: https:// doi.org/10.11588/arthistoricum.413.c576 8 (dostup 12 7 2022)
29 BENTKOWSKA-KAFEL, A. Debating Digital Art History. International Journal for Digital Art History. 2015, č. 1, s. 5–65. Dostupné na WWW:https://www.researchgate.net/publication/306399573_Debating_Digital_Art_History (dostup 20 7 2022)
30 V uměleckohistorických projektech se používají především: Techlogie Zoomify ( http://www.zoomify.com/about.htm), systém IIPImage (IIPImage (sourceforge.io) a standard IIIF ( https://iiif.io/ ) (12 . 7 . 2022) .
31 ASMUS, J. F. Computer Studies of The Isleworth and Louvre Mona Lisas Optical Engineering. 28 (7), 287800 (dostup 1. 7. 1989).
32 ASMUS, J. F. a N. P. KATZ. Digital Image Processing Applied To Problems In Art And Archaeology. Proc. SPIE 0974, Applications Of Digital Image Processing XI, (1 . 12 . 1988) .
33 FOKA, A. Applications for Art History: Reflections and paradigms for future research, In: Proceedings of EVA London 2021 (EVA 2021), s. 73-79. Dostupné na WWW: https://www.scienceopen.com/hosted-document?doi=10.14236/ewic/EVA2021.1 2 (dostup 15 7 2022)
34 Například projekt „iART”, https://www.iart.vision/ (dostup 12. 7. 2022), projekt „Künstliches und künstlerisches Sehen”, https://hci.iwr.uni-heidelberg.de/content/ k%C3%BCnstliches-und-k%C3%BCnstlerisches-sehen-computer-vison-und-kunstgeschichte-methodisch (dostup 12. 1. 2024), projekt „Iconographics”, https://www. ca.phil.fau.de/forschung/projekte/iconographics/ (dostup 21 7 2022)
35 Uncovering da Vinci’s Mona Lisa – Canada.ca – https://www.canada.ca/en/news/ archive/2006/09/uncovering-da-vinci-mona-lisa.htm l (dostup 21 7 2022)
3 MODZELEWSKA, E. a R. SITNIK. Odwzorowanie powierzchni obiektu zabytkowego za pomocą skanu 3D. In: Nowoczesne metody gromadzenia i udostępnienia wiedzy o zabytkach… Op. cit., s. 147–156; BUNSCH, E. a R. SITNIK. W stronę obiektywnej dokumentacji dzieła sztuki – praktyczne wykorzystanie skanerów z oświetleniem strukturalnym Tamtéž, s. 157–162.
37 Building Information Modelling; HAUCK, O. a P. KUROCZYNSKI. Cultural Heritage Markup Language – Designing A Domain Ontology For Digital Reconstructions. In: Virtual Archaeology Op. cit.
38 Geografický informační systém.
39 HAUCK, O. The use of images as resources and output result in a computer based light simulation of Justinian‘s Hagia Sophia in Istanbul . In: Obraz i metoda… Op. cit., s. 201–211; STEFAŃSKI, K. a R. SZRAJBER. Łódzkie synagogi. Wirtualne dziedzictwo „zaginionej dzielnicy”. Lodž 2009, s. 79–89.
40 Viz mimo jiné SCHLOEN, D. a S. SCHLOEN. Beyond Gutenberg: Transcending the Document Paradigm in Digital Humanities DHQ: Digital Humanities Quarterly. 2014, roč. 8 č. 4. Dostupné na WWW: http://www.digitalhumanities.org/dhq/ vol/8/4/000196/000196.htm l (dostup 21 7 2022)
41 Například Parker Library on the Web: https://parker.stanford.edu/parker/ (dostup 21 . 7 . 2022) .
42 HAUCK, O. a P. KUROCZYNSKI. Cultural Heritage Markup Language – Designing A Domain Ontology For Digital Reconstructions. In: Virtual Archaeology… Op. cit.
43 ht tps://www.getty.edu/research/tools/provenance/search.html (dostup 9 . . 2022) .
44 Často se také odkazuje na „metadatové standardy“.
45 https://icom.museum/en/resources/standards-guidelines/objectid/ (dostup 29 . 2022)
4 https://www.getty.edu/research/publications/electronic_publications/cdwa/ (dostup 27. 6. 2022). Mezi další oblíbené programy patří např: Cataloging Cultural Objects CCO pro popis a katalogizaci kulturních děl a jejich vizuálních reprezentací. Vyznačuje se především univerzálností použití – kromě dokumentace klasických uměleckých předmětů lze schéma použít například k popisu rukopisů, fotografií, různých vizuálních médií, archeologických artefaktů a hmotné kultury: https://www.vraweb.
org/cc o; VRA – schéma VRA slouží k popisu děl vizuální kultury a obrazů, které je dokumentují. VRA Core, vydává Network Development and MARC Standards Office Kongresové knihovny (Library of Congress) ve spolupráci s Asociací Visual Resources Association: https://www.loc.gov/standards/vracore/ (dostup 29 . 2022)
47 HEUSINGER, L. et al . Marburger Informations-, Dokumentations- und Administrations-System, Handbuch. Mnichov, Lipsko 1994.
48 Založena jako J. Paul Getty Trust v roce 1982.
49 Viz mimo jiné FANIZZO, K. Y. Object ID: A Model of Global Collaboration. Journal of Museum Management and Curatorship@. 2005, roč. 20, č. 21. Dostupné na SSRN: https://ssrn.com/abstract=1661974 (dostup 29 . . 2022) .
50 Po určitou dobu Getty nabízela také wesja CDWA Lite – https://www.getty.edu/ research/publications/electronic_publications/cdwa/cdwalite.htm l (dostup 29 . . 2022 – zjednodušené schéma XML pro popis základních záznamů o uměleckých dílech a materiální kultuře s 22 kategoriemi, včetně 19 pro popisná metadata a 3 pro administrativní metadata. V roce 2010. CDWA Lite bylo rozšířeno a začleněno do schématu LIDO (Lightweight Information Describing Objects).
51 CHIN guide to museum standards, 2019, https://publications.gc.ca/site/ eng/9.905402/publication.htm l (dostup 29 . 2022)
52 HARPRING, P. a M. BACA (eds.). Categories For The Description Of Works Of Art (CDWA). List of Categories and Definitions (2022). Dostupné na WWW: https://www. getty.edu/research/publications/electronic_publications/cdwa/definitions.pdf (dostup 21 . 7 . 2022) .
53 https://cidoc-crm.org/ (dostup 04 7 2022)
54 KAILUS, A. a R. STEIN. Besser vernetzt: Über den Mehrwert von Standards und Normdaten zur Bilderschließung. In: KUROCZYNSKI P., P. BELL, P. a L. DIECKMANN (eds.). Computing Art Reader: Einführung in die digitale Kunstgeschichte… , Op. cit.
55 Příkladem projektu využívajícího možnosti sémantického webu je „Benátský stroj času“ („Venice Time Machine“): https://www.timemachine.eu/venice-time-machine-project-current-state-of-affairs/ (dostup 22 7 2022)
5 COBURN, E., LIGHT, R., MCKENNA, G, STEIN, R. a A. VITZTHUM. LIDO – Lightweight Information Describing Objects Version 0.9. 2010. Dostupné na WWW: http://www.lido-schema.org/schema/v0.9/lido-v0.9-specification.pdf (dostup 22 . 7 . 2022) .
57 KNAUS, G., KAILUS, A. a R. STEIN. LIDO-Handbuch für die Erfassung und Publikation von Metadaten zu kulturellen Objekten. Bd. 2: Malerei und Skulptur, Heidelberg: arthistoricum.net 2022 (LIDO-Handbuch, 2). Dostupné na WWW: https:// doi.org/10.11588/arthistoricum.102 (dostup 22 7 2022)
58 Software byl vyvinut v rámci výzkumného projektu financovaného Deustche Forschungsgemeinschaft v letech 2009-2016 ve spolupráci Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), Germanisches Nationalmuseum (GNM) a Zoologisches Forschungsmuseum Alexander Koenig (ZFMK).
59 https://www.gnm.de/your-museum-in-nuremberg/research/archive-researchprojects/wissk i (dostup 22. 7. 2022); viz také Netzwerk WissKI – https://www.arthistoricum.net/netzwerke/wissk i (dostup 22 7 2022)
0 Viz mimo jiné K. REINFANDT, K a M. FICHTNER, Einführung in WissKI – Wissenschaftliche Kommunikationsinfrastruktur (2017), https://objekte-im-netz. fau.de/projekt/sites/default/files/2017-10/2017-10-04_WissKI_Handbuch_Draft.pdf (13. 7. 2022), https://www.gnm.de/forschung/archiv/wisski/ (dostup 13 7 2022)
1 https://www.wikimedia.de/projects/wikibase/ (dostup 13 7 2022)
2 Viz mimo jiné: HARPING, R. Controlled Vocabularies. Terminology for Art, Architecture, and Other Cultural Works, Getty Research Institute 2010; Guidelines for Multilingual Thesauri by Working Group on Guidelines for Multilingual Thesauri (IFLA Professional Reports 115), https://repository.ifla.org/bitstream/123456789/631/1/iflaprofessional-reports-nr-115-en.pdf (dostup 22 7 2022)
3 https://www.getty.edu/research/tools/vocabularies/ (dostup 22 . 7 . 2022) .
4 https://collectionstrust.org.uk/resource/materials-thesaurus-british-museum/ (dostup 22 7 2022)
5 https://nmm.pl/2013/05/20/digizaurus-pierwszy-tezaurus-opracowany-przezmiedzymuzealna-grupe-ds-digitalizacji-digimuz/ (dostup 22 . 7 . 2022) . 7 https://www.getty.edu/research/tools/vocabularies/aat/ (dostup . 7 2022) 8 Zvláštním případem je Art and Architecture Thesaurus (AAT), který je díky své popularitě jako nástroj na podporu shromažďování a vytváření znalostí nejen v rámci dějin umění, ale i v příbuzných oborech, v současné době překládán do mnoha evropských jazyků, jako je francouzština, nizozemština, němčina, španělština, italština), a dokonce i do mimoevropských jazyků (čínština). Mnoho lokálních slovníků je na něj také namapováno a/nebo využívá strukturní a klasifikační schémata, která AAT nabízí.
9 http://viaf.org/ (dostup . 7 . 2022) .
70 https://www.getty.edu/research/tools/vocabularies/cona/index.htm l
71 https://www.getty.edu/research/tools/vocabularies/ulan/index.htm l (dostup . 7 . 2022) .
72 https://www.dnb.de/DE/Professionell/Standardisierung/GND/gnd_node.htm l (dostup . 7 . 2022) .
73 KUROCZYŃSKI, P. Problemy i potencjał cyfrowej rekonstrukcji architektury na przykładzie projektu zrekonstruowania dwutysiącletniej historii Bazyliki św. Piotra w Watykanie i osiemsetpięćdziesięcioletniego rozwoju Kremla w Moskwie. In: Nowoczesne metody gromadzenia i udostępniania wiedzy o zabytkach… Op. cit., s. 166.
74 BRACHT, Ch. Foto Marburg. Ein klassisches Bildarchiv und die digitale Bilderwelt. In: ZIEHE, I. a U. HÄGELE (eds.). Digitale Fotografie. Kulturelle Praxen eines neuen Mediums. Visuelle Kultur. Studien und Materialien, Bd. 4. Münster, 2009, s. 157–166.
75 https://www.prometheus-bildarchiv.de/ (dostup 7 . 2022)
7 https://research.rkd.nl/ (dostup 14 . 7 . 2022) .
77 Například na portálech poskytovaných iniciativou Wissenschaftliche Sammlungen: https://portal.wissenschaftliche-sammlungen.de/ (dostup 7 . 2022)
78 https://mcid.mcah.columbia.edu/art-atlas/mapping-gothic (dostup 9 . . 2022) .
79 https://sites.google.com/g.ucla.edu/albrezzi/digital-portfolio/digital-art-history/ digital-mellin i (dostup 9 . . 2022) .
80 Máme zde na mysli především digitální knihovny, repozitáře vědeckých prací a mapové služby typu GIS, které prezentují staré i současné mapy a umožňují propojení map s atributovými údaji, jako je portál mapire, https://maps.arcanum.com/de/ (dostup 14 7 2022)
81 Přehled současných řešení v Německu nabízí projekt museum4punkt0.de, https:// www.museum4punkt0.de/teilprojekte/ (dostup 12 7 2022)
82 SIEKAŃSKI, P., BUNSCH, E. a R. SITNIK. Seeing the past: An augmented reality application for visualization the previous state of cultural heritage locations. In: Proc. IS&T Int’l. Symp. on Electronic Imaging: The Engineering Reality of Virtual Reality, 2018, s. 452-1-452-4.
83 M. CARDINALI, Digital Tools and Technical Views: The Intersection of Digital Art History and Technical Art History in a Digital Archive on the Painting Technique of Caravaggio and His Followers, Visual Resources, (2019) 35:1-2, 52-73, zde s. 53. https://www.academia.edu/39081780/Digital_Tools_and_Technical_Views_The_Intersection_%20of_Digital_Art_History_and_Technical_Art_History_in_a_Digital_ Archive_%20on_the_Painting_Technique_of_Caravaggio_and_His_Followers_Visual_Resource s (dostup 14 . 7 . 2022) .
84 DRUCKER, J., HELMREICH, A., LINCOLN, M. a F. ROSE. Digital art history: the American scene, Perspective. Actualité en histoire de l’art. 2 (2015), https://journals.openedition.org/perspective/6021 (dostup 9 . . 2022) .
85 DALEY, B., SCHOZ, H. a V. CHARLES. Introducing the quality standard for
15. Dějiny umění ve věku digitálních humanitních věd
cultural heritage metadata. Dostupné na WWW: https://pro.europeana.eu/post/introducing-the-quality-standard-for-cultural-heritage-metadat a (dostup . 7 . 2022) .
8 https://www.londoncharter.org/ (dostup 14 7 2022)
87 Guidelines for the preservation of digital heritage, vypracovaném Australskou národní knihovnou (2003), https://unesdoc.unesco.org/ark:/48223/pf0000130071 (dostup 14 7 2022)
88 WILKINSON, M. D. et al., The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016). Dostupné na WWW: https://www. nature.com/articles/sdata201618 (dostup 10 . . 2022) .
89 CARROL, S. R. et al. The CARE Principles for Indigenous Data Governance. Data Science Journal (2020) 19 (1), s. 43. DOI: http://doi.org/10.5334/dsj-2020-04 3 (dostup 10 .0 .2022) .
90 ZAAGSMA, G. On Digital History. BMGN – Low Countries Historical Review (2013), roč. 128, č. 4, s. 3–29.
91 BENTKOWSKA-KAFEL, A. Debating Digital Art History… Op. cit.
92 ZWEIG, B. Forgotten Genealogies: Brief Reflections on the History of Digital Art History. International Journal for Digital Art History. 2015, č. 1.
Kunstdenkmäler in Ostmitteleuropa, https://foko-project.eu/#/
15.1. Příklad databáze, Forschungsinfrastruktur
object/de/foko_Object43a89?q=unser%20lieben%20frau&id=foko_Object43a8 9 (2023-08-11)
Ilustracja 15.2. Příklad tezauru - Cultural Heritage Thesaurus, https:// danecyfrowe.uni.wroc.pl/midas-browser/wholeHierarchy.htm?searchText =budowla+ogrodowa&department=none&mainHierarchyAspect=0101 (2023-09-30)
Kapitola 1
Hry a digitální humanitní vědy: metody analýzy digitálních herních objektů
Herní studia, tedy institucionalizovaný, systematický akademický obor zaměřený na analýzu her – digitálních i tradičních – nepředstavují odnož digitálních humanitních věd v užším slova smyslu, pokud tímto pojmem rozumíme počítačem podporované výzkumné metody. Digitální nástroje samozřejmě využívají jak pro sběr dat, tak pro jejich zpracování, ale nemají vypracovanou metodiku pro přímou analýzu her, která by byla založena na využití počítačem asistované analýzy. Místo toho se v mnoha oblastech spoléhá na tradiční nástroje humanitních a sociálních věd.
To však neznamená, že by propojení herních studií s digitálních humanitních věd bylo náhodné nebo chybné. Tato disciplína se rozvíjela v těsné souvislosti s vývojem zábavního softwaru a studium digitálních her je stále nejbohatší a nejdůležitější oblastí zájmu této disciplíny. Zaměřuje velkou pozornost na vztah mezi algoritmem a lidskou zkušeností, softwarem a kulturou a počítači a životním prostředím. To je důležité, protože digitální hry jsou prvním globálním a digitálním kulturním fenoménem a v mnoha případech předzvěstí budoucích civilizačních změn a lakmusovým papírkem společenské a ekonomické transformace – stačí říci, že z herní kultury se zrodila nejedna součást každodenní praxe veřejného života, od sbírání bodů za nákupy až po nový způsob prezentace konspiračních teorií. V tomto smyslu – tedy zaměření na vlastnosti objektu výzkumu, jak je odhaluje jeho digitální povaha – se tedy gamifikace odnoží digitálních humanitních věd stává .
Následující nástin samozřejmě nepokrývá celý komplex současných herních studií, které zahrnují analýzu místa her v současné
Od Gutenberga k Zuckerbergovi
kultuře a zábavě, studium jejich historie, zkoumání jejich výrobních a distribučních postupů, způsobů užití, psychologického a pedagogického působení. A také způsoby, jimiž hry vytvářejí význam, postupy jejich interpretace, ontologický status digitálních objektů a další. Z tohoto bohatství vybírám vlákno, které se zdá být nejbližší digitálním humanitním vědám, které souvisí s přechodem od tradiční k digitální formě hry a nejistotami spojenými s metodami analýzy zkušenosti hraní s nástroji humanitních věd zaměřenými na její interpretaci.
Perspektivy herních studií
Dějiny moderních humanistických herních studií, které se institucionálně nazývají gamifikace, jsou neoddělitelně spjaty s nástupem komputerizace a rozšířením zábavního softwaru v 80. letech 20. století. Je v tom jistý paradox, neboť hry jsou stejně tak věčnou jako významnou součástí lidské kultury a provázejí neodmyslitelně vývoj civilizace. Herní desky byly vykopány z egyptských a sumerských hrobek, lidové praktiky Středoameričanů přitahovaly pozornost misionářů zapojených do četných dobývání, hry sloužily k uplatňování moci ve starověké Číně a v královstvích střední Afriky, ohromovaly dvory renesanční Evropy, pomáhaly při výcviku pruských důstojníků pro válku s Francií a poskytovaly materiál avantgardním umělcům. Obrazy hráčů zdobily řecké vázy a plátna italských mistrů a provozování hazardních her bylo půvabným námětem pro literaturu a film nebo důvodem k reptání přísných moralistů. Hazardní hry spojovaly generace, rozdělovaly společenské třídy a vedly k různým technickým inovacím – a také k podvodům, jako byl nechvalně proslulý šachový mechanický stroj známý jako Turek, který na úsvitu novověku ohromoval Evropu.
Z různých důvodů se však tato hojná a člověka neustále provázející oblast kultury dostala spíše na okraj zájmu badatelů reprezentujících různé humanitní obory a perspektivy: ve dvacátém století se jí nejčastěji zabývali teoretici kultury, historici a filozofové, byla také zdrojem metafor, které ochotně využívali literární vědci.1 Nevyvinula se však jako ucelená disciplinární oblast, v níž by docházelo k pravidelné výměně výsledků výzkumu, s výjimkou studií v oblasti aplikace her ve vzdělávání, soustavně rozvíjených od 60. let 20. století.
To se změnilo koncem 90. let 20. století, kdy vzrostl zájem o digitální gramotnost a u domácích počítačů rychle rostly možnosti zobrazovat grafiku a simulovat fyziku. Zjištění, že se tyto dvě roztříštěné oblasti spojují na půdě digitálních her, rychle rostoucího a stále výnosnějšího zábavního průmyslu, vedlo k prvním systematickým stu-
16. Hry a digitální humanitní vědy…
diím o nich, které vyústily k vytvoření institucionální infrastruktury – časopisů, konferencí, kateder a univerzitních studijních programů. Tyto rané – i když samozřejmě ne bezprecedentní – úvahy o povaze digitálních her lze zhruba rozdělit do dvou táborů, přičemž oba vyrůstají z literární vědy.2 První z nich identifikoval hry jako předchůdce nových narativních postupů , které mění způsob interakce čtenáře s textem: zajímal se o vliv her na prožitek příběhu a o místo této formy v komplikujícím se mediálním systému. 3 Zahrnutí her do širších úvah o současných narativních postupech se ukázalo jako relevantní pro návrhy prosazující posun od dříve lineárního vyprávění k zápletkám složeným z mřížky fragmentů, tvořících celkově sdílené příběhové světy, které překračují nejen hranice jednoho textu, ale dokonce i jednoho média.4 Rostoucí výpočetní potenciál počítačů a interaktivita zábavního softwaru – čímž je myšleno to, že hra dynamicky reaguje na hráčovy příkazy – otevřely perspektivu úvah o nové narativní praxi založené na poetice imerze, tedy dojmu přímé, nezprostředkované účasti na fikčním světě a událostech, a přenechání role spolutvůrce událostí odehrávajících se v příběhu účastníkovi s tím, že plně imerzivní a interaktivní vyprávění bude možné až v budoucnosti a že hry ještě nemají svého Cervantese, natož Dostojevského. 5
Toto je první perspektiva. Východisko poznatků druhého tábora bylo dosti podobné a rovněž vycházelo z úvah o interaktivitě. Badatelé reprezentující tento tábor – budoucí zakladatelé systematického vyprávění – se však nezajímali ani tak o důsledky nového způsobu vyprávění pro narativní umění a místo her v mediálním systému, jako spíše o samotná pravidla tvorby obsahu interaktivním softwarem. Zde se soustředili na pravidla a algoritmy, které v hráči vyvolávají dojem, že události jsou hráčem diktovány, nebo dokonce vyplývají z jeho vlastních rozhodnutí. Otázky estetického prožitku byly v tomto pohledu odsunuty do pozadí a ustoupily spíše problému kauzality a analýze pravidel než účinkům herní produkce obsahu. Odtud pochází i název, který se pro tento postup vžil – ludologie, neboli studium her zaměřené na popis „srdce hernosti“7, tedy základních vlastností zábavního softwaru analyzovaných odděleně od jeho imerzivních či narativních vlastností.
Tato dvojí perspektiva, po určitou dobu dokonce popisovaná v rámci jistého vědeckého sporu, je základem soudobé herní reflexe, která si dnes mnohem více uvědomuje komplexnost digitálních objektů tradičně označovaných jako „hry“, rozmanitost jejich vztahu k uživateli a rozsah kulturních proměn, které vyvolaly. 8
Od Gutenberga k Zuckerbergovi
Od hry k hratelnému
digitálnímu artefaktu
Studium her samozřejmě vyžaduje vyjasnění předmětu zkoumání. Intuice by napovídala, že pojem „digitální hra“ by měl být chápán jako „podmnožina širší kategorie her realizovaných pomocí počítačového softwaru“. Tato definice však není zcela šťastná, a to ze dvou důležitých důvodů.
Prvním je problematická kategorie hry, která v běžném jazyce zahrnuje jevy velmi různorodé, dokonce tak různorodé, že Ludwig Wittgenstein hru použil jako pojem odhalující nedostatky klasické kategorizace založené na katalogu nutných a postačujících znaků pro zařazení něčeho jako hry 9 – což vyvolalo desítky polemik. Podrobná rekapitulace různých pokusů o definici hry zřejmě přesahuje rámec tohoto nástinu, ale stojí za to poukázat na dvě nejdůležitější tendence: tedy chápat ji jako činnost se specifickými pravidly, nebo jako kategorii objektů . Obojí je přítomno v každodenním jazyce: když si koupím „novou deskovou hru“, mám na mysli soubor hratelných předmětů uzavřených v kartonové krabici. Podobně digitální herní platformy prodávají počítačový software. Když se však učím pravidla tradiční karetní hry – pokeru, dámy, bridže nebo žolíka – neočekávám přece speciální balíček, ale návod, jak zacházet s klasickou sadou 52 karet ve čtyřech barvách. Existují také hry, které se obejdou bez speciálních rekvizit: ve vyprávěcích hrách na hrdiny jsou kostky, karty nebo tužky bezpochyby užitečné, ale pro hru založenou na rozhovoru účastníků není nic z toho nutné. Zkušení šachisté mohou hrát hry po paměti, aniž by používali hmotnou šachovnici, a mnoho dětských pohybových her, jako je například hra na babu nebo schovávaná, vyžaduje pouze prostor pro běh. Hra na bobříka mlčení se dokonce obejde i bez něj.
Je proto lákavé ztotožnit kategorii hry se souborem pravidel, která někdy určují, jak lze určité rekvizity použít. To je ovšem vágní, když si uvědomíme, že pravidla omezující používání různých předmětů nemají jen hry, ale také doprava nebo stolování v restauraci. Proto se s hrami často spojuje kategorie zábavy – dobrovolná činnost, která se vykonává sama pro sebe, za účelem pobavení. V takových přístupech, přítomných například ve spisech autorů považovaných prvními hráči za prototypy této disciplíny – Johanna Huizingy 10 nebo Rogera Cailloise11 – se hra stává hrou strukturovanou pravidly, často vyžadující specifické materiální komponenty. Jednalo by se tedy o hru – algoritmus hry.
Zde se ukazuje význam digitálních nástrojů. Raná herní reflexe snadno akceptovala, že mezi fungováním počítačů a her existuje strukturální podobnost. Jako algoritmické formy se vyznačují vzájemnou převoditelností a podobnou logikou konstrukce: tradiční
16. Hry a digitální humanitní vědy…
hra a počítačový program jsou soubory pravidel pro interakci různých objektů. Pravděpodobně proto se vazby mezi herní kulturou a komputerizací objevily velmi brzy: již v roce 1947 Alan Turing postuloval program, který by umožnil hrát šachy s počítačem (v té době nemožné kvůli technologickým omezením), a nejoblíbenějším způsobem veřejné demonstrace výpočetních schopností raných počítačů byla hra piškvorky. Hry také neodmyslitelně provázely komputerizaci univerzit, kde byl vyvinut nejstarší zábavní software. Přispěly k popularizaci domácích počítačů a dodnes jsou jedním z hlavních důvodů prudkého rozvoje osobních počítačů a konzolí.12 Tento snadno pozorovatelný vztah někdy vede badatele k radikálním závěrům. Například, že digitální hry jsou prakticky totožné s hrami bez počítače a že nejdůležitějším rozdílem mezi nimi je rychlost výpočtů, což má za následek rostoucí složitost pravidel.13
V jistém smyslu je však každý počítačový program hrou: má algoritmy, které určují pravidla interakce mezi jeho jednotlivými prvky a způsoby, jakými je lze používat. Jak lze tedy odlišit podkategorii „digitálních her“ od veškerého softwaru, aniž bychom se museli uchýlit pouze k informacím poskytovaným výrobci? Opět je lákavé rozlišovat na základě kategorie zábavy: digitální hry jí slouží, ostatní software nikoli. To však brzy vede na scestí. Existuje obrovské množství programů, které lze využít pro účely zábavy: streamovací platformy, sociální sítě, dokonce i starý dobrý textový editor, v němž můžete pro zábavu psát fanouškovské romány. Proto je potřeba rozlišovat další věci.
Zajímavý a zároveň provokativní návrh předložil Velli-Matti Karhulahti, který definuje „digitální hru“14 jako specifický typ softwaru, který v reálném čase provádí zjevné hodnocení toho, jak uživatel využívá funkce softwaru . 15 Ačkoli se jeho článek zabývá rozlišením mezi „hrou“ obecně a „digitální hrou“ konkrétně (a představuje tak polemiku s dříve artikulovaným přesvědčením o totožnosti těchto forem), zdá se, že je užitečný i ve snaze odlišit tuto kategorii od obecnější třídy softwaru. Hodnocení samozřejmě není v digitální kultuře nic neobvyklého a o programy, které hodnotí různé aspekty výkonnosti svých uživatelů, není nouze: pomáhají nám hlídat si jídelníček, ujít denně určitý počet kroků, přečíst stanovený počet stránek nebo měří, kolik času jste jejich používáním strávili.
Ani tato poslední kategorie však není hodnocením toho, jak je softwarová funkce používána: měří parametr, který je vůči ní vnější (čas). Blíže k hrám by měl vzdělávací software, který pomocí různých testů hodnotí znalosti a dovednosti svého uživatele. Do této kategorie patří také aplikace, které pomáhají při překladu nebo navrhují stylistická řešení v psaném textu a kontrolují jeho soulad s jazykovou normou. Opět však platí, že znalosti uživatele (o tom, jak by měl být text napsán či cokoli jiného) nejsou funkcí softwaru.
Od Gutenberga k Zuckerbergovi
V případě digitální hry jsou akce, které podléhají průběžnému a explicitnímu hodnocení, navrženy samotným algoritmem: hráč se je naučí pro účely hry, poté tyto znalosti použije a následně je vyhodnocen. Pokud tedy hra vyžaduje, aby se hráč pohyboval v digitálním světě, nejprve ho informuje, jak to má dělat, a poté vyhodnocuje, zda tyto znalosti efektivně využívá. Někdy tak činí binárně (pohybuji se nebo stojím na místě), někdy však nabízí složitější kvantifikace (umístím se v závodě na určitém místě, získám určitý počet bodů).
Digitální hra tedy nejen umožňuje provádět digitální simulaci nějaké činnosti, ale také hodnotí efektivitu uživatele při jejím provádění. Nebo jednodušeji řečeno: učí používat sebe sama, aby mohla hodnotit pokrok v tomto učení . Taková definice má dvě další výhody. Zaprvé umožňuje vidět prvky digitálních her v softwaru, který se obvykle nespojuje se zábavou, například v návodech k aplikačnímu softwaru nebo v různých praktikách gamifikace, a tím je otevírá kritice.
Za druhé, a z tohoto pohledu je to důležitější, upozorňuje na fakt, že mnoho prvků aplikací běžně označovaných jako hry není herních: software označovaný jako „digitální hry“ obsahuje také filmové sekvence, nehodnotitelné funkce, automaticky přehrávané sekvence atd. Případ lze tedy formulovat následovně: zábavní software, běžně označovaný jako „digitální hry“, skutečně takové hry obsahuje, ale často jsou pouze jednou ze složek, a to ne vždy tou nejpodstatnější. Proto se někteří hráči domnívají, že jde o historický název (kdysi dávno, v dobách hracích automatů a prvních domácích konzolí, byly hry skutečně hrami), ale moderní produkci se raději říká digitální hratelné artefakty (digital playable artifacts)1 – i když samozřejmě naprostá většina si i dnes zachovává herní složku.
Je také třeba mít na paměti, že ačkoli by výše uvedená argumentace mohla vyvolat dojem určité homogenity jevů, které hráči studují, ve skutečnosti jsou velmi rozmanité: existují hry pro jednoho i více hráčů, určené pro různé typy digitálních zařízení, zaměřené na jednoduché úkoly a představující rozmanité světy, v nichž se odehrávají někdy až příliš komplikované zápletky, a dokonce i hry, které se „hrají samy“ a nevyžadují hráčovu aktivitu. Každá z těchto ludických forem má samozřejmě svá specifika, ale existují společné rysy, které umožňují použít při jejich popisu podobné analytické metody.
Algoritmické narativní formy
První výsledky herních studií poměrně rychle ukázaly, že redukce studia digitálních her pouze na jeden jejich aspekt směřuje na vědomostní scestí, a že metody analýzy by měly brát v úvahu audiovizu-
16. Hry a digitální humanitní vědy…
ální, narativní, algoritmické aspekty – a možná i strukturu programu a konfigurace platformy, díky nimž je hra umožněna. Výzkumné postupy tak někdy oddělují různé úrovně fungování hry, které jsou ovšem v herní praxi nahlíženy holisticky. Jejich oddělení však napomáhá analytické práci. Obvykle se předpokládá, že je třeba vzít v úvahu tři nebo čtyři takové úrovně – příběhovou, audiovizuální a související s pravidly a herní praxí, někdy pojednávané společně, jindy odděleně.17 I když nejpečlivější modely jich vyjmenovávají až sedm, počínaje hardwarovou úrovní a konče sociokulturním kontextem hry.18
Audiovizuální analýza je relativně nejjednodušší: zahrnuje prezentaci hry a často čerpá z výdobytků výtvarného umění. Kromě klasických otázek souvisejících s estetickými a hudebními konvencemi, které hra používá, přináší dva problémy specifické pro hry. Prvním je závislost audiovizuální prezentace na hardwaru a způsobu, jakým hráč používá software. Vzhledem k rozdílům ve výpočetních možnostech různých platforem nabízí většina her dostupných pro osobní počítače a konzole (ale také některé pro mobilní zařízení) řadu nastavení kvality grafiky a zvuku , která mohou zásadně ovlivnit vnímání daného titulu, například odstraněním detailů nebo úpravou plynulosti pohybu kamery. Ačkoli takové změny nemají vliv na hratelnost nebo příběh hry, ovlivňují pocit věrohodnosti prostoru prezentovaného ve hře a estetický zážitek, který hra vyvolává.
Kromě možnosti měnit parametry zobrazení nabízí mnoho her další způsob zásahu do audiovizuálního zážitku: změnu úhlu pohledu. Ve své nejmírnější verzi to znamená, že se statické oko kamery samo pohybuje po herním prostoru. Hry s takzvanou perspektivou třetí osoby (TPP, Third Person Perspective) obvykle umisťují hlavního hrdinu do středu obrazovky a umožňují kameře volný pohyb kolem této osy. To umožňuje pohodlně sledovat okolí z různých stran postavy nebo si ji detailně prohlížet, ale brání to tomu, aby se vyprávění neslo pomocí rámování, tedy filmovým způsobem. K ještě radikálnějšímu rozkolu dochází ve hrách, které nabízejí volbu mezi pohledem třetí osoby a pohledem první osoby (FPP, First Person Perspective), v nichž se úhel pohledu trvale spojuje se senzorikou postavy. Tyto dva modely prezentace nekompromisně mění hratelnost, míru ztotožnění se s hlavním hrdinou nebo praxi analýzy prostředí – pokud tedy titul umožňuje plynulou změnu mezi nimi, ve skutečnosti poskytuje dva různé zážitky. To následně výrazně komplikuje analýzu. Podobné dilema se týká i příběhu hry. Některé z těchto dějových linií jsou nastaveny tvůrci hry a jsou prezentovány v jejím průběhu, často prostřednictvím neinteraktivních záběrů nebo textu . V nejstarších hrách na automatech a prvních domácích konzolích, stejně jako v současné produkci pro mobilní zařízení, jsou jasně odděleny od herních sekvencí a prezentovány po určitém souboru akcí,
Od Gutenberga k Zuckerbergovi
například po dokončení úrovně. V příběhově složitějších titulech jsou tyto sekvence integrovány do zbytku hratelnosti a vytvářejí dojem plynulého přechodu mezi záběry a hrou.
Ale ani tyto sekvence určené výrobcem nejsou zcela nezávislé na akcích hráčů. Uživatel si často může sám zvolit pořadí, v jakém se neinteraktivní sekvence aktivují, a někdy směr děje závisí na jeho činech a volbách. Následně jsou prezentovány alternativní sekvence (které si hráč vybral buď vědomě, nebo v důsledku určitého způsobu používání hry), které někdy vedou k jednomu z několika možných řešení.
Děj hry se však neomezuje pouze na předem připravené prvky: zahrnuje také všechny pohyby a rozhodnutí hráčů: preferované způsoby překonávání překážek, způsob a směr pronikání do herního prostoru atd. Někdy je taková zápletka, vzniklá v herní praxi, v rozporu s ustanoveními příběhu stanovenými tvůrci, což vede k různým nesouladům a napětím. Řekněme například: postava opakovaně umírá při pokusu o překonání překážky. Tato smrt je však okamžitě zvrácena mechanismem, který znovu načte předchozí stav hry, a z průběhu příběhu určeného tvůrci není jasné, že postava utrpěla několikanásobnou smrt. Která dějová linie je tedy pro pochopení hry důležitější? Ta, která se odehrává v rytmu smrtí a vzkříšení, nebo ta, která zastává stanovisko, že k nim vlastně nikdy nedošlo (a tedy nebere v potaz hráčův prožitek)?
Existují také žánry, v nichž je hlavní příběhový zážitek tvořen řadou voleb a jejich důsledky – což je případ například strategických nebo simulačních her, kde příběh vzniká spontánně jako výsledek konfrontace mezi volbami hráče a rozhodnutími algoritmů umělé inteligence. A konečně existují produkty, které umožňují jak plné zapojení do vývoje událostí předpokládaných tvůrci, tak jejich ignorování a soustředění se na osobní prožitek digitální reality navržené hrou. Ve všech případech však konkurence mezi narativními scénáři, vyvolanými předpokládanými okolnostmi, a dějem, který vzniká v praxi hry – tedy dějem emergentním19 – staví herního výzkumníka před dilemata, která se při práci s jinými narativními médii vyskytují méně často. Měla by se analýza děje omezit na události předpokládané tvůrci, nebo by měla zahrnovat i události vyvolané samotným hráčem? Jak by měla být zohledněna zkušenost neúspěchu, pokud ji dějová linie znehodnocuje? Je nutné prozkoumat všechny možné dějové linie a herní strategie, abychom je mohli plně popsat? Vzhledem k jejich ohromujícímu množství se interpretace digitální hry v narativních termínech jeví jako skutečně herkulovský (ne-li nemožný) úkol.
Existují samozřejmě metody, jak se vypořádat s množstvím permutací. Lze se opřít o nástroje vyvinuté v literární hermeneutice a zohlednit rozdíly mezi praxí interpretace hry a tradičního textu.
16. Hry a digitální humanitní vědy…
Některé přístupy tohoto druhu trvají na dualitě interpretačního procesu: jedna věc by byla extrahovat význam ze hry chápané jako fikční celek po jejím dokončení, a druhá konstruovat interpretaci ad hoc za účelem postupu hrou – takzvaná hermeneutika v reálném čase . 20
Naopak existují návrhy, které s hermeneutikou nakládají existenciálně a naznačují, že předmětem interpretace není ani tak text vzniklý v herním procesu, ale zážitek ze hry jako celku, který je chápán. Zahrnuje jak příběh prezentovaný ve hře, tak všechny osobní zkušenosti a zaměřuje se na ty prvky herní praxe, které interpreta obzvláště vzrušují nebo konsternují.21
Oblíbenou metodou je také odkaz na ty humanistické postupy, které se zaměřují na formální aspekty textu a umožňují zachytit zákonitosti, které se v něm objevují. Lákavý je formalismus a zejména strukturalismus, který se opírá o metodologické předpoklady, jež se dokonale hodí pro algoritmické médium a umožňují izolovat a popsat sekvence, které mají podobný charakter 22 , nebo systematicky kategorizovat stylistické triky, které hra nabízí, a popsat tak její umělecký potenciál 23 . Takové metody fungují obzvláště dobře při popisu opakujících se sekvencí emergentního vyprávění a jejich začlenění do struktury příběhu připraveného tvůrci dané hry.
Konečně jiný populární popis předepisuje vyjmout z celku herního zážitku ty momenty, v nichž se dvě dějové linie (ty předpokládané tvůrci a ty konstruované v procesu hraní) dostávají do rozporu – tedy hledání a popis ludonarativních disonancí . 24 K nim dochází například tehdy, když dějově-estetická informace diktuje spěch, zatímco herní praxe umožňuje ignorovat časový tlak a metodicky prohledávat prostor, v němž se postava ocitla. Nebo když příběh nastavený designéry představuje hlavního hrdinu jako člověka, který se vyhýbá násilí, a staví ho do kontrastu s brutálním, sadistickým protivníkem, ale herní konvence diktují boj na život a na smrt s desítkami protivníků. Jejich analýza, zejména zachycení příčin rozporů, umožňuje extrahovat význam z protichůdných aspektů herního zážitku a identifikovat jejich ideologické základy.25
Mechanismy a postupy
Chaos možných uspořádání děje, ačkoli se zdá být nezměrný, je v každé digitální hře výsledkem interakce mnohem užšího a definitivně uzavřeného korpusu algoritmů. Co je z hlediska příběhu a estetiky odlišné, je z hlediska pravidel někdy stejné: například různé jevy živé i neživé přírody, lahodící oku svou rozmanitostí forem, lze z hlediska pravidel redukovat na jedinou kategorii – překážky, jejichž jedinou vlastností je bránit pohybu. Jindy se objekty, které by měly být totož-
Od Gutenberga k Zuckerbergovi
né, z hlediska pravidel liší: Espen Aarseth například ve své klasické práci upozorňuje, že dveře, které se objevují v mnoha hrách, jsou sice vizuálně totožné, ale na úrovni pravidel představují dvě různé kategorie objektů. Jedny slouží k odstranění překážky blokující průchod (v estetické rovině – otevírají se), zatímco jiné jsou pouhým ornamentálním motivem, namalovaným na nepohyblivé zdi.2 Pro analýzu hry je tedy klíčové pochopit, jak konečný počet pravidel vytváří mnohem početnější uspořádání objektů a jak spolu estetická a algoritmická rovina souvisí. K popisu těchto interakcí se používá řada pojmů, z nichž nejdůležitější jsou mechanika , dynamika a procedura . První kategorie je převzata z hráčského žargonu, v rámci něhož se vyvinula v kontextu narativních her na hrdiny a slouží k popisu pravidel, která omezují svobodu improvizovaného vyprávění. Poměrně rychle si našla cestu do slovníku tvůrců a uživatelů digitálních her jako výraz pro určité algoritmy – zejména ty, které specifikují důsledky různých akcí hráčů. Jako výzkumný pojem má specifičtější význam. Nejrozšířenější je definice Miguela Sicarta, který definuje mechaniku jako metody vyvolané agenty, které mění stav hry . 27
Tato záležitost vyžaduje další vysvětlení. Stavem se zde rozumí vzájemné uspořádání všech objektů , tedy herních prvků s definovanými vlastnostmi. Stav hry se nemění, když je hra zastavena – například při stisknutí pauzy –, ale v praxi je stav hry dynamický a podléhá různým transformacím. Některé objekty mizí, jiné se znovu objevují a třetí mění stav nebo polohu.
Změny stavu hry způsobují agenti, tj. objekty, které mají tuto schopnost. Je snadné si takové agenty představit jako „živé tvory“ obývající herní svět: zvířata, která se v něm procházejí, lidi, kteří si hledí svého, nebo nepřátele, kteří hlídají určitá místa a jsou připraveni zaútočit na postavu hráče, pokud se k ní příliš přiblíží. Tento výčet však není vyčerpávající: agentem je také systém zodpovědný za změny počasí nebo spouštěcí mechanismus, který způsobuje, že se na obrazovce objevují postupně padající bloky ve hře Tetris. Nejdůležitějším agentem je samozřejmě hráč: ten má obvykle největší schopnost měnit stav hry. Ale i agenti pod kontrolou softwaru mají specifické schopnosti ovlivňovat stav hry: například stráže mohou chodit kolem, zpozorovat hráčovu postavu nebo ji oslepit a různými způsoby na ni útočit. Zvířata se pohybují pouze různou rychlostí. Systém změny počasí znamená, že někdy svítí slunce a jindy prší. Tento přístup umožňuje popsat nejen vztah mezi hráčem a hrou, ale i všechny interakce, které v ní probíhají. Někdy jsou tyto interakce velmi složité – například když ve virtuálním světě probíhá bitva, které se účastní stovky algoritmem řízených bojovníků, nebo když ulicemi digitálního města projíždí velké množství vozidel.
16. Hry a digitální humanitní vědy…
Při analýze mechanik je prvním krokem zachycení opakování v systémech pravidel a systematizace dostupných mechanik. Ty se často dělí na centrální a sekundární mechaniky. První z nich tvoří korpus možných změn stavu hry, které jsou nezbytné pro její dokončení. Ty druhé slouží buď k usnadnění hraní, nebo k estetickým účelům. Pokud například hra vyžaduje, aby se hlavní hrdina pohyboval vozidlem, budou ústřední mechaniky souviset s jeho pohybem: zrychlováním, zpomalováním a zatáčením. Stejné vozidlo může být vybaveno řadou sekundárních mechanik. Možnost používat přídavné spalování, které dočasně zvýší rychlost pohybu, není pro dokončení hry nezbytná (můžete dojet pomaleji), ale nepochybně ji usnadňuje. Sekundární mechanika, která umožňuje měnit hudbu přehrávanou ve vozidle, se nijak netýká překonávání překážek kladených hrou, ale nepochybně přispívá k estetickému zážitku. Zkoumání vztahu mezi herními mechanismy a dějem otevírá zajímavé interpretační perspektivy. V první řadě umožňuje určit, které akce jsou v herním světě skutečně možné, zatímco které akce zůstávají mimo hráčův dosah nebo se odehrávají pouze v neinteraktivních částech filmu. Takové rozlišení často odhaluje významy zakódované v herním plánu. Například bojová mechanika – téma ve hrách velmi oblíbené – může zahrnovat identifikaci dvou typů objektů (přátelé a nepřátelé), což umožňuje jejich aktivaci pouze při konfrontaci s nepřáteli. Existují také hry, v nichž fungují nezávisle na povaze objektu a umožňují stejný boj proti všem. Druhý případ přenáší rozhodnutí zbavit hráče digitálních životů jeho bližních, což vede k jinému morálnímu pohledu než v prvním případě, kdy je hráč pouhým vojákem – vykonavatelem vůle systému, který rozlišuje mezi vlastními a cizími životy.
Podívejme se na jiný příklad. Pokud hra umožňuje jízdu na koni, na estetické úrovni zůstává kůň vždy entitou oddělenou od jezdce. Na druhou stranu v herní mechanice může mít omezenou autonomii a někdy se rozhoduje sám (může nést). Může být také samostatným objektem, zbaveným ovšem mechanik umělé inteligence a zcela podřízeným vůli hráče. Takový kůň se nijak neliší od motorových vozidel. A konečně, objekt může ze hry zcela zmizet, jakmile postava na koni vyjede, a dokud není znovu přivolán, rychlost postavy se zvýší. Oř je pak jen jakousi podivně tvarovanou nohavicí a jízda na koni se od chůze liší pouze v estetické rovině.
Důležitým interpretačním vodítkem je také složitost mechanik používaných k provádění určitých činností. Často lze předpokládat, že činnosti, které jsou důležité pro herní zážitek, jsou složitější – to znamená, že vyžadují více úkonů k provedení – a častěji používané. Předpokládejme hru, ve které postava putuje divočinou a musí přenocovat pod širým nebem. Pokud založení tábora vyžaduje 1) nasbírat dřevo, 2) postavit stan, 3), připravit a zkonzumovat jídlo a zane -
Od Gutenberga k Zuckerbergovi
dbání těchto činností má negativní důsledky, bude se herní zážitek radikálně lišit od jednoduššího záběru, v němž celá tato sekvence vyžaduje pouze výběr možnosti „založit tábor“ a výše uvedené namáhavé činnosti probíhají automaticky. Lze také s vysokou mírou pravděpodobnosti předpokládat, že přežití v divočině je hlavním tématem první hry, zatímco ve druhé hrají cesty divočinou druhé housle za jinými činnostmi určitého druhu, jako je boj s nepřáteli nebo hledání ukrytého pokladu – i když v druhém případě bylo přežití v divočině důležitou dějovou nití.
Dynamika a procedury
Nejzávažnějším omezením popisu mechaniky je její statická povaha: zaměřuje se spíše na procesy, které mohou ve hře probíhat, než na jejich interakce. Proto se v metodologickém arzenálu gamifikace objevují další kategorie, které umožňují odepsat algoritmy v akci.
Způsoby, jakými jsou různé herní mechanismy používány a jak na sebe vzájemně působí, se někdy označují jako herní dynamika . 28 To je užitečný pojem, protože samotný fakt, že určitá sada mechanik ve hře funguje, nemusí nutně určovat herní zážitek. Ke specifickým interakcím může docházet častěji či méně často, s různou mírou obtížnosti a důsledků. Mechanika změny počasí, oblíbená v mnoha hrách, může mít čistě estetickou hodnotu, pokud neinteraguje s žádným jiným systémem – nebo zásadní význam, pokud je doprovázena pravidly, která vážou pohodu postavy na tepelný komfort (a může umrznout).
Dynamika hry je také ovlivněna poměrem různých parametrů přítomných v identické mechanice. Běžná mechanika boje zblízka stanoví, že objekty označené jako postavy se mohou navzájem zasáhnout, což vede ke snížení parametru „síla“ zasaženého v závislosti na výši parametru „poškození“ zasaženého. Jejich poměr má na hru klíčový vliv, i když v podstatě mechanika zůstává v každém případě stejná. To znamená: ve hře, kde každý úder zasazený hlavním hrdinou vede k vážnému poškození zdraví algoritmem řízeného protivníka, zatímco údery protivníků hlavního hrdinu tolik nepoškozují, bude dynamika střetu podporovat bravuru a zvýšení nebezpečnosti vyžaduje rozmnožení protivníků. Opačná situace – kdy nepřátelé způsobují velké poškození a jsou schopni hlavního hrdinu rychle zlikvidovat – vede ke konzervativní hře, kdy je třeba vést boj s velkou opatrností a malá skupina protivníků představuje vážnou výzvu. Mechaniky a dynamika nejenže zdůrazňují podmínky, za nichž je možné ve hrách vytvářet příběhy, ale vytvářejí i napětí mezi tvůrci předpokládaným vyprávěním a skutečným zážitkem z hraní. Jsou
16. Hry a digitální humanitní vědy…
také založeny na určitých soudech o světě: rozlišují snadné od obtížného, autonomní od závislého na lidském jednání, relevantní od nedůležitého. V tomto ohledu se tedy neliší od jiných narativních médií, která rovněž popisují a zhodnocují lidské jednání. Avšak vzhledem k tomu, že použití hry vyžaduje aktivaci mechaniky za účelem spuštění procesu změny stavu – získávají další přesvědčovací sílu. Je tomu tak proto, že akce, které lze ve hře provádět, jsou uspořádány do procedur: opakovaných, systematických metod k dosažení požadovaných účinků. Jak upozorňuje Ian Bogost29 , mají rétorický potenciál, a tedy přesvědčovací sílu. Metoda, kterou navrhuje pro analýzu zábavního softwaru, orientovaná na popis jeho procedurální rétoriky, patří k nejdůležitějším způsobům herních studií. Uvažování v procedurálních termínech poněkud přesouvá důraz ze studia MDA ( Mechanika – Dynamika – Estetika) . 30 Spíše než na souhrn možných interakcí agenta se zaměřuje na akce a procesy, které hráč spouští, aby dosáhl určitých efektů. Vraťme se tedy k již uvedenému příkladu: pokud se ve hře jedná o pohyb auta, procedurální analýza se zaměří na analýzu akcí, které hráč provádí, aby se dostal z místa na místo, spíše než na pravidla, která pohyb umožňují a určují jeho povahu. Rozdíl je zde jemný, ale důležitý: cílem je popsat nástroje, které hra používá, aby hráče přesvědčila o určitém způsobu prezentace daného jevu, v tomto případě pohybu auta. Bere tedy v úvahu faktory, které se nemusí nutně projevit na úrovni mechaniky, ale tvoří navrhovaný popis prezentované situace hrou. V tomto případě to bude například nutnost uplatnit pravidla silničního provozu, respektive jejich absence. Hra s identickou mechanikou může prosazovat bezpečnou jízdu bez nehod nebo konstruovat provoz tak, že pro hráče a ostatní agenty na silnici platí jiná pravidla. Přitom konstruují dvě konkurenční sdělení: první tvrdí, že pravidla silničního provozu mají vždy absolutní přednost, zatímco druhé naznačuje, že řidič se zvláštními vlastnostmi (tedy: já) si může na silnici dovolit více.
Podstata procedurální rétoriky spočívá v tom, že digitální hry zavádějí nový, dosud nevídaný rétorický model, který namísto argumentů formulovaných v řeči, písmu nebo pomocí obrazů argumentuje prostřednictvím pravidel a procesů , na nichž se hráč podílí, aby dosáhl určitých účinků. Díky osobnímu zapojení a vysoké míře opakovatelnosti činností si tak hráč o těchto procesech osvojuje úsudky: nabývá přesvědčení, že činnosti jsou určitým způsobem prováděny efektivně.
V případě procedurální analýzy se interakce mezi mechanikou a dynamikou a esteticko-strukturální vrstvou hry stává obzvláště důležitou – k popisu přesvědčovací síly procedury nestačí určit, zda akce nebo jev funguje podobně ve všech vrstvách hry, nebo zda mezi nimi existují disonance. Je zřejmé, že přesvědčování je neúčinné, po -
Od Gutenberga k Zuckerbergovi
kud jsou estetika a algoritmy hry v otevřeném rozporu. Často však vztah mezi nimi vede ke generalizacím, je založen na zraňujících zjednodušeních nebo vytváří popis založený na určitých ideologických perspektivách s vyloučením jiných – a pak jej v rámci hry prezentuje jako nealternativní.
Příkladem může být hra, jejímž jádrem je rozšiřování a správa města – oblíbený žánr, který je někdy považován za testovací pole pro potenciální hráče z řad samosprávců. Takové tituly často představují pouze procesy související s ekonomickým životem města: zaměřují se na modelování vztahu mezi dostupností pracovních míst, kvalifikací obyvatel města a rychlostí dopravy mezi prací a domovem s cílem generovat co nejvyšší příjmy obyvatel. Jedná se o nesmírně přesvědčivou vizi, která je dobře zakotvena v neoliberální ideologii – vylučuje však obrovské oblasti městského života nebo je odsouvá do role druhořadých faktorů utvářejících krajinu ekonomického úspěchu. V takovém městě je vzdělání nezbytné pro profesní zařazení – není to místo pro humanisty, byť ty digitální! – a kulturní nabídka je synonymem příjmů z cestovního ruchu, jehož sociální náklady se jednoduše přehlížejí. Tuto skutečnost je však obtížné vidět, aniž bychom se pustili do analýzy hry: během hraní se soubor postupů jeví jako koherentní, vede k jasně prezentovanému cíli a podléhá hodnocení, což odpovídá základní povaze digitálních her.
Rozpory mezi estetikou a mechanikou hry mohou také zvýšit přesvědčivost postupů a zamaskovat jejich podstatný obsah. Jakou hodnotu má altruismus naznačený v příběhu hry, když se hráč vzdá nabízené odměny, protože dobře ví, že za ni dostane jinou, rovněž vyčíslitelnou a mnohem hodnotnější odměnu (protože vzdání se odměny se promítne do většího počtu zkušenostních bodů, měny umožňující zvýšit schopnosti postavy)? Jaké soudy o povaze lidských vztahů vynáší hra, v níž jediným způsobem, jak si získat něčí sympatie, je zahrnout ho dary? A konečně, pokud hra nabízí pouze jediný model interakce s jinými tvory: boj o smrt, činí zjemnění této skutečnosti pomocí okouzlující estetiky přímo z animovaného filmu poselství více či méně přesvědčivé než v případě produkce ukazující důsledky násilí ve všech jeho drastických detailech?
Proto Bogost považuje hry za obzvláště přesvědčivé nástroje: pomocí zjednodušených modelů a ideologicky motivovaných pravidel vynášejí silné soudy o povaze světa a umožňují hráči přesvědčit se o jejich správnosti, přičemž zároveň vhodně zvolenou estetikou kontrolují jeho emocionální vztah.
Takové postupy jsou často vytvářeny nedobrovolně: jsou výsledkem technologických úvah, například omezení výpočetního výkonu cílové platformy, 31 nebo kopírují úsudky specifické pro svůj žánr a obíhající pravdy. Což neznamená, že by potenciál procedurální rétoriky nemohl být využit vědomě: naopak, existuje řada politicky
16. Hry a digitální humanitní vědy…
a společensky angažovaných her, jejichž cílem je například upozornit na struktury vykořisťování, přesvědčit hráče o určitých řešeních a ideologických postojích, nebo dokonce volebních kandidátech. I přes svou vysokou přesvědčivost však nemusí být nutně účinné – digitální hry jsou komplexní programy určené pro nejrůznější platformy a přesvědčení, že vždy fungují v souladu se záměrem vývojářů nebo hráčů, je spíše zbožným přáním.
Dominance algoritmů
Ačkoli je obvyklé uvažovat o digitální hře v kategoriích programu, který představuje komerční produkt, stroj, který produkuje význam a předmět analýzy velké komplexnosti, je možné použít i druhý způsob herní definice– a to ve smyslu praxe. V tomto pohledu se užívání digitální hry ukazuje jako jakési spojení mezi biologickým tělem hráče, počítačovým procesorem podrobeným interakci elektřiny za účelem provádění výpočtů a souborem algoritmů , které regulují činnost obou prostřednictvím vydávání příkazů. Tuto interakci zprostředkovává řada periferních zařízení, která převádějí signály do kategorií, jež si každý aktér hry osvojí: displeje a zvuková zařízení, která umožňují prezentovat výpočty procesoru ve formě zvuků a obrazů, jimž hráč rozumí, a ovladače, které převádějí pohyby rukou (zřídka celého těla) na příkazy pro procesor. Aby vše fungovalo, je nezbytná neustálá aktivita všech aktérů: proto Ian Bogost 32 zlomyslně označil hry za „rozbité stroje“, které – aby správně fungovaly – vyžadují neustálé zapojení lidského těla („biosložky“), trochu jako děravá loď, která vyžaduje neustálé vylévání vody kbelíkem. Způsob, jakým digitální herní aparát hospodaří s lidským tělem, byl také přirovnáván k disciplinárnímu systému podle popisu Michela Foucaulta 33 nebo k bio-objektu z estetických teorií Tadeusze Kantora. 34
Možná nejdůležitější ideologií digitální herní kultury je tedy maskování napětí mezi všemi prvky herního procesu. K tomu slouží kategorie imerze, tak důležitá v raných studiích digitálních her: předpokládá, že cílem digitální hry je vytvořit situaci, v níž má hráč pocit ponoření do digitálního světa a ztrácí ze zřetele, že je spojen s hardwarem a softwarem. Navíc pak zažívá dojem vlastního působení a svobody jednání, má tudíž dojem interaktivity hry – dalšího tropu, který dlouho utvářel myšlení o hrách. Ve skutečnosti však nejčastěji poslouchá příkazy softwaru a jednoduše vykonává algoritmy, aniž by zkoumal jejich hranice. Problematizace poslušnosti a nadřazenosti hry nad hráčem je navíc častým tématem produkcí s uměleckými ambicemi, které se snaží vizualizovat vztah podřízenosti, což mimochodem souvisí s širšími praktikami pozdního kapitalismu, který na-
Od Gutenberga k Zuckerbergovi
bízí iluzi svobody ve velmi přísném rozsahu a omezeném rámci. Jde také o důležitou součást současných studií digitálních her, které mají k optimismu prvních let výzkumu her velmi daleko.
Proto zvláštní pozornost přitahují situace, kdy je plynulost herního procesu narušena, ať už náhodně, nebo záměrně: tehdy se totiž projeví podstata vztahu mezi hráčem a hrou a vlastnosti digitálního objektu. Zájem vzbuzuje netypické chování programu, které není v souladu se záměrem děje, jeho různé chyby, skutečné i falešné, pro umělecké účely – ale také praxe využívání nezjevné logiky softwaru, pokusy vzepřít se diktátu hry, aniž by ji přerušil, nebo vlastní zásahy hráčů do kódu programu, které vedou ke změnám herního procesu. Takový výzkum lze zhruba rozdělit do tří skupin.
První je úvaha o ontologii digitálních objektů, která využívá náhodného, nezjevného nebo chybného chování softwaru k nahlédnutí pod povrch digitálních světů. V situaci hry bez selhání nejsou vlastnosti objektů ani tak skryty, jako spíše neutralizovány prostřednictvím vztahu jevů herního světa k těm, které známe z každodenní zkušenosti nebo různých narativních konvencí, včetně těch, které vyvinuly hry. To znamená: bez pochybností akceptujeme, že není možné proniknout zdí, že postava je mnohem odolnější vůči zásahům střelnými zbraněmi, než by mělo být lidské tělo. A hlavně, že všechny herní prvky jsou záměrné a skládají se ze systému pro dokončení hry. Když se však tento systém začne hroutit, narušovat realistické návyky nebo vyvolávat nečekané efekty, nutí to hráče k zamyšlení nad povahou digitální reality a zákony, které ji řídí.
Snad nejdůležitější postřeh, který z toho vyplývá, se týká trvalého vztahu mezi pravidly hry a materiální povahou předmětů v ní. Ačkoli na displeji hráč pro účely svého vnímání vidí prefabrikovanou reprezentaci různých jevů herního světa, algoritmy skryté před jeho zrakem je ve skutečnosti uvádějí v existenci a dávají jim specifické vlastnosti. Pevná zeď není ani čistě iluzorní, ani neproniknutelná silou nějakého libovolného pravidla: počítač ji vytváří a propůjčuje jí trvalé vlastnosti, které nelze měnit žádným způsobem, s nímž algoritmy nepočítají. To je podle vědců jeden z nejdůležitějších rozdílů mezi tradičními a digitálními hrami – ty první sice využívají hmatatelné komponenty, ale dávají jim libovolné funkce. Ty druhé vytvářejí nehmotné objekty, ale jejich hmotné vlastnosti zároveň určují zážitek z hraní. 35
Tento nepříliš intuitivní úsudek lze snadno ilustrovat na příkladu. Figurky v deskových hrách mají určité materiální vlastnosti – žádná z nich ovšem neurčuje, kterému hráči figurka slouží, o kolik polí se může pohybovat, za jakých podmínek se objevuje a mizí z hrací desky. Všechny tyto proměnné se řídí dohodou mezi hráči, tedy pravidly – a přestože se hráči dohodli, že je budou dodržovat, mohou je kdykoli porušit. Navíc stejná figurka může být použit pro různé hry
16. Hry a digitální humanitní vědy…
a nabývat tam jakýchkoli jiných vlastností, a pokud se ztratí – může být nahrazena jinou. Digitální hry fungují opačně. Ačkoli jsou jejich objekty nehmotné a nacházejí se v paměti platformy, mají neměnné, hmotné vlastnosti, které jsou zároveň pravidly digitální hry (nebo, řečeno výše popsaným jazykem, její mechanikou). Hráč se nemůže libovolně rozhodnout, že, ejhle, najednou projde zdí nebo že do ní prorazí díru, pokud to herní mechanika neumožňuje – což si nejsnáze uvědomíme, když vzhled objektu na displeji přestane korelovat s jeho materiálními vlastnostmi. Tedy když se objeví zeď, omylem zbavená neprostupnosti (stejně jako se svévolnost deskové hry projeví, když ztratíme figurku). Současně se stávají zřejmými pravidla konstrukce věrohodné fikce prostřednictvím softwaru: přítomnost chyby porušuje imerzi a odhaluje podmínky její produkce. 3
Zaměření na nedokonalosti může také odhalit historický rozměr softwaru a osvětlit proces jeho přípravy. Vývoj herního kódu trvá dlouho, někdy i roky, a prochází četnými úpravami. Některé z nich zanechávají v hotovém programu stopy v podobě překvapivých chyb, které naznačují existenci dřívější verze. Jejich analýza v kombinaci s fyzickým čtením kódu někdy odhalí řešení použitá v dřívějších verzích a z různých důvodů pozměněná, celé zápletky, které se do konečné verze hry nedostaly, nebo stopy morální cenzury. Někdy totiž ruiny přítomné ve finální verzi hry umožňují – pokud se podíváte do kódu – objevit neporušenou budovu, která byla postavena a následně zničena během výroby, aby poskytla věrohodný vizuální zážitek!
Tímto způsobem se projevuje nejen materialita, ale i historičnost digitálních herních objektů: jsou vystaveny tlaku dlouhých a zdlouhavých procesů, které koneckonců v moderní době nekončí vydáním softwaru a jsou podstatou procesu aktualizace softwaru.
Druhá důležitá oblast úvah, vycházející ze studia nedokonalostí hry, souvisí s otázkou možnosti vzdorovat hře. Základní model hry je velmi apodiktický: software staví hráče do určité ideologické pozice a nutí ho jednat určitým způsobem, aby dosáhl úspěšného řešení, a zároveň ho klame iluzí svobodné volby v rámci systému. Existují však různé postupy, jak využít nedokonalosti softwaru k podkopání dominantního postavení hry. Softwarové chyby, vedoucí k náhodným a překvapivým rekonfiguracím světa, jsou nejen zdrojem frustrace a nejčastější stížností zákazníků herního průmyslu. Jsou také zdrojem komedie: náhodné, nezjevné a překvapivé sekvence vzbuzují veselí a znehodnocují vážnost hry, čímž podkopávají její arbitrární nároky. Důležitou praxí v herních komunitách je vyhledávání a dokumentování takových chyb k potěše publika 37. Stojí za zmínku, že napodobování softwarových poruch, zejména zobrazování grafiky, je také umělecký trik, který se ve hrách používá k tomu, aby hráči připomněl, že má co do činění se softwarem, a narušil tak pocit ponoření do herního světa, a má tedy emersivní povahu . 38
Od Gutenberga k Zuckerbergovi
Podobnou praktikou je využívání opakovaných a obvykle maskovaných zvláštností softwaru za účelem získání výhody nebo přizpůsobení hry vlastním potřebám, tedy zneužití pravidel (exploiting) . Zjištění, že postava může v obchodě ukrást cokoli, aniž by vzbudila podezření prodavače, pokud si dá nad hlavu košík (prodavač si musí jednání postavy všimnout, aby mohl reagovat), nebo že výskyt zlověstných příšer na cestě hlavního hrdiny souvisí s prací kamery, takže stačí couvnout, aby byla cesta zcela neškodná, mění mocenskou dynamiku hry a představuje druh vzpoury, někdy označovaný jako protihra . 39 Snaha hrát hru tak, abychom se nedopouštěli chování, které hráči považují za nemorální, přestože k němu hra sama vybízí, je dalším druhem opozice vůči despocii ideologie programu – například praxe hrát tak, abychom neubližovali digitálním zvířatům a nevykořisťovali je (veganrun) . 40
Jindy hra v rozporu s pravidly nabývá kvazi-sportovního charakteru. Je to nedílná součást praxe co nejrychlejšího dohrání hry od začátku do konce (speedrun), která je kritická do té míry, že ukazuje, že produkt, který má nominálně hráče zaměstnat na desítky hodin, lze dohrát během několika minut. Status úspěchu má také dokončení hry s minimálním využitím schopností postavy, například ponecháním si původní výzbroje nebo fyzickým omezením – například nahrazením pohodlného ručního ovladače podložkou používanou v tanečních hrách, která se ovládá nohama. Extrémním způsobem, jak se bránit nárokům na software, je fyzická úprava softwaru, známá jako modifikace (od slova „mod“, zkrácené verze slova „modification“). Jedná se o vytváření proprietárního softwaru, který v kombinaci s hlavním herním kódem vytváří jiný efekt než původní. Modifikace se mohou pohybovat od drobných záležitostí, jako je změna barvy některých objektů, až po úplné změny herního zážitku: přetvoření mechanik nebo přidání originálního obsahu. Modifikace je mnohostranná praxe – někteří členové komunity, kteří se jí věnují, se například snaží získat pozornost studia a zaměstnání – často však nabývá rebelského charakteru. Moddeři opravují nedokonalosti původního softwaru, aniž by souhlasili s jeho stavem, zavádějí obsah cenzurovaný původním produktem, například erotiku nebo homosexuální tématiku, nebo si dělají legraci, například přeměňují všechny koně na světě na poníky ze série My Little Pony . 41
Modding je navíc spojen s třetí problematickou oblastí, která vyplývá ze zájmu o hry jako praxi: otázkou zneužívání. Někteří badatelé v modifikacích rozpoznávají nástroj subverze, jiní však tvrdí, že jde především o bezplatnou práci ve prospěch výrobce softwaru, který se díky zapojení komunity může vzdát aktualizací softwaru a výroby doplňků, aby si udržel zájem o hru42 . Jiní kritici jdou ještě dál a přirovnávají hraní digitálních her obecně ke svobodné práci, která nutí k vykonávání četných, zatěžujících a svévolných činností
16. Hry a digitální humanitní vědy…
pro naplnění cílů někoho jiného 43 . Jediným způsobem, jak uniknout, je opustit hru.
Shrnutí
Vztah mezi herními studiemi a digitálními humanitními vědami nespočívá v používání počítačových metod ve výzkumné praxi – i když herní vědci počítače samozřejmě používají. Obor je však úzce spjat s digitálním paradigmatem, a přestože současná reflexe zahrnuje i různé typy analogových her, zrod herních studií v jejich současné podobě úzce vychází ze zájmu o zábavní software, přičemž v centru jeho zájmu jsou stále digitální hry. Společenství je tedy spojeno s úvahami o roli softwarových algoritmů a komputerizace v současné kultuře a s otázkou jejich místa v akademické práci.
Současná herní studia zahrnují mnoho oblastí herní kultury a využívají metodologický arzenál různých oborů. Jedním z ústředních problémů této disciplíny je však otázka specifických metod vytvořených pro analýzu digitálních her. V oblasti inspirované humanistickými postupy jde o uznání obtížnosti popisu imerzivní praxe interakce s hrou v termínech vyvinutých pro studium statických textů, kde je rozmanitost významů spíše interpretační funkcí než funkcí fyzické rekonfigurace obsahu. Snaha o uchopení specifičnosti předmětu vedla k vývoji metod popisu napětí mezi narativně-estetickou vrstvou hry a jejími pravidly, které se s velkou jemností zabývají analýzou a popisem posledně jmenovaných jako významotvorných praktik. Nebo přesvědčovací, nolens volens konstruující postupy založené na ideologicky motivovaných soudech o povaze reality, aby pak hráče přesvědčily o účinnosti těchto postupů.
Tento výzkum se však neomezuje pouze na identifikaci komplexních smyslových strojů v digitálních hrách. Identifikuje také nejednoznačné postavení hráče, který má na jedné straně kontrolu nad průběhem hry, na druhé straně jedná pod diktátem algoritmů a je podřízen moci softwaru. Imerzivní povaha digitálních her však tuto skutečnost maskuje a vytváří iluzi kontaktu a zabydlování digitální reality. Odtud pramení vědecký zájem o momenty, v nichž herní mašinérie nefunguje bez poruchy, ať už v důsledku softwarové chyby nebo tvůrčího zásahu hráče. Takové momenty zdůrazňují, že pod povrchem herního světa funguje materiální struktura digitálních objektů, a podrobují ji kritice. Postoj k digitálním ludickým objektům prošel v oblasti narace příběhů významným vývojem. Zpočátku se obor vyznačoval optimismem a v digitálních hrách spatřoval primární narativní médium budoucnosti a předzvěst nových vypravěčských postupů. Tato diagnóza
Od Gutenberga k Zuckerbergovi
se ukázala být do značné míry pravdivá, ale ověřilo se přesvědčení, že předestřená změna povede k emancipaci čtenáře a poskytne mu nebývalou agenturu, která ho téměř postaví na roveň autorovi. Dnes jsou badatelé mnohem kritičtější a poukazují na to, že digitální hry jsou biologicko-technologické stroje, které nabízejí především ideologický výcvik a hráče vykořisťují. To samozřejmě neznamená, že je třeba je zavrhnout, ale zdůrazňuje to význam studia této kulturní formy jako nezbytného úvodu k další kritice a proměně herní kultury.
POZNÁmK Y
1 Pracovalo se také na psychologických, pedagogických, antropologických a lékařských výzkumech, a kategorie „hry“ se ukázala být vhodnou metaforou v matematických a ekonomických studiích rozhodovacích mechanismů. Tyto perspektivy do argumentace nezahrnuji, protože s humanitními vědami nesouvisejí.
2 Souběžně s tím se rozvíjel směr vycházející z antropologie a zaměřený na studium hráčů a jejich komunit, který je však pro tuto úvahu méně relevantní.
3 JENKINS, H. Convergence culture: where old and new media collide. New York: New York University Press, 2006.
4 RYAN, M.-L. Narrative across media: the languages of storytelling, Lincoln 2004; RYAN, M.-L. a J.-N. THON. Storyworlds across media: Toward a media-conscious narratology, Lincoln 2014.
5 MURRAY, J. Hamlet on the holodeck: The future of narrative in cyberspace. Cambridge 2017.
AARSETH, E. Cybertext: Perspectives on ergodic literaturę. Baltimore: John Hopkins University Press, 1997.; JUUL, J. Half-real: Video games between real rules and fictional worlds. Cambridge 2011.
7 JUUL, J. The Game, the Player, the World: Looking for a Heart of Gameness. In: COPIER, M. a J. RAESSENS (eds.). Level Up: Digital Games Research Conference Proceedings. Utrecht: Utrecht Unviersity Press, 2003, s. 30–45.
8 Ukázalo se, že dlouhotrvající výzkum digitálních her má za následek zintenzivnění badatelského zájmu o neelektronické (někdy se říká „analogové“) ludické formy, a to jak tradiční, jako jsou deskové a společenské hry, tak i ty, které vznikly přibližně ve stejné době jako softwarová zábava, tedy narativní hry na hrdiny (RPG) a parateatrální formy (LARP). Vzhledem k povaze tohoto náčrtu toto vlákno dále nerozvíjím.
9 WITTGENSTEIN, L. Filosofická zkoumání. Praha: Filosofia, 2019.
10 HUIZINGA, J. Homo ludens: o původu kultury ve hře. Praha: Dauphin, 2000.
11 CAILLOIS, R. Hry a lidé: maska a závrať. Praha: Nakladatelství Studia Ypsilon, 1998
12 DONOVAN, T. Replay: The history of video games . Lewes 2010; WOLF, M. Before the crash: Early video game history. Detroit 2012.
13 IVERSEN, S. Between Regulation and Improvisation: Playing and Analysing ‘Games in the Middle’ . Kodaň 2010.
14 Existují konkurenční termíny „videohra“ a „počítačová hra“. O jejich výhodách a nevýhodách toho bylo napsáno mnoho a nakonec byly považovány za synonyma: zde volím kategorii „digitální hra“ ze dvou důvodů. Zaprvé tato forma souzní s obecnějším tématem sborníku a zdůrazňuje digitální složku tohoto fenoménu. Za druhé, ostatní dvě formulace jsou někdy spojovány s určitým typem hardwaru: specializované konzole, které se připojují k televizoru (videohry), a osobní počítače (počítačové hry).
15 KARHULAHTI, V.-M. Defining the videogame. Game Studies. Č. 2.
1 LEINO, O. Death loop as a feature. Game Studies. 2012, roč. 12, č. 2
17 AARSETH, E. Playing Research: Methodological approaches to game analysis.
16. Hry a digitální humanitní vědy…
Proceedings of the digital arts and culture conference, Melbourne 2003; BACKE, H.J. Narrative rules? Story logic and the structures of games. Literary and linguistic computing. Č. 3, s. 243–260.
18 KONZACK, L. Computer Game Criticism: A Method for Computer Game Analysis . In: Computer Games and Digital Cultures Conference . Tampere 2002.
19 JENKINS, H. Game Design As Narrative Architecture. In: WARDRIP-FRUIN, N. a P. HARRIGAN. First Person . Cambridge 2004.
20 AARSETH, E. Playing Research: Methodological approaches to game analysis. Op. cit.; ARJORANTA, J. Real-time hermeneutics: Meaning-making in ludonarrative digital games. Jyväskylä 2015; KARHULAHTI, V.-M. Double fine adventure and the double hermeneutic videogame. In: Proceedings of the 4th International Conference on Fun and Games . 2012, s. 19–26.
21 KŁOSIŃSKI, M. Hermeneutyka gier wideo. Interpretacja, immersja, utopia Olsztyn 2018.
22 MYERS, D. Play redux: The form of computer games Ann Arbor 2010.
23 ENSSLIN, A. Literary gaming Cambridge 2014.
24 HOCKING, C. Ludonarrative dissonance in Bioshock. In: Drew Davidson, Pittsburgh 2009, s. 114–117
25 MAJKOWSKI, T. Języki gropowieści . Studia o różnojęzyczności gier cyfrowych . KrakOV 2019.
2 AARSETH, E. Doors and perception: Fiction vs. simulation in games. Intermédialités: Histoire et théorie des arts, des lettres et des techniques/Intermediality: History and Theory of the Arts, Literature and Technologies. Č. 9, s. 35–44.
27 SICART, M. Defining game mechanics. Game Studies. Č. 2.
28 HUNICKE, R. LEBLANC, M. a R. ZUBEK. MDA: A formal approach to game design and game research. In: Proceedings of the AAAI Workshop on Challenges in Game AI . 2 004 .
29 BOGOST, I. Persuasive games The expressive power of videogames. Cambridge 2007; viz také TREANOR, M., SCHWEIZER, B., BOGOST, I. a M. MATEAS. Proceduralist Readings: How to find meaning in games with graphical logic in: 6th International Conference on Foundations of Digital Games 2011, s. 115–122.
30 HUNICKE, R. et al. MDA: A formal approach to game design… Op. cit.
31 MONTFORT, N. a I. BOGOST. Racing the beam . The Atari video computer system . Cambridge 2009.
32 GALVIN, A. Ian Bogost on Games, Doorknobs, and General Readers – Public Books. Dostupné na WWW: https://www.publicbooks.org/public-thinker-ian-bogoston-games-doorknobs-and-general-readers/, (dostup 16. 11. 2022).
33 APPERLEY, T. a J. CLEMENS. The biopolitics of gaming. In: KAPPEL, M. (ed.). The play versus story divide in game studies: critical essays. Jefferson: McFarland, 2016, s. 110–124.
34 JANIK, J. Gra jako obiekt oporny . Performatywny charakter relacji gracza i gry wideo. Krakov 2022.
35 JUUL, J. Half-real: Video games between real rules and fictional worlds . Cambridge 2011; LEINO, O. Death loop as a feature. Op. cit.
3 VAN DE MOSSELAER, N. a N. WILDMAN. Glitches as fictional (mis) communication. In: BARKER, T. a M. KOROLKOVA (eds.). Miscommunications: Errors, Mistakes, Media New York 2021, s. 300–315.
37 ŠVELCH, J. Comedy of contingency: making physical humour in video game spaces. International Journal of Communication, s. 2530–2552.
38 KUBIŃSKI, P. Gry wideo. Zarys poetyki. Krakov 2016.
39 MEADES, A. Understanding counterplay in video games, New York 2015.
40 WESTERLAKEN, M. Self-Fashioning in Action: Zelda’s Breath of the Wild Vegan Run In: Philosophy of Computer Games. KrakOV 2017.
41 SIHVONEN, T. Players unleashed! Modding the Sims and the culture of gaming, Amsterdam 2011; SOTAMAA, O. When the game is not enough: Motivations and practices among computer game modding culture. Games and Culture. Č. 3, s. 239–
Od Gutenberga k Zuckerbergovi
255; WYSOCKI, M. It’s not just the coffee that’s hot: Modding sexual content in video games. In: WYSOCKI, M. a L. EVAN. Rated M for mature: Sex and sexuality in video games. New York 2015.
42 FELCZAK, M. Dyskursy pracy i zabawy w wysokobudżetowym segmencie gier wideo: fokalizacja i logika operacyjna. Teksty Drugie. č. 3, s. 210–224; KÜCKLICH, J. Precarious playbour: modders and the digital games industry. fibreculture č. 1.
43 BOGOST, I. Don’t Play Untitled Goose Game The Atlantic .
BIBLIOGRAFIE
AARSETH, E. Doors and perception: Fiction vs. simulation in games. Intermédialités: Histoire et théorie des arts, des lettres et des techniques/Intermediality: History and Theory of the Arts, Literature and Technologies. č. 9, s. 35–44.
AARSETH, E. Playing Research: Methodological approaches to game analysis. Proceedings of the digital arts and culture conference, Melbourne 2003
AARSETH, E. Cybertext: Perspectives on ergodic literature. Baltimore: John Hopkins University Press, 1997.
APPERLEY, T. a J. CLEMENS. The biopolitics of gaming. In: KAPPEL, M. (ed.). The play versus story divide in game studies: Critical essays. Jefferson: McFarland, 2016, s. 110–124.
ARJORANTA, J. Real-time hermeneutics: Meaning-making in ludonarrative digital games. Jyväskylä: University of Jyväskylä, 2015.
BACKE, H.-J. Narrative rules? Story logic and the structures of games. Literary and linguistic computing. Č. 3, s. 243–260.
BOGOST, I. Persuasive games The expressive power of videogames. Cambridge: MIT Press, 2007.
BOGOST, I. Bogost. Don’t Play Untitled Goose Game . The Atlantic . CAILLOIS, R. Hry a lidé: maska a závrať. Praha: Nakladatelství Studia Ypsilon, 1998.
DONOVAN, T. Replay: The history of video games. Lewes: Yellow Ant, 2010. ENSSLIN, A. Ensslin. Literary gaming. Cambridge: MIT Press, 2014.
FELCZAK, M. Dyskursy pracy i zabawy w wysokobudżetowym segmencie gier wideo: fokalizacja i logika operacyjna. Teksty Drugie. Č. 3, s. 210–224
GALVIN, A. Ian Bogost on Games, Doorknobs, and General Readers – Public Books. Dostupné na WWW: https://www.publicbooks.org/public-thinker-ian-bogost-on-games-doorknobs-and-general-readers/ (dostup: 16. 11 2022)
HOCKING, C. Ludonarrative dissonance in Bioshock. In: DAVIDSON, D. (ed.). Well Played 1.0: video games, value and meaning. Pittsburgh: ETC Press, 2009, s. 114–117.
HUIZINGA, J. Homo ludens: o původu kultury ve hře. Praha: Dauphin, 2000
HUNICKE, R., LEBLANC, M. a R. ZUBEK. MDA: A formal approach to game design and game research. In: Proceedings of the AAAI Workshop on Challenges in Game AI . 2004 .
16. Hry a digitální humanitní vědy…
IVERSEN, S. Between Regulation and Improvisation: Playing and Analysing “Games in the Middle”. Kodaň: IT University of Copenhagen, 2010.
JANIK, J. Gra jako obiekt oporny . Performatywny charakter relacji gracza i gry wideo. Krakov: Wydawnictwo Uniwersytetu Jagiellońskiego, 2022.
JENKINS, H. Game Design As Narrative Architecture. In: WARDRIP-FRUIN, N. (ed.). First Person. Cambridge: MIT Press, 2004.
JENKINS, H. Convergence culture: where old and new media collide. New York: New York University Press, 2006.
JUUL, J. The Game, the Player, the World: Looking for a Heart of Gameness. In: COPIER, M. a J. RAESSENS (eds.). Level Up: Digital Games Research Conference Proceedings. Utrecht: Utrecht Unviersity Press, 2003, s. 30–45.
JUUL, J. Half-real: Video games between real rules and fictional worlds . Cambridge: MIT Press, 2011.
KARHULAHTI, V.-M. Double fine adventure and the double hermeneutic videogame. In: Proceedings of the 4th International Conference on Fun and Games. ACM 2012, s. 19–26.
KARHULAHTI, V.-M. Defining the videogame. Game Studies. Č. 2.
KŁOSIŃSKI, M. Hermeneutyka gier wideo. Interpretacja, immersja, utopia Olštýn: BookPress, 2018.
KONCZAK, L. Computer Game Criticism: A Method for Computer Game Analysis. In: Computer Games and Digital Cultures Conference. Tampere 2002.
KUBIŃSKI, P. Gry wideo. Zarys poetyki. Krakov: Universitas, 2016.
KÜCKLICH, J. Precarious playbour: Modders and the digital games industry. fibreculture. Č. 1.
LEINO, O. Death loop as a feature. Game Studies. 2012, roč. 12, č. 2.
MAJKOWSKI, T. Języki gropowieści . Studia o różnojęzyczności gier cyfrowych. Krakov: Wydawnictwo Uniwersytetu Jagiellońskiego, 2019.
MEADES, A. Understanding counterplay in video games. New York: Routledge, 2015.
MONTFORT, N. a I. BOGOST. Racing the beam . The Atari video computer system. Cambridge: MIT Press, 2009.
VAN DE MOSSELAER, N. a N. WILDMAN. Glitches as fictional (mis) communication. In: BARKER, T. a M. KOROLKOVA. Miscommunications: Errors, Mistakes . New York: Bloomsbury 2021, s. 300–315.
MURRAY, J. Hamlet on the holodeck: The future of narrative in cyberspace . Cambridge: MIT Press, 2017.
MYERS, D. Play redux: The form of computer games. Ann Arbor: University of Michigan Press, 2010.
RYAN, M.-L. Narrative across media: The languages of storytelling. Lincoln: University of Nebraska Press, 2004.
RYAN, M.-L. a J.-N. THON. Storyworlds across media: Toward a media-conscious narratology. Lincoln: University of Nebraska Press, 2014.
SICART, M. Defining game mechanics. Game Studies. Č. 2.
SIHVONEN, T. Players unleashed! Modding the Sims and the culture of gaming. Amsterdam: Amsterdam University Press, 2011.
SOTAMAA, O. When the game is not enough: Motivations and practices
Od Gutenberga k Zuckerbergovi
among computer game modding culture. Games and Culture. Č. 3, s. 239–255 .
ŠVELCH, J. Comedy of contingency: making physical humor in video game spaces. International Journal of Communication. S. 2530–2552.
TREANOR, M., SCHWEIZER, B., BOGOST, I. a M. MATEAS. Proceduralist Readings: How to find meaning in games with graphical logics. In:: 6th International Conference on Foundations of Digital Games. ACM, 2011, s. 115–122.
WESTERLAKEN, M. Self-Fashioning in Action: Zelda’s Breath of the Wild Vegan Run. In: Philosophy of Computer Games. Krakov 2017.
WITTGENSTEIN, L. Filosofická zkoumání. Praha: Filosofia, 2019.
WOLF, M. Before the crash: Early video game history. Detroit: Wayne State University Press, 2012.
WYSOCKI, M. It’s not just the coffee that’s hot: Modding sexual content in video games. In: WYSOCKI, M. a E. LAUTERIA (eds.). Rated M for mature: Sex and sexuality in video games. New York: Bloomsbury Publishing USA, 2015.
K práci na tomto svazku mě přiměly zkušenosti, které jsem získal během několika posledních let, kdy jsem se podílel na vědecké a organizační práci mezinárodní komunity vědců (především humanistů a informatiků) sdružených pod hrdým praporem vědeckého pokroku v novém, digitálním světě. Tón, který odkazuje na stále přítomné vize totalitních dystopií, jež vytvořili George Orwell, Aldous Huxley a Janusz Zajdel, zde není náhodný. Obdiv k výpočetním možnostem stále rychlejších počítačů, zpracovávajících data nashromážděná v historicky nevídaném měřítku, je doprovázen obavami o identitu humanitních věd, a v širším smyslu obavami o status člověka jako „míry všech věcí“, od renesance stavěného do středu našeho světa. A není pochyb o tom, že průlom, k němuž v posledních letech dochází díky generativním předtrénovaným transformátorům (GPT) v oblasti textu, grafiky a zvuku, je srovnatelný s průlomem, který v evropské kultuře započal s rozšířením knihtisku pomocí pohyblivých liter. Jen s tím rozdílem, že nyní před našima očima stroje postupně dosahují stále vyšší úrovně jazykové a komunikační kompetence a vstupují do stále užší symbiózy s člověkem. Možná že vzdáleným finále této etapy vývoje civilizace bude zcela virtuální paralelní svět, který v současnosti symbolizuje projekt metaverse Marka Zuckerberga. Na začátku cesty, kterou jsme s přispěvateli této publikace prošli, byly otázky, na které jsme hledali odpovědi. Některé z nich byly obecné povahy. Čím to je, že se na velkých kongresech pořádaných Alliance of Digital Humanities Organisations nebo podobnými sdruženími schází plejáda vědců reprezentujících různé směry humanitních věd, aplikované informatiky, mediálních studií a dokonce i společenských věd? Jak se stalo, že po několika staletích nezávislého vývoje pracujeme bok po boku na univerzitách po celém světě a teprve v digi-
ZávěrOd Gutenberga k Zuckerbergovi
tální realitě sedíme jako vědecká rodina u jednoho stolu, nebo spíše v jedné velké laboratoři? Vzdalujeme se jako digitální humanisté od hlavních, konzervativnějších proudů našich oborů? Zamýšleli jsme se také nad řadou praktických otázek týkajících se stavu poznání a dostupnosti učebnic z oblasti digitálních humanitních věd.
Tato problematika inspirovala a podnítila celou řadu autorů k napsání řady kapitol věnovaných digitální perspektivě jejich oborů. Popisy aplikací digitálních technologií na studium jazyka zaujímají v monografii největší prostor: kapitoly o zvucích řeči, zpracování textu, literární vědě, translatologii a ediční problematice tvoří přibližně polovinu svazku. V další se ke slovu hlásí historie, kunsthistorie, informatika a kognitivní vědy. Kromě toho publikace obsahuje dvě transdisciplinární kapitoly o grafice a mapách, které jako by doplňovaly mozaiku formátů a forem dat používaných v humanitních vědách. Toto zdánlivě asymetrické rozložení probíraných obsahů je dáno nejen kvantitativní převahou výzkumu digitálního jazyka, ale především přesvědčením, že konstrukce a šíření algoritmů simulujících lidskou jazykovou a komunikační kompetenci je milníkem ve vývoji civilizace. V publikaci však chybí kapitola věnovaná umělé inteligenci a efektům automatického generování textu, obrazu a zvuku výše zmíněnými metodami GPT (nejpopulárnějším, ba emblematickým poskytovatelem takových služeb je v současnosti ChatGPT společnosti OpenAI). Nejedná se však o opomenutí, ale o vědomou a záměrnou volbu. Rozšíření této technologie je novým, velmi dynamickým a mnohotvárným fenoménem, takže na vytvoření jejího objektivního popisu zatím nenastala dostatečná časová odluka.
Závěry, které se objevují na konci této vědecké cesty, potvrzují dřívější pozorování a předpoklady. Digitální metody jsou dnes nejmocnějším nástrojem různých humanitních oborů, včetně těch, které v minulosti vyvinuly výzkumné nástroje vlastní. Otevřely cestu k univerzálnímu zpracování jakýchkoli textových, grafických a zvukových zdrojů v jednotném komunikačním prostředí a zároveň přitahují zájem badatelů různých specializací. Umožnily také propojit tyto zdroje s geofyzikálním prostorem a časovou osou a přidat virtuální rozměr, v němž je ekvivalentem fyzické vzdálenosti matematicky měřená podobnost objektů. Kvantitativní a kvalitativní postup ve vztahu k epoše tisku je tudíž doslova kolosální: od pasivních a v podstatě jednoformátových výtvorů (tisk) se humanitní vědy posouvají k dynamickým a interaktivním infrastrukturám (službám, aplikacím), které integrují velmi různorodá data a navíc umožňují dialog s uživatelem.
V průběhu editace svazku jsme si s jednotlivými přispěvateli uvědomili, že ačkoli pracujeme v jednotném digitálním prostředí a používáme podobné metody, existuje mnoho věcí, v nichž se námi reprezentované discipliny liší. Především se liší předmět a cíle našeho
Závěr
v ýzkumu a specifické jsou i způsoby, jakými sdělujeme svá zjištění. To vše „zavěšuje“ digitální humanisty mezi identitou zdrojových disciplín – lingvistiky, literární vědy, historie, dějin umění, herních studií, informačních nebo mediálních studií – a novou, integrovanější identitou, která neuznává tradiční hranice. Průkopnickou výzvou je proto nyní formulovat společné nebo podobné výzkumné cíle, kterých lze dosáhnout pomocí digitálních metod a zdrojů. Jako teoretickou platformu pro takovou integraci lze uvážit v publikaci zmiňovanou kuklturomiku (culturomics) datovou vědu (data science). Nicméně bez ohledu na to, zda se budeme rozvíjet společně, nebo odděleně – a zda si digitální humanitní vědy v budoucnu zachovají status „zastřešující“ disciplíny –, jedna věc je nesporná: zrychlující se svět vědy bude vyžadovat, aby humanisté neustále získávali nové digitální kompetence.
Závěrečné zamyšlení, o které bych se chtěl za všechny autory – nejen jako odborný redaktor, ale také jako badatel v oblasti digitálních humanitních věd – se čtenářem podělit, se týká aktuálnosti tohoto svazku. Změny, k nimž dnes v rámci humanitních věd a příbuzných oborů dochází, jsou velmi rychlé, a proto některé konkrétní obsahy snadno zastarávají. Toho jsme si všichni, když jsme na monografii začali pracovat, byli vědomi. Proto výsledek našeho snažení považujeme za jednu z etap diskuse o digitalizaci humanitních věd, rozhodně však ne za její vyvrcholení.
Oblíbenostdigitálníchhumanitníchvěd,jejichdynamický rozvoj, poutavost a především hodnota zjištění, která přinášejí, jsou těžko zpochybnitelnými fakty. Samovolný a prudký rozmach digitálních metod, nástrojů a prostředků v humanitních (a částečně i společenských) vědách však nedoprovází dostatečná teoretická reflexe. Předkládaná monografie si klade za cíl tuto mezeru zaplnit. Záměrem autorů je především poukázat na podstatu digitálních humanitních věd, jejich specifika a rysy, které spojují vědce reprezentující často vzdálené obory –historii, kulturní antropologii, lingvistiku, uměnovědy, sociální geografii, aplikovanou informatiku – v kontextu doznívající gutenbergovské éry. Monografie je určena širokému akademickému publiku – především studentům, ale i pedagogům – a dalším čtenářům se zájmem odigitálnísvět.Jetřebazdůraznit,žejdeojedenzprvních sborníků svého druhu věnovaný digitálním humanitním vědámvEvropě.
www.universitas.com.pl