Duha 4/2020

Projekt PERO – OCR pro historické texty Alžbeta Zavřelová Alzbeta.Zavrelova@mzk.cz

PERO – Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti má za cíl vytvořit nástroje a technologie pro zpřístupnění obsahu digitalizovaných historických dokumentů s využitím nejnovějších poznatků v oblasti počítačového vidění, strojového učení a jazykového modelování. Hlavním řešitelem projektu je Fakulta informačních technologií Vysokého učení technického v Brně, Moravská zemská knihovna má roli spoluřešitele (NAKI II, 2018–2022). V paměťových institucích probíhá v posled ních dvou desetiletích masová digitalizace všech typů dokumentů, od moderních knih až po nejstarší archivní materiál. Jedná se o stamiliony stránek, kde jen digitální knihov na MZK obsahuje téměř 60 milionů stran. Na digitalizátech se provádí optické rozpo znávání obsahu dokumentu (OCR – Optical Character Recognition), jehož požadovaným výstupem je fulltext nutný pro strojovou in dexaci, či případnou automatickou rešerši. Rozpoznání textu bylo ale možné provádět jen u kvalitních tisků vysázených standardní mi typy písma. Pro tisky s nižší kvalitou, s po škozením či nerovnými texty nebo starším

jazykem byla úroveň kvality OCR nedosta tečná, u starých tisků s novogotickými typy písma nebo s kombinací antikvy a fraktury se neprovádělo vůbec. Veškeré zpracování pro účely indexace a vyhledávání buď vyžadova lo důslednou kontrolu a ruční úpravy, nebo smíření se s velkou chybovostí. Rozpoznává ní ručně psaného textu (HTR – Handwritten Text Recognition) není při digitalizaci z po chopitelných důvodů řešeno vůbec a dodnes neexistují univerzální nástroje pro jejich úplné automatické zpracování. Projekt chce dosáhnout lepší míru zpří stupnění obsahu problematických digitali zátů třemi způsoby – zlepšováním kvality,

Duha 4/2020

Articles inside

Domov knižních důchodců – Daniel Vydra

Rozhovor s Kateřinou Šimáčkovou – Tomáš Kubíček

Univerzitní knihovna Gdaňské univerzity – Gabriela Chromcová

Projekt PERO – OCR pro historické texty – Alžbeta Zavřelová

Eva Dvořáková – Kateřina Juřicová

MZK zahajuje výstavbu depozitáře H1 – Roman Mátl

Stream anebo nic? – Radoslav Pospíchal, Martina Šmídtová

Příběh veřejné knihovny ve Vyškově – Vladislav Raška

Divadlo a jeho paměť – Vít Závodský

Na čem pracuje, co chystá a co připravilo České literární centrum?

Anketa „Akademické knihovny doktorandi“ – Tereza Schwarzová Matýsová

Čtenářské kluby a workshopy v knihovnách – Zuzana Zendulková

Ohlédnutí za strategickými dokumenty českého knihovnictví – Eva Svobodová

Inspirativní snídaně Brain&Breakfast v břeclavské knihovně – Jaroslav Čech

Metodický pokyn pro postupy rekonstrukce knihoven – Monika Kratochvílová

Nová Koncepce rozvoje knihoven podpírá české knihovnictví třemi pilíři

Místní knihovna Litobratřice – Eliška Zichová

CovidCON ukázal, že první vlnu české knihovny přečkaly... – Jan Delong

Mahenka stále se rozrůstající a inovující – Alena Šedivá

s Microsoft Sway – Vojtěch Hamerský

Nebojíme se robotů a digitálních technologií – Dagmar Kopřivová

Interiéry knihoven IV. – knihovní mobiliář – Lenka Dostálová

Rozhovor s Jarmilou Burešovou – Jana Nejezchlebová

Shaun Tan: Pravidla léta – čtenářská lekce – Radka Vojáčková

z projektu Benchmarking knihoven – Vít Richter

Nebojme se komunikovat! – Kateřina Janošková

Jak se měří ekonomická efektivita ve veřejné knihovně? – Jan Stejskal