Projekt PERO – OCR pro historické texty Alžbeta Zavřelová Alzbeta.Zavrelova@mzk.cz
PERO – Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti má za cíl vytvořit nástroje a technologie pro zpřístupnění obsahu digitalizovaných historických dokumentů s využitím nejnovějších poznatků v oblasti počítačového vidění, strojového učení a jazykového modelování. Hlavním řešitelem projektu je Fakulta informačních technologií Vysokého učení technického v Brně, Moravská zemská knihovna má roli spoluřešitele (NAKI II, 2018–2022). V paměťových institucích probíhá v posled ních dvou desetiletích masová digitalizace všech typů dokumentů, od moderních knih až po nejstarší archivní materiál. Jedná se o stamiliony stránek, kde jen digitální knihov na MZK obsahuje téměř 60 milionů stran. Na digitalizátech se provádí optické rozpo znávání obsahu dokumentu (OCR – Optical Character Recognition), jehož požadovaným výstupem je fulltext nutný pro strojovou in dexaci, či případnou automatickou rešerši. Rozpoznání textu bylo ale možné provádět jen u kvalitních tisků vysázených standardní mi typy písma. Pro tisky s nižší kvalitou, s po škozením či nerovnými texty nebo starším
jazykem byla úroveň kvality OCR nedosta tečná, u starých tisků s novogotickými typy písma nebo s kombinací antikvy a fraktury se neprovádělo vůbec. Veškeré zpracování pro účely indexace a vyhledávání buď vyžadova lo důslednou kontrolu a ruční úpravy, nebo smíření se s velkou chybovostí. Rozpoznává ní ručně psaného textu (HTR – Handwritten Text Recognition) není při digitalizaci z po chopitelných důvodů řešeno vůbec a dodnes neexistují univerzální nástroje pro jejich úplné automatické zpracování. Projekt chce dosáhnout lepší míru zpří stupnění obsahu problematických digitali zátů třemi způsoby – zlepšováním kvality,
Ukázka OCR výstupu kramářské písně Pjſničky na Pozdrawenj Angelské, PERO-OCR aplikace z činnosti MZK 45