Duha 4/2020

Page 47

Projekt PERO – OCR pro historické texty Alžbeta Zavřelová Alzbeta.Zavrelova@mzk.cz

PERO – Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti má za cíl vytvořit nástroje a technologie pro zpřístupnění obsahu digitalizovaných historických dokumentů s využitím nejnovějších poznatků v oblasti počítačového vidění, strojového učení a jazykového modelování. Hlavním řešitelem projektu je Fakulta informačních technologií Vysokého učení technického v Brně, Moravská zemská knihovna má roli spoluřešitele (NAKI II, 2018–2022). V paměťových institucích probíhá v posled­ ních dvou desetiletích masová digitalizace všech typů dokumentů, od moderních knih až po nejstarší archivní materiál. Jedná se o stamiliony stránek, kde jen digitální knihov­ na MZK obsahuje téměř 60 milionů stran. Na digitalizátech se provádí optické rozpo­ znávání obsahu dokumentu (OCR – Optical Character Recognition), jehož požadovaným výstupem je fulltext nutný pro strojovou in­ dexaci, či případnou automatickou rešerši. Rozpoznání textu bylo ale možné provádět jen u kvalitních tisků vysázených standardní­ mi typy písma. Pro tisky s nižší kvalitou, s po­ škozením či nerovnými texty nebo starším

jazykem byla úroveň kvality OCR nedosta­ tečná, u starých tisků s novogotickými typy písma nebo s kombinací antikvy a fraktury se neprovádělo vůbec. Veškeré zpracování pro účely indexace a vyhledávání buď vyžadova­ lo důslednou kontrolu a ruční úpravy, nebo smíření se s velkou chybovostí. Rozpoznává­ ní ručně psaného textu (HTR – Handwritten Text Recognition) není při digitalizaci z po­ chopitelných důvodů řešeno vůbec a dodnes neexistují univerzální nástroje pro jejich úplné automatické zpracování. Projekt chce dosáhnout lepší míru zpří­ stupnění obsahu problematických digitali­ zátů třemi způsoby – zlepšováním kvality,

Ukázka OCR výstupu kramářské písně Pjſničky na Pozdrawenj Angelské, PERO-OCR aplikace z činnosti MZK    45


Turn static files into dynamic content formats.

Create a flipbook

Articles inside

Domov knižních důchodců – Daniel Vydra

2min
pages 59-60

Rozhovor s Kateřinou Šimáčkovou – Tomáš Kubíček

7min
pages 56-58

Univerzitní knihovna Gdaňské univerzity – Gabriela Chromcová

3min
pages 54-55

Projekt PERO – OCR pro historické texty – Alžbeta Zavřelová

4min
pages 47-49

Eva Dvořáková – Kateřina Juřicová

1min
page 50

MZK zahajuje výstavbu depozitáře H1 – Roman Mátl

1min
page 44

Stream anebo nic? – Radoslav Pospíchal, Martina Šmídtová

4min
pages 42-43

Příběh veřejné knihovny ve Vyškově – Vladislav Raška

3min
pages 52-53

Divadlo a jeho paměť – Vít Závodský

1min
page 51

Na čem pracuje, co chystá a co připravilo České literární centrum?

4min
pages 45-46

Anketa „Akademické knihovny doktorandi“ – Tereza Schwarzová Matýsová

3min
pages 40-41

Čtenářské kluby a workshopy v knihovnách – Zuzana Zendulková

2min
page 32

Ohlédnutí za strategickými dokumenty českého knihovnictví – Eva Svobodová

9min
pages 33-36

Inspirativní snídaně Brain&Breakfast v břeclavské knihovně – Jaroslav Čech

3min
pages 28-29

Metodický pokyn pro postupy rekonstrukce knihoven – Monika Kratochvílová

1min
page 39

Nová Koncepce rozvoje knihoven podpírá české knihovnictví třemi pilíři

3min
pages 37-38

Místní knihovna Litobratřice – Eliška Zichová

3min
pages 26-27

CovidCON ukázal, že první vlnu české knihovny přečkaly... – Jan Delong

4min
pages 30-31

Mahenka stále se rozrůstající a inovující – Alena Šedivá

4min
pages 24-25

s Microsoft Sway – Vojtěch Hamerský

2min
page 19

Nebojíme se robotů a digitálních technologií – Dagmar Kopřivová

2min
page 23

Interiéry knihoven IV. – knihovní mobiliář – Lenka Dostálová

3min
pages 17-18

Rozhovor s Jarmilou Burešovou – Jana Nejezchlebová

6min
pages 20-22

Shaun Tan: Pravidla léta – čtenářská lekce – Radka Vojáčková

3min
pages 15-16

z projektu Benchmarking knihoven – Vít Richter

8min
pages 4-8

Nebojme se komunikovat! – Kateřina Janošková

7min
pages 11-14

Jak se měří ekonomická efektivita ve veřejné knihovně? – Jan Stejskal

4min
pages 9-10
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.