Transkribus

Page 1

Аутоматско препознавање

руком писаног текста

програм Транскрибус приручник за делатнике у култури Наташа Дакић

Адам Софронијевић


Реализовано под окровитељством Министарства културе и информисања Републике Србије у оквиру пројекта „Рашчитана стара српска ћирилица: оживљена руком писана прошлост“


1 Увод Транскрибус (Transkribus) је свеобухватна платформа за аутоматско препознавање, транскрипцију и претраживање историјских докумената. Састоји се од: • експертског алата Транскрибус, • веб-интерфејса1 и • неколико клауд услуга. Основни циљ Транскрибуса јесте пружање подршке корисницима који се баве транскрипцијом штампаних или рукописних докумената. Превасходно је намењен истраживачима из хуманистичких наука, архивистима и библиотекарима, волонтерима, као и ИТ стручњацима.

• Оптичко препознавање карактера4 коришћењем ABBYY Finereader Engine 11. Све услуге које су уграђене у Транскрибус доступне су потпуно бесплатно. Транскрибус одржава Група за дигитализацију и дигиталну заштиту5 на Универзитету у Инсбруку, а финансира Европска комисија као део H2020 READ пројекта, тј. Пројекта за препознавање и обогаћивање архивских докумената.6 Транскрибус је још увек у фази развоја, а већи делови софтвера су у отвореном приступу. Додатне информације налазе се на страници Github репозиторијума7. Приручник који је пред вама урађен је на основу верзије програма Транскрибус 1.3.7

Транскрибус нуди низ алата за аутоматску обраду докумената, као што су: • препознавање рукописног текста2, • анализа распореда елемената на страници3, • разумевање докумената, • идентификација писаца или 1  http://transkribus.eu/ 2  HTR (Handwritten Text Recognition) 3  Layout Analysis

4  OCR (Optical Character Recognition) 5  DEA group (Digitisation and Digital Preservation group) 6  H2020 READ (Recognition and Enrichment of Archival Documents) project (2015-2019). 7  https://github.com/transkribus/

3


2 Аутоматско препознавање рукописног текста - HTR (Handwritten Text Recognition) технологија Транскрибус платформа је део READ пројекта (Пројекта за препознавање и обогаћивање архивских докумената) који финансира Европска унија. Основна мисија READ пројекта је да учини доступнијим архивски материјал развијањем и ширењем технологије HTR (Handwritten Text Recognition Препознавање рукописног текста), али и коришћењем других најсавременијих технологија.

Транскрипција рукописног документа у оквиру платформе Транскрибус се врши на два начина: први је једноставна транскрипција која корисницима омогућава обучавање HTR механизма за аутоматско читање историјских докумената; а други је напредна транскрипција која корисницима омогућава креирање транскрипције документа који може послужити као основа за дигитално издање тог документа.

Технологија препознавања рукописног текста функционише потпуно другачије од технологије OCR (Optical Character Recognition - Оптичко препознавање карактера) за штампане текстове. (Leifert et al., 2016). Уместо фокусирања на појединачне карактере, HTR механизми обрађују целе речи или пак целе линије, скенирају их у различитим правцима, а затим стављају ове податке у низ. Транскрибус притом омогућава рад са различитим језицима и рукописним стиловима. Најновији експерименти показују да Транскрибус може аутоматски генерисати транскрипте са стопом грешке карактера од 5-10%. То значи да би 90-95% карактера у транскрипту било тачно. Поменута технологија је доступна преко платформе Транскрибус, која је програмирана коришћењем апликација JAVA и SWT (Mühlberger et al.).

HTR механизми се заснивају на алгоритмима за машинско учење. Технологију препознавања рукописног текста треба обучити, и то тако што треба припремити најмање 30 страница транскрибованог материјала. Ово помаже машини да разуме образце које праве речи и карактери. Тако спремљен материјал за обуку познат је као „ground truth“ (Gatos et al., 2014). Сама обука, тј. транскрипција се мора извести врло темељно - у супротном, Транскрибус можда не би „учио“ онолико колико би требало. Али, како програм заправо „учи“,? Једноставно речено, Транскрибус „учи“ да „прочита“ рукописне текстове одређеног аутора тако што „гледа“ што више његовог односно њеног рукописа.

4

Након избора корпуса од тридесетак страна предодређених за транскрипцију, потребно је за сваку страницу дефинисати:


текстуалне блокове, линијске блокове у оквиру сваког текстуалног блока, као и основне линије на којима лежи текст. Ове информације дају оквир за транскрипцију и омогућавају разумевање редоследа читања документа. Када читамо рукописни текст, често се суочавамо са додатним текстом уметнутим између редова. Ми интуитивно интегришемо те додатке у наш читалачки ток, али програму као што је Транскрибус недостаје таква интуиција – потребна му је помоћ. Да би се одржао линеаран читалачки ток, потребно је унети додатне основне линије, како би се интегрисао уметнути текст. Тек након ових припрема, може се кренути са процесом прекуцавања текста. Будући да је Транскрибус дизајниран да одржи транскрипцију што је могуће више тачном, свака откривена линија рукописног текста везана је за његов еквивалент у текстуалном едитору - губитак или стварање неповезане транскрипције је скоро немогуће. Такође, омогућено је и коришћење напредних функција, нпр. функција Означавање дозвољава транскриптору да додаје детаље одређеним ентитетима (углавном о људима, местима, датумима и скраћеницама). Коришћењем овог алата, транскриптор „храни“ програм информацијама, што га у одређеном тренутку доводи до препознавања одређених речи, нпр. скраћеница „др“ за реч „доктор“. И док функција Означавање додаје информације о садржају транскрипције, функција Метаподаци је веома корисна за додатне стилске информације, јер омогућава транскриптору да прикаже свој препис што је могуће сличније оригиналном тексту. Ако је, на пример, аутор рукописног текста прецртао неке речи,

те речи се у транскрипту означавају као Прецртано; на тај начин, Транскрибус сазнаје да сваки ентитет који детектује као реч нужно не припада садржају писма, иако јасно припада тексту, па стога и транскрипцији. Овако припремљен материјал служи за израду HTR модела, који даље омогућава аутоматско генерисање транскрипта осталих страница рукописног документа у колекцији коришћењем функције Покрени препознавање текста у картици Алати у Транскрибусу. Резултати ће се појавити директно на новој верзији унетог документа унутар Транскрибуса. Могуће је и проценити тачност аутоматске транскрипције помоћу функције Упореди у картици Алати. Такође, аутоматско генерисани транскрипти могу се претраживати и извозити у различитим форматима. Аутоматско препознавање рукописних докумената више није само замисао већ стварна опција. Без обзира да ли се ради о средњовековним кодексима или модерним архивским документима, HTR технологија не само да може да створи аутоматску транскрипцију, већ нуди и знатно побољшане опције претраживања пуног текста путем нових метода претраживања (нпр. „проналажење кључних речи“), као и лак експорт транскрибованих докумената у различитим форматима чиме је омогућена њихова даља анализа.

5


3 Укључивање библиотека и архива у Транскрибус Библиотеке и архиви чувају, између осталог, рукописне докуменате које протеклих година ужурбано дигитализују не би ли их сачували и учинили доступнијим својим корисницима. Неретко, такве дигиталне колекције броје неколико хиљада, десетине хиљада или чак милионе докумената. Транскрибус омогућава претрагу и откривање садржаја оваквих докумената путем претраге пуног текста, путем кључних речи или пак путем именованих ентитета. Библиотеке и архиви се могу укључити у рад Транскрибуса преко пројекта за тестирање апликације. Започињање пројекта за тестирање апликације је врло једноставно, а библиотекама и архивима ће учешће у оваквом пројекту омогућити: • обуку HTR механизма за одређену колекцију; •

процену прецизности процеса препознавања текста засновану на научним методама;

Сви потребни алати и описани радни токови су доступни преко Транскрибус експертског интерфејса, што практично значи да се у сваком тренутку може започети тестни пројекат. HTR механизам HTR механизми се заснивају на алгоритмима за машинско учење, конкретније на супервизованом машинском учењу. То значи да HTR механизму треба приказати „исправне примере“ транскрибованих докумената како би схватио образце по којима се формирају карактери и речи. Заправо, може се рећи да што је већи сет података за обуку, то су резултати тачнији. Ово посебно важи за колекције које садрже велики број различитих рукописа или рукописних стилова.

• примену добијених резултате на комплетну колекцију и

Истраживачке групе у оквиру READ пројекта раде на јединственом моделу који би требало да интегрише све сетове података за обуку у циљу лакшег и бржег стварања HTR алгоритма за сваку нову колекцију.

• процену времена и ресурса потребних за обраду комплетне колекције.

Избор грађе

Тестни пројекат може да покрене свако овлашћено лице запослено у библиотеци или архиву, а такође је омогућено да пројектом управља овлашћено лице из пројектног тима Транскрибуса, ако библиотека/архив нема довољно ресурса. 6

Да би се покренуо пројекат за тестирање апликације, неопходно је изабрати и припремити поуздан сет података који ће служити као материјал за обуку HTR механизма, тј. репрезентативни


узорак докумената садржаних у колекцији установе. На овај начин, резултати би требали бити екстраполирани на остатак целокупне колекције, а такође је предвиђено да се користе за процену резултата аутоматског препознавања рукописног текста. Препоручује се да се репрезентативни узорак колекције бира методом случајног узорка. Претпостаља се да је најобјективније изабрати документа аутоматски, користећи базу података или, применом једноставних критеријума као што је одабир сваког десетог, двадесетог или педесетог документа у колекцији. Потребна количина страница По правилу, за обуку је довољно 20.000 речи (око 100 страница), ако се рукописна колекција састоји од једноставнијих типова докумената, нпр. дневника или приватних писама једне особе. Ако су у питању збирке које су настајале током дугог низа година, или документа које су записивале различите особе, препорука је да се изабере сет од неколико стотина страница. Ипак, први тестови се увек могу извести на малом скупу података, а затим се количина података за обуку може повећати, у складу са резултатима оствареним помоћу HTR механизма. Материјал за обуку Изабрани узорак докумената треба да се припреми на врло специфичан начин, како би HTR механизам могао да га користи као „главни извор учења“. Овако припремљени

подаци познати су као „ground truth“ односно референтни подаци, будући да представљају основ за све друге операције. Постоје два главна начела која се морају поштовати приликом креирања референтних података: • Сегментација: линије транскрипта морају бити повезане са линијама слике, тако да рачунар може да упари сваку линију транскрипта са одговарајућом линијом на слици. Да би се ово постигло, свака слика мора бити сегментирана у текстуалне блокове, линије и основне линије. • Транскрипција: припремљени сет података мора садржавати исправно прекуцани текст изабраног документа. Текст би требао бити што је ближи стварном изгледу документа, тј. свако слово у документу треба да буде представљено одговарајућим карактером у транскрипту. За новија документа, од 18. века па надаље, транскрипција је обично једноставна. У документима из ранијих периода, проблеми попут необичних карактера и скраћеница могу представљати изазов. Али, све ове недоумце се лако могу разрешити коришћењем система за означавање који је саставни део Транскрибуса. Транскрипција референтних података Када се одаберу странице за референтни скуп података, оне се отпремају у Транскрибус, сегментирају, и тек онда се започиње са процесом транскрипције. Потребни је напоменути и да су сви документи у Транскрибусу приватни; само власник докумената, и особе које је власник овластио, 7


имају право приступа унетим документима. Транскрипција се може извршити на два начина: • Самосталан рад: ова опција подразумева да овлашћено лице установе прекуцава текст у Транскрибусу. У том случају, мора се проћи тзв. „учење кроз рад” у трајању од 2-3 сата, током којих се корисник упознаје са алатом и функционалностима Транскрибуса. •

Коришћење Транскрибус услуга: у овом случају студенти и спољни сарадници Транскрибус пројекта прекуцавају текст у Транскрибусу. Они имају завидно искуство у раду са старим европским језицима у пројекту. Цена ове услуге зависи од захтеваног нивоа прецизности и нивоа читљивости рукописа.

Обука HTR механизма Када су одабране странице докумената у потпуности транскрибоване, оне званично постају референтни скуп података тј. „ground truth“, те се може започети процес обуке HTR механизма. Потребно је само обавестити Транскрибус тим (email@transkribus.eu) који даље овај процес спроводи потпуно ван мреже, тј. унутар платформе Транскрибус. Нови или ажурирани HTR модел применљив на дату колекцију буде доступан обично у року од неколико седмица или чак дана, а овлашћено лице у установи бива обавештено чим се процес обуке HTR механизма заврши. Тако добијен HTR модел служи за аутоматску транскрипцију остатка докумената у изабраној колекцији. 8

Евалуација резултата Одабрани скуп података се не користи само за потребе обуке. Један мали део бива прераспоређен и коришћен као тест сет. Треба напоменути да се слике, тј. скениране странице докумената не користе за обуку HTR механизма. Тест сет омогућава процену прецизности резултата HTR механизма. Наиме, у Транскрибус је имплементиран модул, потребан за извршење ове евалуације директно на приложеним документима, и он израчунава стопу грешке карактера и стопу грешке речи. Обе ове метрике етаблиране су у информатици и рачунарству. Напомена: Када је HTR модел обучен и доступан преко Транскрибуса, може се применити на било коју страницу, укључујући и оне који нису биле део почетног сета података. Такође, може се мерити тачност HTR модела и на нивоу једне или пак више страница. Тренутно, у информатици и рачунарству, стопа грешке карактера испод 10% и стопа грешке речи испод 20% представља врхунско достигнуће HTR технологије. У лабораторијским условима могу се постићи још бољи резултати.

Могући бенефити HTR процеса Осим што HTR механизам производи аутоматски транскрипт приложених докумената, он такође производи и матрице поузданости на нивоу карактера и/или речи. На овај начин,


омогућено је чување интерних опција које је HTR механизам узимао у разматрање током процеса обуке. Захваљујући овим матрицама, на приложене документе се могу применити две додатне функције: • Препознавање кључних речи: ово је техника тражења речи које нису биле „први избор“ приликом аутоматске транскрипције. Наиме, програм тражи речи сачуване унутар интерних опција HTR механизма. На овај начин, повећава се могућност проналажења праве речи, чак и ако јој иницијално није додељена највиша оцена поузданости. На пример, уместо да изостане свака пета реч (стопа грешке речи 20%), коришћењем функције Препознавање кључних речи омогућено је проналажење око 95% свих речи. • Транскрипција потпомогнута рачунаром: матрице поузданости су корисне и када корисник исправља већ транскрибовану страницу. Алтернативне речи се могу приказати кориснику, или пак интерфејс може да сугерише речи на основу недавног уноса корисника. Демо верзије обе поменуте функције су доступне на веб страници пројекта Transcriptorium.8

другим структурираним елементима. Наравно, такве додатне информације се могу користити за увећање значаја процеса аутоматске транскрипције. Међутим, структурне информације су сувише специфичне и морају се третирати мануелно, уз примену специјалних система. Овакве операције захтевају висок ниво стручног знања, као и укључивање програмског особља, те се препоручује да се при спровођењу почетних тестова овакви подаци изоставе.

Међуинституционална сарадња Библиотеке и архиви заинтересовани за укључивање у рад Транскрибуса преко пројекта за тестирање апликације коришћењем својих колекција, могу да контактирају унапред Пројектни тим (email@transkribus.eu) како би разјаснили све недоумице и поставили камен темељац свог пројекта. Такође, заинтересоване библиотеке и архиви могу да постану део READ пројекта потписивањем Меморандума о разумевању,9 што ће им омогућити да буду на извору најсвежијих информација. На веб страници READ пројекта10 доступни су и подаци о библиотекама и архивима који су већ потписали поменути Меморандум.

Структурирани подаци Многи архивски документи су структурирано организовани, тј. велики број података је смештен у табелама или неким 8  http://transcriptorium.eu/

9  Memorandum of Understanding (MOU) 10  http://read.transkribus.eu/

9


4 Платформа Транскрибус Да би процес транскрипције био успешно обављен потребно је придржавати се два основна правила: • Процес сегментације захтева повезивање транскрипта текста и слике преко основних линија. Наиме, HTR механизам треба да повеже сваку линију транскрипта са одговарајућом линијом на слици. Да би се то постигло, свака слика мора бити подељена тј. сегментирана на текстуалне блокове, на блокове редова и на основне линије. Овај процес се зове Сегментација и може се извршити мануелно или, уз подршку алата који анализира распоред елемената на страници, а који је интегрисан у Транскрибус.

3. генерисање ресурса за учење намењено студентима или волонтерима. Регистрација Да би се користила платформа Транскрибус, потребно је извршити регистрацију на веб страници Транскрибуса.11

• Процес транскрипције подразумева преписивање онога што се види на слици. Дакле, преписивање треба да следи графички изглед текста, тј. глиф који препознајемо као знак у одређеном систему писања. Тај знак може бити слово, цифра, интерпункцијски или специјални знак. Не сме се додавати, нити изостављати глиф у транскрипцији. Велико слово се преписује као велико слово, цифра као цифра, скраћеница као скраћеница и тако даље.

Приликом регистрације потребно је да се наведе име корисника, адреса е-поште и да се прихвати Кориснички уговор Транскрибуса. Такође омогућена је пријава преко Google налога. Према Аустријском закону о заштити података, Транскрибус поштује приватност корисника и користи достављене податке само ради побољшања својих услуга и подршке истраживањима у хуманистичким и рачунарским наукама! Ако је потребна промена лозинке, то се може извршити пријављивањем на веб страницу Транскрибуса. За брисање налога, довољно је да се пошаље порука на: email@transkribus.eu

Ако се прате ова два једноставна правила, изведена транскрипција ће бити погодна за коришћење у свака од три претпостављена случаја:

Упутство за преузимање и инсталацију Транскрибус платформе

1. обука HTR механизма; 2. припрема докумената за научно издање и 10

1. Преузмите Транскрибус са адресе: http://transkribus.eu/ 11  http://transkribus.eu/


Чим сте отворили налог можете потпуно бесплатно преузети Транскрибус са веб странице. Напомена: будући да је алат још увек у фази израде будите сигурни да имате последњу верзију Транскрибуса на вашем рачунару. Подржани оперативни системи: -

Транскрибус је независна платформа и ради на системима Windows, Mac и Linux.

-

Транскрибус је написан у JAVA апликацији. Морате имати инсталирану минимум JAVA 8 апликацију на рачунару за би Транскрибус могао да функционише. Проверите своју JAVA верзију!

- -

Mac OS - Apple: Transkribus.command Linux: Transkribus.sh

Преузимање датотеке са примерима Пре него што почнете са радом, препоручено је да преузмете и датотеку са примерима. То је ЗИП датотека и састоји се од шест страница на којима су показана и објашњена нека од најважнијих правила за преписивање текста. Можете их отпремити у Транскрибус и играти с њима! Преузмите и све извозне датотеке спремљених примера, које Транскрибус може да произведе. У оквиру њих наћи ћете: -

PDF фајл са сликом у предњем плану и текстом у позадини, као и додатним страницама текста са посебно истакнутим ознакама/таговима.

2. Декомпресујте ZIP датотеку: -

Након преузимања пронаћи ћете ЗИП датотеку у директоријуму за преузимање на вашем рачунару.

-

-

Декомпресујте датотеку пре него што покренете извршну датотеку.

TEI XML фајл за стручњаке (XML тагован према Иницијативи за кодирање текста).

-

Word датотеку са преломљеним линија према оригиналном документу и посебно истакнутим ознакама/таговима.

3. Покрените Транскрибус користећи извршну датотеку exe, .command или .sh: Отворите Транскрибус директоријум. Тамо ћете пронаћи извршну датотеку за свој оперативни систем. Покрените Транскрибус из вашег корисничког интерфејса користећи дупли клик: -

Windows: Transkribus.bat or use Transkribus.exe 11


5 Алат Транскрибус Транскрибус је експертски и вишенаменски алат. Садржи велики број функција, те стога на први поглед делује компликовано, али када се упознате са кључним концептима, моћи ћете да уживате у свим предностима које нуди ова платформа. Транскрибус се састоји из четири важна сегмента: 1. 2. 3. 4.

Основни сегмент Сегмент Платно Едитор текста Табови/Картице

Елементи у платформи се могу премештати и у ту сврху се користе функције Docked/Undocked/Invisible. Препоручује се да их користите ако често понављате одређене активности или при раду користите више екрана! Објашњење: Функције Docked/Undocked/Invisible служе за конфигурисање екрана према вашим потребама: - - -

12

Docked, тј. фиксиран значи да је бирани елемент фиксиран; Undocked, тј. слободан значи да га можете преместити, и Invisible, тј. невидљив омогућава скривање изабраног елемента (под претпоставком да вам није потребан)

1.

Основни сегмент

Основном сегменту се приступа путем траке менија на врху екрана, која се састоји из следећих опција: • Главни мени: поред команди којима се може управљати документима, странама и колекцијама, садржи и следеће команде: o Промена начина приказа; o Провера могућности ажурирања; o Претрага старије или специфичне верзије.

• Дефинисање функција Docked/Undocked/Invisible за директоријум са леве стране и виџет за транскрипцију на дну: o Docked: снажно интегрисан у интерфејс; o Undocked: може се преместити; на пример, прозор се може приказати на другом екрану; o Invisible: ако кориснику нису потребне одређене функционалности приказа, оне се могу уклонити, чиме други потребни елементи добијају више простора. • Профили: изаберите једну од предложених приступних страна у зависности од тога коју врсту посла радите: o o o o

Подразумевани приказ; Сегментација; Транскрипција; Транскрипција, уклоњене картице;


Сл. 5. 1: Почетни екран

13


Сл. 5. 2: Трака менија на врху екрана

• Отварање локалног документа: o Отворите локални документ тако што ћете изабрати локални фолдер који садржи и слике и датотеке страница. • Увоз документа: o Увезите документ у Транскрибус уз могућност избора начина отпремања докумената и смештаја у жељену колекцију у Транскрибусу. • Извоз документа: o Извезите документ у жељеном формату. • Поновно учитавање документа: o Освежите приказ свих промена у документу. • Претрага докумената, кључних речи и сл. o У претраживачу је могуће претраживати преко наслова, аутора, описа, транскриптора... • Опције за кретање по страницама: o Прва, последња, следећа и претходна страница; o Омогућено је кретање и на тачно одређену страницу. 14

• Поновно учитавање странице: o Освежава приказ странице и метаподатака у сваком тренутку. • Похрањивање транкрипције: o Похраните нову верзију транскрипције, тј. сачувајте све промене на датој страници. • Приказ верзија: o Преко ове картице омогућен је приказ, тј. учитавање свих верзије дате странице. • Отварање извора транскрипта: o Приказује извор транскрипта у XML прегледачу са средствима за претрагу текста. Поред наведених команди у овом сегменту омогућен је и приступ управљању колекцијама. Помало скривено, Менаџер колекције се налази у главном менију, у низу насловљеним Колекције. Менаџер колекције препознаје све постављене документе и колекције сваког појединачног корисника, те када се изабере ова опција, отвара се прозор у коме се у горњем левом углу налази попис колекција којима корисник има приступ, а


одмах затим и листа свих докумената садржаних у одабраној колекцији са информацијама о идентификационом броју, наслову, броју страница документа итд. У овом сегменту омогућене су команде везане за колекције и команде везане за документа: • креирање нове колекције, уклањање колекције, преименовање колекције; • додавање докумената у колекцију, уклањање докумената из колекције, брисање докумената са сервера, прављење дупликата докумената, проналажење докумената. У десном углу прозора налазе се подаци о корисницима изабране колекције, а управљање корисницима је омогућено путем следећих команди: • додавање корисника , уклањање корисника, промена улоге корисника. Да би подржао овај задатак, Транскрибус нуди претрагу унутар Менаџера колекција преко неколико поља за претраживање као што су име, презиме или адреса е-поште. Такође, већ додате улоге корисницима могу се мењати. У овом тренутку постоје следеће улоге са одговарајућим правима: • Власник: има сва права над колекцијом; може управљати колекцијом додавањем докумената, додавањем корисника, мењањем улога корисника итд. • Едитор: може да додаје друге транскрипторе, а може и да транскрибује документе у датој колекцији. • Транскриптор: може само да транскрибује документе у датој колекцији. • Читалац: може да чита документе у датој колекцији. Сл. 5. 3: Приступање Менаџеру колекције преко главног менија

Напомена: Један документ може припадати различитим колекцијама! 15


Сл. 5. 4: Менаџер колекције

16


Сл. 5. 5: Сегмент Платно

2.

Сегмент Платно

Овај сегмент се углавном користи за приказивање и уређивање слике странице и сегментираних блокова, линија итд. У почетку се на Платну не приказује никаква слика. Када отворите локални документ или, (након пријављивања) изаберете колекцију и документ у тој колекцији, појавиће се прва страница учитаног документа. Елементи на страници су различито пребојени у

зависности од тога да ли је већ урађена сегментација и који тип структуре је изабран за приказ. У овом сегменту постоје две траке менија- горња и бочна: • горња трака менија садржи различите опције везане за приказ слике на платну; 17


• бочна трака менија садржи алатке за едитовање.

o оригинална величина: 1: 1 приказ слике.

Списак опција у горњој траци менија:

• Остали облици трансформације слике:

• Режим селекције: „уобичајени режим” се претпоставља ако радите са сликом.

o слика се може ротирати у свим правцима; o слика се може померати у свим правцима. o Напомена: Алтернативно притисните и држите лево или десно дугме миша како би померали слику или изабрани елемент. • Приказ слике:

• Видљивост облика: овом командом омогућава се приказ различитих типова сегментације: o прикажи текстуалне блокове; o прикажи редове; o прикажи основне линије; o прикажи речи; o означи текстуалне блокове по редоследу читања; o означи редове по редоследу читања; o означи речи по редоследу читања. • Режим зума: ако је изабран, можете зумирати слику тако што ћете превући и држати леви тастер миша. • Режим лупе: користи се за повећавање једног сегмента слике унутар платна.

o оригиналан; o подразумевајући; o бинарни. • Модификација слике • Промена начина приказа слике: ова команда нуди читав низ опција укључујући различиту ширину линија, боју позадине, боју блокова, линија, речи и сл. • Листа пречица.

• Умањивање: користи се за смањивање слике унутар платна.

• Приказ алатки за едитовање : укључивањем ове команде, отвара се са десне стране платна трака менија са листом доступних алата.

Напомена: Алтернативно користите точкић миша да бисте увећали или умањили слику.

• Извештај о грешкама: пошаљите извештај о насталој или уоченој грешци, или захтев за нову функцију система.

• Зумирање: користи се за повећавање слике унутар платна.

• Уклапање: o потпуно уклопити слику на платно; o уклопити по ширини: подесите слику од леве до десне ивице платна; 18

Сл. 5. 6: Горња трака менија у сегменту Платно


Списак опција у бочној траци менија: • Додавање текстуалних блокова: ако је изабрано, можете додати текстуалне блокове. Даља обрада је немогућа без њих. • Напомена: Границе текстуалних блокова треба да буду близу текста, али не морају бити „савршене“. У већини случајева довољни су једноставни правоугаоници. • Додавање блокова редова: ако је изабрано, можете додати блокове редова. Ови блокови су неопходни за даљу обраду. • Додавање основних линија: ако је изабрано, основна линија се додаје постојећем блоку редова (или се основна линија креира аутоматски). Основне линије су неопходне за даљу обраду, јер их HTR мотор види као референтну тачку. • Додавање речи: ако је одабрано, реч се додаје постојећем блоку линија. Речи нису неопходне за даљу обраду. • Додавање осталих ставки: могуће је из падајућег менија изабрати више различитих ставки као што су табеле, графикони, сепаратори и сл. Напомена: Следеће функције за уређивање облика могу се применити на постојеће облике. Ови

Сл. 5. 7: Бочна трака менија у сегменту Платно

облици морају бити изабрани унапред, било на Платну или у Структури стабла (која је доступна и на левој страни Платна). • Уклањање облика: користи се за уклањање свих изабраних облика. • Додавање тачке на изабрани полигон: користи се за ручно исправљање облика, чиме је омогућен бољи приказ садржаја текста на слици. • Уклањање тачке из изабраног полигона: погледајте горе наведену функцију – обрнуто. • Подела облика у подгрупе хоризонтално: понекад је потребно направити два облика од једног, нпр. ако један текстуални блок садржи две колоне. • Подела облика у подгрупе вертикално: користи се за исправљање погрешне сегментације, или ако желимо да поделимо један велики текстуални блок на неколико (логичких) пасуса, или једну линију на две, итд. • Подела облика у подгрупе помоћу унапред дефинисаних линија: корисник може у складу са својим потребама унапред дефинисати поделу линија. • Спајање изабраних облика: омогућава спајање најмање два изабрана структурна облика у један нови облик. • Приказ осталих доступних алата за сегментацију. • Остале опције у сегменту Платно: овде су пописане мање значајне опције које систем нуди. 19


• Поништавање: све операције едитовања могу се поништити помоћу ове опције. 3

блокове на страници коју едитујете. • Брисање текста: ова опција омогућава брисање текста на нивоу блока, реда или речи. • Унос дуге црте.

Едитор текста

Едитор текста је уско повезан са сегментом Платно. Прецизније, пуни текст (или аутоматски детектован или транскрибован) који се налази у овом сегменту повезан је са сликом на нивоу реда или речи. Када је ред одабран и стога истакнут у сегменту Платно, исто се дешава истовремено и у Едитору текста. На тај начин Транскрибус омогућава брзу и удобну транскрипцију или корекцију текста. Сви алати потребни за тај задатак могу се наћи у траци менија смештеној на дну едитора.

• Унос угаоне црте (не знака). Препоручује се да користите ову угаону црту на крају линије. • Пренос параграфа у изабрани ред. • Виртуелна тастатура. • Означи текст као болдован. • Означи текст курзивом. • Означи текст као написан испод линије. • Означи текст као написан изнад линије. • Подвуци текст. • Прецртај текст. • Поништи претходну операцију. • Понови последњу измену текста.

Сл. 5. 8: Едитор текста

• Поставка параметара у сегменту транскрипције.

Списак опција у траци менија: • Блок: ова опција омогућава лако кретање кроз текстуалне 20

Сл. 5. 9: Трака менија у сегменту Едитор текста


4

Табови/Картице

Транскрибус нуди укупно пет основних картица које се налазе са леве стране екрана, а које омогућавају процесирање учитаних докумената. У овом сегменту могуће је приступити следећим картицама: • Сервер • Преглед • Приказ структуре странице • Метаподаци • Алати 4. 1. Картица Сервер омогућава: • логовање; • приступ документима; • преглед активности на серверу; • преглед доступних верзија; • преглед активности корисника; • преглед недавно коришћених докумената; • избор, претрагу и допуњавање колекција. Сл. 5. 10: Картица Сервер

21


Приликом избора сегмента Колекције отвара се прозор у коме су поред излистаних колекција којима транскриптор има приступ, придодате и следеће опције: Сл. 5. 11: Сегмент Kолекције

22

• додавање колекције;


• брисање колекције; • промена података о колекцији; • управљање корисницима. 4. 2. Картица Преглед омогућава: • приказ наслова и јединственог идентификационог броја документа који је претходно изабран и учитан на картици Сервер; • приказ наслова и јединственог идентификационог броја колекције у оквиру које се налази изабрани документ; • приказ назива учитане странице изабраног документа; • приказ URL адресе учитане странице; • приказ URL адресе транскрипта учитане странице; • приказ јединственог идентификационог броја фајла који садржи учитану страницу и припадајући транскрипт. На истој картици могуће је, преко прегледача умањених приказа учитаних страница, изабрати страницу коју желимо да се прикаже на платну, или пак креирати умањене приказе за документа која се налазе на локалном серверу. Сл. 5. 12: Картица Преглед

23


Сл. 5.13: Менаџер документа

24


Такође, избором дугмета Менаџер документа на већ описаној картици, могуће је добити све податке о извршеним променама у изабраном документу укључујући и: • приказ наслова и јединственог идентификационог броја учитаног документа; • укупан број страница учитаног документа; • укупан број транскрибованих редова; • укупан број транскрибованих речи. 4. 3.

Картица Приказ структуре странице

На овој картици приказана је структура транскрибоване странице. Све унете податке можете видети на слици испод. На овој картици омогућено је и преструктурирање странице путем доступних алатки у траци менија у горњем левом углу. Могуће је променити приказ структуре странице, брисати текст, доделити јединствене идентификаторе изабраним елементима, променити редослед унетих линија, додати геометријске облике, као и померати унете облике.

Сл. 5. 14: Приказ структуре странице

25


4. 4. Картица Метаподаци Коришћењем ове картицом могу се уређивати општи подаци о учитаном документу, као и структурални метаподаци о страници и сегментираним елементима, заједно са текстовним стилом транскрипције. У траци менија у горњем левом углу странице потребно је изабрати један од понуђених сегмента: • Документ • Структура • Изглед текста • Означавање • Коментар • Сегмент Документ нуди могућност уноса метаподатака потребних за опис документа: o наслов, аутор, датум уноса, врста документа, језик, датум креирања и сл.

Сл. 5. 15: Документ

26


• Сегмент Структура нуди могућност уноса следећих метаподатака: o Измена статуса: ново, у току, урађено, финално, означено као референтна страница тј. „ground truth“. Ова опција омогућава лакше праћење свих фаза рада на једном документу. o Тип странице: предња корица, задња корица, насловна страна, преглед садржаја, индекс, садржај празна страница, остало. o Линкови: омогућено је повезивање два сегментирана елемента, нпр. две линије или два блока један са другим. o Селекција типа елемента: линија, реч, графикон, табела, нота, сепаратор ... o Тип струтуре: параграф, заглавље, фуснота, наслов...

Сл. 5. 16: Структура

27


• Сегмент Изглед текста нуди следеће опције: o o o o o o

избор изгледа странице; избор фонта; величину фонта; одређивање размака између два знака; избор боје текста; избор боје позадине.

• Сегмент Означавање пружа информације о садржају Сл. 5. 17: Изглед текста

28

Сл. 5. 18: Означавање


транскрипта. Коришћењем овог алата, транскриптор „храни“ програм информацијама, што га у одређеном тренутку доводи до препознавања одређених речи, нпр. скраћеница „др“ за реч „доктор“. Омогућено је означавање следећих ентитета: o адреса, скраћеница, датум, организација, особа, место...

• Сегмент Коментар нуди могућност додавања коментара транскриптора на унети текст.

4. 5.

Картица Алати

Транскрибус обухвата низ аутоматизованих сервиса/алата који се могу позвати преко интерфејса. Ови алати се покрећу у облаку Транскрибус, а хостују на Универзитету у Инсбруку. Алати су подељени у четири сегмента: • Анализа структуре странице: омогућава аутоматско препознавање тексталних блокова и редова, док је препознавање речи у редовима још увек у експерименталној фази. • Препознавање текста: омогућена је примена обучених HTR модела на једну страницу. HTR је софистициран систем у којем се скупови знакова и језички модели морају третирати заједно. У тренутној фази потребно је HTR обучити за сваки документ/збирку докумената одвојено. Што више података буде доступно, увећаће се и могућност спајања модела, чиме ће се и фаза обуке смањити. Речи које нису у тезаурусу се неће препознати, као ни знакови (нпр. посебни знакови) које HTR механизам није видео у току тренинга.

Сл. 5. 19: Коментар

• Провера прецизности: приликом провере прецизности пореде се једна верзија текста са другом. Најчешће се пореди референтна страница са аутоматизованом верзијом дате странице. Сегментација се при овом процесу не сме 29


мењати, јер алат захтева да се појављују исте линије на страници. • Остали алати: тренутно је омогућено додавање основних линија на селектованим полигонима, као и креирање полигона за све основне линије.

Сл. 5. 20: Картица Алати

30


6 Упутство за употребу алата Транскрибус Након што сте се успешно регистровали, преузели и инсталирали Транскрибус платформу, затим проучили примере и упознали се са радним окружењем, можете започети рад на својим документима тако што ћете се прво логовати на систем користећи електронску адресу и лозинку коју сте унели приликом регистрације. Следећи корак је учитавање скенираних материјала; било целе колекције или пак појединачног документа. Платформа може да обрађује следећу врсту фајлова: PDF, JPEG, PNG, TIFF и JP2.

Увоз докумената

Сви документи који су унети у Транскрибус су приватни. Особа која је унела документа у Транскрибус има статус власника и само она има приступ тим документима, а само они корисници којима је власник одобрио приступ могу да прегледају дате документе. Стога, документи нису доступни јавности, а учитавање докумената на сервер Транскрибуса представља чисто технички процес.

• Преузимање преко HTTP протокола из локалног фолдера. Ова опција је погодна за отпремање неколико докумената који имају комбиновану величину мању од 500 MB и њу ћемо користити у овим упутствима.

Напомена: Можете да отпремате документе које сте сами скенирали, а можете такође и преузети PDF документа са Интернета и учитати их у Транскрибус, будући да многе библиотеке и архиви прате политику отвореног приступа, те стога охрабрују даље коришћење својих дигиталних колекција. Обратите се директно архивима и библиотекама за дозволу да учитате документа у Транскрибус!

• Преузимање преко URL адресе, али само оних докумената који се налазе у репозиторијумима који користе the DFG (Deutsche Forschungsgemeinschaft – German Science Funds) приказивач.

Учитавање докумената на Транскрибус сервер је веома једноставно. Потребно је кликнути на дугме Увоз докумената који се налази у основном сегменту Транскрибус платформе. Овом операцијом отвара се прозор у коме је потребно изабрати начин импортовања документа. Понуђене су три опције:

• Преузимање преко FTP протокола. Ова опција је погодна за отпремање докумената који имају комбиновану величину већу од 500 MB.

Слика 6. 1: Увоз докумената

31


Слика 6. 2: Учитавање докумената

32


Да би се увезао један документ величине до 500 MB потребно је кликнути на ту опцију у горњем десном углу екрана. Затим је потребно преко опције Локални фолдер пронаћи жељени документ на рачунару. Могуће је из падајућег менија изабрати већ доступну колекцију или креирати нову. Назив нове колекције се уноси у поље Креирај колекцију, а додавање у постојећу преко поља Додај у колекцију. На крају је потребно кликнути команду Увоз. Напомена: Учитавање може трајати неколико минута, у зависности од брзине ваше интернет конекције.

7

Сегментација

Увод Да би HTR механизам функционисао, слика и транскрипти текста са слике морају бити повезани. Ово повезивање се постиже сегментирањем сваке странице документа на: • Текстуалне блокове(TR)12: текстуални блок мора да садржи сав релевантан текст који ће бити транскрибован. • Редове (L)13: област редова је успостављена искључиво из техничких разлога и не игра улогу за крајњег корисника. • Основне линије (BL)14: оне су веома важне; морају бити потпуно тачне будући да представљају основу и за обуку HTR механизма и за примену HTR модела. Ови сегментирани блокови су познати и као елементи. Процес поделе сваке појединачне странице документа на ове елементи се назива сегментација или анализа распореда елемената на страници.15 Сегментација се може извршити мануелно, или уз подршку алата који је интегрисан у Транскрибус. У пракси се показало као најбоље решење да се прво мануелно дефинишу текстуални блокови на неколико страница документа, а затим да се детектују редови и основне линије аутоматски, користећи дугме Пронађи линије у текстуалним блоковима у картици Алати. 12 Text region 13 Lines 14 Baselines 15 Layout Analysis

33


Елементи сегментације у Транскрибусу имају следеће карактеристике: • Елементи сегментације у Транскрибусу могу бити у облику правоугаоника или многоугаоника. Подразумевани режим је коришћење правоугаоника, али се лако може пребацити на многоугаони облик.

Пре него што започнете рад на сегментацији потребно је изабрати преко опције Профили која се налази у основном сегменту префериран изглед странице за ову операцију.

• Основна линија је једини елемент сегментације који се састоји само од једне сложене линије (тј. линије са неколико тачака). • Елементи сегментације у Транскрибусу могу се преклапати једни с другима. Честа је појава у рукописним документима да писање не следи строга правила, нпр. маргиналија и основни текст често нису јасно раздвојени. • Елементи сегментације у Транскрибусу прате хијерархијски поредак: основна линија треба да буде део области редова, област редова мора бити део текстуалног блока. • Напомена: Ако се дода основна линија без претходно дефинисаног текстуалног блока Транскрибус ће вас питати да ли треба да генерише нестали надређени елемент. Ипак, рад са овом хијерархијом је крајње једноставан: прво, потребно је дефинисати (или исправити) текстуалне блокове; друго, потребно је дефинисати(или исправити) основне линије. И то је све што треба урадити. Једна страница се може завршити за неколико минута, или још брже! Упутство Сл. 7. 1: Профил Сегментација

34


поље за уређивање текста ће нестати;

• линије текстуалних блокова и основних линија ће бити подебљане, тако да их је лако уочити; • текстуални блокови ће бити приказани у зеленој, а основне линије у црвеној боји; •

област редова се неће приказивати;

• укључиће се правоугаони режим, тј. текстуални блокови ће бити означени као правоугаоници; • тачке које дефинишу линију или правоугаоник ће бити велике како би се лакше померале и тиме мењале облик сваког елемента сегментације.

Приликом избора профила Сегментација изглед странице ће се променити:

Сл. 7. 2: Приказ сегментиране странице у профилу Сегментација

35


Приступне кораке у процесу сегментације треба извршити датим редоследом: 1. Отворите жељену колекцију. 2. Изаберите из падајућег менија документ који желите да сегментирате. 3. Преко опције Преглед изаберите страницу документа коју желите да сегментирате и сачекајте да се она учита на Платну. 4. Изаберите профил Сегментација у основном сегменту. 5. Изаберите опцију Уклопити потпуно слику на Платно. Процес сегментације подразумева следеће операције: 1. Означавање текстуалних блокова. 2. Аутоматско додавање основних линија сваком означеном текстуалном блоку. 3. Прегледање и исправљање аутоматски додатих основних линија. Сл. 7. 3: Приступни кораци при процесу сегментације

36


Важно: свака интервенција у процесу сегментације почиње и завршава се коришћењем функције Режим селекције. Прецизније, ова функција служи за укључивање и искључивање алата из бочног менија. 1. Процес означавања текстуалних блокова се одвија на следећи начин: -

-

-

Дефинишите текстуалне блокове на страници притиском на дугме Додавање текстуалних блокова које се налази у у бочној траци менија сегмента Платно. Кликните само једном на горњи леви угао блока текста и кликните само једном на доњи десни угао. Текстуални блокови треба да представљају кохерентне делове текста, а могу садржати и неколико параграфа. Имајте у виду да ће редослед којим дефинишете текстуалне блокове такође бити и редослед у којем су приказани блокови на картици Приказ. Текстуални блок треба да буде близу стварних линија текста и да се протеже од почетка до краја линије. Сл. 7. 4: Означен један текстуалних блок на страници

37


- -

-

-

-

Декоративни знаци или иницијали не морају бити укључени у текстуални блок. На овом степену развоја алата Транскрибус, брже је и тачније дефинисати текстуалне блокове мануелно, мада алат може и аутоматски да означи текстуалне блокове. Текст који не треба да се појави у транскрипту, или текст који се неће користити као део података за обуку HTR механизма треба изоставити. То значи да га не треба означавати као текстуални блок, нити га треба означавати линијама. Алат је сетован на правоугло означавање, међутим, ако је потребно, лако се може прећи на вишеугло сегментирање. Сачувајте сегментирани блок.

Сл. 7. 5: Означено више текстуалних блокова

38


Вишеугло сегментирање: Ако на страници постоји нека илустрација, њу је потребно искључити, а најлакши метод је коришћење вишеуглог сегментирања.

Сл. 7. 6.Сегментиран цео текстуални блок

- -

Потребно је прво сегментирати цео блок текста. Коришћењем функције Додавање тачака на изабрани полигон додати углове полигона.

Сл. 7. 7.Искључена илустрација у процесу сегментације

39


Такође, поред илустрација, треба искључити из процеса сегментације и табеле, формуле, графичке приказе и сл.

2. Процес аутоматског додавања основних линија сваком означеном текстуалном блоку одвија се на следећи начин: - - - -

Сл. 7. 8.Искључена табела приликом означавања текстуалног блока

40

Потребно је да останете у профилу Сегментација. Пређите на картицу Алати. Изаберите опцију Пронађи линије у текстуалним блоковима. Покрените програм.

Сл. 7. 9: Процес аутоматског додавања основних линија


3. Прегледање и исправљање основних линија

аутоматски

додатих

Основна линија (дебела црвена линија) представља линију на којој текст лежи, састоји се од саме линије и тачака на њој.

Сл. 7. 10: Резултат аутоматског додавања основних линија у једном текстуалном блоку

Сл. 7. 11: Резултат аутоматског додавања основних линија у више текстуалних блокова

41


Дакле, карактери би требало да „седе“ на основној линији, баш онако како смо учили у првом разреду основне школе (писање у свесци на линије). Сваки нови ред на страници треба бити означен са основном линијом, док уметнути редови или уметнути карактери такође треба да имају своје засебне основне линије. Неопходно је исправити ако линија пресеца текст, ако текст није на линији, или ако је аутоматски генерисана празна линија. • Да бисте исправили основну линију која не лежи лепо на тексту, једноставно кликните и превуците тачке на основној линији. • Алат за аутоматско додавања основних линија понекад производи дугачке основне линије у продужетку текста. У таквим случајевима линије се морају исправити. Постоје две опције: можете одабрати функцију Уклањање тачака из изабраног полигона или, - обрисати основну линију и ручно унети исправну основну линију. • Ако изаберете другу опцију, једноставно кликните мишем предугу линију, она ће се подебљати, затим притисните мишем функцију Уклањање облика. На овај начин основна линија ће бити избрисана. -

• Да нацртате основну линију, кликните на функцију Додавање основних линија. • Да креирате праву линију кликните на почетак линије текста, померите мишем до краја линије и кликните 42

двапут да завршите линију. • Да креирате криву линију кликните на почетак линије текста, померите миша у жељеном правцу,кликните поново да бисте променили угао, наставите да се крећете и двапут кликните да завршите линију. • Да поништите унету измену, притисните функцију Поништавање.


Сл. 7. 12.Предуга основна линија

Сл. 7. 13.Скраћена основна линија

43


Сл. 7. 14.Текст „не лежи“ на линији

Сл. 7. 15.Исправљена основна линија

44


Сл. 7. 16.Уочена „празна“ линија

Сл. 7. 17.Обрисана „празна“ линија и скраћена предуга последња линија

45


8 Транскрипција Увод Основна сврха било које транскрипције јесте уочавање и чување свих информација доступних у документу. Транскрибус подржава UTF8 и похрањује све карактере у Уникоду. Међутим, постоје и „скривене“ информације, као што су наглашене речи (подвучене, болдоване), напомене које су касније додате или скраћенице које треба проширити да би разумели садржај документа. Транскрибус омогућава и обележавање и тумачење наведених специфичности.

1. Отворите жељену колекцију. 2. Изаберите из падајућег менија документ који желите да транскрибујете. 3. Преко опције Преглед изаберите страницу документа коју желите да транскрибујете и сачекајте да се она учита на Платну. 4. Изаберите профил Транскрипција у основном сегменту.

Основна правила транскрипције: - - -

текст се прекуцава доследно, пратећи дати редослед, онако како се види на страници; нема исправљања правописних и других грешака; велико слово остаје велико, специјални карактер као специјалан карактер, скраћеница као скраћеница...

Упутство

Приступне кораке у процесу транскрипције треба извршити датим редоследом: Сл. 8. 1: Изабрана страница у профилу Транскрпипција

46


Процес транскрипције Да би се започело са прекуцавањем потребно је кликнути у сегменту Платно на први ред текста у изабраној страници за прекуцавање, чиме се изабрани ред пребоји у плаво, а истовремено у доњем, другом делу прозора отвара се сегмент Едитор текста где се појављује ред за укуцавање текста. Испред сваког отвореног реда је и редни број, који истовремено представља и редни број линије на страници

која се прекуцава. Дакле, за сваку основну линију на слици странице постоји одговарајућа линија у Едитору текста. Како је већ раније напоменуто на дну странице се налази трака менија где се налазе доступне опције за едитовање текста. Између осталог, постоји могућност да се текст означи као болдован, или написан курзивом, да се означи као текст написан испод линије, или написан изнад линије, да се подвуче или прецрта текст. Све ове специфичности треба верно пренети у Транскрибус како би коначни резултати били што бољи. Коначно, потребно је и похранити транскрибовану страницу у Транскрибус коришћењем функције Сачувај транскрипцију.

Сл. 8. 2: Транскрибован и меморисан текст

47


Примери из праксе

Сл. 8. 3: Коришћење опције Подвуци текст

Сл. 8. 4: Архаични језик

48


Сл. 8. 5: Стари правопис

Сл. 8. 6: Варијанта слова Н у ћиричном тексту

49


Сл. 8. 7: Унос специјалних карактера

Сл. 8. 8: Унос ћириличног и латиничног текста у низу

50


Сл. 8. 9: Грешка у писању

Сл. 8. 10: Унос скраћеница у картици „Метаподаци“ у сегменту „Означавање“

51


9 Извоз докумената У сваком тренутку и у свим процесима рада у Транскрибусу омогућен је и неометан извоз докумената похрањених у Транскрибус. Потребно је изабрати опцију Извоз документа која се налази у основном сегменту у траци менија на врху екрана, чиме се отвара дијалог за извоз. У овом прозору Транскрибус приказује све доступне извозне формате. Неки од понуђених формата за извоз докумената се могу изабрати и извести истовремено: 1. Image/Page(Alto)/Mets: програм нуди могућност извоза слике и пуног текста истовремено (било у формату Page или у формату Alto, што се може изабрати преко картице Опција извоза), укључујући и документ који описује METS датотеку.

Сл. 9. 1: Извоз слике и пуног текста истовремено у Едитору за извоз докумената

52


2. PDF: програм нуди могућност извоза у PDF формату само у случају када се слој пуног текста налази испод слоја слике. Поред тога, Транскрибус нуди могућност извоза додатних страница текста. То значи да након сваке странице слике, бива додата једна текстуална страница. Друга опција извоза нуди могућност да се истакне/подвуче сваки коришћени таг, тј. ознака у извезеном документу. Последња страница у PDF формату садржи преглед ових ознака. Кликом на једну ознаку, започиње се претраживање ове ознаке у доступном PDF прегледачу.

Сл. 9. 2.Извоз у PDF формату уз приказ свих доступних опција

53


3. TEI: програм нуди могућност извоза у формату TEI искључиво у две варијанте: зона по текстуалном блоку или зона по линији. Подразумевана вредност је зона по текстуалном блоку која даје много једноставнију TEI структуру у односу на другу опцију.

Сл. 9. 3: Извоз у TEI формату

54


4. DOCX: програм нуди могућност извоза у DOCX формату. Слично извозу PDF формата, и овај формат нуди могућност извоза за додељене ознаке. Приликом избора те опције, сва имена ознака као и кореспондирајуће ознаке су наведене на крају документа. Опција Word based значи да су у извоз укључене и ознаке које су додељене речима.

Сл. 9. 4: Извоз у DOCX формату

55


5. Извоз ознака: овај формат извоза дозвољава само извоз ознака. Извозни формат који се користи је Excel документ. Прва листа у овом Excel документу даје преглед свих извезених ознака, док свака следећа листа приказује исте типове ознака, где име листе одговара имену означеног тага. Колоне у свакој листи приказују атрибуте тагова тј. ознака, а сваки ред садржи једну ознаку.

Сл. 9. 5: Извоз ознака

56


Неке опције у дијалогу за извоз се могу применити на неколико, или чак на све предвиђене формате за извоз. У свим форматима могу се одабрати странице за извоз. Подразумевано, све странице су предвиђене као део извозног документа, али свака страница може лако бити укључена или искључена из предвиђеног опсега за извоз. Такође, у већини извозних формата, могу се извозити прилагођене ознаке. За укључивање или искључивање неких од коришћених ознака потребно је притиснути опцију Изабрати ознаке, а у новоотвореном прозору се могу изабрати или укинути дате ознаке. Наравно, локација за извоз није дефинисана и ствар је слободног избора. Притиском на опцију OK завршава се процес извоза. Међутим, у овом кораку се може појавити упозорење да датотека већ постоји. У том случају, корисник може одлучити да пресними датотеку или пак да откаже целокупну операцију.

57


10

Закључак

Технологија машинског учења омогућила је у претходних неколико година практичну примену машинског рада у областима које су до тада сматране искључивим доменом креативног, и стога резервисане само за људе. Роботи писци, возила која управљају самим собом, замена људи машинама у одређеним пословима у областима као што су медицинска дијагностика или високошколско образовање представљају промене које су на први поглед шокантне, али остављају простор за оптимизам и веру у следећу велику индустријску револуцију. Укључивање машина као готово равноправних учесника у процесе рада који су до недавно сматрани за креативне, свакако дубински мења свет у коме живимо, али и ослобађа људе послова за које увиђамо да су суштински структурирани и репетитивни. Нада да ће људи време које им је на овај начин ослобођено употребити заиста креативно и конструктивно, најдубљи је израз стварног хуманизма и вере у човекове способности, јер подразумева суштинско приспитивање и наново дефинисање креативности као такве у многим сегментима људског делања. Имајући ово у виду, израста једна нова потреба за образовањем и едукативним активностима јер знање постаје неопходна основа за нову креативност, па стога сваки облик преношења нових сазнања, а посебно оних која могу да допринесу разумевању улоге људи у савременим радним процесима заснованим на технологији машинског учења, представља активност која је, не само корисна и доприноси унапређењу ефисканости пословања у оквиру организације у којој се изводи и 58

модернизацији друштва у оквиру кога се одвија, већ је у контексту глобалне заједнице последња одбрана хуманости засноване и утемељене управо на креативности човека као бића које ствара, и истовремено ултимативни испит, и тест могућности развоја човека као врсте, која се издвојила од својих предака управо једном врстом креативности коју сада покушава да преобрати и уздигне у другу, сложенију и разграничену од претходне, коју сада дели са машинама. Аутоматско препознавање рукописног текста представља важан исказ техологије машинског учења у области културе, текста и писања. Идеја, да је могуће папир са нажврљаним или краснописаним текстом „убацити“ у рачунар и добити могућност његове даље дигиталне промене и употребе у рачунарском програму, који се иначе користи за писање, до недавно је била у сфери научне фантастике. Чињеница да данас машина може да растумачи све различитости и људске специфичности руком писаних слова и даље нам делује нестварно, и стога је корисно, потребно, а можда и неопходно, да се сви они, који се у својим пословним активностима и осталим људским делањима додирују писане речи, чији је рукописни текст и даље важан саставни део, практично упознају са технолошким могућностима и њеним конкретним исказима, који су данас оличени у програму Транскрибус, јер ће на тај начин најбрже остварити најдубље разумевање промењеног окружења које пружа нове, револуционарне могућности, али и немилосрдно, хладно и машински гази оне који се не


прилагођавају, не мењајући своје методе и начине рада, остављајући их по страни у другом, нижем реду величине ефикасности обављања основних функција, у овом случају писања руком, које упркос свих машинских помагала, справа и поновног успона усменог исказа и даље остаје основа људске креативности у оном њеном најтананијем моменту када је још до краја неформирану идеју потребно интимно, људски, сачувати, и где сам чин тог чувања, ручним исписивањем мења и често унапређује ту идеју. Са друге стране примена аутоматског препознавања руком писаног текста у области очувања, проучавања и промоције културне баштине отвара неслућене нове хоризонте. Могућност да се претраже стотине хиљада страна руком исписаних архивских материјала, да се стотине и хиљаде писама и дневничких страница, као и небројене забелешке на маргинама израубованих књига, ресторанским салветама и полеђини биоскопских карата учине веома брзо спремним за дигитално или штампано објављивање, у поређењу са досадашњим мукотрпним и временски често и неостваривим прекуцавањем, мења не само опције које стоје пред истраживачима, уредницима и ауторима, већ суштински мења и наш доживљај прошлости, оживљава давно заборављене руком писане материјале, који сада поново могу постати део наше дигиталне стварности.

шанса за што дужу употребну вредност у смислу непосредне примењивости, има поред ове очигледне употребне вредности и једну много важнију, ону која се односи на прво упознавање на матерњем језику опште и пре свега стручне јавности у Србији са новим технолошким могућностима исказаним кроз конкретну верзију програма Транскрибус, и много шире, једним важним исказом технологије машинског учења. Стога и жеља аутора да поред оне примарне функције приручника која треба да допринесе лакшем савладавању рада у конкретној верзији програма Транскрибус, он буде и важна илустрација и путоказ ка могућностима новог, оличеним у машинском учењу.

Брзина којом се промене одигравају и у оквиру поља аутоматског препознавања рукописног текста одузима дах, и приручник који је пред вама, а чија израда је започета почетком 2017. године, да би управо због ових промена, које свака за себе чине малу револуцију, била завршена тек крајем те године, како би се обухватило што више ових промена и књизи дала 59


Библиографија Gatos, B., Louloudis, G., Causer, T., Grint, K., Romero, V., Sánchez, J.A., Toselli, A.H., and Vidal, E. (2014). ‘Ground-Truth Production in the tranScriptorium Project’, Document Analysis Systems (DAS), 2014 11th IAPR International Workshop on Document Analysis Systems, 237-244 Mühlberger, G., Colutto, S., Kahle, P.,(forthcoming) ‘Handwritten Text Recognition (HTR) of Historical Documents as a Shared Task for Archivists, Computer Scientists and Humanities Scholars. The Model of a Transcription & Recognition Platform (TRP)’ (pre-print) “Transkribus.” Accessed December 4, 2017. https://transkribus.eu/Transkribus/. “Transkribus Wiki.” Accessed December 4, 2017. https://transkribus.eu/wiki/index.php/Main_Page. “Users Guide - Transkribus Wiki.” Accessed December 4, 2017. https://transkribus.eu/wiki/index.php/Users_guide.

60


Садржај 1 Увод

3

2 Аутоматско препознавање рукописног текста - HTR

4

(Handwritten Text Recognition) технологија

4

3 Укључивање библиотека и архива у Транскрибус

6

4 Платформа Транскрибус

10

5 Алат Транскрибус

12

6 Упутство за употребу алата Транскрибус

31

7 Сегментација

33

8 Транскрипција

46

9 Извоз докумената

52

10 Закључак

58

11 Библиографија

60


Наташа Дакић, библиотекар саветник, рођена у Београду 1972. године. Дипломирала је на Катедри за библиотекарство и информатику Филолошког факултета Универзитета у Београду. Ради у Одељењу за обраду библиотечког материјала Универзитетске библиотеке „Светозар Марковић“ у Београду као главни редактор за стару и ретку књигу. Излагала је нa мнoгoбрojним мeђунaрoдним и дoмaћим кoнфeрeнциjaмa и скупoвимa. Aутoр je вишe стручних члaнaкa нa српскoм и eнглeскoм jeзику. Учешћем у међународним пројектима стекла је искуство у креирању и мапирању метаподатака потребних за дигитализоване садржаје фонда библиотеке. Осмислила је и учествовала у разним облицима едукације за библиотекаре високошколских библиотека и студенте библиотекарства и информатике. Од самог почетка укључена је у пројекат H2020 READ као координатор за израду транскрипција руком писаних садржаја и главни инструктур за рад у програму Транскрибус Универзитетске библиотеке. Захваљујући богатом искуству на овом пројекту, пре свега у области едукације и рада са корисницима Наташа је данас водећи експерт за обуку у програму Транскрибус у региону Западног Балкана.

Адам Софронијевић рођен је у Београду 1973 године. Докторирао је на Филолошком факултету у Београду, Заменик је управника Универзитетске библиотеке „Светозар Марковић“ у Београду. Осмислио је и руководио бројним пројектима које је подржало Министарство културе и информисања Владе Републике Србије, руководио је учешћем Универзитетске библиотеке у два CIP ICT-PSP пројекта, а тренутно предводи тим истраживача из Србије у две COST акције Европске Комисије. Адам је аутор више од 70 рецензираних научних радова, излагао је на више од 30 научних конференција у 12 европских земаља, а у Србији је одржао преко стотину предавања за библиотекаре и студенте додипломских и последипломских студија. Иницијатор је укључивања Универзитетске библиотеке у пројекат H2020 READ и од самог почетка руководи активностима Библиотечког тима у овом пројекту. Осмислио је и успешно остварио два пројекта од националног значаја које је подржало Министарство културе и информисања Владе Републике Србије, а који су засновани на коришћењу програма Транскрибус и примени технологије аутоматског препознавања рукописног текста.


Издавач Универзитет у Београду Универзитетска библиотека „Светозар Марковић“ За издавача Проф. др Александар Јерков Аутор др Адам Софронијевић Рецензенти проф. др Цветана Крстев проф. др Александра Вранеш проф. др Весна Милићевић Проф. др Александар Јерков Дизајн Наташа Матовић Штампа Дунав Тираж 500 примерака Београд 2017.


CIP - Каталогизација у публикацији - Народна библиотека Србије, Београд 004.352.243(035) ДАКИЋ, Наташа, 1971Аутоматско препознавање руком писаног текста : програм Транскрибус : приручник за делатнике у култури / Наташа Дакић, Адам Софронијевић. Београд : Универзитетска библиотека “Светозар Марковић”, 2017 (Београд : “Дунав”). - 62 стр. : илустр. ; 25 cm Тираж 500. - О ауторима: стр. 62-[63]. - Напомене и библиографске референце уз текста. - Библиографија: стр. 60. ISBN 978-86-7301-102-8 1. Софронијевић, Адам, 1972- [аутор] a) Транскрибус - Приручници COBISS.SR-ID 253908236


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.