Inovatívne sprístupnenie písomného dedičstva Slovenska prostredníctvom systému automatickej transkripcie historických rukopisov

Štátna vedecká knižnica v Banskej Bystrici v spolupráci s Univerzitou Mateja Bela realizuje nový projekt “Inovatívne sprístupnenie písomného dedičstva Slovenska prostredníctvom systému automatickej transkripcie historických rukopisov”. (Číslo projektu: APVV-19-0456), ktorý je podporený Agentúrou na podporu výskumu a vývoja.

Projekt SKRIPTOR má európsku a národnú dimenziu.

Projekt chce implementovať a rozšíriť na Slovensku najnovšie technologické inovácie a poznatky z oblasti efektívneho sprístupnenia písomného dedičstva pre odbornú a všeobecnú verejnosť na Slovensku a v zahraničí.
Výstupy projektu SKRIPTOR budú zamerané na inovatívne sprístupnenie dokumentov a poznatkov o vedeckej komunikácii a intelektuálnom dedičstve novoveku a modernej doby širokej verejnosti a odbornej komunite.
Projekt SKRIPTOR bezprostredne nadväzuje na práve skončený európsky projekt READ, ktorý mal všetky atribúty metodológie digital humanities. Hlavným výstupom projektu READ je platforma Transkribus, v ktorej sa implementujú výsledky základného výskumu. Technologická a vedecká inovácia projektu READ je založená na využívaní umelej inteligencie, ako jednej z perspektívnych disciplín informatiky.
Strategickým cieľom projektu SKRIPTOR je vytvoriť na národnej úrovni predpoklady kompetentného partnerstva slovenských výskumníkov so špičkovým európskym výskumom, naštartovať a následne sa aktívne zapojiť do mnohostrannej vedeckej európskej spolupráce.

Projekt SKRIPTOR sa realizuje v odbore: História. Presah projektu je do odboru Knižničná a informačná veda (sociálne aspekty).

Projekt SKRIPTOR je zameraný najmä na novovek. Je vymedzený obdobím humanizmu, renesancie, protestantskej a katolíckej reformácie, rozmachu meštianstva a formovania národných štátov na našom území resp. v našom stredoeurópskom regióne. Medzi skúmané a sprístupnené zbierky však možno zahrnúť aj automatické rozpoznávanie textov novších tlačených a strojom písaných dokumentov, ako aj prvotlače (inkunábuly), tlače 16. storočia, historické časopisy, noviny, ako aj hodnotné materiály z 18.-20. storočia a pod. Po vynáleze kníhtlače síce ustupovala rukopisná tvorba, no napriek rozmachu tlače vznikalo aj naďalej veľmi veľké množstvo unikátnych rukopisných dokumentov, ako sú napríklad matriky, kroniky, katastrálne záznamy, zápisnice, časopisy ai., ktoré sú len v rukopisoch a predstavujú veľké, ale neprístupné archívne bohatstvo.

Originálnosť projektu je:

  1. a) v aplikácii poznatkov základného výskumu automatickej transkripcie na Slovensku,
  2. b) v tvorbe nových modelov automatického rozpoznávania textov pre transkripciu zbierok slovenských inštitúcií (latinčina, maďarčina, slovenčina, nemčina, čeština),
  3. c) tvorba datasetov pre domáce a medzinárodné systémy a databázy,
  4. d) potvrdenie doteraz dosiahnutých výsledkov, prípadne prispenie k zvýšeniu efektívnosti nástroja Transkribus,
  5. e) vytvorenie modelového archívu textov s reprezentatívnymi vzorkami textov historických dokumentov na účely experimentov,
  6. f) výskum korelácie kvality skenovania na efektívnosť automatickej transkripcie rukopisných a iných textov

Výskumnou témou a predmetom záujmu projektu SKRIPTOR sú historické dokumenty, písomné dedičstvo, jeho prieskum, výskum, digitalizácia, automatická transkripcia, uchovávanie a sprístupnenie.

Výskumným problémom projektu SKRIPTOR je tvorba čo najlepších modelov automatického rozpoznávania textov historických dokumentov, ktoré sa nachádzajú na Slovensku a predstavujú súčasť európskeho písomného dedičstva a ako doklady našej kultúry prezentujú našu kultúru v kontexte európskej vedy, kultúry, politiky, hospodárstva a vzdelávania.

Špecifickým výskumným problémom projektu SKRIPTOR je digitalizácia a atraktívna prezentácia určitých dokumentov pre širokú verejnosť.

Všeobecný rámcový cieľ projektu SKRIPTOR vychádza z poznania, že súčasná úroveň informačných a komunikačných technológií umožňuje efektívnejšie sprístupnenie písomného dedičstvo Slovenska.

Štátna vedecká knižnica v Banskej Bystrici je spoluriešiteľskou organizáciou pri plnení projektu SKRIPTOR podporeného Agentúrou na podporu výskumu a vývoja. Zodpovedným riešiteľom je doc. Imrich Nagy z Univerzity Mateja Bela v Banskej Bystrici. Spolu s ním sa na projekte podieľa kolektív historikov a knihovníkov.

Projekt Skriptor nadväzuje na európsky vedecký projekt READ (2016-2019). Základný výskum prebieha prostredníctvom platformy Transkribus založenej na metódach umelej inteligencie a strojového učenia. Celý projekt zahŕňa široké spektrum činností, od výskumu a digitalizácie dokumentov cez automatickú transkripciu až po uchovávanie a sprístupnenie písomného dedičstva.

Niekoľkoročný projekt je rozdelený do štyroch etáp s plánovaným ukončením v roku 2024. V roku 2020, v ktorom sme vyčerpali 15% z celkového rozpočtu projektu, sme uskutočnili prvú fázu pozostávajúcu hlavne z nákupu technickej podpory projektu, zvolenia výskumných tém a zbierok a oboznámenia sa so systémom Transkribus.

Vyhodnotenie prvého roku:

1. fáza: Analýza stavu poznania archívneho dedičstva a indikatívny prieskum zdrojov k problematike písomného dedičstva v slovenských pamäťových a fondových inštitúciách

Realizácia projektu s aktuálnou problematikou a jeho uplatnenie v praxi podporí sprístupnenie dokumentov vo vhodnom formáte pre používateľov.

V spolupráci s Univerzitou Mateja Bela v Banskej Bystrici participuje na projekte Inovatívne sprístupnenie písomného dedičstva Slovenska prostredníctvom systému automatickej transkripcie historických rukopisov (APVV-19-0456, skr. SKRIPTOR), ktorý podporila Agentúra na podporu výskumu a vývoja. Jeho zodpovedným riešiteľom je doc. Mgr. Imrich Nagy, PhD., prodekan pre vedeckovýskumnú činnosť Filozofickej fakulty UMB. Na projekte sa podieľa kolektív historikov a knihovníkov z oboch inštitúcií, za ŠVK sú nimi: prof. PhDr. Dušan Katuščák, PhD., PhDr. Blanka Snopková, PhD., Ing. Ivana Poláková, PhD., a Mgr. Mária Bôbová, PhD.
Štvorročný  projekt je rozdelený do 4 etáp s plánovaným ukončením v roku 2024.

V súčasnosti sme vo fáze prechodu z prvej (Analýza stavu poznania a prieskum zdrojov) do druhej etapy (Implementácia a zefektívnenie platformy Transkribus). Jednotliví riešitelia si zvolili výskumné témy, k nim prislúchajúce rukopisné zbierky a prostredníctvom školení a samoštúdia sa oboznámili so systémom Transkribus.
Druhá, najdlhšie trvajúca etapa zahŕňa viaceré kroky od heuristiky cez digitalizáciu a tvorbu modelov až po hodnotenie efektívnosti automatickej transkripcie, pričom program sa podľa tréningového súboru učí vzory písma a slov. Výsledok transkripcie je potom viditeľný a zhodnotený na testovacom datasete. Ak je uspokojivý, možno automaticky transkribovať ďalšie súbory alebo celú zbierku.
Automatická transkripcia ďalej slúži na vedecké editovanie, v ktorom je možné text korigovať, explicitne pridávať ďalšie dáta, kontextové informácie, dešifrovať dáta, tagovať, pridávať poznámky, metadáta, anotácie, opravovať diakritiku, skratky a pod.

V ŠVK prvé kroky v tejto etape vykonávame:  

–         na rukopisnej zbierke Collectanea z pozostalosti evanjelického kňaza, prekladateľa a náboženského spisovateľa Martina Laučeka (1732 – 1802), ktorú tvorí 22 zv. materiálu obsahujúceho cenné informácie najmä pre dejiny evanjelickej cirkvi.

–        na rukopisnej zbierke  archeológa, geológa, botanika a kňaza Andreja Kmeťa (1841-1907), ktorý sa podieľal na vzniku Slovenskej učenej spoločnosti v Martine. Okrem iného založil cirkevnú knižnicu, čitateľský spolok, ovocinársky spolok…

Na doterajšia práca  spočívala v pozornom a veľmi presnom prepisovaní najmä rukopisnej korešpondencie v editore podľa riadkov. Ľahšie i ťažšie čitateľné texty v slovenskom, nemeckom, maďarskom ale hlavne v latinskom jazyku sa prepisujú podľa súdobého jazykového úzu a gramatiky, aj s chybami. Zároveň pristupujme k tvorbe modelov a ich testovaniu.

V rámci projektu sa chceme zamerať aj na výskum rukopisných knižničných katalógov na príklade katalógu knižného fondu Kňazského seminára sv. Karola Boromejského v Banskej Bystrici. Dokument s názvom Elenchus librorum z 19. storočia obsahuje nielen dva katalógy knižnice, ale i prírastkové zoznamy dvoch významnejších akvizícií a výpožičný katalóg knižnice.

Svoje nové poznatky sme odprezentovali:
–  na vedeckej konferencii NON SCHOLAE, SED VITAE DISCIMUS… (knižná kultúra – osobnosti – školský život), ktorá sa uskutočnila dňa 7. júna 2021 v gescii  ŠVK v Prešove online formou.  Interdisciplinárna vedecká konferencia sa usporiadala pri príležitosti pripomenutia si udalostí spojených s Memorandom národa slovenského (1861), ktoré zachytili aj problematiku kultúrnych požiadaviek, otázky slovenského jazyka a jeho používania, ale aj školstvo. Odznel príspevok  s názvom – Projekt Skriptor, keď stroj sa stáva žiakom od autorky Mgr. Márii Bôbovej, PhD.
– v občasníku ŠVK s názvom Knižničné noviny (4/2020) v článku s názvom –  Zapojenie knižnice do nového výskumného projektu od autorky Mgr. Márii Bôbovej, PhD.