Maskintolkning av handskrivet källmaterial
I detta projekt har vi undersökt hur Handwritten Text Recognition (HTR) kan användas inom Riksarkivet för att tillgängliggöra arkivmaterial på nya sätt, med fokus på textinnehållet. Projektet pågick under 2020–2021 med stöd från Vinnova inom satsningen Starta er AI-resa!
Projektet avslutades i maj 2021. Arbetet med HTR och medborgarforskning fortsätter inom Riksarkivets FoU-uppdrag.
Projektsammanfattning
I detta projekt har vi undersökt hur Handwritten Text Recognition (HTR) kan användas inom Riksarkivet för att tillgängliggöra arkivmaterial på nya sätt, med fokus på textinnehållet. Framför allt har vi skapat en HTR-modell som maskinellt tolkar handskriven text från andra hälften av 1800-talet. Modell bygger på Detektiva polisens rapportböcker från Göteborg från 1868–1902. Hela arkivserien om 36 volymer ingår om 22 500 textsidor. Av dessa har 940 sidor (165 060 ord) transkriberats manuellt. Denna del utgör "Ground Truth" i HTR-modellen som automatiskt har tolkat de övriga sidorna med en felprocent (character error rate) om 2,7 procent. Detta betyder att modellen tolkar texten för ett helt arkiv korrekt till 97 procent. HTR-modellen (Gothenburg_police_reports_1868-1902) är publicerad och fritt tillgänglig via applikationen Transkribus.
För söksida och uppdateringar, se sok.riksarkivet.se/htr.
Syfte och bakgrund
Idag finns miljontals med bilder på digitaliserade handskrivna arkivmaterial. Men det digitala materialet kommer sannolikt inte att främja ny forskning och kunskap om inte innehållet transkriberas. För tryckt material finns det automatiserade processer s.k. Optical Character Recognition (OCR) som möjliggör produktion av maskinläsbar text i anslutning till digitaliseringsprocessen. För handskrivet källmaterial saknas utvecklade metoder för storskalig och automatiserad transkribering. Möjligheten till fördjupning, jämförelser och större bearbetningar (data-driven forskning) på handskrivna material är därför begränsad. Inom fältet bildigenkänning och maskininlärning har det dock under senare år utvecklats tekniker som möjliggör automatiserad handskriftstolkning, vanligen benämnt Handwritten Text Recognition (HTR). Kulturarvsintuitionerna i Sverige saknar idag resurser och kompetenser för att utveckla egna sådana tekniker och behöver samarbeta med andra aktörer för att komma vidare. Detta projekt går ut på att pröva och utvärdera hur tekniker inom fältet HTR kan användas mot handskrivna arkivmaterial inom Riksarkivet. Projektet kommer att utföras i nära samarbete med organisationen READ-COOP SCE som ansvarar för den AI-teknik som projektet kommer att nyttja.
Mål
Projektet har två mål: För det första, att skapa träningsdata och modeller med tekniken Handwritten Text Recognition (HTR). För det andra, att utveckla en prototyp för hur maskinellt tolkade texter kan tillgängliggöras för användare via Riksarkivets webbtjänster.
Förväntade effekter och resultat
En stor mängd handskrivna dokument blir tillgängliga och sökbara för forskningen och allmänheten på ett mer innehållsrikt och avancerat sätt än idag. Detta öppnar för storskaliga textanalyser. Samband och sammanhang som tidigare gått forskningen förbi kan upptäckas. Arkivanvändningen breddas och fördjupas, och ärendehandläggningen effektiviseras. Målsättningen är att integrera HTR i Riksarkivets digitaliseringsprocess. Ett vidare mål är att få erfarenheter om hur crowdsourcing och HTR kan kombineras.
Planerat upplägg och genomförande
Projektet genomförs i två steg: Först skapas träningsdata och HTR-modeller som sedan genererar översatta texter. Därefter utvecklas en webbtjänst (demo) som tillhandahåller bilder, texter och tillhörande information. HTR-modellerna kommer att skapas i plattformen Transkribus. Detta innebär manuell transkribering, segmentering och annan databehandling. De färdiga filerna överförs sedan till Riksarkivets publika söksystem, som anpassas för att kunna hantera den nya informationen.
Om projektet
Projektet pågår under 2020–2021 med stöd från Vinnova inom satsningen Starta er AI-resa!
För vidare information, kontakta projektledare Olof Karsvall. olof.karsvall
I anslutning till projektet sker en satsning på Citizen Science, där medborgare bjudits in för att delta genom att transkribera och skapa träningsdata. Detta sker i samarbete med GPS400 – Centrum för visuell samverkande forskning vid Göteborgs universitet som finansierat skanningen av polisrapporter från Detektiva polisen i Göteborg 1868-1902 som kommer att HTR-tolkas inom projektet.
Vinnova Dnr 2020-00248
Riksarkivet Dnr RA-KS 2021/00359.