Kuten eilen mainitsin, olin tiistaina kuuntelemassa Kansallisarkiston päivitystä READ-projektista. Parissa tunnissa ehti tulla esiin kaikenlaista.
Itse asiasta. Projektin työntekijät olivat tyytyväisiä käsinkirjoitetun tekstin tunnistuksessa saavutettuihin tuloksiin ja esimerkkiensä perusteella siihen oli syytäkin. Puhtaaksikirjoittamalla (vain?) tuhat sivua tuomiokirjatekstiä 1800-luvulta on lopuista 800 tuhannesta sivusta saatu tunnistettua oikein 88-91% merkeistä. Ettei elämä olisi liian helppoa, niin tämähän tarkoittaa, että konetunnistetusta tekstin sisällöstä saa ihminen tolkkua, mutta tuloksiin ei välttämättä tartu haku, kun virheellisiä kirjaimia osuu sopivan satunnaisesti. (Palaan teemaan.)
Haasteita koneen opetuksessa syntyy (tietenkin) siitä, että yhtenä ajankohtana käsialat eivät ole samanlaisia eikä yhden ihmisenkään käsiala pysy vakiona. Tarvitaan siis erilaisia malleja ja sopiva tapa käyttää niitä, missä on vielä tehtävää esityksen perusteella
Vähemmän yllätävästi tietokonemalleilla on vaikeuksia siinä missä ihmiselläkin. SLS:ssä Edelfeltin kirjeistä oli kone saanut paremmin tolkkua, kun paperilla oli vähemmän rivejä. Minut pääsi yllättämään se, että tarkempi kuva ei välttämättä ollut parempi. Kun kirjeistä oli tarjottu ohjelmistolle laadukkaampi kuva, oli siitä erottunut merkityksettömiä jälkiä, joihin tunnistus oli tarttunut ylimääräisinä rivinä.
Menetelmiä kehittävä eurooppalainen yhteistyöprojekti päättyy ensi vuoden lopussa ja hyödyntämisen tulevaisuus jossain määrin avoin.
Tulosten käyttö. Tuloksia ilmoitusasioiden pöytäkirjojen ja tulossa olevien varsinaisten asioiden pöytäkirjojen sekä autonomian ajan henkikirjojen kanssa selostettuaan Lauri Hirvonen ilmoitti tavoitteena olevan, että asiakkailla on ensi vuoden lopussa käytössä hakukelpoista koneluettua tekstiä ainakin tuomiokirjoista. Tässä kohdassa oli varmaan tarkoitus olla ihan
Mutta minun mieleeni palautui parin viikon takainen työpaja (jossa yksi seminaarin esiintyjistä sattui olemaan mukana). Siellä olin jälleen kerran purkanut viattomaan ihmiseen frustraatiotani Finnan kokotekstihauttomuudesta ja kuullut mainittavan AHAA-testauksen. Eli Hirvosen lopetettua käteni nousi oitis pystyyn kysyäkseni MISSÄ ja MITEN konetulkintoja tarjotaan arkistoasiakkaille.
En maininnut, vaikka mielessäni olikin, kuulopuheita, jonka mukaan Kansallisarkiston kv-standardin mukaiseen tietomalliin ei saatu minkäänlaista vapaata kuvailukenttää. Onko siellä edes mahdollisuus linkittää toiseen dataelementtiin? Ja miten Päivi Happosen alkusanojen "integrointi osaksi Kansallisarkiston palveluita" suhtautuu siihen, että Kansallisarkiston käyttöliittymästä valitettuani olen saanut lukuisia kertoja kuulla, että Kansallisarkiston tarkoituksena ei ole käyttöliittymäkehitys vaan kuvien tarjoaminen?
Yksi vastauksista kysymykseeni oli, että konetulkittu teksti "annettaisiin ladattavaksi". Yhdistettynä Kansallisarkiston yleiseen asiakaspalveluhenkeen visio tulevaisuuden "jonkinlaisesta ratkaisusta" ei ole kovin valoinen. Asian selventämiseksi voi todeta, että Kansalliskirjaston OCR-tekstit sanomalehdistä ja aikakauslehdistä ovat myös ladattavissa, mutta pääosa käyttäjistä liikkunee erinomaisesti rakennetuilla verkkosivuillaan. (Verkkosivujen laadun ymmärtämiseksi suosittelen parin tunnin käyttämistä muiden pohjoismaisten testaamiseen. Kannattaa varautua nenäliinoin, sillä itku voi tulla.)
Yhteistyö? Kysyin ääneen myös Kansalliskirjaston oppien hyödyntämisestä, mutta kommenttiani ei taidettu oikein ymmärtää. Algoritmit käsinkirjoitetun ja painetun tektin tunnistamisessa ovat erilaiset. Mutta molemmista tulee ulos samantapaisesti virheellistä tekstiä, jota Kansalliskirjastossa on jo yli 10 vuotta mietitty, niin eikö mikään opittu ole siirtokelpoista?
Jälkikirjoitus. Tietolinjan tuoreesta numerosta luin Kansalliskirjaston jatkosuunnitelmista eilen, että "Seuraava merkittävä askel on digitoitujen kirjojen tuominen Digiin ja kirja-aineistoon suunnattu hakulomake." Kuullostaa hyvältä, sillä Doriassa kokotekstinhaku on työlästä pdf-latauksineen.
Muotikuva vuodelta 1911 Nordiska museetin Wikimediaan tarjoamasta materiaalista.
Ei kommentteja:
Lähetä kommentti