perjantai 9. lokakuuta 2020

Katsaus digitaalisen historiantutkimuksen tilaan Suomessa

Kun keväällä kuulutettiin sisältöä SHS/JY:n tilaisuuteen Digital history in Finland IV tuntui järjestysnumeroa katsoessa, etten ollut moisesta koskaan kuulutkaan, mutta näköjään otsikko on ollut käytössä ainakin vuonna 2015. Liekö tuo ollut sarjan ensimmäinen vai jotain muuta? Tämän kertainen ohjelma selvisi toissapäivänä ja esitettiin eilen.

Kansalliskirjasto aloitti. Tutun aineksen joukosta nousi itselleni merkityksellisimmäksi keskustelu Ruotsin ajan Fennnica-aineiston digitoinnista. Kansalliskirjastolla on tavoitteena digitoida omat originaalinsa vuoden 2021 loppuun mennessä, mikä on hyvä uutinen m.m. väikkärini väsäämisen kannalta. Haluaisivat tietenkin myös digitoida muunkin, jota ovat tähän mennessä löytäneet 11 laitoksen kokoelmista Ruotsista. Mutta aineiston lisäkartoitukseen ja digitointiin ei ole rahoitusta. Toisaalta kertoivat, että Ruotsissa on käynnistynyt iso proggis, josta minulla ei ole mitään havaintoa. 

Kuviosta minulla ja muutamalla muulla heräsi kysymys päällekkäisen työn välttämisestä ja löydettävyydestä. Päällekkäistä työtä enemmän huolettaa "kokoelmien" problematiikka, jota hutaisin helmikuussa ja joka liittyy juuri tähän, että Kansalliskirjastolla ei ole omana kaikkea "kansallista". Mikä on tavoitetila? Että Kansalliskirjastolla on kattava Fennica, jossa on digikopio kaikesta vai riittäisikö linkitys toisaalle? Keskustelussa heitettiin iloisesti ilmaan ajatus, että pitäisi olla "yhteinen" käyttöliittymä. No, milläs rahalla ja lihaksilla siihen tuodaan Pommerissa julkaistu aineisto, joka on yhtä lailla "yhteistä". Selvää tietä eteenpäin ei esitetty.


Ilahduksekseni helmikuisessa tekstissäni valittamani pikkuasiat tuntuivat olevan tiedossa ja ehkä niiden korjaamiseen riittää resursseja? Valitettavasti kalvon otsikko "Digitoituun aineistoon liittyvä informaatio on osin puutteellista tai vaikeasti löydettävissä" ei rajoitu Kansalliskirjastoon.

OCR:n uudistus Kansalliskirjaston aineistoon on tulossa. Muutoksen luvattiin olevan merkittävä, mutta huomautettiin, että uusi Transcribuksella tehty malli perustuu tiettyyn opetussettiin eikä välttämättä pelitä yhtä hyvin kaikkeen. Toisaalta hieman myöhemmin Ilari Taskinen ja Risto Turunen kertoivat, että heidän sota-ajan kirjeissään tunnistusmalli oli toiminut hyvin vaikka kirjoittajia oli monia. Alkamassa olevassa projektissaan he käyttävät korpusanalyysiä eli selvittävät kielen muutosta yli ajan ja pyrkivät saamaan irti jopa tunteiden ilmaisua.

Tuula Juvonen esitteli hanketta Sateenkaarihistorian hakusanakirja, jossa kartoitetaan Helsingin sanomista 1904-1939 sanastoa, jota on käytetty kun LGBTQ ja muut modernit termit eivät olleet käytössä. Eli sanoja, joilla näistä aiheista kertovia artikkelita voidaan hakea. Tuli mieleen oma tuskailuni elämäkerrallisten tekstien löytämisessä. Tehokkaita hakusanoja ei ole löytynyt, joten olin visioinut tekoälyisempää ratkaisua, joka voisi tunnistaa "samantapaisia tekstejä". Mutta Juvonen loi uskoa siihen, että yksinkertaisemmallakin ratkaisulla voi saavuttaa tuloksia.

Päivän lopuksi palattiin klassikoihin eli digihistorian määrittelyyn ja opiskelijoiden aktivointiin. Keskustelun helmi tuli Johanna Liljalta, joka totesi, että tehokkain motivointi syntyisi merkittävistä tuloksista. 

Mikä toimi hyvänä hyppyrinä illan ohjelmaan eli DH-senimaariin, jossa esittelyssä oli projekti FILTER (Formulaic intertextuality, thematic networks and poetic variation across regional cultures of Finnic oral poetry). Siinä koneluetaan Suomeen ja Viroon kerättyjä 1,5 miljoonaa runosäettä, joista algoritmeilla on löydettävissä sekunneissa yhtäläisyyksiä, joiden etsimiseen ihmisikä ei riittäisi. Eli näytti upealta. Luvassa on myös Kalevala-analyysiä: kuinka pieniä paloja kerätyistä runoista Lönnrot käytti ja miten?

Eikä tässä kaikki, sillä tulokset ovat yleistettävissä moneen muuhun (yksinkertaisempaan) tunnistustehtävään.

Ei kommentteja: