Twitterissä tuli vastaan akateeminen mainos: "announcing a new multilingual fiction dataset published [...] If you're into multilingual DH this dataset is for you! " Monikielisyydestä tuli tietenkin ensimmäisenä mieleen kysymys: "onko suomen kieli mukana?"
Kiinnostus vaan lisääntyi, kun avasin varsinaisen esittelyn MultiHATHI: A Complete Collection of Multilingual Prose Fiction in the HathiTrust Digital Library ja selvisi, että pointtina oli erotella fiktio faktasta ("Fictionality for our purposes is an institutionally-defined classification indicating whether a work is intended to be fictional or not, a classification rendered through how a work is written "). Merkittävä este digitaalisen tekstitutkimuksen kentällä kun on tekstien tyylillinen luokittelu.
Jos se onnistuisi, voitaisiin esimerkiksi sanomalehtitekstimassasta hakea koneellisesti paikalliskirjeitä, mitä Translocalis-hankkeen jatkossa on tarkoitus yrittää. Mutta muutamia vuosia sitten Digihum hackathonissa epäonnistuttiin huomattavasti helpommalta tuntuvassa runojen poiminnassa, joten käsittääkseni haastetta on jäljellä. Eli suhtauduin 10 miljoonan kirjan luokitteluun yli kielirajojen skeptisesti.
Luotu datasetti oli avoimesti saatavilla, mutta niin suuri, että perustietsikan Excel ei toiminut luotettavasti. Poimin testausmielessä vähän yli 100 riviä, joissa oli jakso ',fin,' eli luokittelu suomen kieliseksi. Datasetin esittelystä ei selviä, mihin kielen määrittely perustuu. Todennäköisesti Hathin metadataan, sillä poimintaani tuli useita ruotsinkielisiä kirjoja. Huono alku.
Enimmäkseen amerikkalaisista kirjastoista digitoitujen suomenkielinen anti on varsin eklektinen ja faktapainotteinen. Mukana oli kuitenkin selvää fiktiota kuten Antti Tuurin "Pohjanmaa: romaani" ja Sari Malkamäen "Sunnuntaina kahdelta : novelleja", jotka malli oli luokitellut oikein fiktioksi. Luokittelu ei (kai) perustunut pelkästään nimekkeeseen sisältyvään romaani/novelli-sanaan, sillä Kyösti Wilkunan "Viimeiset luostariasukkaat : romaani" oli luokiteltu faktaksi eli väärin. Toisaalta malli onnistui havaitsemaan, että Jalmari Finnen "Ylioppilaita : kuvaus pohjalaisista ylioppilaista Turun yliopistossa" oli fiktiota. Mutta oikeellisuus suomenkielisille kirjoille on kaukana pääkielille annetuista prosenteista.
Jostain on kuitenkin aloitettava. Siitä ei ole montaa vuotta, kun kuvittelin, että käsialojen tunnistus olisi mahdottomuus. Viime viikon arkisto-otoksia Google Photosissa pyöritellessäni kuitenkin huomasin, että se pystyi selvittämään 1760-luvun käsinkirjoitettua tekstiä jo hämmentävän hyvin.
Ei kommentteja:
Lähetä kommentti