torstai 30. lokakuuta 2014

Ei meidän datalla saa leikkiä!

SSS:n kirjastonhoitaja Vuokko Pärssinen-Tainio linkitti eilen FB:ssä Aalto-yliopiston tiedotteen Tiedonlouhija lähtee Berliiniä valloittamaan. Tiedonlouhija eli Eric Malmi tiivistää hankkeensa siinä seuraavasti
Minulla on käytössäni Suomen kirkonkirjat 1600-luvun alusta 1900-luvun alkuun digitaalisessa muodossa. Tavoitteeni on ratkaista, miten niistä voitaisiin muodostaa koko Suomen sukupuu automaattisesti sekä pystyä myös analysoimaan sukupuuta niin, että esimerkiksi sotien ja luokkaerojen vaikutusta voitaisiin tutkia
Rutinoitunut sukututkija hämääntyi täysillä. Kirkonkirjoja ei ole Suomessa tallessa 1600-luvun alusta. Sanasta kirkonkirja tuli ensimmäisenä mieleen digitaaliset kuvat, joista ei ole täytä settiä olemassa. Eikä niistä saa millään louhinnalla sukupuuta. Eli mitä tässä oikein ollaan tekemässä?

Parissa tunnissa aivoni ruksuttivat tausta-ajona ehdotuksen: kyse on HisKi-datasta. Malmi vahvisti tämän Twitterissä.
Lisäksi hän vastasi Sam Kaislaniemen reaktioon "Heh. Ja kätevästihän se puu syntyisi, kun kerran samoja nimiä ei esiinny, ja kaikkien syntymä-ajat ja -paikat tunnetaan. #not"
Menetelmiä on moneen menoon. Ikäni muistan kun ulkoinen taho analysoi työhöni liittyvää dataa "hianolla" menetelmällä ja sai selville että A korreloi B:n kanssa. Tämä ei varsinaisesti ollut tulos, sillä B oli johdettu A:sta ja menetelmän oikeassa käytössä tämä olisi otettu huomioon jättämällä toinen muuttuja pois.

Yritän siis sanoa, että olen edelleen (kiitos koulutukseni, työkokemukseni ja historiaharrastukseni) siinä uskossa, että datan tuntemus on ensiarvoisen tärkeää analyysille. Tuntematta Malmin tekniikoiden hienouksia, totean, että sukupuita ei voi rakentaa pelkkien historiakirjojen varaan. Piste. Yrittää toki saa, mutta olen suuresti yllättynyt, jos lopputulokseen saadaan mukaan sukunimettömät ja liikkuvat ihmiset. Ja jos he jäävät puuttumaan tai ovat merkittävästi väärin kiinnitettyjä, ainakin luokkaerojen vaikutuksen tutkimus on täysin vääristynyttä.

Kuva kirjasta "Skämtbilden och dess historia i konsten" (1910). Internet Archive, Flickr Commons.

4 kommenttia:

Eric kirjoitti...

Kiitos, tutkimukseni kannalta on erittäin tärkeää, että saan palautetta sukututkimukseen paremmin perehtyneiltä! Muutama ajatus kommentteihisi liittyen.

"[D]atan tuntemus on ensiarvoisen tärkeää analyysille". Monissa tapauksissa tämä ei mielestäni pidä paikkaansa. Esimerkiksi kielen koneelliseen kääntämiseen kehitetyt menetelmät olivat alunperin sääntöpohjaisia, eli ne yrittivät huomioida asiantuntijoiden kehittämiä kielioppisääntöjä jne. Nämä kuitenkin jäivät ajan myötä tilastollisten konekäännösmenetelmien (esim. Google Translate) jalkoihin, jotka perustuvat yksinkertaisesti siihen, että koneelle annetaan suuri määrä erikielisiä tekstejä, joista se oppii automaattisesti tekemään käännöksiä. Omassa työssäni olen ollut mm. kehittämässä tilastollisia menetelmiä kiinnostavien hiukkastörmäysten tunnistamiseen Cernissä, vaikka en ole missään nimessä hiukkasfysiikan asiantuntija.

Toisaalta olen kyllä samaa mieltä, että yksittäisen sukuhaaran kohdalla kone ei luultavasti pääse yhtä hyviin tarkkuuksiin kuin huolellinen sukututkija. Koneellisten menetelmien etuna on kuitenkin se, että ne skaalautuvat helpohkosti erittäin suuriin tietomääriin - yksittäinen sukututkija sen sijaan tuskin pystyy käymään läpi koko HisKi-aineistoa. Näin ollen saadaan jonkinlainen kokonaiskuva Suomesta, eikä vain yksittäisistä suvuista, vaikka koneen muodostamassa puussa varmasti esiintyykin virheitä.

Olen myös ajatellut, että ohjelma, joka muodostaa automaattisesti sukupuita voisi kenties olla avuksi sukututkijalle siten, että ohjelma näyttäisi annetulle henkilölle todennäköisimmät linkit, jotka sitten sukututkija voisi manuaalisesti käydä läpi ja tarkistaa, onko joku niistä todellinen hyödyntäen omaa tuntemustaan datasta.

Otan mielelläni palautetta vastaan jatkossakin!

Anonyymi kirjoitti...

Käypä tutustumassa KATIHA-tietokantaan:
http://www.karjalatk.fi/

HisKissä on vain syntyneet, vihityt ja kuolleet. Katihasta löytyy luovutetusta Karjalasta myös rippi- ja lastenkirjoja, jotka kertovat (lähes aina) jokseenkin tarkasti myös perhekokonaisuuksista.

Mielenkiintoista olisikin verrata, miten pelkästään Hiski-analyysiin perustuva tulos eroaisi Katihan kattavampaan aineistoon perustuvaan analyysiin. Se antaisi hyvän vertailukohdan siihen, miten luotettava ehdottamasi pelkkiin Hiski-tietoihin perustuva menetelmä olisi.

Eric kirjoitti...

Kiitos vinkistä - tuo tietokanta voisi auttaa kieltämättä juurikin tulosten validoinnissa!

Jaakko Häkkinen kirjoitti...

"Olen myös ajatellut, että ohjelma, joka muodostaa automaattisesti sukupuita voisi kenties olla avuksi sukututkijalle siten, että ohjelma näyttäisi annetulle henkilölle todennäköisimmät linkit, jotka sitten sukututkija voisi manuaalisesti käydä läpi ja tarkistaa, onko joku niistä todellinen hyödyntäen omaa tuntemustaan datasta."
-- Tämä olisi erittäin tärkeä ominaisuus. Hyvä puoli projektissasi olisi se, että paljon työtä säästyisi, mutta huono puoli se, että sukututkimukseen vähemmän perehtyneet ottaisivat ehdotetut kytkökset helposti varmoina tuloksina.