perjantai 27. marraskuuta 2015

Ymmärrysvaikeuksia

Vuosi sitten kirjoitin, ettei meidän datalla saa leikkiä. Se, että ilmaisin itseäni tehottomasti, kävi ilmi tänä iltana, kun kuuntelin Digital Humanities Research -seminaarisessiossa Eric Malmin esityksen Sukupuiden automaattinen rekonstruointi ja analysointi.

Malmi tekee menetelmätutkimusta. Ja mieluiten soveltaisi menetelmiään dataan, joka vetoaa kansainväliseen yleisöön. Miksi ihmeessä hän sitten valitsi HisKi-datan kohteekseen?

Seminaariesityksessä hän visioi rekonstruoituja (miksei konstruoituja?) sukupuitaan aineksiksi tutkimukselle, joka on jo joko tehty tai jonka voi tehdä suoraan Hiski-datasta. Jo 2009 totesin, että HisKissä on "selvää potentiaalia nimimuodin leviämisen tutkiskeluun" ja tätäkin on moni ehtinyt varmasti tehdä ennen Malmin ohjaamaa kandintyötä tänä vuonna.

Sukupuidensa pointti, jos sanaa voidaan käyttää, on käyttää algoritmia arvioimaan todennäköisiä vanhempia lapsille. Ehdokkaiden todennäköisyyttä arvioidaan nimien, paikkojen ja aikojen perusteella. Periaatteessa siis samaa päättelyä, jonka sukututkija tekee HisKi-haravoinnissa. Mutta sukututkija käyttää todennäköisyyksiä optimoidakseen työn, jonka hän tekee seuraavaksi käydessään lähteitä läpi valitakseen kandidaateista oikean. Malmi käyttää niitä luodakseen 51 000 henkilön "sukupuun" minuutissa.

Koska tällä "sukupuulla" ei ole mitään tunnistettua käyttötapaa, johon ei olisi jo olemassa olevaa ratkaisua, lähdin sessiosta masentuneen kiukkuisella päällä. Yritin kotimatkalla keksiä jonkun vertailukohdan ja mieleen tuli leffa Into the Wild, jossa kundi lähti ilman karttaa erämaahan, koska oli mielestään hyvä idea. Eikä todellakaan ollut.
Giovanni Orlando: Day 105/365 : Sit down and tell me your story. CC BY-NC-ND 2.0

Ei kommentteja:

Lähetä kommentti