keskiviikko 21. helmikuuta 2018

Etäluku entisajan varkauksista

Ennenkuin kaikki opit ja ajatukset digihistorian roadshowsta unohtuvat ryhdistäydyin minimaaliseen etälukuharjoitukseen. (Etäluku on lähiluvun vastakohta. Ei oikeasti lueta, vaan annetaan ohjelmien pyörittää tekstimassaa. Useimmiten (kai) tästä syntyy tarvetta ja kohdistusta lähiluvulle, jota kuitenkin jossain vaiheessa tarvitaan.)

Jo jonkin aikaa minua on kiinnostanut sanomalehtien rikosilmoitukset, joista luulisin irtoavan uutta tietoa 1800-luvun materiasta. Mutta irtoaako niistä mitään koneluvulla? Tein haun 'stulit' vuoden 1880 loppuun asti, tallensin tulokset taulukoksi, heitin Wordle.net:iin ja näkemäni perusteella siivoilin käsin jonkun verran OCR:ää ja taivutusmuotoja. (Jos tekisin "oikeasti" niin siivous pitäisi olla järjestelmällisempää ja dokumentoitua.) Ja sitten huomasin, että tiedostoon oli tallentunut alle kolmasosa hakutuloksistani... Do, tällä "satunnaisotoksella" eteenpäin.

Poistettuani sanapilvestä hakusanani, af, hafwa ja anmälte näyttää vahvasti siltä, että varkaudet tapahtuivat asunnoissa yöllä tai päivällä. Ilmeisesti varkaat myös viihtyivät Aura-joen rannoilla.

Päällimmäisiä sanoja poistettuani näen, että usein varastettiin pari jotain ja mustaa. Mutta ei vaan yhtä asiaa vaan usein kolmekin.
Epäinformatiivisia sanoja pitää poistaa tusinoittain ennen kuin mustan rinnalla näkyy valkoista, ruskeaa, harmaata ja punaista.
Lukuisten poistojen jälkeen käy selväksi, että varastetut tavarat eivät tällä keinolla löydy. Puolivillaisia tai hopeisia ne ilmeisesti usein ovat olleet.
Tavaraa on viety jo mainitun asunnon lisäksi huoneista, lompakoista ja veneistä. Jälkimmäiset ovat voineet olla myös varkauden kohteita. Tässä sitä lähilukua kaivattaisiin.

Testin perusteella varastettujen tavaroiden tutkimiseen tarvitsisi isomman otoksen eli erilaisen haun ja erilaisen tavan tuoda se ulos. Lisäksi pitäisi suodattaa päältä tolkuton määrä muuta pois. Tosin ostoskorianalyysi, jota digihistoriassa topic modellingiksi kutsutaan, voisi olla hedelmällisempi analyysimenetelmä.

Ei kommentteja: