Olin eilen Anna Kuisminin salongissa kuuntelemassa Risto Turusen esitystä alkuvaiheessa olevasta väitöstutkimuksestaan. Sen kohteena olevat työväenliikkeen käsinkirjoitetut lehdet sanastoineen ovat monella tavalla mielenkiintoisia - myös torppareilla oli lehtiä! - mutta session räjäyttävin anti tuli graafista, jonka luonnin Turunen demosi. Yritän nyt itse.
Kielipankin etusivulta Työkalut ja sieltä KORP ("selainpohjainen konkordanssityökalu, jolla voi tehdä hakuja tekstiaineistoista morfosyntaktisen jäsennyksen perusteella."), jonka voi toki avata myös suoraan. Ensimmäiseksi valitaan aineisto
Eli Turusta apinoiden suomenkieliset sanomalehdet
ja hienosäätäen vasemman reunan kolmiota painaen rajoitetaan aika siihen, joka on kattavasti digitoitu.
Sitten on aika kirjoittaa hakusana. Yksinkertaisimmillaan yksinkertaisesti ja laajennetulla Turusen demon perusteella voi hakea yhtäaikaa useampia kirjoitusmuotoja. Oleellista jos sanassa v, josta pitää hakea myös w-versio. Aloitin yksinkertaisella.
Etsi-napin painamisen jälkeen ei heti tapahdu mitään! Työkalu ihan oikeasti ruksuttaa läpi miljoonia sanoja ja kestää hetken ennenkuin sivun alareunaan avautuu konkordanssinäkymä. Siitä en tällä kertaa ole kiinnostunut vaan valitsen "Tilastoja"...
ja painan aluetta "Näytä trendidiagrammi". Tämänkään piirtäminen ei suju hetkessä, mutta ruudulla on sentään teksti "Kuvaajaa piirretään..." että ymmärtää odottaa. Ja ta-daa...
Hohenthal-nimen suhteellinen esiintyvyys suomenkielisissä sanomalehdissä. Harmailta vuosilta ei ole dataa. Vuoden 1832 piikki yllätti, mutta selittyy lehtien vähäisellä määrällä. Varsinaisia mainintoja oli tuolloin vain yksi, minkä näkee hiirtä heiluttamalla ja sattuneesta syystä tiedän täsmälleen mistä tekstistä on kyse. Hiiren heilutuksella voi myös todeta, että vuoden 1905 piikkiin mahtuu 1167 osumaa. Eli kirjani Hohenthalit painomusteessa loppurajauksella 1904 oli syy - työekonominen sellainen. (Absoluuttiset ja suhteelliset luvut saa samaan graafiin, kuten Turusen kalvoissa, askartelemalla luvut ulos näkymästä "Taulukko".)
Tietenkin olen nyt tehnyt juuri niinkuin ei pitäisi tehdä eli söheltänyt selvittämättä miten työkalu oikeasti toimii, miten data on sinne viety, miten valintoja kannattaa tehdä ja mikä niiden merkitys on jne. jne. Mutta älkää tehkö niinkuin minä vaan paremmin.
Ja kerta kiellon päälle
Piikeille 1890-luvulla on helposti keksittävissä todennäköinen selitys, jolle on blogitekstin aihiokin olemassa.
Ei kommentteja:
Lähetä kommentti