perjantai 8. marraskuuta 2019

Heldig summitissa kuultua


Viime vuoden tapaan käytin eilisen päivän kuuntelemalla digitaalisen humanismin kuulumisia Heldig summitissa, jossa kullakin esityksellä oli käytettävissä 10 minuuttia. Poikkeuksena kutsutut puhujat, joista hollantilainen Marieke van Erp vahvisti tiistaista kertausläksyä opastamalla, että ei saa olettaa systeemin toimivan vaan pitää tarkistaa data. Hän puhui oikeasti monimutkaisemmista algoritmeistä, mutta sama pätee kyllä tietokantahakuihinkin. Kun vaan saisi pidettyä mielessä.

(Yksi van Erpin projekteista etsi Alankomaiden sanomalehdistä ruokareseptejä. Kalvon kuvitukseksi hän oli poiminut "suomalaisen reseptin", jossa oli pyöryköitä mausteisessa kastikkeessa. Sattumalta hain itse äskettäin digitoiduista kirjoista "suomalaisittain" valmstettujen ruokalajien ohjeita. Niin monissa oli mausteita, että Suomen ja Unkarin yhteys on taidettu kulinaarisessa maailmassa ymmärtää päin mäntyä.)

Muita käytännönläheisiä poimintoja. Van Erp oli maininnut haasteet henkilöiden tunnistamisesta fiktiotekstistä. Kielipankin Krister Linden jatkoi teemasta hieman myöhemmin. Hänen esimerkkihaasteenaan oli erotella Nokia yrityksenä, paikkakuntana, tuotteena, yleisnimenä ja vielä parissa muussakin merkityksessä. Kehitetty nimellisten entiteettien poimintatyökalu on testattavissa Kielipankin demo-sivulla. Siellä on näköjään muutakin. Suhtaudun sentimenttianalyysiin enemmän kuin skeptisesti eikä se, että tämän tekstin ensimmäinen virke on työkalun mukaan tunnelmaltaan "positiivinen", muuttanut mielipidettäni.

Tuula Pääkkönen selosti esityksessään Kansalliskirjaston digitaalisten aineistojen leiketoimintoa, mutta mainosti myös käynnissä olevaa käyttäjäkyselyä. Täytin sen jonain päivän tylsempänä hetkenä ja huomasin aineistoluettelossa kortistot. Totta tosiaan, ovat ilmaantuneet jossain välissä tarjontaan ja sisältävät m.m. viime vuonna isoina pdf:inä selaamani käsikirjoituskokoelman kortit.

Kansallisarkiston miesten Transkribus-esityksessä ei ollut mitään uutta. Paitsi, että ekaa kertaa annettiin 1800-luvun renovoitujen tuomiokirjojen (tilapäinen) hakuosoite tai ainakin ekaa kertaa sain sen ylös. Nimellä Hohenthal tuli osumia Keski-Pohjanmaalta, mutta hämmästyttävän vähän ja kaikki tylsiä sopimusten todistamisia. Sillä mukana oli vain ilmoitusasioita. Malliesimerkki siitä, että pitäisi tuntea aineisto paremmin, jotta voisi arvioida haun toimivuutta ja mahdollisia korjaustoimenpiteitä. (Ja jälleen yksi sivusto, joka ei täysin toimi vanhentuneella käyttöjärjestelmällä ja selaimella. Joulupukille pitäisi kai kirjoittaa toive.)

Sampojen sarjaan on tulossa Helsingin yliopiston ylioppilasmatrikkelit linkitettynä datana! Jee! Valmistumispäivää ei luvattu, joten vielä täytyy odottaa. Ja sitten ehkäpä peräti opetella SPARQL-kieli, että saa vihdoin "kaikkiin" kysymyksiin vastauksen. AkatemiaSampoa kehittävä Petri Leskinen paljasti, että suurin alenevista polvista (seitsemästä!) koostuva klusteri alkaa Josef Walleniuksesta, mutta minä olen kiinnostunut muidenkin sukulaissuhteiden muodostamista klimpeistä. Walleniuksellakin näyttää olevan poikien lisäksi kolme lankoa. Ovatko kaikki ylioppilaat, jotka ovat jollekin sukua, sukua kaikki keskenään? Vai jakaantuuko joukko useampaan isoon ryhmään sekä lukuisiin pienempiin tai linkittymättömiin?

Helsingin yliopiston COMHIS-ryhmä jatkaa edelleen kirjojen luettelotietojen kanssa, mutta Jani Marjanen ja Elaine Zosa esittelivät suomalaiselle sanomalehdelle tehtyä dynaamista aineentunnistusta. Eli oli testattu Uudesta Suomettaresta 1869-1917 aikaviipaloituna löytyneitä sanayhdistelmiä. Esimerkiksi poimittu säädyn katoaminen ja eduskunnan ilmestyminen vuonna 1906 ei ollut onnistunein, mutta ehkä isommalla datan määrällä löytyy oikeasti tähän mennessä esiinnostamattomia ja unohtuneita keskustelunaiheita. Ehdottomasti kannattaa yrittää.

Ei kommentteja: