perjantai 17. toukokuuta 2019

Kansalliskirjastossa kuultua

Eilen järjestettiin Kansalliskirjastolla Sanomalehtisymposium, jonka tarkoitus oli välittää tietoa Kansalliskirjaston Digi-käyttöliittymän kehittäjien ja sen tutkijakäyttäjien välillä. Tutkijakäyttäjien puheenvuoroja ei karsittu mitenkään, joten ääneen pääsin minäkin. Mutta ei siitä enempää, vaan mielestäni relevantista sisällöstä.

Kehityspuolelta kuulimme lupauksia paremmasta OCR:stä, artikkelien automaagisesta rajaamisesta, henkilö- ja paikannimipoiminnoista sekä aikanaan automaattisesti kuvatusta sisällöstäkin. Kun palvelu on vuosien varrella jatkuvasti kehittynyt on helppo uskoa, että jotain näistä tulee lähiaikoina tai -vuosina näkyviin ja käytettäväksi.

Tutkijapuheenvuoroissa kolme Tampereen yliopiston tutkijaa kertoi käyttäneensä leiketoimintoa luodakseen tutkimukselleen merkittävät kokoelmat. Ongelman puolikas on siinä, että vaikka he itse sisäänkirjaantuneina näkevät kokoelmansa yksiselitteisenä kokonaisuutena, tarjolla ei ole tapaa luoda sille uniikkia tunnistetta. Jolla tietoa voisi jakaa esimerkiksi artikkelin lähdeviitteessä.

Kirjoittaessani krinoliineista Ennen ja nyt -verkkojulkaisuun, lähdeviitteen 40 pituus muistaakseni nauratti (sen jälkeen kun olin sen äheltänyt kokoon), mutta jos vastaavia on artikkelissa useampi ja julkaisumediana esimerkiksi alaviitteitä käyttävä ja paperinen Historiallinen aikakauskirja, niin voisi hymy hyytyä. Eli leikekokoelmien käyttäjätilistä riippumaton PID voisi olla ihan hyvä idea.

Yksi tutkijoista oli huolissaan myös leiketiedon säilyvyydestä. Hän taisi ajatella pilottina yliopistoissa avattuja tekijänoikeudenalaisia aineistoja, mutta minulle tuli mieleen, että Kansalliskirjasto ei ole mitenkään sitoutunut säilyttämään leiketietoja. Tosin kun käyttöehdoissa lukee, että "Kansalliskirjasto voi poistaa Palvelusta näkyviltä aineiston, jonka Kansalliskirjasto voi perustellusta syystä olettaa loukkaavan kolmannen osapuolen immateriaali- tai muita oikeuksia, yksityisyyttä tai sisältävän lainvastaista materiaalia.", niin onko muista syistä poisto ehtojen vastaista?

Useat tutkijat kaipailivat täydennystä 1900-luvun sanomalehtien digitointeihin, mutta yksi tutkija huomautti myös 1900-luvun alun aikauslehtien puutteista. Hän mainitsi kaksi lehteä, joten arvatenkin niitä on enemmänkin. Vain "yleisaikakauslehdet" on digitoitu "kaikki".

Tarja-Liisa Luukkanen teki erinomaisen ehdotuksen siitä, että sanomalehdistä pitäisi olla käyttöliittymässä tarjolla olemassaolevaa tutkimustietoa niiden poliitttisista linjauksista, levikkimääristä ja -alueista yms. Päiviö Tommilan tekijänoikeudet kirjoittamaansa sanomalehtihistoriaan ovat voimassa, mutta luulisi, että asialle voisi jotain tehdä. Palvelisi kyllä käyttäjiä merkittävällä tavalla.

Tässä yhteydessä joku mainitsi, että olisi hyvä olla näkyvissä sanomalehden mitat. No, tosiaan! Mutta ne eivät ole tainneet tulla mitatuiksi ja ovat voineet vuosien varrella muuttuakin?

Digitoidun materiaalin mittaaminen tai mittojen sisällyttäminen metatietoihin ei ole Kansalliskirjastolle täysin outo asia, sillä eilen Digi-käyttöliittymään avattujen parintuhannen kirjan joukossa satuin näkemään esimerkin, jossa sivukoko oli tiedossa. Mutta kun kotona kokeilin itse, onnistuin arpomaan kappaleen, jossa oli vain sivumäärä.

Nämä digitoidut kirjat vilahtivat Sanomalehtisymposiumissa, mutta olivat fokuksessa illan julkistustilaisuudessa, johon olin joltain postituslistalta saanut kutsun. Sekä julkistuksen esityksissä että tiedotteessa sekoitettiin puuroja ja vellejä niin, että minunkin kokemuksellani meni sekaisin. (Jo ennen kuin kittasin Kansalliskirjaston tarjoaman kuohuviinin.)

"Kansalliskirjasto on digitoinut 1000 tietokirjaa avoimeen verkkokäyttöön ja 1000 kaunokirjaa tutkimus- ja opetuskäyttöön." Suurin osa tietokirjoista on Tuija Laineen valintoja kirjahistorialliseen kokoelmaan, joka koostuu useammasta osa-alueesta. Nämä ovat Doriassa olleet näkyvissä siistinä listana, mutta Digi-käyttöliittymässä niitä pitää osata hakea kokoelmien alavetolistasta. Ellei sitten eksy näkymään, jossa hierarkia aukeaa sivun yläreunassa. Ripauksen sekavaa.

Alavetolistasta löytyi m.m. "Historiaa, kirkkohistoriaa ja lähteitä", jossa oli monta itselleni hyödyllistä kirjaa esimerkiksi Suomen kirkkohistoriallisen seuran toimitusten sarjasta. Viitsiväisitköhän SKHS:ssä laittaa sivuilleen tietoa tästä? Finnassa illalla tehty haku SKHST+"verkossa saatavilla" ei tuonut eteen kokoelman kappaleita. Joko päivitykset tekemättä tai haussani vikaa.

Loput vapaat tietokirjat tiedotetta tulkiten ovat Klassikkokirjastossa, jonne on nyt siis lisätty myös edelleen tekijänoikeuden alla olevia fiktiokirjoja, jotka ovat saatavilla vain korkeakoulujen verkkotunnareilla. Sellaisethan saa maksamalla avoimen yliopiston kurssin, joten testailin tätäkin. Kirjautumatta näkyvissä oli 1452 "osumaa" ja kirjautumisen jälkeen 2335 eli tiedotettu tuhat pitää suunnilleen paikkansa.

Testailumielessä avasin kirjan, jossa Rudolf Koivun kuvien tekiijänoikeus on rauennut, mutta Raul Roineen tekstin ei. Metatiedoissa näitä ei oltu yksilöity eikä ilmaus "1975 Tekijänoikeuksia voimassa 20190213" tunnu sisältävän tietoa, että (ellei muita tekijöitä ole) kirja on tekijänoikeuksista vapaa 2030. Ei kai systeemiä ole rakennettu periodisten tarkistuskierrosten varaan?

Ja millä tarkkuudella tarkistukset on tehty tällä kertaa? Vain siksi, että tuttavani nimi on Tupu, avasin esiin Jooseppi-sedän piirtämän ja Elli-tädin riimittämän kirjan Tupu ja Pupu. Metatietojen mukaan "Public Domain " ja "1918 Tekijänoikeudet rauenneet 20170602 FI-NL fi". Fennicaan kurkaten selviää, että Jooseppi-setä on vuosina 1885-1920 elänyt Joseph Alanen eli hänen tekijänoikeutensa ovat rauenneet 1990. Fennica ei kerro elinvuosia Elli-tädille, mutta yhdistää hänet Elli Raitioon, joka on tehnyt suomennustyötä yhdessä Kosti Raition kanssa. Kosti Raition Wikipedia-sivun mukaan vaimonsa Elli Josefina Eriksson on kuollut vuonna 1954. Jos hän sattuisi olemaan Elli-täti, niin tekijänoikeutensa ovat voimassa vielä viisi vuotta.

Ellen sitten ole ymmärtänyt jotain väärin. Joka tapauksessa olisi selvempää, jos metatietoihin olisi merkitty tekijänoikeuksien viimeinen voimassaolovuosi.

Mutta palatakseni vielä aiempaan teemaan huomautan, että testihakuuni osui Suomen sanomalehdistön bibliografia : 1771-1963, joka on (luettelona?) tulkittu tekijänoikeudeltaan raunneeksi. Tiedot eivät sisällä aatesuuntausta, mutta päätoimittajat ja suhde toisiin julkaisuihin voisi myös olla käyttökelpoista tietoa suoraan käyttöliittymässä. (Linkin rakensin Digi-käyttöliittymässä annetusta URN:sta, mutta se ei tätä kirjoittaessani toimi.)

Tekijä Anders Forsberg kuoli 1914, joten hänen tekijänoikeutensa ovat menneitä.

2 kommenttia:

Jussi-Pekka Hakkarainen kirjoitti...

Leikkeiden pidättäminen on työlistalla, jota piloitoidaan yhden projektin kanssa. Epäilemättä siitä voisi olla hyötyä monelle, mutta ennen kaikkea yhteentoimivuuden kannalta, jos leikettä laitetaan esim. tietokantoihin.

Huoli leiketiedon säilyvyydestä on mielestäni hieman liioiteltu.

Kaisa Kyläkoski kirjoitti...

Liioittelu on osa tämän blogin tyylilajia ja tyypillistä on myös kiinnittää huomiota käyttäjien verkossa luoman tiedon säilyvyyteen, joka - valitettavasti - ei ole itsestäänselvyys millään kulttuuriperintöalustalla.