perjantai 17. helmikuuta 2023

Täydennysosia digitoidun aineiston käyttöön

Taru Hyvösen gradussa ”Digitoitu aineisto oli helppo löytää” : Aiheet, alkuperäisaineistot ja digitalisaation vaikutus Suomen historiaa käsittelevissä pro gradu -tutkielmissa 1995–2017 oli tietenkin muutakin mielenkiintoista kuin eilen läpikäydyt verkkoaineistojen avausajankohdat. Kuten se, että vuosi 2012 näyttäytyi taitekohtana kehityksessä.

Sivulta 13 huomioväritin kohdan "Elizabeth Yakel ja Deborah Torres ovat esittäneet, että arkistojen käyttö kerryttää ajan mittaan ”arkistoälyä”, joka käsittää muun muassa arkistojen käsitteistön ja käytänteiden sisäistämisen, kehittyneet hakustrategiat sekä aineiston ja sen ilmentymien (esimerkiksi hakukortiston kortti) välisten yhteyksien ymmärtämisen." Kuullostaa täysin järkeenkäyvältä ja laajennettavissa verkkopalvelujen käyttöön. Mutta sana "äly" johtaa harhaan, sillä mitä paremmin oppii, sitä vähemmän ajattelee ja kyseenalaistaa.

Kolme vuotta sitten totesin, että "Turun kaupunginarkiston digitoinnit luvattiin marraskuussa 2018 asiakaskäyttöön "lähitulevaisuudessa"..." Hyvösen työstä selvisi, että lähitulevaisuuteen on vielä aikaa.

Tätä kirjoittaessa suunnittelen ja ohjaan itse työkseni Turun kaupungin arkistoaineistojen digitointia ja joudun valitettavasti sanomaan, ettei sitä ole edes kunnolla saatu alkuun. Vasta rakennusvalvonnan pääpiirustusaineistoja sekä kaupunginvaltuuston keskustelupöytäkirjoja on merkittävissä määrin digitoitu, eikä niiden omatoiminen tarkastelu ja hankkiminen ole ollut vielä mahdollista ulkoisille asiakkaille. (s. 16)

Esimerkiksi Turun kaupunginarkiston asianhallintajärjestelmä ehti tekniikaltaan vanheta niin, ettei sitä voitu 2010-luvun lopulla tehdyssä kaupungin sivustouudistuksessa laittaa enää yleisön saataville. Kaupunginarkisto oli siis muutamia vuosia täysin ilman julkista arkistoluetteloa, kunnes tiedot saatiin vietyä uuteen järjestelmään ja palvelu avattua yleisölle syksyllä 2022. (s. 55) 

Blogitekstini Väitöskirja googlettamalla teemoissa oltiin s. 14-15:

Englanninkielisessä maailmassa aineistojen löytämistä ovat mullistaneet erityisesti hakumahdollisuudet Googlesta ja kirjapalvelu Google Booksista. Ne ovat siellä muodostuneet jo historiantutkijoiden keskeisimmäksi työkaluksi niin primääri- kuin sekundääriaineistojen paikantamisessa ja osin tutkimisessakin. Erityisen paljon niistä on hyötyä silloin, kun tutkija kartoittaa itselleen ennestään tuntematonta aihepiiriä. Amerikkalaistutkijoiden keskuudessa jopa yleisin tapa uusien sähköisten aineistokokoelmien löytämiseksi ovat yleiset internet-haut.36 Suomalaisessakin kontekstissa Google Books on saanut ainakin mainintoja, mutta sen tai internet-hakukoneiden käytön yleisyydestä ei ole tarkempaa tietoa. 

Eikä tule olemaan ennen kuin löytyy auktoriteetti joka keksii toiminnolle jonkun hianon metodinimen ja tekee siitä sisäsiistin. Eli "Voi kuitenkin myös olla, etteivät vastaajat ole huomanneet tai halunneet tuoda esiin Googlella tehtyjä hakuyrityksiään, vaikka ne olisivatkin johtaneet aineiston jäljille." (s. 56) (Teemaa voidaan laajentaakin, kuten Mikko Meriläinen twiitissään: "Thinking today about the trickiness of "needing to be transparent" in the use of e.g. Grammarly or ChatGPT in academia. Not very easy to draw lines on what to report: grammar suggestions by Word? Proofreading services? Google? Google Scholar? Sci-Hub?")

Minkä sähköisyyden pitäisi siis näkyä ja miten? Hyvönen oli yrittänyt rikastaa opinnäytteiden tekijöiltä kerättyä verkkokyselyaineistoaan kyseisiin töihin tutustumalla. 

Valitettavasti huomasin, etteivät lähdeluettelot kerro aineiston sähköisyydestä useinkaan mitään. Jos lähteestä on olemassa ei-sähköinen versio, graduntekijä viittaa siihen, vaikka olisi itse tutkinut sähköistä versiota. Tämä noudattelee yleistä historiatieteiden käytäntöä ja kertoo osaltaan siitä, ettei vakiintuneita käytänteitä sähköiseen aineistoon viittaamisessa ole. Sähköisten aineistojen näkymättömyys on hankaloittanut monien muidenkin sellaisten tutkimusten tekemistä, joissa on pyritty kartoittamaan niiden käyttömääriä. Näiden tutkimusten metodina on yleensä ollut viiteanalyysi (citation analysis), jossa on analysoitu lukuisten tutkimusten lähdeluetteloita tilastollisesti ja etsitty lähteiden käytöstä trendejä. (s. 21-22)

Jos pitäisi näkyä, niin miksi? Ei ainakaan ensisijaisesti siksi, että voidaan tutkia sähköisten lähteiden käyttöä. Kai?

Olen viimeksi käynyt läpi yliopistojen historianlaitosten ohjeistuksia "sähköisyyden" merkitsemisestä syksyllä 2019, jolloin linjaukset olivat sekä sekavia että perustelemattomia. Omasta mielestäni merkintä on tarpeen ennen kaikkea, jos käytetty muoto on vaikuttanut tutkimukseen eli mahdollistanut tai estänyt jotain verrattuna alkuperäiseen paperiversioon. Tämä kyllä pitäisi isompien kokonaisuuksien osalta selittää myös lähteiden esittelyssä. 

Käytettyjen sähköisten lähteiden löydettävyyden edistäminen on sekundääristä eli URL:in jakelun sijaan on olennaista identifioida aineisto ja paikka muillakin tunnisteilla. Opinahjossani annettiin viime vuonna väikkärin julkaisupohjan muutoksen yhteydessä uusi yleinen eli kaikkia aloja koskeva linjaus: "Jos lähteelläsi on pysyvä DOI-tunniste, lisää se lähteen tietoihin. DOI auttaa lukijaa löytämään helposti lähdejulkaisun. Lisää DOI hyperlinkkinä, että lukija pääsee suoraan lähdejulkaisuun. Varmista, että hyperlinkki on alleviivattu ja mielellään väriltään sininen." Miksihöhän URN-tunnukset ja hdl.handle.net-osoitteet eivät ole yhtä olennaisia, jos pointtina oli "auttaa lukijaa löytämään helposti lähdejulkaisun"? 

Raadollisesti ajateltuna DOI-tunnarien lisäys sähköisesti julkaistuun tutkimukseen auttanee Google Scholaria yms. poimimaan lähdeviittaussuhteet, mikä puolestaan tuo oman tutkimuksen paremmin ja useammin näkyville. 

3 kommenttia:

Anonyymi kirjoitti...

Usein gradujen lähdeluettelossa näkee käytettävän paljon sellaisia lähteitä joille ei ole DOI tai URN -tunnusta tällöin joskus näkee että lähdelinkkiä ei ole viitsitty siivota ja perässä näkyy linkin toimivuuden kannalta ylimääräisiä merkkijonoja jotka voivat jopa myöhemmin aiheuttaa linkin ennenaikaisen rikkoutumisen.
Toki myös surkealla verkkosivujen suunnittelulla on osuutta asiaan miksi useilla verkkosivuilla käytetään niin epämääräisiä URL-osoiterakenteita.

Kaisa Kyläkoski kirjoitti...

Myös professoritasolla tehdyissä julkaisuissa olen havainnut URL-muotoja, joita en itse olisi käyttänyt. Tällä lienee yhteys gradujen käytäntöihin.

Anonyymi kirjoitti...

Pari vuotta sitten sisko teki gradua joka liittyi jotenkin terveydenhoitoalaan. Pyysin ennen lähetystä saada nähdä gradua ja huomasin ettei ollut yhtään URN-linkkiä käyttänyt vaikka sellaiset oli tarjolla ja muiden linkkien perässä oli pitkät ylimääräiset merkkijonot. Hän ensin kyseenalaisti korjauskehotukseni mutta sitten lopulta korjaukset tehtiin ja lähdeluettelostakin tuli siistimpi. Samalla kävin Internet Arhiveen tallentamassa linkkien takana olevat sivustot talteen.

Theseuksessa huomannut usein että PDF:ien tiedostonimet ja metadatan otsikko on usein mitä sattuu.
Esimerkiksi tässä tuoreessa https://urn.fi/URN:ISBN:978-952-275-383-0 julkaisussa PDF-tiedoston metadatassa Title -kenttään on jäänyt otsikoksi "Karelia-kirjepohja-2020" ja se näkyy esimerkiksi selaimessa välilehden otsikkona. Lisäksi varsinaisen PDF:n tiedoston URL-osoitteeseen on jätetty ä-kirjain, sentään välilyönnit on korvattu alaviivoilla.