tiistai 5. marraskuuta 2019

Kertausläksyjä tarkkaavaisuudesta tietokantahauissa

Menee vanhakin vipuun, vaikka on jankuttanut kymmeniä kertoja siitä, että missään tietokannassa ei ole kaikkea. Ja, että pitää ottaa selville, mitä tietokannassa on. Ja missä muodossa. Eikä pidä luottaa metatietojen laatuun. Ja niin edelleen.

Jos olisin kokemattomampi, laittaisin ekan keissin auktoriteettiuskon piikkiin, mutta kyllä kyse oli ihan normaalista huldahuolettomuudestani. Sain keväällä väitöskirjaproggista aloitellessani neuvon käydä kirjallisuushaun osana läpi Svensk historisk bibliografin. (Johon häpeäkseni en ollut aiemmin koskenut, ties mitä aarteita on jäänyt käyttämättä projekteissani.)

Neuvojan mukaan "kaikki on nyt tietokannassa", joten pienen hapuilun jälkeen kävin läpi kaikki relevanteilta näyttävät asiasanat. Kirjallisuusluetteloon kertyi rivejä, joten luulin kaiken olevan kunnossa. Näin jälkikäteen en osaa sanoa, olisiko julkaisuvuosien jakauma verrattuna tietokannan nimelliseen kattavuuteen voinut hälyttää ilmeisestä ongelmasta.

Sillä vanhoista painetuista bibilografioista oli kyllä viety rivit tietokantaan. (Wikipediakin tietää, että "SHBd kombinerar de tryckta volymerna och LIBRIS-posterna i en ny elektronisk söktjänst. Den nya databasen omfattar över 176 000 bibliografiska poster från åren 1771–2010.") Mutta niillä ei ollut mitään muuta metatietoa kuin linkki kyseiseen painettuun opukseen! Eli mikään vanhoista viitteistä ei tullut esiin, jos teki asiasanahakuja. Paitsi, jos sanahaku sattui osumaan otsikossa olevaan sanaan. Hupsista! (Vanhat julkaisut ovat selattavissa pdf:inä SHDb:n välilehdellä.)

Toinen tuore tapaus liittyy taannoiseen valitukseeni Finna-hausta.

Kun vihdoin sain kaiveltua esiin tarvitsemani HAik:n artikkelit, huomasin harmistuksekseni, etten saanut pdf:stä irti tekstiä kopioitavaksi muistiinpanokokoelmaani. Hetken mietittyäni tajusin, että tarkoituksellinen tai satunnainen merkkikorruptio tarkoittaa myös sitä, etten voinut tehdä tekstihakua tiedoston sisältä sen ollessa auki.

Eikä sisältöön siis myöskään tartu kyseisen julkaisuarkiston oma haku. Jolla olisin voinut ajankohtaista tarvetta varten yrittää esimerkiksi etsiä HAik-artikkeleja, joissa esiintyy sana metodi. Koska kaikki HAik-artikkelit (satunnaisten avausten perusteella) eivät ole korruptoituneita, olisin todennäköisesti saanut joitain osumia ja tyytyväisenä kuvitellut löytäneeni kaikki mahdolliset artikkelit.

Kyllä tietokoneet tekevät asiat helpoiksi.

Eikä kahta kolmannetta. Mikko Kuitula tiedotti FB:ssä viime viikolla, että "Helsingin kaupunginarkiston Sinetti-arkistotietojärjestelmän uusi versio on avattu osoitteessa www.sinettiarkisto.fi. Uudessa versiossa digitoiduille aineistoille on hakulomakkeessa oma pudotusvalikko "Digitoidut aineistot", jonka kautta niitä pääsee helposti selaamaan."

Kirjoitinpa sitten samaiseen FB-ryhmään sunnuntaina:
Onko joku testaillut Helsingin kaupunginarkiston uutta Sinettiä, jota tännekin markkinoitiin? Äsken olin tosi tarkoituksella hakemassa Hernberg-nimisen perukirjaa. Uudella puolella nimihaulla tuli 16 osumaa eikä mukana ollut listausta "perukirjat h", jossa oli kaksi kertaa nimi Hernberg. Vanhalla osumia 48 ja joukossa myös perukirjalistaus. Laitoin toki jo palautelomakkeella ininää, mutta jos joku osaa selittää väärintekemiseni tai kertoa omia huomioitaan, niin kiinnostaisi.
Maanantaina palautteeseen vastattiin "kiitos huomiosta. Nyt toimii eli ovat vapaatekstihaun piirissä. Oli perukirjojen indeksointi version vaihdossa jäänyt puuttumaan." Ja jotain muutakin täydennetty, sillä nyt hakutuloksia uudessa ympäristössä on 62 kappaletta!

1 kommentti:

  1. Kiitos mielenkiintoisesta kirjoituksesta. Itselläkin on välillä hieman vaikeuksia tuon teknologian kanssa. Mutta kaiken kaikkiaan tietokoneet kyllä helpottavat huomattavasti elämäämme. Itse käytän töissä lähinnä exceliä, spostia sekä pdf muokkausohjelmia, mutta vapaa-ajalla olen pyrkinyt opettelemaan kaikenlaisia muitakin ohjelmia.

    VastaaPoista