maanantai 3. elokuuta 2020

Muistutus ja kertaus: tietokannat eivät ole täydellisiä


Honoré Daumier.
LACMA
Olen kirjoittanut lähes samalla otsikolla aikaisemmin (esim. Kertausläksyjä tarkkaavaisuudesta tietokantahauissa ja Tietokanta, jossa on "kaikki"), höpöttänyt ja valittanut ääneen useasti ja yrittänyt pitää asian muistissa. Silti pääsee yllättämään kerta toisensa jälkeen. Esimerkkejä tältä vuodelta.

1) HAik 1/2020 sisälsi Eljas Orrmanin keskusteluartikkelin Näkökohtia Diplomatarium Fennicum -tutkimustietokantahankkeen toteutukseen. Olen epäillyt, että DF:n "kaikki keskiajan asiakirjat" ei pidä paikkaansa ja Orrman näköjään tietää, että se ei pidä paikkaansa. Toivottavasti konkreettisia ehdotuksiaan voitaisiin Kansallisarkistossa viedä eteenpäin.

2) Tehdessäni blogipätkää Karstulan rakkaustragediasta ihmettelin, ettei tositapahtumaan perustuvan runon nimiä oltu poimittu Topeliuksen verkkoeditioon. Julkaisun jälkeen kysyin ja sain vastauksen "När det är fråga om fria, poetiska fiktionaliseringar, som i nämnda dikt, följer vi principen att inte personkoda, trots att vi kan identifiera de historiska personerna." Eli perustelu oli olemassa, mutta se pitää tuntea, jotta voi ymmärtää mitä on ja mitä ei.

3) Jossain vaiheessa kevättä avasin Henrik-tietokannan tarkoituksenani tarkistaa vanha hakuni huutokaupatuista sanomalehtien vuosikerroista. Syystä tai toisesta en tyytynyt tekstihakuihin vaan kävin läpi sisältöä aikajaksoittain. Erittäin työlästä eikä tuottanut varsinaisia tuloksia. Mutta huomasin useita tietueita, joissa oli jätetty normalisoimatta tiedot kirjasta, joka minusta oli yksiselitteisesti tunnistettavissa. Oli myös kirjoja, jotka oli toisinaan normalisoitu ja toisinaan ei. Ja julkaisuja, joille oli pari tai kolme erilaista normalisointia.

Kun tuntee tietokannan historiaa, ymmärtää hyvin mistä tilanne johtuu. Mutta moniko ajattelee sitä hakulomakkeen äärellä?

4) Kungliga Biblioteketin sanomalehtiportaalin surkea käytettävyys on yleisesti tunnettu asia. Osa tätä on se, että näkyvyys digitoinnin puutteisiin on olematon. (No, itse asiassa sama pätee Kansalliskirjaston portaaliin.) Mutta sentään on (ainakin Posttidningariin ja Inrikes Tidningariin) tehty puuttuville numeroille kirjanmerkki eli kun haussa on vuosikerta voi silmäilyllä tarkistaa onko se kokonainen.

Sen sijaan vasta selaamalla numero numeron jälkeen selvisi, että näennäisesti olemassa olevissa numeroissa oli puuttuvia kuvia/sivuja ja kuvia/sivuja toisista numeroista. Toisinaan asiantila hyppäsi silmille, mutta oli niitäkin numeroita, jotka olin selannut mukamas huolellisesti läpi ja vasta myöhempää sotkua selvitellessäni huomasin, että teksti ei jatkunut uskottavasti kuvasta toiseen. Kun yhtäkkiä esillä olikin aivan toisen sanomalehden numeroita, kaivatut kappaleet onneksi löytyivät sen toisen sanomalehden puolelta.

Eli jos olisin tehnyt vain tekstihakuja, en olisi ymmärtänyt mahdollisuutta, että hakemani olisi ollut puuttuvalla sivulla, tai että osuma ei välttämättä ollut siinä numerossa mitä alakulma väitti. (Puhumattakaan siitä, että löysin sisältöä, jota kymmenen vuoden tekstihaut eivät olleet tuoneet esille.)

5) Ja vaikka olin kirjoittanut tämän tekstin valmiiksi, eilen illalla oli syytä tehdä FB-päivitys "Hakee Pehr Wargentinin artikkelia SBL:stä. "Eihän tämä nyt voi olla kiinni alkukirjaimen koosta!" Ei, se on kiinni alkukirjaimesta, valitettavasti." Svenska Biografiska Lexikon on edelleen kesken ja vasta kirjaimessa S.

6) Kevään ja kesän väikkäriduunini välituloksena on taulukko, jota voitaisiin tietokannaksiksin kutsua. Onko se täydellinen? Toivottavasti minun tarpeisiini, mutta ei välttämättä/todennäköisesti jollekin muulle muuhun. 

1 kommentti:

Tommi Uschanov kirjoitti...

Tietysti voisi sanoa, että jos tietokanta on riittävän suppea, se voi poikkeuksena säännöstä olla tällöin täydellinen oman suppeutensa rajoissa. Minulla on tietokanta tiskipöydälläni olevasta puoli metriä korkeasta pinosta lehtiartikkelien valokopioita, ja se on täydellinen...