torstai 27. syyskuuta 2012

Avoin, mutta piilossa

 Projekt Runebergin FB-sivun päivitys kuului eilen
The Finnish national library has digitized lots of journals and newspapers, but Google doesn't seem to find the content. To illustrate this problem, just one year (6 issues from 1908) of the Finnish library journal was copied to Project Runeberg the other day. And the content can already be found by searching.
Eipä ole koskaan tullut mieleen, että Kansalliskirjaston digitoitujen aineistojen ocr-tekstit voisivat putkahtaa ulos verkkohaussa. Internet Archiven vastaavat tulevat toisinaan eteen ja ihan hyödyllistähän se on. Eikä niiden koneluku ole paljoa parempi kuin Kansalliskirjastonkaan.

Historiallisen sanomalehtikirjaston alkuaikoina (vuoden 2004 paikkeilla) käyttäjä sai ocr-tekstin suoraan käytettäväkseen, nykyään vaatii pdf-kierrätyksen, jonka opin vuonna 2009. Siellä taustalla se siis elää ja vaikuttaa, mutta ei näy hakukoneiden roboteille. PR:n ylläpitäjä jatkoi kommenttiaan
The fact that their instruction to search robots forbids indexing of PDF files might be part of the explanation. But why would anybody do something so stupid?
Liikenteen rajoittamiseksi? Ajattelemattomuuttaan? OCR:n laadun piilottamiseksi? Resurssien tuhlaukselta tuntuu se, että PR latailee samaa materiaalia omille sivuilleen pelkästään hakutulosten mahdollistamiseksi.

Ei kommentteja: