perjantai 23. marraskuuta 2007

Historiallinen sanomalehtiarkisto uudistui

Selasin aamulla nopeasti edellisten päivien Hesarit (perjantain numero ei taaskaan ilmaantunut ovelleni ennen töihinlähtöä 6:30). Silmiin osui pieni uutinen Kansalliskirjaton sanomalehtiarkiston uudistumisesta. Lupasivat, että saavat valmiiksi tämän vuoden loppuun mennessä, ja pitää näköjään paikkansa. Olen kauan käynyt katsomassa lehtilistaa ja ihmetellyt sen pysymistä samanmittaisena ja -mallisena, mutta näköjään halusivat leväyttää valmiin tuotteen kerralla eteen.

Toiminallisuutta on valitettavasti myös muutettu ja on huomattavasti hitaampaa saada eteensä korkealaatuinen kuva. Suurennos ei yhden testin perusteella tee tekstistä tarkempaa ja jouduin ottamaan lehden ulos .pdf-muodossa ja katsomaan 200%-suurennoksella, jotta sain totutun näkymän.

Johan Simelius tässä vakuutta ettei varkaiden "tölli" ole hänen maallaan - mistä seuraa, että oli isoäitini isoisän maalla. Tälläistä sattuu.

1 kommentti:

Petri Krohn kirjoitti...

Lähetinkin kirjastolle heti uudistuksen jälkeen kiukkuista palautetta. Voi olla, että tällä oli vaikutusta; pientä parannusta käyttöliittymässä tapahtui.

Tässä siis tuo 22. marraskuuta 2007 lähettämäni kommenti.


Uusi versio Historiallisesta sanomalehtikirjastosta on merkittävä huononnus aiempaan verrattuna, sanoisin että suoranainen katastrofi.

1) Uusi sivusto rikkoo webbin perusperiaatteita korvaamalla sisällön sovelluksella. Käyttäjä menettää selaimensa hallinnan ja mahdollisuuden kontrolloida näkemäänsä.

2) Sovellus on liian raskas käytännössä minkään koneen pyöritettäväksi. 1 GHz koneella sovellus saa selaimen täydellisesti hyytymään, tai jättää sivun kokonaan näyttämättä. Sovellus saattaa rajallisesti toimia uusilla 3 GHz prosessoreilla, mutta tällaisia koneita tuskin on oppilaitosten tai edes Kansalliskirjaston käytössä.

3) Linkit vanhoihin sivuihin on aiheettomasti ja tarpeettomasti rikottu.

4) Uusilta sivuilta puuttu useita lehtiä, mm. Wiipurin Sanomat.

5) Sivuilta puuttuu kokonaan mahdollisuus ladata kuvatiedosto. PDF-muotoinen tiedosto korvaa puutteen vain osittain. Vanhat PDF-tiedostot veivät ilmeisesti 3 kertaa enemmän tilaa kuin vanhat PNG-kuvat. Uusien tiedostojen harmaasävyt ja JPEG-pohjainen kompressointi kasvattavat tiedostojen kokoa entisestään, lisäämättä juurikaan teksin luettavuutta.

6) Korkena resoluution kuvat, TIFF tai muussa muodossa, puutuvat nyt kokonaan. (Uudistuksen yhteydessä nämä ovat ilmeisesti kadonneet myös vanhoilta sivuilta.) Fraktuuratekstin tulkitseminen edellyttää usein suurimman resoluution kuvan tutkimista. Sivuvaikutus on myös se, että ulkopuolinen taho (esim. Google) ei enää pysty luotettavasti tekemään OCR:n perustuvaa skannausta ja indeksointia aineistolle.

***

Parannustakin on tapahtunut. Vanhojen sivujen "Haku" toiminto ei ole toiminut aikoihin. Uusien sivujen haku häkyy toimivan, ja osaa jopa hakea skannatusta tekstistä. Jos skannattu raakateksti on nyt olemassa, olisi hyvä tuoda tämä myös esille, fraktuuraa osaamattomien ja ulkopuolisten hakukoneiden saataville. Esimerkin tästä tarjoaa Projekti Runeberg, joka tarjoaa sivuista sekä kuvallisen, että skannatun raakaversion. ( http://runeberg.org/ )

--
Petri Krohn