Tietokoneet käsittelevät dataa tavuina, jotka koostuvat biteistä. Merkistöt ovat tietotekniikan ja tietoliikenteen sopimuksia, joka määrittelevät, miten eri bittiyhdistelmät (binääriluvut) tulkitaan eri merkeiksi.
Merkistöjä on käytössä useita erilaisia. Yhtenäisten 8-bittisten merkistöjen kehittämiseksi luotiin ISO 8859 -standardi vuonna 1985. Kahdeksalla bitillä pystytään kuvaamaan 256 merkkiä. 256 merkin tilaan eivät mahdu edes kaikkien eurooppalaisten kielten vaatimat kirjaimet, joten eri alueille on luotu omat merkistönsä. Nämä on erotettu toisistaan juoksevalla numerolla 8859-numeron jälkeen lisättynä hyväksymisvuodella (esim. ISO/IEC 8859-15:1999).
Itä-Aasiassa kahdeksanbittinen koodaus ei ole riittänyt tarvittavien merkkien koodaukseen, vaan siellä oli kehitettävä oma tekniikka, jotta sikäläisiä kieliä voisi kirjoittaa tietokoneella. Esimerkkinä tällaisista merkistöistä on japanilainen JIS X -merkistö.
Merkistöjen eroista johtuu, että katseltaessa tekstitiedostoa, joka on tallennettu eri merkistöllä, osa merkeistä korvautuu toisilla. Tällöin tekstiä voi olla vaikea tai mahdoton ymmärtää. Tiedostoja voidaan muuntaa toisiin merkistöihin, mutta tällöin osa merkeistä voi hävitä, jos kohdemerkistössä ei ole käytössä samoja merkkejä kuin alkuperäisessä tekstissä.
ISO 8859 -standardia ei enää laajenneta, vaan toivotaan, että Unicode korvaisi hiljalleen muut merkistöt. Unicoden versio 4.1 sisältää noin 100 000 merkkiä, joilla voidaan kirjoittaa suurinta osaa nykyään puhuttavista kielistä. Unicoden on tarkoitus sisältää kaikki merkit, jotka ovat sisältyneet toisiin merkistöihin, jolloin muunnos Unicodeen on aina mahdollista tehdä.
Suomi on ollut aktiivinen merkistöjen standardisointityössä. Voimassa olevia standardeja on noin 55.
Lisätietoja:
Elina Huttunen (etunimi.sukunimi@sfs.fi)
puh. 040 356 8003
Kansainvälinen standardisointityö
Standardit