Unicode
Uit Wikipedia, de vrije encyclopedie
Unicode is een internationale standaard voor de identificatie van grafische tekens en symbolen, vergelijkbaar met de ASCII-tabel. De standaard voorziet alle tekens en symbolen ('karakters') van alle geschreven talen van een nummer. De standaard wordt onderhouden door het Unicode Consortium. In tegenstelling tot ASCII (alleen Engels) of Latin-1 (alleen West-Europese talen) ondersteunt Unicode alle gebruikte schriften (zoals het Griekse alfabet en Chinese karakters). Unicode zegt niets over hoe een teken wordt geschreven (dat is aan de letterontwerper). De standaard bevat momenteel ongeveer 100.000 gestandaardiseerde karakters en ongeveer 900.000 gereserveerde karakters.
Unicode stelt geen beperkingen in het aantal talen dat gebruikt kan worden in één enkel document. Naast de letters bevat Unicode ook alle symbolen, zoals: kruisen, wiskundige tekens, muntsymbolen enzovoort. Unicode bevat geen symbolen die niet in een schrift worden gebruikt, zoals verkeersborden. Enkele symbolen in Unicode hebben alleen een betekenis in druk- of zettechnische zin, zoals: de niet-afbrekende spatie (NBSP).
Inhoud |
[bewerken] Achtergrond
De Unicode-standaard is ontstaan op initiatief van een aantal organisaties die orde wilden scheppen in de chaos van karaktercoderingen. In 1991 lanceerden zij hun eerste standaard de Unicode 1.0.0.
Unicode is tweemaal uitgebreid (1.0.1 en 1.1) aan de op dat moment actuele ISO-10646. Unicode 1.1 had ruimte voor 65.536 (= 216) tekens. Dit aantal is echter te weinig om alle schriften van de wereld te kunnen ondersteunen. Zo bestaat alleen het Chinese schrift al uit zo'n 25.000 tekens.
In Unicode 2.0 is dit aantal uitgebreid naar zo'n één miljoen. Om precies te zijn, zijn het er 1.114.111 ( 220 + 216 - 1; hexadecimaal is dat 10FFFF).
Voor veel schriften zoals het Chinese, Arabische en Japanse schrift, zijn 256 karakters niet voldoende. Voor deze uitgebreidere karaktersets worden traditioneel al andere coderingen gebruikt die meer ruimte inruimen per karakter.
Zelfs met al deze verschillende coderingen voor de verschillende talen was het nog niet mogelijk om over een vreemde taal te schrijven. Wanneer men in een Chinese tekst over het Arabisch wilde schrijven, kon men dat niet in de standaard Chinese codering: de Arabische letters zijn daarin namelijk niet opgenomen. Unicode en de daarvoor beschikbare coderingen bieden voor al dit soort problemen uitkomst.
[bewerken] Versies
| Versie | Datum | Aantal tekens | ISBN | Opmerking |
|---|---|---|---|---|
| 1.0.0 | oktober 1991 | 28.302 | ISBN 0-201-56788-1 | |
| 1.0.1 | juni 1992 | ? | ISBN 0-201-56788-1 | Aantal karakters verwijderd om te voldoen aan de huidige: ISO/IEC 10646-1. |
| 1.1 | juni 1993 | 34.169 | Nieuwe karakters toegevoegd om te voldoen aan de bijgewerkte: ISO/IEC 10646-1. | |
| 2.0 | juni 1996 | 38.885 | ISBN 0-201-48345-9 | Eerste versie van Unicode die meer dan 65.536 tekens ondersteunt |
| 2.1 | mei 1998 | 38.887 | ||
| 3.0 | september 1999 | 49.194 | ISBN 0-201-61633-5 | |
| 3.1 | maart 2001 | 94.140 | Zeer veel Chinese karakters toegevoegd | |
| 3.2 | maart 2001 | 95.156 | ||
| 4.0.0 | april 2003 | 98.561 | ISBN 0-321-18578-1 | |
| 4.0.1 | maart 2004 | 99.787 | ||
| 4.1 | maart 2005 | 101.060 | ||
| 5.0 | juni 2006 | 101.203 | ISBN 0-321-48091-0 | Karakters toegevoegd voor Indische talen, wiskunde, minderheidstalen en academisch gebruik. |
[bewerken] Codering
De Unicode-standaard geeft alle tekens een nummer en zegt niets over de codering. Om een Unicode-karakter om te zetten naar een byte, zijn er aparte standaarden bedacht. De meest voor de hand liggende methoden zijn:
- UCS-2 : bevat twee bytes per teken. Is een voorloper van UTF-16 en kan niet alle Unicode-karakters coderen.
- UCS-4 : bevat vier bytes per teken. Deze codering wordt ook wel UTF-32 genoemd.
Omdat deze coderingen ruimteverspillend werken bij teksten in ons Romeins alfabet en bovendien incompatibel met eerdere coderingen zijn, zijn er betere coderingen bedacht, dit zijn:
- UTF-8 : Bevat een, twee, drie of vier bytes per teken. Heeft als voordelen dat het compatibel is met 7-bit ASCII, kan alle één miljoen tekens van de Unicode-standaard coderen, is compact voor alle gangbare tekens van het Romeins alfabet. Het nadeel is dat alle tekens die buiten de 7-bit ASCII-reeks vallen worden gecodeerd op een manier die zeer specifiek is voor UTF-8.
- UTF-16 : Bevat twee of vier bytes per teken. UTF-16 kan net als UTF-8 alle één miljoen tekens van de Unicode-standaard coderen. Voordelen van UTF-16 zijn dat deze codering makkelijker is te verwerken dan UTF-8 en compatibel is met UCS2. Als nadeel geldt dat meer opslagruimte nodig is voor het Romeinse alfabet.
- UTF-7 : Stringente codering. Wordt op kleine schaal toegepast.
In een volgende versie van de Unicode-standaard worden mogelijk UTF-8 en UTF-16 opgenomen.
[bewerken] Ondersteuning van schriften
Op het moment biedt Unicode ondersteuning voor elk van onderstaande schriften:
[bewerken] Zie ook
[bewerken] Externe links
- Homepage van de Unicode-werkgroep
- DecodeUnicode - Unicode-WIKI, 50.000 gifs
- Links naar Unicode-codepagina's
| Meer afbeeldingen die bij dit onderwerp horen, zijn te vinden in de categorie Unicode van Wikimedia Commons. |

