Karakter (informatica)

Uit Wikipedia, de vrije encyclopedie

Een karakter, Engels: character, in de informatica is een datatype dat traditionele schrifttekens representeert.

Een bekende definitie van dit gegevenstype is ASCII, dat echter al snel wegens de enorme diversiteit aan schriftsystemen in de wereld, zoals Chinees, Cyrillisch, Arabisch of Hebreeuws, hopeloos inadequaat bleek. Zelfs Duitse umlauten of Franse accenten kunnen niet in ASCII worden weergegeven, en er is slechts voorzien in één plaatsvervangend karakter. Al snel werd Extended ASCII dan ook gangbaar, dat in ieder geval de Europese schrifttekens aankon. Moderne tekencoderingsstandaarden zoals Unicode of ISO 8859-1 tot en met ISO 8859-16 houden al veel meer rekening met de culturele diversiteit op dit vlak.

Het probleem hierbij is natuurlijk wel dat moderne tekencoderingsstandaarden zeer uitgebreid kunnen zijn en tamelijk lastig in het gebruik, want als men bijvoorbeeld het aantal A's in een tekst-bestand wil tellen, dient men rekening te houden met 'Á', 'À', 'Ä', 'Å', 'Ã' en 'Ą' en eigenlijk nog meer. Hiertoe zijn speciale software-bibliotheken ontwikkeld.