Naar inhoud springen

ISO 8859-1

Uit Wikipedia, de vrije encyclopedie

ISO 8859-1, iets formeler ISO/IEC 8859-1 of minder formeel Latin-1, is deel 1 van ISO/IEC 8859, een tekencoderingsstandaard gedefinieerd door ISO. Het definieert codes voor wat het Latijns alfabet nummer 1 heet, dat bestaat uit 191 tekens uit het Latijnse schrift, elk gecodeerd als een enkele 8-bits getalswaarde. Deze waarden kunnen in bijna elk gegevensuitwisselingssysteem gebruikt worden om te communiceren in de volgende Europese talen: Albanees, Baskisch, Catalaans, Deens, Nederlands (al ontbreken de ligaturen voor IJ en ij, maar deze worden bijna nooit gebruikt en kunnen worden vervangen door de losse letters i en j), Engels, Faeröers, Frans (de Œ en œ ontbreken), Fins, Duits, IJslands, Iers, Italiaans, Latijn, Noors, Portugees, Rhaetoromaans, Schots Gaelic, Spaans en Zweeds. Buiten Europa: Afrikaans en Swahili. Deze codering wordt hierdoor gebruikt in heel Noord- en Zuid-Amerika, West-Europa, Oceanië en grote delen van Afrika.

Aangezien alle 191 tekens van ISO/IEC 8859-1 grafisch zijn en getoond kunnen worden door de meeste webbrowsers, worden ze in de tabel hieronder als teken getoond. Aangezien de spatie, de "onbreekbare" spatie en het "zachte afbreekstreepje" normaal niet zichtbaar zijn, worden ze weergegeven door een afkorting voor hun naam. Alle andere tekens worden letterlijk weergegeven. De rij- en kolomkoppen van de tabel geven de hexadecimale cijfercombinaties aan van de 8-bits waarde; de letter L heeft bijvoorbeeld nummer 4C (hex), oftewel binair 01001100 of decimaal 76.

ISO/IEC 8859-1
-0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -A -B -C -D -E -F
0- niet in gebruik
1-
2- SP ! " # $ % & ' ( ) * + , - . /
3- 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4- @ A B C D E F G H I J K L M N O
5- P Q R S T U V W X Y Z [ \ ] ^ _
6- ` a b c d e f g h i j k l m n o
7- p q r s t u v w x y z { | } ~
8- niet in gebruik
9-
A- NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ SHY ® ¯
B- ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
C- À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
D- Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
E- à á â ã ä å æ ç è é ê ë ì í î ï
F- ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

Aan de codes 00–1F, 7F en 80–9F zijn in ISO/IEC 8859-1 geen tekens toegekend.

ISO 8859-1 versus ISO-8859-1

[bewerken | brontekst bewerken]

De IANA heeft goedkeuring gegeven aan ISO-8859-1 (let op het extra streepje), een uitbreiding van ISO/IEC 8859-1, voor gebruik op het internet. Deze tekenset voegt besturingstekens toe met de waarden 00-1F, 7F en 80-9F. Zo zijn er 256 tekens voor elke mogelijke waarde met 8 bits.

De IANA staat al de volgende aliassen toe voor ISO-8859-1 (onafhankelijk van grote of kleine letters):

  • ISO_8859-1:1987
  • ISO_8859-1
  • ISO-8859-1
  • iso-ir-100
  • csISOLatin1
  • latin1
  • l1
  • IBM819
  • CP819

De naam Latin-1 is een informeel alias dat niet wordt erkend door ISO of de IANA, maar in sommige software misschien betekenis heeft. De term "Latin-1" wordt in de Unicode-standaard gebruikt voor de tekens in de reeks U+0000 t/m U+00FF.

De volgende tabel toont de tekens van ISO-8859-1. De beheertekens, de spatie, de "onbreekbare spatie" en het "zachte afbreekteken" worden weergegeven door 2-, 3-, of 4-letterige afkortingen van hun naam. Alle andere tekens worden letterlijk weergegeven.

ISO-8859-1
-0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -A -B -C -D -E -F
0- NUL SOH STX ETX EOT ENQ ACK BEL BS TAB LF VT FF CR SO SI
1- DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
2- SP ! " # $ % & ' ( ) * + , - . /
3- 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4- @ A B C D E F G H I J K L M N O
5- P Q R S T U V W X Y Z [ \ ] ^ _
6- ` a b c d e f g h i j k l m n o
7- p q r s t u v w x y z { | } ~ DEL
8- PAD HOP BPH NBH IND NEL SSA ESA HTS HTJ VTS PLD PLU RI SS2 SS3
9- DCS PU1 PU2 STS CCH MW SPA EPA SOS SGCI SCI CSI ST OSC PM APC
A- NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ SHY ® ¯
B- ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
C- À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
D- Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
E- à á â ã ä å æ ç è é ê ë ì í î ï
F- ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

ISO/IEC 8859-15

[bewerken | brontekst bewerken]

ISO/IEC 8859-1 heeft een aantal tekortkomingen, waaronder het ontbreken van een paar Franse letters, de door sommigen gewenste weergave van de IJ als één teken, twee letters die in het Fins worden gebruikt voor de weergave van sommige buitenlandse namen en een paar leenwoorden, en het ontbreken van een paar veel voorkomende tekens als de "dolk" †, typografische aanhalingstekens en strepen, en andere tekens. Bovendien is er geen code voor het eurosymbool. Daarom is ISO/IEC 8859-15 ontwikkeld als een verbeterde versie van ISO/IEC 8859-1. Hiertoe zijn wel een aantal minder gebruikte tekens in ISO/IEC 8859-1 verwijderd, waaronder fracties en diakritische tekens zonder letter: ¤, ¦, ¨, ´, ¸, ¼, ½ en ¾.

Zie Windows-1252 voor het hoofdartikel over dit onderwerp.

De ANSI-tekenset van Microsoft Windows in het Nederlands, Engels en sommige andere Westerse talen is een uitbreiding van ISO/IEC 8859-1, maar verschilt van ISO-8859-1, met grafische tekens in plaats van beheertekens in de reeks 0x80 tot 0x9F. Deze codering heet in Windows "codepage 1252". De door IANA goedgekeurde naam is "Windows-1252".

Veel webbrowsers behandelen ISO-8859-1 als Windows-1252 (de extra beheercodes in ISO-8859-1 zijn toch al verboden door HTML), en dus zie je vaak codes uit Windows-1252 in webpagina's die claimen ISO-8859-1 te zijn.

De volgende tabel toont Windows-1252, met de verschillen met ISO-8859-1 gemarkeerd:

Windows-1252 (CP1252)
–0 –1 –2 –3 –4 –5 –6 –7 –8 –9 –A –B –C –D –E –F
0– NUL SOH STX ETX EOT ENQ ACK BEL BS TAB LF VT FF CR SO SI
1– DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
2– SP ! " # $ % & ' ( ) * + , - . /
3– 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4– @ A B C D E F G H I J K L M N O
5– P Q R S T U V W X Y Z [ \ ] ^ _
6– ` a b c d e f g h i j k l m n o
7– p q r s t u v w x y z { | } ~ DEL
8–   ƒ ˆ Š Œ   Ž  
9–   ~ š œ   ž Ÿ
A– NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ SHY ® ¯
B– ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
C– À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
D– Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
E– à á â ã ä å æ ç è é ê ë ì í î ï
F– ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

De posities 81, 8D, 8F, 90 en 9D zijn ongebruikt in Windows-1252. Het euroteken op positie 80 was niet aanwezig in eerdere versies van deze tekenset.

Macintosh-tekensets

[bewerken | brontekst bewerken]

Met de oorspronkelijke Apple Macintosh-computer introduceerde Apple in 1984 een tekencodering met de naam Mac Roman of Mac-Roman, die geschikt moest zijn voor desktoppublishing in West-Europese talen. Het was een uitbreiding van ASCII, net als ISO-8859-1, maar had verder niets gemeen met de ISO-standaarden. Een latere versie, met de streeploze naam MacRoman, verving het generieke valutateken door het euroteken.

De verschillen tussen ISO-8859-1, Windows-1252 en MacRoman zorgen regelmatig voor verwarring onder computerprogrammeurs en op het internet.

Representatie in bytes

[bewerken | brontekst bewerken]

Tekens in het bereik 0 t/m 255 kunnen als één byte worden opgeslagen, maar bij UTF-8 gebeurt dat alleen bij de nummers 0 t/m 127. De nummers die binair van de vorm 1ghijklm zijn worden daar opgeslagen als twee bytes: 1100001g en 10hijklm. Als men bij het teruglezen deze per ongeluk opvat als twee tekens dan zal men voor g=1 bijvoorbeeld het teken é vervangen zien door é, terwijl voor g=0 het teken niet verandert, maar er wel een  voor komt te staan.[1][2] De Unicodestandaard biedt de mogelijkheid dat software bij het opslaan van een platte tekst in een Unicodeformat een daarbij behorende code toevoegt, en die code interpreteert bij het lezen van een dergelijk bestand. Dit wordt onder meer door Notepad ook gedaan.

[bewerken | brontekst bewerken]