Overleg:Unicode

Pagina-inhoud wordt niet ondersteund in andere talen.
Uit Wikipedia, de vrije encyclopedie

Er staat hier nu dat UCS-2 en UCS-4 coderingen zijn van unicode, maar eigenlijk zijn dat volgens mij alternatieve benamingen voor onderdelen van de ISO 10464 standaard. Misschien worden hier de "obvious" encoding technieken bedoeld, maar ik weet niet of je die zo mag noemen. Rob Hooft 8 sep 2004 12:17 (CEST)[reageer]

In de zin van dat je een bestand in UCS-2 kunt coderen zijn het coderingen. Deze codering wordt vaak gebruikt in Windows; de NT varianten slaan veel tekstbestanden in UCS-2 formaat op (hetgeen tot enige ergenis lijdt als je ze naar een computer met Win9x of Linux kopiëert).

Er is zelf een afspraak voor een UCS-header:

  • Indien de eerste vier bytes $00, $00, $FE, $FF zijn dan is het UCS-4 big endian
  • Indien de eerste vier bytes $FF, $FE, $00, $00 zijn dan is het UCS-4 little endian
  • Indien de eerste twee bytes $FE, $FF zijn dan is het UCS-2 big endian
  • Indien de eerste twee bytes $FF, $FE zijn dan is het UCS-2 little endian.
  • In andere gevallen wordt de codering als onbekend beschouwd, aanbevolen is standaard ISO-8859-1aan te nemen.

Danielm 8 sep 2004 12:25 (CEST)[reageer]

Ondersteuning[brontekst bewerken]

Op het moment biedt Unicode ondersteuning voor elk van onderstaande talen: Kan daar niet beter staan ... onderstaande alfabetten of ... onderstaande schriften? - Bartux 14 aug 2005 22:27 (CEST)[reageer]

Gebruik van gereserveerde karakters[brontekst bewerken]

Ik heb de volgende zin uit het artikel geschrapt:

De gereserveerde karakters kunnen worden gebruikt voor privé-doeleinden tussen twee gebruikers van Unicode.

Uiteraard kunnen de gereserveerde karakters worden gebruikt voor privé-doeleinden tussen twee gebruikers van Unicode. Maar dat geldt ook voor de andere karakters. Twee gebruikers kunnen afspreken dat het karakter 's' wordt gebruikt om een sirene te starten om de andere gebruiker te alarmeren. Een dergelijk gebruik is niet de bedoeling van Unicode. Als dat de bedoeling was, dan hadden ze die karakters niet "Gereserveerd" genoemd. "Gereserveerd" betekent namelijk dat ze zijn gereserveerd, en dat betekent dat ze niet door willekeurige gebruikers gebruikt mogen worden. (Vergelijk gereserveerde stoelen in een concertzaal).

In dit document (PDF) vond ik een tabel (Table 2-3. Types of Code Points), waarvan ik twee regels overneem:

Basic Type Brief Description General Category Character Status Code Point Status
Private-use Usage defined by private agreement outside of the Unicode Standard Co Assigned to abstract character Designated (assigned) code point
Reserved Reserved for future assignment; restricted interchange Cn Not assigned to abstract character Undesignated (unassigned) code point

Daarmee is er voor mij voldoende twijfel aan de juistheid van de opmerking dat men gereserveerde karakters voor privé-doeleinden mag gebruiken. Daarom heb ik die zin geschrapt. Johan Lont (voorbehoud) 4 sep 2007 16:49 (CEST)[reageer]


Waarom het gebruik van 32 bits in de rede zou liggen als de code maximaal 21 bits is wordt niet duidelijk. Is dat omdat (vanwege alignment) de lengte 8, 16 of 32 bits moet zijn? Of komt dat door de toevoeging van bits die aangeven welke positie een byte heeft in een multi-byte teken? Rbakels 8 nov 2010 16:46 (CET)[reageer]

In de tekst staat: Daardoor blijven er 63.488 16-bits getallen over voor deze codering. Van deze 2048 16-bits getallen worden er 1024 uitsluitend gebruikt als eerste van de twee getallen, en 1024 uitsluitend als tweede, wat 1.048.576 combinaties oplevert.

Wat betekent de laatste zin??Madyno (overleg) 26 jun 2017 10:07 (CEST)[reageer]

Externe links aangepast[brontekst bewerken]

Hallo medebewerkers,

Ik heb zojuist 1 externe link(s) gewijzigd op Unicode. Neem even een moment om mijn bewerking te beoordelen. Als u nog vragen heeft of u de bot bepaalde links of pagina's wilt laten negeren, raadpleeg dan deze eenvoudige FaQ voor meer informatie. Ik heb de volgende wijzigingen aangebracht:

Zie de FAQ voor problemen met de bot of met het oplossen van URLs.

Groet.—InternetArchiveBot (Fouten melden) 7 apr 2018 06:06 (CEST)[reageer]

Sorteren ligt toch iets ingewikkelder dan in het artikel wordt voorgesteld. Dat geldt al voor ASCII, dat alle hoodletters

bij elkaar zet, en alle kleine letters ook, terwijl bijv. in de woorden in een woordenboek en de namen in een telefoonboek

de 'a' en de 'A' bij elkaar staan, etc.

Wat kan helpen is dat de hooflettervermeldingen in de "Unicode Character Database" verwijzen naar (eventuele) bijbehorende

kleine letters, en omgekeerd. Rbakels (overleg) 8 jul 2023 14:36 (CEST)[reageer]

Dat kopje gaat er eigenlijk over dat tekenreeksen hun relatieve volgorde (gesorteerd naar Unicode-codepunt) behouden als je wisselt tussen UTF-8, -16 en -32. Voor het sorteren van tekst is er overigens ook het Unicode collation algorithm. –bdijkstra (overleg) 8 jul 2023 18:05 (CEST)[reageer]