M
Michael Baeuerle
Guest
all2001@spambog.com wrote:
Auch das ist falsch. Das Zeichen "ä" in NFC (precomposed) Darstellung
hat den Unicode Codepoint 0xE4:
http://www.fileformat.info/info/unicode/char/00E4/index.htm
Die kürzeste Darstellung als UTF-8 ist 2 Byte groß und lautet:
0xC3 0xA4.
Damit aber nicht genug. Ein Blick in die Unicode Database zeigt, dass
für den Codepoint 0xE4 eine "canonical decomposition" existiert:
00E4;LATIN SMALL LETTER A WITH DIAERESIS;Ll;0;L;0061 0308;;;;N;LATIN SMALL LETTER A DIAERESIS;;00C4;;00C4
^^^^^^^^^
http://www.fileformat.info/info/unicode/char/0061/index.htm
http://www.fileformat.info/info/unicode/char/0308/index.htm
Die kürzeste Darstellung als UTF-8 ist hier 3 Byte groß und lautet:
0x61 0xCC 0x88
Das wäre die NFD (decomposed) Darstellung. Diese ist gemäß Unicode
"canonically equivalent", d.h. dein Newsreader sollte beide als
gleich betrachten. Wenn du z.B. nach einer der Varianten suchst,
sollte beides als Treffer gefunden werden.
Ich codiere dir die Betreffzeile diesmal in NFD Darstellung.
Wer so ausgeteilt hat wie du sollte sich vorher noch entschuldigen.
Micha
Hanno Foest wrote:
Wolfgang Allinger wrote:
Du kläffst den flaschen Baum an.
Si tacuisses.
Na wenn Du meinst XP kann kein UTF-8...
Die Mailer von NG und FS halten sich nicht an:
---x8---
An important note for developers of UTF-8 decoding routines: For
security reasons, a UTF-8 decoder must not accept UTF-8 sequences that
are longer than necessary to encode a character. For example, the
character U+000A (line feed) must be accepted from a UTF-8 stream only
in the form 0x0A, but not in any of the following five possible overlong
forms:
0xC0 0x8A
0xE0 0x80 0x8A
0xF0 0x80 0x80 0x8A
0xF8 0x80 0x80 0x80 0x8A
0xFC 0x80 0x80 0x80 0x80 0x8A
aus: http://www.cl.cam.ac.uk/~mgk25/unicode.html
---8x---
Deinem Mailer isset offensichtlich egal, er hält sich auch nicht an die
obige Regel, deswegen siehst Du es nicht, bzw. er zeigt es an als
normales Zeichen.
Und nu?
Auch das ist falsch. Das Zeichen "ä" in NFC (precomposed) Darstellung
hat den Unicode Codepoint 0xE4:
http://www.fileformat.info/info/unicode/char/00E4/index.htm
Die kürzeste Darstellung als UTF-8 ist 2 Byte groß und lautet:
0xC3 0xA4.
Damit aber nicht genug. Ein Blick in die Unicode Database zeigt, dass
für den Codepoint 0xE4 eine "canonical decomposition" existiert:
00E4;LATIN SMALL LETTER A WITH DIAERESIS;Ll;0;L;0061 0308;;;;N;LATIN SMALL LETTER A DIAERESIS;;00C4;;00C4
^^^^^^^^^
http://www.fileformat.info/info/unicode/char/0061/index.htm
http://www.fileformat.info/info/unicode/char/0308/index.htm
Die kürzeste Darstellung als UTF-8 ist hier 3 Byte groß und lautet:
0x61 0xCC 0x88
Das wäre die NFD (decomposed) Darstellung. Diese ist gemäß Unicode
"canonically equivalent", d.h. dein Newsreader sollte beide als
gleich betrachten. Wenn du z.B. nach einer der Varianten suchst,
sollte beides als Treffer gefunden werden.
Ich codiere dir die Betreffzeile diesmal in NFD Darstellung.
Egal, hab keine Lust den Glaubenskrieg um richtige und flasche UTF-8
wieder auszugraben.
Gehört hier eh nicht hin. Drum EOD
Wer so ausgeteilt hat wie du sollte sich vorher noch entschuldigen.
Micha