Charsets-Deutsche

Want create site? Find Free WordPress Themes and plugins.

Dan Mail-Format Site:

Zeichensatz: Body

Wenn Sie in Ihrer Nachricht Buchstaben mit Akzenten oder mathematische Symbole verwenden müssen, oder Sie fragen sich, ob es eine Möglichkeit, ein “Zeichen des Euro” einzufügen, oder Sie bemerken, dass die Nachrichten anderer Leute Müll, wo Sonderzeichen sein sollte, wird dieser Artikel Ihnen helfen, die Probleme zu verstehen -isu beteiligt.
Hinweis: Einige Leute Wicklung auf dieser Seite, wenn sie Zeichenfolge zu suchen: Die Nachricht Unicode-Zeichen enthält und wurde als binärer Anhang gesendet. Sie können eine E-Mail mit diesem Text erhalten. Dies ist ein Virus; nicht den Anhang zu öffnen. Unicode echte Nachricht (unten beschrieben) keine binäre Anlage benötigen.

Besetzung Charaktere Ihren Computer

Computer sind sehr mächtige Werkzeuge. Allerdings haben sie eine sehr wichtige Einschränkung: alles, was sie wirklich in der Lage mit dieser Zahl zu beschäftigen. Was auch immer – Wörter, Bilder, Töne, Videoclips – werden müssen, in eine Folge von Zahlen umgewandelt, die Computer mit ihm zu beschäftigen. Das ist die Aufgabe der Datenformatstandards, um sicherzustellen, dass die verschiedenen Computerprogramme und miteinander übereinstimmen, was Daten von einer bestimmten Gruppe von Zahlen dargestellt wird. In diesem Zeitalter der “Point-and-Click” Software sind die Benutzer daran gewöhnt, ziehen, Tropfen, Ausschneiden, Einfügen, Hochladen und jegliche Art von Multimedia herunterladen. Sie halten nur selten darüber nachdenken, was wirklich los ist “unter der Haube” von ihrem Computer, außer, wenn etwas schief geht und die Daten als eine Masse von Müll auf einem Computer-Bildschirm-Datei aus; zu diesem Zeitpunkt zu wissen, wie die codierten Daten, um herauszufinden, wichtig ist, was ausgefallen ist und wie man es beheben.

Dieser Artikel beschäftigt sich mit, wie Computer zu speichern und zu übertragen Text. (Andere Arten von Daten in der Anlage zur Seite Datei diskutiert.) Dieser Text ist eine der frühesten Arten von Daten, die Menschen auf dem Computer speichern möchten, so haben die Entwickler mit einem Schema kommen, um den Text, wie die Zahlen für das letzte halbe Jahrhundert darstellen. konsequent werden, indem jeder verursachen Denken ASCII (American Standard Code for Information Interchange) in den frühen 1960er Jahren nach mehreren System proprietäre Codierung durch den Computerhersteller entwickelt, der Wunsch, für den universellen Zeichencodierungsstandard verwendet. Für eine Weile, ASCII kämpfen “VHS gegen Beta” -Stil Kampf mit kodieren anderen Zeichen wie EBCDIC und Baudot konkurrieren, aber am Ende gewonnen. (Jedoch ist ein derartiges Videoformat basiert Beta noch in der Verwendung von speziellen professionellen Codierung anderen Zeichen gefunden noch ihre Nische haben, gibt es IBM Mainframe EBCDIC verwenden und Telekommunikationsgeräte für Gehörlose müssen unter Verwendung von Baudot Jeder Datenübertragung von, für andere Dinge aber es ist notwendig, sie in ASCII zu konvertieren.) nach mehreren Revisionen im Laufe der Jahre, ASCII-Format als US-ASCII bekannt ist nun “gemeinsame Nenner” Zeichensatz, der von fast allen Computer-Systeme, die derzeit in Gebrauch verstanden wird.

In dem ASCII-Zeichensatz, alle Buchstaben, Zahlen und Satzzeichen in einem Stück Text und einer Zahl von 0 bis 127 dargestellt wird (im Binärcode von Computern verwendet wird, dauert es 7 Bits oder binary digit, in den Laden.) Zum Beispiel, Großbuchstabe A wird durch die Zahl 65 repräsentiert Sie die Bedeutung eines einheitlichen Standard-Zeichensatz zu sehen; wenn der andere Computer-Zeichenkodierung, die den Buchstaben Z mit der Zahl entspricht 65, so dass jeder die Dokumente, die versuchen von der einen auf diesen Computer übertragen zu lesen, die ASCII vom Autor Z überall verwendet A bestimmt werden sehen. Aristoteles und Ayn Rand machte eine große Sache, wie “A ist A”, aber wenn Sie den Zeichensatz nicht überein, was eine mögliche Z!
Zwar gibt es 128 Zeichen im ASCII-Zeichensatz sind, einige von ihnen sind Steuerzeichen wie Tabulatoren und Zeilenvorschübe (2 und die exotischere Dinge wie Einheit Separator und Device Control selten in diesen Tagen verwendet wird). Charaktere gehören 26-Buchstaben-Alphabet in Groß- und Kleinschreibung, die 10 Stellen, und eine Vielzahl von gemeinsamen Satzzeichen wie Perioden und Semikolons. Englisch-Sprachtext normaler kann in einer “einfachen” ASCII sehr gut geschrieben werden (auch wenn Sie nur “gerade” Anführungszeichen und Apostrophe verwenden sollten, nicht die Art von verworren, die ich später eingehen werde).

US-ASCII-Zeichen
0 NUL 16 DEL 32 SP 48 0 64 @ 80 P 96 ` 112 P
1 SOH 17 DC1 33 ! 49 1 65 A 81 Q 97 a 113 q
2 STX 18 DC2 34 50 2 66 B 82 R 98 b 114 r
3 ETX 19 DC3 35 # 51 3 67 C 83 S 99 c 115 s
4 EOT 20 DC4 36 $ 52 4 68 D 84 T 100 d 116 t
5 ENQ 21 NAK 37 % 53 5 69 E 85 U 101 e 117 u
6 ACK 22 SYN 38 & 54 6 70 F 86 V 102 f 118 v
7 BEL 23 ETB 39 55 7 71 G 87 W 103 g 119 w
8 BS 24 CAN 40 ( 56 8 72 H 88 X 104 h 120 x
9 HT 25 EM 41 ) 57 9 73 I 89 Y 105 i 121 y
10 LF 26 SUB 42 * 58 : 74 J 90 Z 106 j 122 z
11 VT 27 ESC 43 + 59 ; 75 K 91 [ 107 k 123 {
12 FF 28 FS 44 60 < 76 L 92 \ 108 l 124 |
13 CR 29 GS 45 61 = 77 M 93 ] 109 m 125 }
14 SO 30 RS 46 . 62 > 78 N 94 ^ 110 n 126 ~
15 SI 31 US 47 / 63 ? 79 O 95 111 o 127 DEL

Glücklicherweise ASCII ist in einer Weise angenommen, die ganz allgemein ist, dass man fast sicher sein, dass alles, was in diesem Satz die Zeichen geschrieben wird, unter Verwendung von (anderen als Steuerzeichen, sowieso) in der gleichen Weise erscheint es geschrieben wurde, egal, was das System und das Programm wurde durch geschickt. Für Benutzer von E-Mail (ja, ich habe es auch für diese Seite zurück zu-Thema endlich!) Bedeutet dies, dass das ASCII-Zeichen ein Zeichen ist, das sehr sicher zu verwenden ist. Wenn Ihre Nachricht vollständig aus Buchstaben zusammengesetzt ist, Zahlen und Satzzeichen im ASCII-Zeichensatz, haben Sie keine Probleme mit der Lesbarkeit ihnen. (In der Tat, es ist sogar legal unter dem Standard-E-Mail-Format Steuerzeichen in einer Nachricht enthalten, mit der besonderen Bedingung, dass Wagenrücklauf und Zeilenumbrüche nur zusammenkommen können, eine einzige Zeile zu erstellen, nicht getrennt. Doch abgesehen von Zeilenumbrüche und Registerkarte gibt es wirklich keinen Grund zu Steuerzeichen in E-Mail enthalten, und keine Interpretation wird von ihnen durch das Programm am Empfangsende konsequent gemacht. die Seitenvor Zeichen, # 12, aber zu markieren einige der traditionellen Verwendung in Newsgroups hat ” Spoiler “in Diskussionen über Bücher, Filme und dergleichen;. einige Newsreader für eine Schaltfläche Pause, bevor von diesem Punkt ausgehend gedrückt wird, oder ist nicht klar, was das nächste Zeichen, bis Sie bereit sind, um diese Funktion zu sehen ist weniger häufig in der aktuellen Tages Mail oder Newsreader aber nicht.)

Eine Sache, über den Charakter der Kontrolle zu beachten ist, dass es einige Plattform Unterschiede, wie eine Linie dargestellt ist; mit traditionellen Normen, die beiden Zeichen CR (# 13) und LF (# 10) gehen zusammen, um die Linie zu beenden. Windows-Systeme tun es auf diese Weise (so dass Microsoft tatsächlich folgt der traditionelle Standard hier für eine Veränderung!), Während Unix, Linux und ähnliche Systeme nur die Zeichen LF und MacOS traditionell verwendet nur die Zeichen CR. (Allerdings ist die neueste Version von MacOS ist Unix-basierten und hat mit LF-Zeichen umgeschaltet.) Es kann manchmal Probleme verursachen, wenn eine Textdatei zwischen Systemen übertragen wird, aber ich sehe keine Probleme E-Mail; entweder alle Mail-Clients und Server folgen den richtigen Standard-Codierung Zeilenumbruch, unabhängig von der Plattform oder sie sind stark genug Varianten andere Systeme brechen zu erkennen und arbeitet transparent mit ihnen.
Tab (# 9) kann auch ein Problem sein, weil das Programm in unterscheiden können, wie viel Platz sie zwischen Tabstopps erstellen.

Außerhalb ASCII

Der Rest der Welt nicht alle Englisch sprechen, aber, und dort, wo ASCII ist problematisch. Sie müssen nicht sein seltsam PC dort zu finden links einige kulturelle Vorurteil zu sein, den Computer ein “Standard” Satz von Zeichen zu geben, die Englisch sehr gut vertreten, aber nicht angeben Buchstaben mit Akzenten, Umlaute und andere diakritische Zeichen werden in vielen anderen Sprachen verwendet. Auch fehlt die anderen Buchstaben wie Griechisch und Kyrillisch, Währungssymbole andere als ein Dollarzeichen und spezielle Symbole für anspruchsvolle Anwendungen wie höhere Mathematik erforderlich. Für einen Computer auf der ganzen Welt verwendet werden, ist es notwendig, über ASCII zu gehen.
Da Standard-Byte (Datenspeicher) auf einem Personal Computer 8 Bit ist, und verwenden Sie nur 7-Bit-ASCII, die offensichtliche Sache zu tun, ist das achte Bit in Betrieb zu setzen, um die Anzahl der Zeichen zu verdoppeln, die dargestellt werden können. Dies könnte ein Problem mit älteren Software, die das achte Bit als Prüfsumme oder Flag-Modus verwendet wird, aber es wird schließlich alltäglich geworden für Computer zum Speichern von Zeichen alle acht Bits zu verwenden. Leider dauerte es eine Weile, neue Standards nur in Bezug auf, was die Figuren in ihren 128 anderen Positionen sind (der die Zahl von 128 bis 255). Unterschiedliche Plattformen verwenden verschiedene Kombinationen von Buchstaben mit Akzenten, Symbole, Box-Zeichnen von Buchstaben und andere Dinge. IBM PC Textmodus verfügt über einen Satz verwendete Macintosh wieder, und wenn Windows kam, war es nicht anders. Version der Computersysteme für die Märkte verschiedener Länder bestimmt sind, auch anders sein, so dass bestimmte Zeichen für lokale Sprachen benötigt werden unterstützt. Es ist nicht eine sehr gute Situation für den Austausch von Daten zwischen verschiedenen Systemen.

Glücklicherweise ist die Internationale Organisation für Normung (die aus irgendeinem Grund, abgekürzte ISO ist nicht das IOS, in der Tat, nach ihrer Website, es ist nicht wirklich bedeutete für die Initialen ihrer Wahrheit zu stehen, um nicht die verschiedenen Länder zu verletzen, die in verschiedenen kondensieren wird anders Sprache; diese Art der in diesen Tagen Marketing ist es wie initialisms und Akronyme scheint, die für etwas stehen nicht, sowieso) kam mit einem Bündel von Standard-Zeichensatz aus. Sie können nicht nur kommen mit einem einheitlichen Zeichensatz, weil die verschiedenen Sprachen der Welt mehr Charakter zwischen ihnen haben als in einer einzigen Gruppe von 8-Bit-Zeichen passen. Stattdessen kamen sie mit verschiedenen Sätzen von Zeichen aus (als das ISO 8859-Serie bezeichnet) für unterschiedliche Sprachgruppen gestaltet. Eines der am häufigsten verwendet wird, ist ISO-8859-1, die auch als “Latin-1” bekannt, die nützliche Zeichen für westeuropäische Sprachen enthält. Dieser Satz von Zeichen (oder, besser, “Zeichencodierung”; Puristen werden darauf hinweisen, dass “set” oder “Repertoire”, ist eine Gruppe von Zeichen, die verfügbar sind, aber “kodieren” bestimmen, was die Anzahl Zeichen entsprechen) sind in der Tat ähnlich wie bei uns “Windows-1252” Codierung, mit der Ausnahme, dass eine Gruppe von Zeichen an Position # 128 bis # 159, auf dem Windows einige Zeichen einschließlich Zeichen Marken setzt (™) und “curly” zitiert, stattdessen reserviert für Steuerzeichen in ISO-8859-1. Ein weiterer ISO-Norm, ISO 6429, tatsächlich gibt geeky Namen und Abkürzungen für diese Steuerzeichen, wie “Reverse-Line Feed” und “Steuersequenz Introducer”. Ich weiß nicht, was genau das Programm mit dieser Steuerzeichen, aber ich glaube nicht, es sinnvoll, in einer E-Mail zu verwenden macht. (Selbst wenn es so wäre, wäre es nicht sicher zu sein, weil die Programme, auf Windows zumindest davon ausgehen, neigen dazu, dass die Zeichenpositionen besetzt durch Zeichen Microsoftism proprietäre des Zeichensatzes von Windows, anstatt Steuerzeichen Standard sagt eigentlich in ihrer Position.) jedoch auf Vollständigkeit, I umfassen, sie hier in dem graph code # 128 bis # 255 von ISO-8859-1-Codierung (Code # 0 bis # 127 ist derselbe wie in der US-ASCII).

ISO-8859-1 Zeichen (mit ISO 6429 Kontrollen)
128 XXX 144 DCS 160 NBSP 176 ° 192 À 208 Ð 224 à 240 ð
129 XXX 145 PU1 161 i 177 ± 193 Á 209 Ñ 225 á 241 ñ
130 BPH 146 PU2 162 c 178 ² 194 Â 210 Ò 226 â 242 ò
131 NBH 147 STS 163 £ 179 ³ 195 Ã 211 Ó 227 ã 243 ó
132 IND 148 CCH 164 180 ´ 196 Ä 212 Ô 228 ä 244 ô
133 NEL 149 MW 165 ¥ 181 µ 197 Å 213 Õ 229 å 245 õ
134 SSA 150 SPA 166 ¦ 182 198 Æ 214 Ö 230 æ 246 ö
135 ESA 151 EPA 167 § 183 199 Ç 215 × 231 ç 247 ÷
136 HTS 152 SOS 168 ¨ 184 ¸ 200 È 216 Ø 232 è 248 ø
137 HTJ 153 XXX 169 © 185 ¹ 201 É 217 Ù 233 é 249 ù
138 VTS 154 SCI 170 a 186 º 202 Ê 218 Ú 234 ê 250 ú
139 PLD 155 CSI 171 « 187 » 203 Ë 219 Û 235 ë 251 û
140 PLU 156 ST 172 ¬ 188 ¼ 204 Ì 220 Ü 236 ì 252 ü
141 RI 157 OSC 173 SHY 189 ½ 205 Í 221 Ý 237 í 253 ý
142 SS2 158 PM 174 ® 190 ¾ 206 Î 222 Þ 238 î 254 þ
143 SS3 159 APC 175 ¯ 191 ¿ 207 Ï 223 ß 239 ï 255 ÿ

Die “XXX” Charakter-Steuerung, nebenbei bemerkt, ist nicht von der Pornoindustrie verwendet wird; sie lassen nur gut definierte Standards. Da darüber hinaus der ISO-8859-1 eine von mehreren Zeichencodierung bestimmte Sprache ist, ist es notwendig, für jedes Protokoll Texte senden und empfangen eine Möglichkeit zu haben, verwendet, um die Codierung zeigt. Eine Möglichkeit ist, von Fiat zu erklären, dass die Codierung ist Standard; ISO-8859-1 (Latin-1) ist der de-facto-Standard heute in vielen Fällen, in denen es nicht anders angegeben ist; die Zeichen in diesem Satz, zusätzlich zu den US-ASCII, die “sicherste” im Text verwendet, da die meisten Computer-Systeme sie verstehen kann. Dies lässt jedoch aus anderen Sprachen, die von einer anderen Kodierung dargestellt werden. Zum Glück, die meisten Protokolle, einschließlich Web- und E-Mail, bieten eine explizite Angabe der Zeichencodierung. Für E-Mail, wird es in einem Content-Typeheader mit dem Zusatz charsetparameter getan. Also, um zu zeigen, gewöhnliche Textnachrichten in ISO-8859-1-Codierung, erscheint es in der Kopfzeile:
Content-Type: text / plain; charset = iso-8859-1

zitierte Druck

Es gibt nur ein Problem mehr; die Standard-Letter-Format (RFC 2822) verbietet die Verwendung von Zeichen aus dem 7-Bit-ASCII-Bereich. Der Grund dafür ist, dass die 8-Bit-Zeichen unerwartete Auswirkungen auf Programm und ungenutzte Netzwerk zu ihnen aufweisen. Dies kann im Moment mehr als ein abstraktes akademisches Anliegen sein, aber in der Vergangenheit ist nicht so sehr viele E-Mails, die über das Netzwerk, das die achte Bit als Flag oder eine Prüfsumme übertragen wird. Um zu vermeiden, was zu Problemen in solchen Situationen, quoted-printable und base64-Codier-System, das entworfen ist alle Daten zu ermöglichen, reine ASCII-Zeichen sind sicher übertragen werden. Base64 ist für die Übertragung von Binärdaten ausgebildet und wird in dem Artikel angehängten Datei erläutert. (Einige Spammer, die ihre Haupttext in base64 als obskure Technik kodieren!) Zitiert bedruckbaren für reine Text-Nachrichten entwickelt, die einige Nicht-ASCII-Zeichen enthalten. Ein Teil der Nachricht, die von normalen ASCII-Zeichen besteht, die unverändert gehalten gedruckt werden kann, während “spezielle” Zeichen (inklusive Steuerzeichen, und alles, was über Code # 127) als eine Folge von einem Gleichheitszeichen bestehend codiert ist (=) gefolgt von zwei hexadezimal (Basis 16) Ziffern (diese besteht aus den Ziffern 0 bis 9 und A bis F Brief). Die Verwendung der gleichen Marke wie die Sonderzeichen bedeutet, dass es auch (als “= 3D”) codiert werden müssen. Ein paar weitere Regeln werden verwendet, Zeilenumbrüche und Leerzeichen zu behandeln.
Wenn die E-Mail-Programm des Empfängers versteht druckbare Codierung zitiert (wie fast alle tun in diesen Tagen), wird Codierung am Empfangsende abgebrochen, so kommen die Charaktere auf die gleiche Weise aus sie kamen. Wenn der Empfänger nicht versteht Codierung (oder eine Nachricht in Form von Quellcode ungekocht sehen), wird die Nachricht meist wie normale aussehen, leicht zu lesen, den Text, aber einige Merkwürdigkeiten haben wie die Zeichen die gleichen und Hex-Zahlen setzt drin sind, und kann auch eine ungerade Zeilenumbrüche (quoted-printable Codierung einen Zeilenumbruch hinzufügen in den Spezifikationen eine lange Linie zu nehmen, aber dies am empfangenden Ende abgebrochen wurde, wenn das letzte Zeichen jeder Zeile das ist = Zeichen, um anzuzeigen, es eine “weiche Zeilenumbruch” ist).
Diese Kopfzeile wird hinzugefügt, um anzuzeigen, dass die Codierung verwendeten bedruckbaren zitiert:
Content-Transfer-Encoding: quoted-printable

Onward ke Unicode

Normung ISO-Zeichensatz-Codierung Hilfe bringen Ordnung in das Chaos Anbieter von Sonderzeichen zu einem Satz gehören, aber einige Leute haben noch einen Traum, eine einzige, einheitliche Satz von Zeichen zu schaffen, die Zeichen enthält, die von allen Sprachen benötigt werden. Dies wird sich natürlich mehr als 8 Bit nehmen zu vertreten; China allein hat mehr Zeichen als in einem Satz von 256 Zeichen passen. Also, wenn die Standard-Zeichen bekannt sein als Unicode erste Form hat, ist es eine 16-Bit-Codierung, wobei zwei Bytes pro Zeichen (doppelt so viel wie ein 8-Bit-Codierung), und in der Lage 65.536 verschiedene Charaktere darzustellen. (Wie wir später sehen werden, sie verlängert schließlich auf ein noch breiteres Spektrum als diese.) Dieser Charakter hat eine Nummer (oder “Positionscode”) im Bereich von 0 bis 65.535, aber häufiger in 0000 bis FFFF hexadezimal angegeben. ISO-8859-1 (Latin-1) ist ein Teil von Unicode, die ersten 256 Positionen in Übereinstimmung mit dem älteren Standard. Da dies wiederum die 128 US-ASCII in der ersten Position umfasst, ist es auch in Unicode enthalten. Die übrigen Positionen, # 256 und so weiter, aus dem Griechischen ins Hebräische zu China für das mathematische Symbol für Schachfiguren einschließlich alles … und auch ein Zeichen der Euro (€), ist es wichtig, dass Europa heute ihre einheitliche Währung zu symbolisieren, aber das ist nicht vorhanden zum Zeitpunkt eines Standard-Zeichensatz vorher entworfen.
Da die meisten Online-Text in den Sprachen Englisch oder Westeuropa, wo die meisten Figuren in der US-ASCII-Zeichensatz, erfordert zwei Bytes pro Zeichen als verschwenderisch, weil es die Größe von Textdokumenten verdoppelt. Daher sind einige effizientere Kodierung entwickelt, die beliebteste ist UTF-8. Diese Codierung auf der Begriff, der alle Zeichen die gleiche Anzahl von Bits einnehmen und stellt das Zeichen als variable Längensequenzen. Vor allem, 128 US-ASCII-Zeichen als ein einziges Byte identisch mit ihrer Darstellung in der US-ASCII und ISO-8859-1 codiert, so dass das Dokument UTF-8 vollständig aus Zeichen besteht, kann nicht von einem einfachen ASCII-Dokument zu unterscheiden, die für gut ist Auf- und abwärts~~POS=TRUNC. Darüber hinaus werden verschiedene Kombinationen von Bytes mit dem hohen Bit-Satz verwendet, um andere Zeichen Unicode darzustellen. Insbesondere sollte es, dass die Latin-1 Zeichen von # 128 bis # 255 als “raw” Single-Byte in UTF-8 nicht eingegeben werden werden erwähnt, da dieses Byte als Teil eines Multi-Byte-Sequenz verwendet wird; Zeichen müssen als mehr als ein Byte, im Gegensatz zu US-ASCII-Zeichen kodiert werden. Dies kann manchmal zu Problemen führen, wenn die Latin-1 Zeichen, das in das Dokument UTF-8 und der Software beteiligt eingesetzt ist nicht angemessen Konvertierung durchführen. Jedoch, wie die Autoren der Software mehr global bewusst (wie dem Computermarkt Ausbreitung zu Ländern, in denen Nicht-ASCII-Zeichen sind wichtig) bekommen, es ist immer häufiger für die Software ordnungsgemäß alle Arten von Zeichen verarbeiten, ohne dass der Benutzer zu viel darüber nachdenken zu müssen, … außer bei diesen Gelegenheiten, wo etwas versauen!
Nach UTF-8 festgelegt wurde (und viel häufiger als die rohen 16-Bit-Codierung verwendet wird), Unicode selbst fiel das Konzept, dass alle Zeichen die gleiche Anzahl von Bits sind, und revidierten Standards, mehr Charaktere erlauben zu einer Position zugeordnet werden sogar noch höher von # 65535 nehmen sie diese Zeichen zu sechs Bytes bis in UTF-8, zu kodieren, sondern auch für die Zugabe von Zeichen zu offensichtlich, um es früher machen können. (Bisher versucht jedoch, Klingonisch zu bekommen hinzugefügt Unicode eingestellt wurde abgelehnt, aber sie haben fit einen Charakter nützlich wie “Haufen von Poo ‘, die Hex-Code U + 1F4A9. Hinzuzufügen gesehen) Unicode-Zeichensatz auch als Standard angenommen wurde durch ISO, die als ISO 10646 bezeichnet wurde.
UTF-8-Codierung ist sehr effizient für Dokumente, die hauptsächlich aus ASCII-Zeichen mit nur wenigen anderen. Dies ist auch der beste Weg, um Dokumente zu verschlüsseln Text aus mehreren Sprachen enthält, in denen die meisten andere Codierungen nicht in der Lage sein, alle Zeichen auf einmal benötigt darzustellen. Aber wenn es etwas gibt, das vollständig in einem einzigen geschrieben wird, die aus Nicht-ASCII-Zeichen, andere Kodierung, speziell für diese Sprache Zeichensatz, effizienter zu gestalten. Daher UTF-8 drängen sich nicht alle anderen aus Codierung; Allerdings ist die Unicode-Standard zugrunde liegen eine “Ähnlichkeit” mit dem die Zeichen in allen Codierung verglichen werden kann und geändert wird, eine “lingua franca” für den Zeichensatz.
Ein Dokument-codierte UTF-8 eine Kopfzeile hat seine Codierung, um anzuzeigen:
Content-Type: text / plain; charset = utf-8
In einer E-Mail-Nachricht, müssen zitierte umgedruckt codiert werden, wie oben beschrieben, so dass die Byte-Reihenfolge Nicht-ASCII-Zeichen zeigen, sind in ASCII (hexadezimalen) Form dargestellt.

Zitate lockig, Em-Bindestriche und Brand Identity

Früher habe ich erwähnt, dass in der Windows-Zeichensatz einige Zeichen, darunter “lockig” Zitate und Mark ™, die nicht Teil von ISO-8859-1 ist. Dennoch wollen viele Programme (vor allem jene von Microsoft), um sie in Dokumenten und E-Mail-Nachrichten zu integrieren. Ein Merkmal “typografische Anführungszeichen” genannt, in einer Reihe von Programmen gefunden, was zu normalen ASCII-Zitaten und Apostrophe, “und”, die in “lockig” Vielfalt umgewandelt werden, ” ”. Auch wenn die E-Mail-Programm tut dies nicht, können Sie immer noch diese Zeichen einführen, wenn Sie Text aus anderen Orten, wie Textverarbeitung oder Web-Seite einfügen. Typografie Puristen sagen, dass dies mehr wahr ist, obwohl computerists aus alter Zeit (und diejenigen, die, bevor sie mit der Schreibmaschine vertraut sind) für “gerade” Anführungszeichen verwendet wird. Es gibt mehrere Möglichkeiten, dass “lockig Zitat” und andere Zeichen in der Gruppe in der Windows festgelegt, jedoch nicht Latein-1, in einer E-Mail-Nachricht dargestellt werden, und sie reichen von völlig falsch sein (standardmäßig) um wahr zu sein aber problematisch (auch auf ihren Web-Seiten kann ein Problem sein;. Ihr Browser zeigt ein Fragezeichen oder roh-Code als ‘oben, wo die Probe Zitat lockig sollte, was bedeutet dieses Zeichen nicht Entitäten unterstützen.)
Einige Programme plop nur das Zeichen in einem Dokument oder einer Nachricht als 8-Bit-Zeichen, direkt aus dem Windows. Wenn der Kopfzeile der Nachricht zeigt an, dass in us-ascii, iso-8859-1atau utf-8, dann ist dies schlicht und einfach falsch ist. Das Zeichen wird nicht durch ASCII, Steuerzeichen in ISO-8859-1 definiert, und ist ein Teil einer Multi-Byte-Sequenz in UTF-8; sie stehen oben nicht für das, was von Windows denkt sie tun. Wenn jedoch die Message-Header der Codierung anzeigt, windows-1252, dann ist dieser Charakter technisch präzise ist, obwohl die Verwendung von proprietären, plattformspezifische Kodierung ist keine gute Idee, (Nicht-Windows-Systeme können nicht wissen, was daraus zu machen). Zu diesem Zweck manchmal mehrere nicht System Windows (insbesondere MacOS) plop sie proprietär-kodierte “typografische Anführungszeichen”, mit verschiedenen Charakteren aus Windows-, in Dokumenten und Nachrichten, so dass der Apostroph sah schließlich am anderen Ende als hochgestellter 1 .
Manchmal sind diese Zeichen als numerische Referenzen in HTML (oder SGML oder XML) Syntax dargestellt. Es macht keinen Sinn zu gewöhnlichen Textnachrichten machen (wo es keine Markup-Sprache Syntax ist ein Geschäft, das verwendet wird), aber es muss nicht immer das Programm stoppen es trotzdem zu tun. In HTML-E-Mail, macht es keinen Sinn, wie in einer Webseite machen. Jedoch wird der numerische Bezugs manchmal verwendet wird, um eine Fälschung, wie “, in Übereinstimmung mit der gewünschten Zeichenposition in der Codierung von Windows. Numerische Zeichenreferenzen in HTML immer in Bezug auf die Position von Unicode-Zeichen und Steuerzeichen in Unicode in # 147 ist im Bereich von in HTML speziell nicht zulässig. Der Charakter in Frage ist in Unicode jedoch eine Position viel höher numerierten; Somit “ist ein gültiger numerischer Bezug auf die linke geschweifte Zitat.
Wenn schließlich die UTF-8-Codierung verwendet werden, können diese Zeichen unten als Sequenz von Multi-Byte-Codierung eingegeben werden. Dies gilt standardmäßig und arbeitet für Klartext und HTML-E-Mail. Leider sind nicht alle E-Mail-Programme unterstützen UTF-8; dies ist ein Versuch, es zu benutzen, wie (von einem tatsächlichen Screenshot von eingehenden Nachrichten übernommen, wie sie in der E-Mail-Programm angezeigt) aussehen:

 

 

 

 

 

UTF-8-Zeichen haben auch die gleiche Botschaft zu bekannt, dass zerdrückt enthält, wenn sie zitiert, weitergeleitet, kopiert und eingefügt oder manipuliert; oder wenn eine Gruppe von verschiedenen Nachrichten in einem einzigen verdauen oder Archivdateien (die nur eine “charset” Header haben kann, wenn sie etwas anderes als UTF-8, auch Programme, die normalerweise den codierten Zeichen würde verstehen Müll sehen statt).

Aufgrund von Problemen und Erkrankungen, die beteiligt sind, ist es am besten, es zu halten “sicheren” US-ASCII-Zeichen, darunter “direktes Zitat”, anstatt zu versuchen, ein “Luxus” mit so genannten “Smart Quotes” statt zu sein. Wenn Sie wirklich nicht-ASCII-Zeichen aus dem Repertoire von Unicode müssen, wie in der Meldung mehrsprachig, dann gehen Sie vor und verwenden Sie die richtige Codierung (und jeder Benutzer mit nonsupporting-Reader-Programm wird glücklich sein), aber wenn es nur “Firlefanz” wie lockig Zitat, ist es besser für es einfach halten, dumm. Wie auch immer, eine geschweifte Apostroph in UTF-8 codiert und Transfer-codiert in abgedruckten, wie = E2 = 80 = 99, die eine satte neun Byte nimmt … eine Verschwendung von Bandbreite und Speicherplatz, auch wenn es korrekt angezeigt wird. HTML-Referenz ‘nahm sieben Bytes. Eine normale ASCII-Anführungszeichen ( ‘) hat ein Byte.
Leute, die manchmal typografische Anführungszeichen zu imitieren versuchen “angepasst” andere ASCII und Latin-1-Zeichen, mit dem Ergebnis, dass halte ich für mehr umständlich zu sein, als nur gerade Anführungszeichen verwenden. Accent grave ( `), die in ASCII, und der Akut ( ‘), die in Latin-1 ist, drückte manchmal in den Dienst als ein einfaches Anführungszeichen oder einem Apostroph; Sie sind jedoch nicht als irgendein Zitat gemeint. Sie lehnen sich zu weit weg gesehen entweder als Zitate zu werden, und einige zusätzliche Software für die Schaltfläche behandelt sie als Ohne Zwischenraum Zeichenkombination in die Eingabe von Buchstaben mit Akzent verwendet – (? Oder vielleicht nach) der Akzent mit einem typisierten Buchstaben kombiniert kurz vor. So fand in der Gewohnheit Menschen, die mit ihnen als Zitate zu bekommen, dass sie manchmal nicht richtig funktionieren. US-Tastaturen haben Schlüssel nur für Akzente, aber keine einzige akute (obwohl die Tastatur in anderen Ländern haben oft beides). Ich habe auch Leute, die Gravis als Anführungszeichen gesehen (how`s es?), Wenn auch in völlig falsche Richtung gelehnt. Dann gibt es, was ich “Unix Geek Zitiert” (auch häufig in den Nachrichten Informationsdienste) aufrufen, die Akzente als eine einzige Öffnung Zitat und Apostroph normale gerade verwenden, um es zu schließen, wie `das ‘. Dies wurde durch eine alte Version des Standard-ASCII angetrieben, in der Schrift von einigen alten Computersystemen implementiert, für den normalen ASCII-Apostroph “mager” bezeichnet. Seit den 80er Jahren zumindest, werden für einen Standard-ASCII-Apostroph gerade genannt hat, und folgen Sie diesem aktuellen Schrift, so dass beide Seiten der auf diese Weise hergestellten Zitate nicht annähernd zu Matching. Menschen, die diesen Stil verwenden oft zitieren offene doppelte Anführungszeichen mit zwei Gravis, es “ kaputt “machen, wenn sie mit einem einzelnen Zeichen Anführungszeichen am anderen Ende abgestimmt.
Neben Zitaten und unterzeichnen Marke, die häufig verwendet wird, und mißbraucht Zeichen außerhalb des Fensters Latin-1 enthalten “em dash” (-) und Auslassungszeichen (…). “Plain-ASCII” ersetzt zwei Striche (-) und drei Punkte (…) sind.

ROT13

ROT13 ist nicht wirklich eine Menge von Zeichen, aber es ist eine Form der Codierung Sie manchmal erlebt haben, vor allem in der Newsgruppe. Dies ist nicht Teil der offiziellen, dokumentierte Standards (soweit ich weiß), und verfügen nicht über eine Kopfzeile ihre Präsenz anzuzeigen; Stattdessen wird es in der Regel nur in Klartextmeldungen eingebettet. Plötzlich (mit oder ohne Vorwarnung), schlagen Sie den Mist Text, auch wenn es von einem normalen Buchstaben (keine Kontrollen niedlichen Figuren oder hexadezimale Ziffern) besteht. Wenn es die geeky Newsgroup oder Mailing-Liste war, können Sie ROT13 erleben. Was es ist trivial “Verschlüsselung” Schema, entworfen, um nicht eine geheime Botschaft halten (weil es einfach zu entschlüsseln war, wenn Sie wissen, wie), aber einen geringen Grad an Schutz gegen sie zu schaffen versehentlich gesehen, wenn es nicht sollte. Dies ist für Dinge wie Spoiler Grundstück in der Diskussion über Bücher und Filme, schmutzige Witze verwendet, die Menschen verletzen könnte oder nennen Namen von Personen und Unternehmen, um Erfreuliches Wärme von politischen Ämtern, die Ranters lieber nicht von Google, wo der Chef indiziert werden sie können es lesen.
In ROT13-Codierung übertragen 26 Buchstaben des englischen Alphabets Standard 13 Positionen zu gehen, mit dem Alphabet als Verpackung von Z bis A wieder in einer Endlosschleife. Alle anderen Zeichen (Zahlen, Satzzeichen und Buchstaben mit Akzenten, zum Beispiel) sind allein gelassen, “was”. (Dies kann eine ausreichende ROT13 machen, um Text in nicht-englischen Sprachen ausblenden, die einen hohen Anteil an anderen Zeichen als ASCII-Alphabet haben.) Da 13 ist genau die Hälfte von 26, genau die gleiche Operation dient sowohl zur Codierung und Decodierung Nachrichten.
Traditionell hat Unix-basierten Newsreader eine eingebaute Funktion ROT13-Codierung / Decodierung es leicht zu lesen, die codierte Nachricht zu machen, oder Ihre eigene Gruppe gründen. Programmfenster Mail / News muss nicht immer diese Funktion, aber die Website ist es für Sie zu tun.

Did you find apk for android? You can find new Free Android Games and apps.