Zeichenkodierung

Zeichenkodierung ist die Zuordnung eines sprachlichen Zeichens zu einer computerinternen Repräsentation (Speicherstelle). Welches Zeichen zu welcher Bitfolge gehört, wird in Codetabellen gespeichert.

siehe Zeichenkodierung Selfhtml

Unicode

Unicode ist ein System welches alle Zeichen und Elemente aller Schriftkulturen enthält.

2-Byte 65.536 Zeichen (BMP) Basic Multilingual Plane

4-Byte 4.294.967.296 Zeichen

Unicode Charts http://unicode-table.com

Speichern mit Zeichenkodierung

Beim Speichern der Html Datei in einem Editor wählen Sie UTF-8 Zeichencodierung / encoding.
siehe auch Notepad++ mit und ohne BOM

Metatag

Geben Sie folgende Metadaten in der HTML Datei an

Dieses Meta Tag wurde in Html 5 eingeführt um es möglichst einfach zu halten.

<meta charset="utf-8">

Da ältere Browser das nicht erkennen, wäre auch folgendes Meta-Tag zusätzlich sinnvoll.

<meta http-equiv="content-type" content="text/html; charset=utf-8">

 

Zeichen maskieren

Wenn Sie Zeichen benutzen wollen die zur HTML Syntax gehören, sollten Sie die Zeichen maskieren:

Ersetzen Sie < durch &lt; (lower than)

Ersetzen Sie > durch &gt; (greater than)

Ersetzen Sie & durch &amp; Ampersand

Ersetzen Sie " durch &quot; (quotation mark / Anführungszeichen)

Erzeugen Sie ein Leerzeichen durch &nbsp; (no break space / kein Umbruch Leerzeichen)

weitere Beispiele

selfhtml Zeichenreferenz

Entities

Zeichen, die im Zeichensatz, den Sie bei der Zeichencodierung festlegen, nicht vorkommen, oder auch Zeichen, die Sie auf der Tastatur nicht finden, können Sie mit sogenannten Entities umschreiben.

Zeichen aus dem Zeichenvorrat von Unicode können Sie durch eine numerische Notation umschreiben:

Hierbei steht 50 für den dezimalen Wert des Zeichens. 0032 ist der hexadezimale Wert. Sie können unter einer der folgenden URLs die Werte nachschauen:
http://unicode-table.comoder hier http://unicode.org/charts oder hier selfHtml Zeichentabelle

Oder in der Zeichentabelle von Windows, Start, Programme, Zubehör, Systemprogramme, Zeichentabelle

Ein Beispiel: das Copyrightzeichen wird in der Unicode Tabelle auf 2 Arten angezeigt:

Die Unicode Nummer wird als hexdezimale Zahl angezeigt 00A9. Das entspricht der dezimalen Zahl 169. Es wäre also auch möglich das Copyrightzeichen auf folgende Art zu umschreiben: &#x00A9;

Computer und Zeichenkodierung

Die Grundeinheiten im Computer sind bit und byte. Ein Bit kann 2 Zustände repräsentieren 0 1. Ein Byte oder 8-Bit kann 28 also 256 Werte haben. Da die 0 dazugehört, ist das dezimal ausgedrückt von 0 bis 255.

Im Arbeitsspeicher stehen beim Einlesen einer Datei nur Byte-Werte und keine sprachlichen oder lesbaren Zeichen. Die Aufgabe übernehmen Zeichencodierungen, indem sie mittels einer Codetabelle jedem Wert ein Zeichen zuweisen. Die Menge der Zeichen wird Zeichenvorrat genannt.

Beim Aufkommen der Personal Computer benutzten die Computer 7-Bit das sind 128 Zustände. Die Kodierung, die den Durchbruch schaffte war die ASCII Kodierung (American Standard Code for Information Interchange) Die ersten 32 Zeichen sind Steuerzeichen. Die weiteren sind darstellbare Zeichen wie Ziffern, Buchstaben, Satzzeichen im amerikanischen Sprachgebrauch.

Dann kamen Computer mit 8-Bit langen Grundeinheiten (256 Zeichen). Es wurden neue Zeichenkodierungen geschaffen, um die weiteren Zeichen zu belegen. Einen Standard erschuf die internationale Standardisierungs-Organisation ISO, die sogenannte ISO-8859- Familie. Für den europäischen Sprachgebrauch ist hier die ISO-8859-1 Kodierung zu nennen, auch Latin-1 genannt. Sie enthält verschiedene Sonderzeichen europäischer Sprachen: deutsche Umlaute, französische Accent Zeichen, spanische Zeichen, Tilde, kaufmännische Zeichen, wissenschaftliche Zeichen. Es gibt also verschieden ISO-8859 Kodierungen für verschiedene Sprachen.

Die ISO-Kodierungen bereiten Probleme, wenn man in einem Dokument verschiedene Sprachen darstellen will. Außerdem gibt es Sprachen die mehr als 256 Zeichen haben. Die Lösung für alle Probleme ist das Unicode System.