Binär-zu-Text-Konverter

Konvertieren Sie sofort zwischen Binär und Text.

Keine Daten verlassen dein Gerät

Eine kurze Geschichte der Binärdarstellung

Binär ist die fundamentale Sprache der Computer, jedes Zeichen, jede Zahl, jede Anweisung wird letztlich als eine Folge von 0en und 1en dargestellt, doch die Idee geht der Maschine um 250 Jahre voraus. Gottfried Wilhelm Leibniz verfasste die „Explication de l'Arithmétique Binaire“ (1703 der Pariser Akademie der Wissenschaften vorgelegt, 1705 in den Mémoires gedruckt), die erste formale westliche Beschreibung der binären Arithmetik. Leibniz ließ sich teilweise von den Trigrammen und Hexagrammen des chinesischen I Ging inspirieren, die jedes Wahrsagemuster als sechszeiligen Stapel ganzer oder gebrochener Linien codieren (im Wesentlichen 6-Bit-Binär). George Booles An Investigation of the Laws of Thought (1854) gab dem Binären die algebraischen Grundlagen (UND, ODER, NICHT, Exklusiv-Oder), die noch heute jeder Digitalschaltung zugrunde liegen. Claude Shannons Master-Thesis am MIT, „A Symbolic Analysis of Relay and Switching Circuits“ (eingereicht im August 1937), schaffte den Sprung, der Boolesche Algebra mit Elektrotechnik verband: jede Relais-und-Schalter-Schaltung entspricht einem booleschen Ausdruck, und umgekehrt. Shannons Thesis gilt weithin als die einflussreichste Master-Thesis des 20. Jahrhunderts. Die ersten elektronischen Computer waren eine Mischung aus Dezimal (ENIAC, 1945, intern dezimale Zähler) und Binär (Manchester Baby, Juni 1948, erster Stored-Program-Binärrechner; EDSAC, Mai 1949, der erste praktikable); Anfang der 1950er war Binär der universelle Standard.

Das 8-Bit-Byte kam später. Das Wort „byte“ prägte Werner Buchholz bei IBM im Juni 1956 während des Entwurfs des IBM Stretch, ursprünglich mit verschiedenen Breiten (6 Bit, 8 Bit, 9 Bit). Das 8-Bit-Byte standardisierte IBM mit der Ankündigung des System/360 am 7. April 1964; ab da bedeutete „ein Byte“ branchenweit 8 Bit. (Ältere Literatur stellt gelegentlich mit „Oktett“ klar, IETF-Spezifikationen bevorzugen aus diesem Grund noch immer „Oktett“.)

Zeichenkodierungen, Buchstaben in Bits verwandeln

Binär ist die unterste Schicht; die Schicht darüber ist die Zeichenkodierung, die Buchstaben und Symbole auf bestimmte Bitmuster abbildet. Der Baudot-Code (Émile Baudot, 1870 erfunden, 1874 patentiert) war die erste weit verbreitete binäre Textkodierung, 5 Bit pro Zeichen, über ein Jahrhundert lang von Fernschreibern und Telex-Netzen genutzt. 5 Bit ergeben nur 32 Codes, was den Baudot-Code zwang, Umschalt-Zeichen einzusetzen (eines für Buchstaben, eines für Zahlen und Satzzeichen), um den adressierbaren Satz zu erweitern. Das ASCII (American Standard Code for Information Interchange) wurde am 17. Juni 1963 als ASA X3.4-1963 von der American Standards Association veröffentlicht (das Gremium wurde 1969 in ANSI umbenannt, deshalb erscheint dieselbe Norm später als ANSI X3.4-1986). ASCII verwendet 7 Bit, um 128 Zeichen zu kodieren: Steuercodes (0-31), Satzzeichen und Ziffern (32-64), Großbuchstaben (65-90), weitere Satzzeichen (91-96), Kleinbuchstaben (97-122), abschließende Satzzeichen (123-127). Die 7-Bit-Breite wurde gewählt für Kompatibilität mit Lochstreifen-Telegraphie-Hardware. ASCII wurde für die nächsten zwei Jahrzehnte die dominierende englischsprachige Kodierung; die kanonische Revision ANSI X3.4-1986 ist im Wesentlichen identisch und ist das, was Leute heute mit „ASCII“ meinen.

Die Familie Extended ASCII / ISO 8859 (ISO 8859-1 1987 veröffentlicht, der Rest in den 1990ern) füllte die oberen 128 Zeichen eines 8-Bit-Bytes mit regionalen Alphabeten: Latin-1 deckte westeuropäische Sprachen ab, Latin-2 osteuropäische, Latin-5 Türkisch, Kyrillisch-1, Griechisch-1, Arabisch-1, Hebräisch-1, Thai-1. Das ergab fünfzehn untereinander inkompatible 8-Bit-Kodierungen: 0xE9 bedeutete é in Latin-1, aber ein anderes Zeichen in Kyrillisch-1, undefiniert in striktem ASCII und noch ein anderes Zeichen in Mac Roman. Diese Diskrepanz erzeugte den berühmten mojibake-Zustand (Japanisch: 文字化け, „Zeichenverwandlung“, korrupt aussehender Text durch Kodierungsfehler).

Das Unicode-Projekt entstand als Antwort darauf. Das Unicode Consortium wurde am 3. Januar 1991 inkorporiert; Unicode 1.0 wurde im Oktober 1991 mit etwa 7.000 Zeichen veröffentlicht. Mit Unicode 16.0 (10. September 2024 veröffentlicht) deckt der Standard mehr als 154.000 Zeichen über 168 Schriften ab. Unicode ist ein Code-Point-System, ein eindeutiger numerischer Identifikator für jedes Zeichen, aber es ist keine direkte Binärkodierung. Mehrere Kodierungen von Unicode existieren: UTF-32 (4 Byte pro Zeichen, fester Breite), UTF-16 (2 oder 4 Byte, variabel) und die im modernen Web dominierende: UTF-8.

UTF-8 wurde am 2. September 1992 von Ken Thompson zusammen mit Rob Pike auf einem Tischset in einem Diner in New Jersey entworfen; Plan 9 lief am 8. September darauf. UTF-8 ist variabel lang: 1 Byte für ASCII-Zeichen (U+0000 bis U+007F), 2 Byte für U+0080 bis U+07FF, 3 Byte für U+0800 bis U+FFFF, 4 Byte für U+10000 bis U+10FFFF. Die hohen Bits jedes Bytes zeigen seine Position in einer Mehrbyte-Sequenz an (0xxxxxxx = 1-Byte-ASCII, 110xxxxx = erstes Byte einer 2-Byte-Sequenz, 10xxxxxx = Fortsetzungsbyte usw.), was UTF-8 selbst-synchronisierend macht: man kann von einer beliebigen Position aus dekodieren und die nächste Zeichengrenze finden, indem man auf die nächsten Bytes schaut. UTF-8 ist außerdem rückwärtskompatibel mit ASCII: jede ASCII-Datei ist eine gültige UTF-8-Datei. 2026 berichtet W3Techs, dass etwa 98,9 % aller Webseiten UTF-8 als ihre Kodierung deklarieren, es ist überwältigend die Textkodierung der Welt.

ASCII-Binärbeispiele

Ein paar repräsentative ASCII-Zeichen in ihrer 8-Bit-Binärform (mit der führenden 0, da ASCII technisch 7 Bit, aber byte-ausgerichtet ist):

„Hello“ in ASCII wird zu 01001000 01100101 01101100 01101100 01101111, fünf Byte, eines pro Zeichen. In UTF-8 ist es identisch, weil jedes ASCII-Zeichen auch ein gültiges 1-Byte-UTF-8-Zeichen ist. „Café“ in UTF-8 ist 01000011 01100001 01100110 11000011 10101001, vier Zeichen, aber fünf Byte, weil é (U+00E9) unter UTF-8 zwei Byte braucht (11000011 10101001).

UTF-8-Mehrbyte-Kodierung, mechanisch

Die Kodierungsregeln von UTF-8 nutzen bestimmte Hochbit-Muster, um die Byteposition anzugeben. 1 Byte (ASCII-Bereich U+0000 bis U+007F): 0xxxxxxx, das hohe Bit ist 0, die übrigen 7 Bit sind der Code Point. 2 Byte (U+0080 bis U+07FF): 110xxxxx 10xxxxxx, das erste Byte beginnt mit 110, das Fortsetzungsbyte mit 10; die x-Bits ergeben den 11-Bit-Code-Point. 3 Byte (U+0800 bis U+FFFF): 1110xxxx 10xxxxxx 10xxxxxx, das erste Byte beginnt mit 1110, zwei Fortsetzungsbytes; 16-Bit-Code-Point. 4 Byte (U+10000 bis U+10FFFF): 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx, deckt den gesamten Unicode-Raum einschließlich Emojis ab. Der russische Buchstabe п (U+043F) braucht 2 Byte in UTF-8 (11010000 10111111); das chinesische Zeichen (U+4E2D) braucht 3 Byte; das Emoji 🎉 (U+1F389) braucht 4 Byte. Text als UTF-8-Binär zu kodieren liefert immer eine gültige Sequenz; das Dekodieren verlangt zu prüfen, dass Fortsetzungsbytes das 10-Präfix tragen (sonst ist die Eingabe ungültiges UTF-8 und der Dekoder ersetzt die fehlerhafte Sequenz typischerweise durch das Ersatzzeichen U+FFFD).

Notationskonventionen

Binärtext taucht in der Praxis in mehreren Konventionen auf, die sich alle auf dieselben zugrundeliegenden Bytes beziehen. Durch Leerzeichen getrennte Bytes: 01001000 01100101 01101100 01101100 01101111, die lesbarste Form, in Tutorials und Rätseln verbreitet. Durchgehend ohne Leerzeichen: 0100100001100101011011000110110001101111, kompakter, verlangt vom Leser zu wissen, dass Bytegrenzen alle 8 Stellen liegen. Komma-getrennt: 01001000,01100101,01101100,01101100,01101111, häufig in CSV-codierten Testdaten. Hex-Paare (Base16): 48 65 6c 6c 6f, dieselben Bytes mit je zwei Hex-Stellen statt acht binär; deutlich kompakter und in programmierernahen Werkzeugen verbreitet (hexdump, Hex-Editoren). Dezimal: 72 101 108 108 111, der zugrundeliegende ganzzahlige Wert jedes Bytes. Dieses Tool nimmt für Binär-zu-Text-Konvertierung leerzeichen-, komma- oder durchgehend codierten Binäreingang an; produziert für Text-zu-Binär-Ausgaben durch Leerzeichen getrennten 8-Bit-Binärwert.

Häufige Anwendungsfälle

Kodierungsstolperstellen, die man kennen sollte

Mojibake durch Kodierungsmismatch. Dieselbe Bytefolge unter verschiedenen Kodierungen interpretiert ergibt verschiedenen (und meist verzerrten) Text. 0xE9 ist é in Latin-1, aber der Beginn einer ungültigen UTF-8-Sequenz (jedes Byte ≥ 0x80 muss entweder ein Fortsetzungsbyte oder der Beginn einer Mehrbyte-Sequenz sein). Wenn eine UTF-8-Datei als Latin-1 geöffnet wird, wird jedes Mehrbyte-UTF-8-Zeichen zu 2-4 verzerrten Latin-1-Zeichen, der kanonische „Café“ → „Café“-Ausfallmodus. BOM (Byte Order Mark). Eine 2-3 Byte lange Sequenz am Anfang einer Unicode-Datei, die die Bytereihenfolge angibt: UTF-16 Little-Endian beginnt mit FF FE, UTF-16 Big-Endian mit FE FF, UTF-8-BOM (selten genutzt, manchmal „UTF-8 mit BOM“ genannt) mit EF BB BF. Das BOM hilft beim Unterscheiden von Unicode-Kodierungen, ist aber nur für UTF-16 und UTF-32 zwingend; die IETF rät vom Hinzufügen zu UTF-8-Dateien ab, weil es Werkzeuge bricht, die normalen Inhalt am Dateianfang erwarten. Endianness zählt für UTF-16 und UTF-32 (die die Bytes einer Mehrbyte-Codeeinheit ordnen), aber nicht für UTF-8 (im Bytestream codiert, die Reihenfolge ist von der Spezifikation festgelegt, nicht von der Hardware).

ASCII-Referenztabelle

Datenschutz: Warum nur Browser sogar hier zählt

Binärkonvertierungen wirken harmlos, doch der Text, der konvertiert wird, ist genau das, wofür Privatsphäre zählt: versteckte Botschaftsrätsel zwischen Freunden, vertrauliche Phrasen für Steganografie-Experimente, sensible Strings beim Debugging von Kodierungsproblemen oder schlicht alles, wo der Leser erwartet, dass das Binär eine private Darstellung ist. Dieses Tool läuft komplett in deinem Browser über JavaScript, verifiziere im Network-Tab der DevTools beim Konvertieren, oder nimm die Seite nach dem Laden offline (Flugmodus), und der Konverter funktioniert weiter. Sicher für Rätsel-Hinweise, sensible Debug-Strings oder jeden Text, den du nicht auf der Festplatte einer fremden Person sehen wollen würdest.

Häufige Fragen

In welchem Format soll die Binäreingabe vorliegen?

Geben Sie 8-Bit-Binärwerte durch Leerzeichen getrennt ein (z. B. „01001000 01101001"). Das Tool akzeptiert auch Werte ohne Leerzeichen, wenn jedes Byte genau 8 Stellen hat, oder kommagetrennt.

Werden Emojis oder nicht-englische Zeichen unterstützt?

Die Richtung Text→Binär unterstützt jedes Unicode-Zeichen · jedes Zeichen wird in seine vollständige Binärdarstellung über UTF-8-Kodierung erweitert. Bei Binär→Text wird jede 8-Bit-Gruppe als ASCII-Byte (0-255) dekodiert.

Warum 8 Stellen pro Zeichen?

Jede Gruppe von 8 Binärziffern (Bits) repräsentiert ein Byte. ASCII verwendet 7 Bits (Werte 0-127), wird aber meist als 8 Bit mit führender Null dargestellt. Ein Byte kann 256 verschiedene Werte (0-255) repräsentieren, was alle Standard-Tastaturzeichen abdeckt.

Wo kommt Binär eigentlich her?

Die mathematische Idee geht der Maschine um 250 Jahre voraus. Gottfried Wilhelm Leibniz verfasste 1703 die erste formale westliche Beschreibung der binären Arithmetik ("Explication de l'Arithmétique Binaire"), teilweise inspiriert von den Hexagrammen des chinesischen I Ging. George Booles Laws of Thought (1854) gab dem Binären seine algebraischen Grundlagen (UND, ODER, NICHT). Claude Shannons MIT-Thesis (1937) verband Boolesche Algebra mit elektrischen Relaisschaltungen, der Gründungsmoment der digitalen Elektronik. Die ersten elektronischen Binärrechner kamen Ende der 1940er (Manchester Baby Juni 1948, EDSAC Mai 1949).

Was ist der Unterschied zwischen ASCII und UTF-8?

ASCII (1963) ist eine 7-Bit-Festbreiten-Kodierung mit 128 Zeichen, einfaches englisches Alphabet, Ziffern, gebräuchliche Satzzeichen, Steuercodes. UTF-8 (Thompson + Pike, 1992) ist eine variabel lange Kodierung des gesamten Unicode-Standards (~155.000 Zeichen ab Unicode 16.0 vom September 2024). UTF-8 ist rückwärtskompatibel mit ASCII: jede gültige ASCII-Bytefolge ist auch gültiges UTF-8. Der Unterschied zählt jenseits des ASCII-Bereichs, é, , 🎉 brauchen alle mehrere Bytes in UTF-8. 2026 deklarieren etwa 98,9 % der Webseiten UTF-8 als ihre Kodierung (laut W3Techs).

Werden meine Konvertierungen irgendwohin gesendet?

Nein. Die Konvertierung läuft komplett in deinem Browser über JavaScript. Der Text und das Binär, das du einfügst, durchqueren nie das Netzwerk, verifiziere im Network-Tab der DevTools beim Klick auf Konvertieren, oder nimm die Seite nach dem Laden offline (Flugmodus), und das Tool funktioniert weiter.

Verwandte Tools