Kostenloser Text-zu-CSV-Konverter

Konvertieren Sie tabellarische Textdaten in das CSV-Format. Erkennt Trennzeichen automatisch, behandelt Anführungszeichen und ermöglicht eine Vorschau vor dem Download.

Ihre Daten verlassen Ihr Gerät nie

Über das CSV-Format

CSV (Comma-Separated Values) ist ein einfaches Textformat zur Speicherung tabellarischer Daten. Jede Zeile entspricht einem Datensatz, und Werte werden durch Kommas getrennt. CSV wird von Tabellenkalkulationen, Datenbanken und Datenanalyse-Tools breit unterstützt.

Warum in CSV konvertieren?

Häufige Fragen

Welche Trennzeichen unterstützt der Konverter?

Er erkennt automatisch Tabulator, Leerzeichen, Komma, Semikolon und Pipe. Sie können auch ein eigenes Ein-Zeichen-Trennzeichen festlegen.

Wie behandle ich Felder mit Kommas?

Aktivieren Sie die Option „Felder mit Komma in Anführungszeichen setzen", um sie in Anführungszeichen einzuschließen, was sie CSV-konform macht.

Kann ich Kopfzeilen einschließen?

Ja, aktivieren Sie die Option „Kopfzeile einschließen", wenn Ihre erste Zeile Spaltennamen enthält.

Eine kurze Geschichte von CSV, älter als die Spezifikation, die es definiert

CSV ist das Format, das alle verwenden und niemandem gehört. Seine Herkunft ist informell. Die früheste dokumentierte Verwendung der Kommatrennung-Konvention geht auf 1972 zurück, als IBM Fortran (Level H Extended) listengesteuerte Ein-/Ausgabe unterstützte, bei der Kommas als Trenner zwischen Werten in einer Zeile dienten. In den 1970er- und 1980er-Jahren erfand jede Datenbank, jedes Tabellenkalkulationsprogramm, jedes Statistikpaket und jede Buchhaltungsanwendung, die Daten mit einem anderen Werkzeug austauschen musste, unabhängig irgendeine Variante von „Werte, getrennt durch irgendein Zeichen, in Zeilen, getrennt durch irgendein anderes Zeichen“. Es gab keine Spezifikation. Es gab kein leitendes Gremium. Es gab keine kanonische Implementierung. Es gab nur Konsens, im lockerstmöglichen Sinne.

Anfang der 2000er-Jahre wurden die Kosten des Chaos unmöglich zu ignorieren. Die IETF nahm schließlich eine Spezifikation an, RFC 4180, „Common Format and MIME Type for Comma-Separated Values (CSV) Files“, im Oktober 2005 von Yakov Shafranovich veröffentlicht. RFC 4180 ist kurz, nur eine Handvoll Seiten, und kodifizierte das, worauf sich die meisten bereits geeinigt hatten: ein Komma als Feldtrenner, doppelte Anführungszeichen als optionales Einschlusszeichen für Felder, die Kommas, Anführungszeichen oder Zeilenumbrüche enthalten, verdoppelte doppelte Anführungszeichen ("") als Weg, ein wörtliches Anführungszeichen innerhalb eines zitierten Feldes zu maskieren, CRLF als Zeilenabschluss und text/csv als den bei IANA registrierten MIME-Typ. Die Spezifikation definierte außerdem einen optionalen header-Parameter für den MIME-Typ, damit ein Absender einem Empfänger mitteilen konnte, ob die erste Zeile eine Kopfzeile ist.

RFC 4180 ist informativ, keine strikte Norm. Die Einhaltung ist freiwillig. Aber sie gibt uns ein Ziel, das Nächste, was CSV an einer Definition von „korrekt“ hat. Ein späteres Dokument, das W3C-„Model for Tabular Data and Metadata on the Web“ (CSVW, 2015), versuchte, die Metadaten-Geschichte für CSV zu erweitern, indem es eine JSON-Beidatei anhängt, die angibt, was jede Spalte ist und wie sie zu interpretieren ist. CSVW wird viel zitiert und selten eingesetzt.

„CSV“ in freier Wildbahn bedeutet nicht das, was RFC 4180 sagt

Jeder, der einmal eine CSV-Datei von einem Fremden erhalten musste, kennt die Gestalt des Problems. Die Uneinigkeiten verteilen sich auf mehrere Achsen:

Die BOM-Falle

Dies verdient einen eigenen Abschnitt, weil es die mit Abstand häufigste Quelle plattformübergreifender CSV-Schmerzen ist. Microsoft Excel erkennt eine UTF-8-codierte CSV-Datei nicht automatisch, es sei denn, die Datei beginnt mit einer UTF-8-Byte-Reihenfolge-Markierung: den drei Bytes EF BB BF, die das Unicode-Zeichen U+FEFF codieren. Ohne die BOM öffnet Excel die Datei in der veralteten Codepage des Windows-Gebietsschemas des Nutzers (Windows-1252 im Westen, Shift_JIS in Japan, GBK in Festlandchina). Jedes Nicht-ASCII-Zeichen (Buchstaben mit Akzent, Währungssymbole, Emoji, CJK-Zeichen) wird verstümmelt.

Die Lösung besteht darin, die BOM voranzustellen. Der Preis ist, dass alles andere daran erstickt. Apple Numbers (bis zu neueren Versionen) zeigt die BOM als wörtliches Zeichen in der ersten Zelle. Viele Kommandozeilen-Werkzeuge (awk, cut, älteres sed) behandeln die BOM als Teil des ersten Feldes, sodass eine Kopfzeile, die name lauten sollte, name lautet. Die meisten JavaScript-CSV-Parser entfernen sie; viele ältere Python-Workflows mit dem csv-Modul nicht (Sie müssen die Datei mit dem Codec utf-8-sig öffnen). Da ein kostenloses Online-Tool nicht wissen kann, wo der Nutzer die Datei öffnen wird, ist es ein vernünftiger Standard, die BOM wegzulassen und zu dokumentieren, dass Excel-Nutzer Daten → Aus Text/CSV verwenden sollten (was den Nutzer immer UTF-8 ausdrücklich wählen lässt).

Excel liefert mindestens vier „CSV“-Formate

Excels Dialog „Speichern unter“ bietet mehr als eine CSV-Variante, und die Unterschiede sind von Bedeutung:

Die für den Nutzer sichtbare Bezeichnung sagt auf vier verschiedene Arten „CSV“. Der tatsächliche Dateiinhalt unterscheidet sich wesentlich. Das ist die praktische Realität, in der der Konverter arbeitet.

Warum speziell Text → CSV konvertieren

Die meisten Online-„CSV-Tools“ laufen in die umgekehrte Richtung: Sie nehmen eine CSV-Datei und geben etwas anderes aus (JSON, eine HTML-Tabelle, ein SQL-INSERT, ein druckbares PDF). Dieses läuft umgekehrt: Es nimmt unordentlichen Text und erzeugt sauberes CSV. Das ist der Anwendungsfall für:

Excel schreibt Ihre Daten um, manchmal stillschweigend

Eine Handvoll CSV-Fallen treffen selbst sorgfältige Nutzer:

Wo dieses Tool unter den modernen Alternativen zu CSV steht

CSV überlebt, weil es Text ist und Menschen es lesen können. Für den ernsthaften Datenaustausch haben mehrere Formate ihm in bestimmten Dimensionen den Rang abgelaufen:

Für einen kostenlosen Online-Konverter, der sich an Entwickler und Büroangestellte richtet, bleibt CSV das richtige Ausgabeformat, weil es überall die Lingua franca des Datenimports ist. Moderne Alternativen gibt es; sie haben CSV im Posteingang nicht verdrängt.

Weitere Fragen

Sollte ich der Ausgabe eine UTF-8-BOM hinzufügen?

Wenn die Datei für einen Doppelklick in Excel unter Windows bestimmt ist, ja, ohne die BOM öffnet Excel sie in der veralteten Codepage und verstümmelt Nicht-ASCII-Text. Wenn sie für etwas anderes bestimmt ist (Apple Numbers, Kommandozeilen-Skripte, Web-Upload-Formulare), lassen Sie die BOM weg. Der sicherste Weg ist, die BOM wegzulassen und Excel-Nutzer anzuweisen, über Daten → Aus Text/CSV zu importieren, wo sie UTF-8 ausdrücklich wählen können.

Meine CSV-Datei öffnet sich in Excel mit einer Zelle pro Zeile, was ist schiefgelaufen?

Fast immer eine Trennzeichen-Diskrepanz. Sie befinden sich in einem Gebietsschema, in dem Excel Semikolons erwartet (der Großteil Kontinentaleuropas), aber die Datei verwendet Kommas, oder umgekehrt. Öffnen Sie mit Daten → Aus Text/CSV statt per Doppelklick; dieser Assistent lässt Sie das Trennzeichen ausdrücklich wählen. Oder speichern Sie die Datei über Excels Menü „Speichern unter“ mit der Variante, die zu Ihrem lokalen Trennzeichen passt.

Was ist der Unterschied zwischen TSV und CSV?

TSV verwendet Tabulatorzeichen als Trenner statt Kommas, mit einem eigenen MIME-Typ text/tab-separated-values und IANA-Registrierung. Der Vorteil von TSV ist, dass Daten aus der realen Welt selten wörtliche Tabulatoren enthalten, sodass Anführungszeichen fast nie nötig sind; der Nachteil ist, dass Tabulatoren in Texteditoren unsichtbar sind und das Kopier-/Einfügeverhalten variiert. CSVs Anführungszeichen-Mechanik macht es sicher für Felder, die das Trennzeichen enthalten; TSV vermeidet das Problem meist ganz.

Gibt es einen CSV-Linter, den ich vor dem Teilen meiner Datei ausführen kann?

Ja, für die Kommandozeile meldet csvclean von csvkit Zeilen mit der falschen Spaltenzahl. Die frictionless-CLI von Frictionless Data validiert gegen ein optionales Schema. Für browserbasierte Arbeit meldet PapaParse Parse-Fehler Zeile für Zeile. Strikte Validierung gegen RFC 4180 (CRLF-Zeilenenden, Verdoppelung von Anführungszeichen zum Maskieren) ist in der Praxis selten; die meisten Parser akzeptieren jede der gängigen Varianten.

Verwandte Tools