Audio-Schneider
Schneiden Sie Audiodateien auf die genau gewünschte Länge zu. Setzen Sie Start- und Endzeit, hören Sie sich die Vorschau an und exportieren Sie. Kein Upload, keine Anmeldung.
MP3, WAV, OGG, AAC, FLAC, M4A
So funktioniert es
- Audiodatei laden. Legen Sie eine MP3-, WAV-, OGG-, AAC-, FLAC- oder M4A-Datei ab oder wählen Sie sie aus. Der Browser dekodiert sie lokal, um die Wellenform zu zeichnen; nichts wird hochgeladen.
- Start- und Endpunkt setzen. Ziehen Sie die Griffe direkt auf der Wellenform oder geben Sie präzise Zeitstempel auf die Millisekunde genau ein. Die Auswahl hebt den behaltenen Bereich hervor.
- Quelle während der Justierung anhören. Der Audioplayer spielt die Originaldatei mit einem Abspielkopf, der über die Wellenform gelegt wird, hilfreich, um den exakten Schnittpunkt nach Gehör zu finden.
- Ausgabeformat wählen und schneiden. MP3 (LAME VBR ~190 kbps), WAV (16-Bit-PCM, verlustfrei) oder OGG Vorbis (~160 kbps VBR). Der Schnitt läuft über ffmpeg.wasm in Ihrem Browser; die geschnittene Datei wird heruntergeladen, sobald sie fertig ist.
Eine kurze Geschichte der Web Audio API
Die Web Audio API ist die vom W3C standardisierte JavaScript-Schnittstelle zur Verarbeitung und Synthese von Audio in Webbrowsern, die fundamentale Technologie, die es einer Webseite erlaubt, eine MP3 im Speicher zu dekodieren, eine Wellenform zu zeichnen, Audio durch Filter zu routen oder synthetisierte Töne ohne Plugins abzuspielen. Den ersten Prototyp baute Chris Rogers bei Apple im WebKit-Projekt im Jahr 2010. Die W3C Audio Working Group veröffentlichte ihren First Public Working Draft am 14. Dezember 2011; nach fast einem Jahrzehnt Überarbeitungen und Browser-Implementierungszyklen veröffentlichte das W3C die Web Audio API als W3C Recommendation am 17. Juni 2021. Das Recommendation-Dokument bedankt sich ausdrücklich bei Chris Rogers als „former specification editor and original author of this specification“. Drei Klassen erledigen den Großteil der Arbeit in jedem browserseitigen Audio-Tool: AudioContext (der Container der obersten Ebene), AudioBuffer (ein im Speicher liegendes Stück dekodierten PCM-Audios mit Kanal-Daten als Float32Array) und AudioBufferSourceNode (ein One-Shot-Wiedergabeknoten). Das vollständige Graphenmodell unterstützt deutlich mehr Knotentypen (Gain, Filter, Panner, Analyser, Convolver, Delay) und kann alles bauen, vom Gitarrentuner bis zum Synthesizer. Dieser Trimmer nutzt nur den Dekodierungsteil (AudioContext.decodeAudioData()) für die Wellenform-Visualisierung; der eigentliche Schnitt läuft über ffmpeg.wasm.
Rundgang durch die unterstützten Audioformate
WAV (1991, Microsoft + IBM) ist das Waveform Audio File Format, ein RIFF-Container, der unkomprimierte lineare PCM-Samples enthält. WAV in CD-Qualität bedeutet 44.100 Samples × 2 Kanäle × 16 Bit pro Sekunde ≈ 10,1 MB pro Minute, weshalb ein vier Minuten langer Song in WAV rund 40 MB groß ist. Der 32-Bit-Header für die Größe des Daten-Chunks limitiert eine einzelne WAV-Datei auf 4 GB; längere Aufnahmen brauchen die Erweiterungen RF64 oder W64. WAV ist das universelle Austauschformat genau deshalb, weil es unkomprimiert, einfach zu parsen und patentfrei ist. MP3 (ISO/IEC 11172-3, 1993) ist die umgangssprachliche Bezeichnung für MPEG-1 Audio Layer III, entwickelt am Fraunhofer-Institut in Erlangen mit zentralen Beiträgen von Karlheinz Brandenburg, Heinz Gerhäuser, Bernhard Grill, Jürgen Herre und Harald Popp. MP3 war zwei Jahrzehnte lang patentbelastet; das letzte dieser Patente lief am 16. April 2017 in den USA aus, und Fraunhofer erklärte das Ende seines MP3-Lizenzprogramms am 23. April 2017 offiziell. Diese Patentlaufzeit ist der Grund, warum freie, lizenzgebührenfreie MP3-Encoder (libmp3lame, lamejs) ohne Bedenken in browserseitigen Tools eingesetzt werden können.
AAC (ISO/IEC 13818-7, 1997) und M4A: AAC wurde als Nachfolger von MP3 konzipiert, mit besserer Qualität bei gleicher Bitrate. M4A ist kein eigener Codec, sondern eine MPEG-4-Part-14-Datei (.mp4), die nur Audio trägt. Apple machte die Endung .m4a populär, als am 28. April 2003 der iTunes Music Store startete, mit AAC bei 128 kbps als Standardformat für Käufe. OGG Vorbis (Xiph.Org, 2000-2002) ist ein freier, offener, patentunbelasteter verlustbehafteter Codec, Xiphs Antwort auf das Patentklima rund um MP3 in den späten 1990er Jahren. Der Referenz-Encoder libvorbis erreichte Version 1.0 im Juli 2002. Wikipedia, Spotify (anfänglich), unzählige Spiele und Linux-Distributionen liefern Vorbis aus. FLAC (Free Lossless Audio Codec, Xiph.Org, 20. Juli 2001) komprimiert verlustfrei: die dekodierte Ausgabe ist Bit für Bit identisch mit der Eingabe. Typische Kompression liegt bei 50 bis 60 % der Größe der WAV-Quelle. FLAC ist das De-facto-Archivformat für die verlustfreie Musikdistribution (Bandcamp, Qobuz, HDtracks, Internet Archive). Opus (IETF RFC 6716, September 2012) ist der modernste lizenzgebührenfreie Codec, gemeinsam entworfen von Xiph.Org, Mozilla und Skype/Microsoft; er verschmilzt Skypes SILK-Sprachcodec mit Xiphs CELT-Musikcodec zu einem variablen Codec, der über das gesamte Spektrum, von 6-kbps-Sprache bis 510-kbps-Stereomusik, exzellent klingt. Opus ist in WebRTC zwingend zu implementieren.
Wie Audio-Dekodierung im Browser tatsächlich funktioniert
Wenn Sie eine 4-MB-MP3 auf die Trimmer-Seite ziehen, läuft folgende Sequenz vollständig in Ihrem Browser ab. FileReader.readAsArrayBuffer(file) liest die Bytes von der lokalen Festplatte in einen JavaScript-ArrayBuffer; das ist ein lokaler Lesezugriff, kein Upload. Die Seite erzeugt einen AudioContext (mit Fallback für ältere WebKit-Präfixe). audioCtx.decodeAudioData(arrayBuffer) startet den nativen Audiodecoder des Browsers asynchron (typischerweise den Systemcodec) und liefert einen AudioBuffer zurück. Der AudioBuffer bietet getChannelData(0) an, das ein Float32Array der Samples des linken Kanals zurückgibt, normalisiert auf −1,0 bis +1,0. Für eine vier Minuten lange Mono-Quelle bei 44,1 kHz sind das etwa 10,6 Millionen Float-Werte, also 42 MB Speicher. Die Wellenform-Zeichenroutine downsampelt dieses Array zu einem Peak pro Pixelspalte des Canvas. Der AudioContext wird anschließend geschlossen; nichts hält mehr eine Referenz auf den Buffer, der Speicher wird freigegeben. Für den eigentlichen Schnitt arbeitet ffmpeg.wasm auf den ursprünglichen kodierten Bytes in seinem virtuellen Dateisystem; die Web-Audio-Dekodierung dient ausschließlich dem Bild. Welche Formate decodeAudioData akzeptiert, hängt vom Hostbrowser ab, nicht von der Spezifikation. Praktisch im Jahr 2026: MP3 und WAV werden universell dekodiert; OGG Vorbis funktioniert in Chrome, Firefox und neueren Safari-Versionen; AAC/M4A in Safari, Chrome, Edge und modernen Firefox-Versionen; FLAC in allen großen Browsern seit etwa 2017; Opus in allen modernen Browsern.
Wellenform-Rendering, Peak-pro-Pixel-Technik
Eine Wellenform zu zeichnen ist konzeptionell einfach, aber leicht schlecht zu machen. Die hier verwendete Standardtechnik ist die Min/Max-Hüllkurve: Man wählt eine Zielbreite in Pixeln (die Breite des Canvas); berechnet die Schrittweite als samples.length / width; durchläuft für jede Pixelspalte der Ausgabe ihre step Samples und sucht das lokale Minimum und Maximum; zeichnet eine einzige vertikale Linie vom kleinsten zum größten Sample. Das Ergebnis ist die vertraute, gespiegelte „Hüllkurven“-Optik, wie man sie in jeder modernen DAW sieht. Warum Min/Max-Hüllkurve statt RMS oder Einzelsample? Ein naiver Ansatz „pro Pixel ein Sample plotten“ verliert transiente Details: ein leises Sample kann auf einem Pixel landen, das eigentlich einen lauten Transienten darstellen sollte, und liefert eine irreführend flach wirkende Wellenform. RMS (Root-Mean-Square) liefert eine perzeptuell genaue Loudness-Kurve, verliert aber die Peak-Information. Die Min/Max-Hüllkurve ist der visuelle Kompromiss, der die DAW-Oberfläche mindestens seit Pro Tools dominiert und bleibt die Konvention in wavesurfer.js, peaks.js (BBC R&D, gebaut für Journalisten, die langes Audio annotieren) und Audacity. Die Implementierung nutzt hier devicePixelRatio für High-DPI-Skalierung, damit die Wellenform auf Retina-Displays scharf bleibt. Eine ehrliche Einschränkung: getChannelData(0) liefert nur den ersten Kanal, also rendern Stereodateien den linken Kanal. Der Schnitt selbst, ausgeführt über ffmpeg, behält alle Kanäle.
Sample-genaue Schnitt-Mathematik
Ein Schnitt ist konzeptionell einfach: Eine neue Datei produzieren, die nur die Samples zwischen dem Zeitpunkt t_start und dem Zeitpunkt t_end der Quelle enthält. Es gibt zwei Wege. Der Sample-Level-Ansatz wandelt Zeiten in Sample-Indizes um (start_frame = round(t_start × sampleRate)), reserviert einen neuen AudioBuffer der Länge end_frame − start_frame, kopiert Samples pro Kanal und re-enkodiert. Das wäre der Weg mit der reinen Web Audio API. Der Container-Level-Schnitt (das, was dieses Tool über FFmpeg macht) übergibt FFmpeg -ss start -to end und lässt es den enkodierten Bitstream wieder ausgeben, durch den gewählten Ausgabecodec re-enkodiert. Der FFmpeg-getriebene Schnitt ist robuster, weil der Encoder Framing, Header und Metadaten handhabt; der Web-Audio-only-Weg verlangt, einen eigenen MP3- oder Vorbis-Encoder für die Ausgabe zu schreiben, was deutlich heikler ist. Die Samplerate spielt eine Rolle: 44,1 kHz ist der Compact-Disc-Standard und die dominierende Rate für Musik, gewählt, um über der Nyquist-Grenze des menschlichen Gehörs (~20 kHz × 2 = 40 kHz Mindestrate) zu liegen und kompatibel mit den PAL/NTSC-Videobandgeräten zu sein, die zum Mastern früher CDs verwendet wurden. 48 kHz ist der Standard für Film, Fernsehen und Digitalvideo. 16 kHz ist die De-facto-Rate für Spracherkennung und VoIP; 8 kHz die klassische Festnetz-Telefonie. 96 kHz und 192 kHz sind hochauflösende Audioraten. Dieses Tool übernimmt die Eingangs-Samplerate über FFmpeg standardmäßig und bewahrt damit die Treue, sofern nicht explizit anders gewünscht. Die Oberfläche akzeptiert Zeiten auf eine Zehntelsekunde genau (0:03.5); FFmpeg ist intern Sample-genau, eine Granularität von 0,1 Sekunden entspricht also rund 4.410 Samples bei 44,1 kHz, weit unterhalb der menschlich wahrnehmbaren Genauigkeit.
Warum ffmpeg.wasm und nicht lamejs
Die größte historische Sorge der browserseitigen Audiobearbeitung war das Enkodieren von MP3. Dekodieren ist gratis: das macht der Browser. Das Enkodieren verlangt einen MP3-Encoder in JavaScript oder WebAssembly. Zwei Optionen dominieren. lamejs ist ein reiner JavaScript-Port des bewährten LAME-MP3-Encoders (ursprünglich von Andreas Krennmair / zhuker auf GitHub, durch mechanische Transpilation des C-Quellcodes von LAME nach JS). Vorteil: leichter Footprint (~150 KB minifiziert) und keine Abhängigkeiten; ein Script-Tag genügt, und man enkodiert MP3 in fünfzig Zeilen Code. Nachteile: er macht nur MP3, die API ist umständlich, und die Performance bei langen Dateien ist mittelmäßig, weil es interpretiertes JS ist und kein kompiliertes WebAssembly. ffmpeg.wasm ist ein WebAssembly-Build von FFmpeg, dem universellen Schweizer Taschenmesser der Audio-/Videoverarbeitung. Vorteil: Universalität, denn jeder Codec, den FFmpeg unterstützt (MP3, WAV, OGG, AAC, FLAC, Opus, dutzende seltene Formate), jeder Container, jede Transformation. Nachteil: die Größe, das WebAssembly-Bundle wiegt mehrere MB, deutlich mehr als lamejs allein. Dieses Tool nutzt ffmpeg.wasm, weil es drei echte Ausgabe-Codecs (MP3 über libmp3lame, WAV über pcm_s16le, OGG über libvorbis) aus einem einzigen geteilten Motor liefert, mit derselben Schnittmechanik für alle; lamejs hätte die Ausgabe auf MP3 beschränkt. Der Kompromiss: die Bundlegröße beim ersten Besuch.
Häufige Anwendungsfälle
- Klingelton-Erstellung. iPhone-Klingeltöne dürfen nicht länger als 30 Sekunden sein; viele Android-Telefone deckeln bei 40 bis 60 Sekunden. Den eingängigsten Hook eines Songs zu schneiden ist der klassische Anwendungsfall, und ein datenschutzbewusster, denn das Hochladen eines urheberrechtlich geschützten Songs auf eine Drittanbieter-Seite zum Schneiden ist eine kleine, aber reale Exposition.
- Podcast-Clip-Extraktion. Ein 30-Sekunden-Highlight aus einer 90-minütigen Episode für die Social-Media-Promotion herausziehen. Die Wellenform macht das Finden der genauen Ein- und Ausstiegspunkte an einer Satzgrenze sehr viel einfacher als blindes Scrubben in einem Player.
- Sprachmemo-Trimming. Sprachmemos haben fast immer tote Luft am Anfang (Sie drücken Aufnahme, dann fangen Sie an zu reden) und am Ende (Sie hören auf zu reden, dann stoppen Sie). Das Stille-Schneiden senkt die Dateigröße und hebt die wahrgenommene Qualität.
- Musik-Sample-Extraktion für Videoschnitt. Ein 6-Sekunden-Loop aus einem Song als Hintergrund unter einem Videoclip. Schneiden, als WAV exportieren (verlustfrei, da Sie ohnehin im Video re-enkodieren), in Ihren Videoeditor importieren.
- Intro-Jingles entfernen. Einen Audio-Rip eines Podcasts oder YouTube-Videos säubern, um das Standard-Intro des Kanals zu entfernen, bevor man es an einen Transkriptionsdienst schickt.
- Unterrichts- und Präsentationsvorbereitung. Einen einzelnen Soundeffekt, einen Musikclip oder einen Sprachausschnitt für die Verwendung in einer Folie oder einer interaktiven Lektion schneiden.
Ehrlicher Umfang: Was dieses Tool nicht tut
Dies ist ein fokussiertes Einzeldatei-Schnitt-Werkzeug, keine digitale Audio-Workstation. Dinge, die es nicht tut, die elaboriertere Konkurrenten beherrschen: kein Fade-in / Fade-out (der exportierte Clip beginnt und endet abrupt an den Schnittpunkten); keine Mehrspur-Bearbeitung oder Mischung (eine Datei rein, eine geschnittene Datei raus); keine Effekte (kein EQ, keine Kompression, keine Normalisierung, keine Rauschunterdrückung, kein Hall); kein Zerlegen einer Datei in mehrere Clips in einem Durchgang (für drei Abschnitte schneiden Sie dreimal); keine Gain- oder Lautstärke-Änderung; keine Wiedergabe nur des geschnittenen Bereichs: der Audioplayer spielt die ganze Quelldatei mit einem Abspielkopf, der während der Wiedergabe über die Wellenform animiert ist. Für Mehrspur-Bearbeitung, Fades, Effekte und Mastering nutzen Sie Audacity (Open-Source, am 28. Mai 2000 an der Carnegie Mellon University von Dominic Mazzoni und Roger Dannenberg veröffentlicht, im Jahr 2026 weiterhin aktiv entwickelt), Adobe Audition (kommerziell) oder Reaper (kommerziell, großzügige kostenlose Testphase). Für einen einmaligen Schnitt ohne Setup hat dieses Tool die richtige Form. Die Datenschutz-Positionierung ist echt: Sprachaufnahmen sind personenbezogene Daten, oft mit identifizierbarer Sprache oder Hintergrundgeräuschen aus einem privaten Raum; sie zu einem „kostenlosen Online-Audio-Cutter“ hochzuladen ist ein reales Datenschutzrisiko, das eine reine Browser-Architektur vollständig umgeht.
Datenschutz: Warum diese Architektur für Audio wichtig ist
Audioaufnahmen tragen mehr identifizierende Informationen als die meisten Dateitypen. Ein Sprachmemo enthält identifizierbare Sprache (Stimm-Fingerabdrücke sind eindeutig identifizierend). Ein Song kann urheberrechtlich geschütztes Material sein. Eine Meeting-Aufnahme kann vertrauliche Geschäftsdiskussionen oder persönliche medizinische Details enthalten. Serverseitige Audio-Editoren erfordern das Hochladen der Datei, was bedeutet, dass eine Kopie in den Server-Logs liegt, möglicherweise in einem CDN-Cache, möglicherweise in einer Analytics-Pipeline, möglicherweise in einem Backup. Für gewöhnliche kommerzielle Musik ist das harmlos. Für Sprachmemos, Meeting-Aufnahmen, Diktat, Podcast-Outtakes, Familienaufnahmen oder alles andere, das Sie nicht auf der Festplatte einer fremden Person sehen wollen, ist es das nicht. Dieses Tool führt die gesamte Pipeline (Dateiauswahl, Dekodierung, Wellenform-Rendering, Schnitt, Re-Enkodierung, Download) lokal in Ihrem Browser aus. Kein Upload, kein API-Aufruf, kein Log-Eintrag. Sie können das verifizieren, indem Sie den Network-Tab der DevTools beim Schneiden öffnen: es gibt keine ausgehenden Anfragen, die Audiodaten transportieren. Sobald das WebAssembly-Bundle von FFmpeg einmal geladen ist, können Sie die Seite offline nehmen (Flugmodus), und das Tool funktioniert weiter, der stärkste empirische Beweis dafür, dass nichts hochgeladen wird.
Häufig gestellte Fragen
Welche Formate kann ich importieren und exportieren?
Eingabe: MP3, WAV, OGG (Vorbis), AAC, FLAC, M4A, alles, was decodeAudioData Ihres Browsers lesen kann. Moderne Browser decken sie alle ab. Ausgabe: MP3 (LAME mit variabler Bitrate ~190 kbps, der Sweet Spot für Musik), WAV (16-Bit-Linear-PCM, verlustfrei) oder OGG Vorbis (~160 kbps VBR, transparente Qualität und patentfrei). Sowohl Enkodierung als auch Dekodierung laufen über ffmpeg.wasm in Ihrem Browser, sodass nie ein Server beteiligt ist.
Gibt es eine Dateigrößenbegrenzung?
Es gibt keine serverseitige Begrenzung, weil kein Upload stattfindet. Die praktische Obergrenze ist der verfügbare Speicher Ihres Geräts: die Datei muss in ein JavaScript-Float32Array dekodiert werden, damit die Wellenform angezeigt werden kann, was bei einer vier Minuten langen Mono-Quelle mit 44,1 kHz etwa 42 MB RAM während der Verarbeitung benötigt. Dateien bis etwa 100 MB laufen auf einem typischen Laptop bequem; längere Dateien (mehrstündige Podcasts, ganze Alben) können auf Mobilgeräten der unteren Leistungsklasse langsamer werden oder fehlschlagen. Wenn ein Ladevorgang einfriert, versuchen Sie eine kleinere Datei oder schneiden Sie in Segmenten.
Reduziert das Schneiden die Audioqualität?
Bei WAV-Ausgabe: nein, WAV ist verlustfrei, also ist der geschnittene Bereich Bit für Bit identisch mit den Quellsamples zwischen den Schnittpunkten. Bei MP3- und OGG-Ausgabe: eine kleine zusätzliche Generation verlustbehafteter Quantisierung kommt hinzu, weil die Quelle re-enkodiert wird. Die hier verwendeten Encoder-Einstellungen (LAME VBR ~190 kbps für MP3, libvorbis Qualität 5 ≈ 160 kbps für OGG) liegen weit über der Schwelle, die die meisten Hörer wahrnehmen können. Wenn Sie den geschnittenen Clip später erneut bearbeiten wollen, wählen Sie WAV; wenn Sie eine kleine Datei zur Verbreitung wollen, MP3 oder OGG.
Unterstützt es Fade-in / Fade-out?
Nein, der Schnitt ist an beiden Enden ein harter Schnitt. Für Fades, Mehrspur-Bearbeitung, Effekte oder Mastering nutzen Sie Audacity (Open-Source, gratis, plattformübergreifend, am 28. Mai 2000 an der Carnegie Mellon University veröffentlicht) oder Adobe Audition. Dieses Tool hat die richtige Form für „ich brauche nur einen sauber geschnittenen Clip“; für etwas Aufwendigeres ist eine echte DAW das richtige Werkzeug.
Warum zeigt die Wellenform nur einen Kanal?
Die Wellenform zeichnet den ersten Kanal (den linken Kanal in einer Stereodatei) als eine einzige Hüllkurve pro Pixelspalte. Beide Kanäle in unterschiedlichen Farben zu zeichnen würde den Bildschirmplatz verdoppeln oder ein Übereinanderlegen der Wellenformen erfordern, beides verrauschter als die Einkanal-Anzeige für eine schnelle Scrubbing-Oberfläche. Der Schnitt selbst behält alle Kanäle, FFmpeg kopiert sie unverändert aus der Quelle, eine Stereoaufnahme bleibt also auf der Ausgabe stereo, auch wenn ein hart-rechts gepanntes Detail im Bild nicht auftaucht.
Werden meine Audiodateien hochgeladen?
Nein. Jeder Schritt (Dateiauswahl, Dekodierung, Wellenform-Rendering, Schnitt, Re-Enkodierung, Download) läuft lokal in Ihrem Browser über JavaScript und ffmpeg.wasm. Kein Upload, kein API-Aufruf, kein Log-Eintrag. Sie können das verifizieren, indem Sie den Network-Tab der DevTools beim Schneiden öffnen. Sobald das ffmpeg.wasm-Bundle einmal geladen ist, können Sie die Seite offline nehmen, und das Tool funktioniert weiter, der stärkste Beweis dafür, dass nichts hochgeladen wird. Sicher für Sprachmemos, Meeting-Aufnahmen, medizinisches Diktat oder jegliches Audio, das Sie nicht auf der Festplatte einer fremden Person sehen wollen.