Découpeur audio, gratuit

Coupez et découpez des fichiers audio à la durée exacte souhaitée. Réglez le début et la fin, prévisualisez et exportez. Aucun envoi, aucune inscription.

Vos fichiers ne quittent jamais votre appareil
Déposez un fichier audio ici ou cliquez pour parcourir

MP3, WAV, OGG, AAC, FLAC, M4A

Comment ça marche

  1. Charger un fichier audio. Déposez ou sélectionnez un fichier MP3, WAV, OGG, AAC, FLAC ou M4A. Le navigateur le décode localement pour tracer la forme d'onde ; rien n'est envoyé sur un serveur.
  2. Définir les points de début et de fin. Faites glisser les poignées directement sur la forme d'onde, ou saisissez des horodatages précis à la milliseconde près. La sélection met en évidence la portion conservée.
  3. Prévisualiser la source pendant les ajustements. Le lecteur audio joue le fichier d'origine avec une tête de lecture superposée à la forme d'onde, utile pour repérer le point de coupe exact à l'oreille.
  4. Choisir le format de sortie et couper. MP3 (LAME VBR ~190 kbps), WAV (PCM 16 bits, sans perte) ou OGG Vorbis (~160 kbps VBR). La coupe passe par ffmpeg.wasm dans votre navigateur ; le fichier coupé se télécharge dès qu'il est prêt.

Une brève histoire de la Web Audio API

La Web Audio API est l'interface JavaScript normalisée par le W3C pour traiter et synthétiser de l'audio dans les navigateurs web. C'est la technologie fondatrice qui permet à une page web de décoder un MP3 en mémoire, de tracer une forme d'onde, de router de l'audio à travers des filtres ou de jouer des sons synthétisés sans plugin. Le premier prototype a été construit par Chris Rogers chez Apple, dans le projet WebKit, en 2010. Le W3C Audio Working Group a publié son First Public Working Draft le 14 décembre 2011 ; après presque une décennie de révisions et de cycles d'implémentation par les navigateurs, le W3C a publié la Web Audio API comme Recommandation W3C le 17 juin 2021. Le document de Recommandation remercie explicitement Chris Rogers en tant qu'« ancien éditeur de la spécification et auteur original de cette spécification ». Trois classes effectuent l'essentiel du travail dans tout outil audio côté navigateur : AudioContext (le conteneur de plus haut niveau), AudioBuffer (un fragment en mémoire d'audio PCM décodé, dont les données par canal sont exposées sous forme de Float32Array) et AudioBufferSourceNode (un nœud de lecture à usage unique). Le modèle complet de graphe prend en charge bien plus de types de nœuds (gain, filtre, panner, analyseur, convolveur, délai), capables de bâtir aussi bien un accordeur de guitare qu'un synthétiseur. Ce découpeur n'utilise que la partie décodage (AudioContext.decodeAudioData()) pour la visualisation de la forme d'onde ; la coupe proprement dite passe par ffmpeg.wasm.

Tour d'horizon des formats audio pris en charge

WAV (1991, Microsoft + IBM) est le Waveform Audio File Format, un conteneur RIFF qui contient des échantillons PCM linéaires non compressés. Un WAV de qualité CD représente 44 100 échantillons × 2 canaux × 16 bits par seconde, soit environ 10,1 Mo par minute : un morceau de quatre minutes en WAV pèse autour de 40 Mo. L'en-tête de taille de chunk de données est codé sur 32 bits, ce qui plafonne un fichier WAV à 4 Go ; les enregistrements plus longs nécessitent les extensions RF64 ou W64. WAV est le format universel d'échange précisément parce qu'il est non compressé, simple à parser et libre de brevets. MP3 (ISO/IEC 11172-3, 1993) est le nom courant du MPEG-1 Audio Layer III, développé à l'Institut Fraunhofer d'Erlangen, en Allemagne, avec des contributions clés de Karlheinz Brandenburg, Heinz Gerhäuser, Bernhard Grill, Jürgen Herre et Harald Popp. Le MP3 est resté pendant deux décennies grevé de brevets ; le dernier de ces brevets a expiré le 16 avril 2017 aux États-Unis, et Fraunhofer a annoncé formellement la fin de son programme de licences MP3 le 23 avril 2017. C'est cette expiration qui a rendu les encodeurs MP3 libres et sans redevance (libmp3lame, lamejs) déployables sans réserve dans des outils navigateur.

AAC (ISO/IEC 13818-7, 1997) et M4A : l'AAC a été conçu comme successeur du MP3, avec une meilleure qualité à débit identique. M4A n'est pas un codec distinct : c'est un fichier MPEG-4 Part 14 (.mp4) ne portant que de l'audio. Apple a popularisé l'extension .m4a au lancement de l'iTunes Music Store, le 28 avril 2003, avec l'AAC à 128 kbps comme format d'achat par défaut. OGG Vorbis (Xiph.Org, 2000-2002) est un codec à perte libre, ouvert et libre de brevets, la réponse de Xiph au climat brevetaire autour du MP3 à la fin des années 1990. L'encodeur de référence, libvorbis, a atteint la version 1.0 en juillet 2002. Wikipédia, Spotify (à l'origine), d'innombrables jeux et des distributions Linux embarquent Vorbis. FLAC (Free Lossless Audio Codec, Xiph.Org, 20 juillet 2001) compresse sans perte : la sortie décodée est bit pour bit identique à l'entrée. La compression typique est de 50 à 60 % de la taille du WAV source. FLAC est devenu le format d'archivage de fait pour la distribution musicale sans perte (Bandcamp, Qobuz, HDtracks, Internet Archive). Opus (IETF RFC 6716, septembre 2012) est le codec moderne libre de redevances par excellence, conçu conjointement par Xiph.Org, Mozilla et Skype/Microsoft ; il fusionne le codec de parole SILK de Skype avec le codec musical CELT de Xiph en un codec unique excellent sur toute la plage, de la voix à 6 kbps à la musique stéréo à 510 kbps. Opus est obligatoire à implémenter dans WebRTC.

Comment le décodage audio fonctionne dans le navigateur

Lorsque vous déposez un MP3 de 4 Mo sur la page de découpe, cette séquence se déroule entièrement dans votre navigateur. FileReader.readAsArrayBuffer(file) lit les octets du disque local dans un ArrayBuffer JavaScript : c'est une lecture locale, pas un envoi. La page crée un AudioContext (avec un fallback pour les anciens préfixes WebKit). audioCtx.decodeAudioData(arrayBuffer) exécute le décodeur audio natif du navigateur de manière asynchrone (typiquement le codec système) et renvoie un AudioBuffer. L'AudioBuffer expose getChannelData(0), qui renvoie un Float32Array des échantillons du canal gauche normalisés entre −1,0 et +1,0. Pour une source mono de 4 minutes à 44,1 kHz, cela représente environ 10,6 millions de flottants, soit 42 Mo de mémoire. La routine de tracé de la forme d'onde sous-échantillonne ce tableau pour produire un pic par colonne de pixels du canvas. L'AudioContext est ensuite fermé ; plus rien ne référence le tampon, donc la mémoire est récupérée. Pour la coupe proprement dite, ffmpeg.wasm travaille sur les octets encodés d'origine dans son système de fichiers virtuel : le décodage Web Audio sert uniquement à dessiner. Quels formats decodeAudioData accepte dépend du navigateur hôte, pas de la spécification. En pratique en 2026 : MP3 et WAV sont décodés universellement ; OGG Vorbis fonctionne dans Chrome, Firefox et les versions récentes de Safari ; AAC/M4A dans Safari, Chrome, Edge et les Firefox modernes ; FLAC dans tous les grands navigateurs depuis environ 2017 ; Opus dans tous les navigateurs modernes.

Le rendu de la forme d'onde, technique du pic par pixel

Tracer une forme d'onde est conceptuellement simple, mais facile à mal faire. La technique standard, utilisée ici, est l'enveloppe min/max : on choisit une largeur cible en pixels (la largeur du canvas) ; on calcule le pas comme samples.length / width ; pour chaque colonne de pixels en sortie, on parcourt ses step échantillons pour trouver le minimum et le maximum locaux ; on trace une seule ligne verticale du minimum au maximum. Le résultat est l'aspect d'enveloppe en miroir familier de tout DAW moderne. Pourquoi l'enveloppe min/max plutôt que RMS ou échantillon unique ? Une approche naïve (« pour chaque pixel, on plotte un échantillon ») perd les détails transitoires : un échantillon faible peut tomber sur un pixel censé représenter un transitoire fort, produisant une forme d'onde trompeusement plate. Le RMS (root-mean-square) donne une courbe de loudness perceptuellement juste mais perd l'information de pic. L'enveloppe min/max est le compromis visuel qui domine l'interface des DAW depuis au moins Pro Tools et reste la convention dans wavesurfer.js, peaks.js (BBC R&D, conçu pour les journalistes annotant de l'audio long) et Audacity. L'implémentation utilise ici devicePixelRatio pour la mise à l'échelle haute densité, afin que la forme d'onde reste nette sur les écrans Retina. Une limite honnête : getChannelData(0) ne renvoie que le premier canal, donc les fichiers stéréo ne montrent que le canal gauche. La coupe elle-même, exécutée par ffmpeg, préserve tous les canaux.

Mathématique d'une coupe précise à l'échantillon près

Une coupe est conceptuellement simple : produire un nouveau fichier ne contenant que les échantillons situés entre l'instant t_start et l'instant t_end de la source. Deux chemins existent. L'approche au niveau de l'échantillon convertit les temps en indices d'échantillon (start_frame = round(t_start × sampleRate)), alloue un nouvel AudioBuffer de longueur end_frame − start_frame, copie les échantillons par canal, puis ré-encode : c'est ce que l'on ferait avec la seule Web Audio API. La coupe au niveau du conteneur (ce que cet outil fait via FFmpeg) passe -ss start -to end à FFmpeg, qui sort en flux le bitstream encodé en le ré-encodant via le codec de sortie choisi. La coupe pilotée par FFmpeg est plus robuste car l'encodeur gère le cadrage, les en-têtes et les métadonnées ; le chemin Web-Audio-pur exige d'écrire son propre encodeur MP3 ou Vorbis pour la sortie, ce qui est bien plus délicat. Le taux d'échantillonnage compte : 44,1 kHz est le standard du Compact Disc et le taux dominant pour la musique, choisi pour rester au-dessus de la limite de Nyquist de l'audition humaine (~20 kHz × 2 = 40 kHz minimum) et compatible avec les magnétoscopes PAL/NTSC qui servaient à masteriser les premiers CD. 48 kHz est le standard du cinéma, de la télé et de la vidéo numérique. 16 kHz est le taux de fait pour la reconnaissance vocale et la VoIP ; 8 kHz, la téléphonie filaire classique. 96 kHz et 192 kHz sont les taux haute résolution. Cet outil hérite du taux d'échantillonnage de l'entrée via FFmpeg par défaut, préservant la fidélité sauf nécessité explicite. L'interface accepte des temps à un dixième de seconde près (0:03.5) ; FFmpeg est en interne précis à l'échantillon, donc une granularité de 0,1 s correspond à environ 4 410 échantillons à 44,1 kHz, bien en deçà du seuil perceptible humain.

Pourquoi ffmpeg.wasm plutôt que lamejs

La plus grande difficulté historique de l'édition audio côté navigateur a été l'encodage du MP3. Le décodage est gratuit : le navigateur s'en charge. L'encodage exige un encodeur MP3 en JavaScript ou WebAssembly. Deux options dominent. lamejs est un portage pur-JavaScript du vénérable encodeur LAME (à l'origine par Andreas Krennmair / zhuker sur GitHub, par transpilation mécanique du code C de LAME en JS). L'avantage est l'empreinte légère (~150 Ko minifiés) et l'absence de dépendances : une balise script suffit, et l'on encode du MP3 en cinquante lignes de code. Les inconvénients : il ne fait que du MP3, l'API est tatillonne, et les performances sur fichiers longs sont médiocres parce qu'il s'agit de JS interprété et non de WebAssembly compilé. ffmpeg.wasm est un build WebAssembly de FFmpeg, le couteau suisse universel du traitement audio/vidéo. Avantage : l'universalité (tout codec pris en charge par FFmpeg, donc MP3, WAV, OGG, AAC, FLAC, Opus et des dizaines de formats obscurs ; tout conteneur, toute transformation). Inconvénient : la taille (le bundle WebAssembly pèse plusieurs Mo, bien plus que lamejs seul). Cet outil utilise ffmpeg.wasm parce qu'il fournit trois codecs de sortie réels (MP3 via libmp3lame, WAV via pcm_s16le, OGG via libvorbis) à partir d'un seul moteur partagé, avec la même mécanique de coupe pour tous ; lamejs aurait limité la sortie au seul MP3. Le compromis : le coût en taille de bundle à la première visite.

Cas d'usage courants

Périmètre honnête : ce que cet outil ne fait pas

C'est un outil de coupe mono-fichier ciblé, pas une station audio numérique. Choses qu'il ne fait pas, et que des concurrents plus élaborés savent gérer : pas de fade in / fade out (l'extrait exporté commence et se termine abruptement aux points de coupe) ; pas de multipiste ni de mixage (un fichier en entrée, un fichier coupé en sortie) ; pas d'effets (pas d'EQ, de compression, de normalisation, de réduction de bruit, de réverbération) ; pas de découpe d'un fichier en plusieurs extraits en une passe (pour trois extraits, vous coupez trois fois) ; pas de réglage de gain ou de volume ; pas de lecture limitée à la zone coupée : le lecteur audio joue le fichier source entier, avec une tête de lecture animée sur la forme d'onde pendant la lecture. Pour le multipiste, les fades, les effets et le mastering, utilisez Audacity (open-source, publié par Dominic Mazzoni et Roger Dannenberg le 28 mai 2000 à Carnegie Mellon, toujours activement développé en 2026), Adobe Audition (commercial) ou Reaper (commercial, généreuse période d'essai gratuite). Pour une coupe ponctuelle sans installation, cet outil est la bonne forme. Le positionnement vie privée est sincère : les enregistrements vocaux sont des données personnelles, contenant souvent une parole identifiable ou des bruits d'arrière-plan d'un espace privé ; les téléverser vers un « coupeur audio en ligne gratuit » est un risque réel qu'une architecture purement navigateur écarte intégralement.

Vie privée : pourquoi cette architecture compte pour l'audio

Les enregistrements audio portent plus d'informations identifiantes que la plupart des fichiers. Un mémo vocal contient une parole identifiable (les empreintes vocales sont uniquement identifiantes). Une chanson peut être un contenu protégé. Un enregistrement de réunion peut contenir des discussions confidentielles ou des détails médicaux personnels. Les éditeurs audio côté serveur exigent un téléversement, donc une copie séjourne dans les logs du serveur, peut-être dans le cache d'un CDN, peut-être dans un pipeline d'analytique, peut-être dans une sauvegarde. Pour de la musique commerciale ordinaire, c'est anodin. Pour des mémos vocaux, des enregistrements de réunion, de la dictée, des chutes de podcast, des enregistrements de famille ou tout autre contenu que vous ne voudriez pas voir copié sur le disque dur d'un inconnu, ça ne l'est pas. Cet outil exécute la chaîne entière (sélection du fichier, décodage, rendu de la forme d'onde, coupe, ré-encodage, téléchargement) localement dans votre navigateur. Aucun téléversement, aucun appel API, aucune trace de log. Vous pouvez le vérifier en ouvrant l'onglet Network des DevTools pendant la coupe : aucune requête sortante ne transporte de données audio. Une fois le bundle WebAssembly de FFmpeg chargé, vous pouvez passer la page hors ligne (mode avion) et l'outil continue de fonctionner, preuve empirique la plus forte que rien n'est téléversé.

Questions fréquentes

Quels formats puis-je importer et exporter ?

Entrée : MP3, WAV, OGG (Vorbis), AAC, FLAC, M4A, tout ce que decodeAudioData de votre navigateur sait lire. Les navigateurs modernes couvrent l'ensemble. Sortie : MP3 (LAME en débit variable ~190 kbps, le sweet spot pour la musique), WAV (PCM linéaire 16 bits, sans perte) ou OGG Vorbis (~160 kbps VBR, qualité transparente et libre de brevets). L'encodage et le décodage passent par ffmpeg.wasm dans votre navigateur, sans qu'aucun serveur n'intervienne.

Y a-t-il une limite de taille de fichier ?

Pas de limite côté serveur, puisqu'aucun téléversement n'a lieu. Le plafond pratique, c'est la mémoire disponible sur votre appareil : le fichier doit être décodé en un Float32Array JavaScript pour l'affichage de la forme d'onde, ce qui demande environ 42 Mo de RAM pour une source mono de 4 minutes à 44,1 kHz pendant le traitement. Les fichiers jusqu'à 100 Mo environ passent confortablement sur un ordinateur portable typique ; les fichiers plus longs (podcasts de plusieurs heures, albums entiers) peuvent ralentir ou échouer sur du mobile d'entrée de gamme. Si un chargement se fige, essayez un fichier plus petit ou découpez par segments.

La coupe réduit-elle la qualité audio ?

Pour une sortie WAV : non, WAV est sans perte, donc la zone coupée est bit pour bit identique aux échantillons sources entre les points de coupe. Pour les sorties MP3 et OGG : une petite génération de quantification supplémentaire est ajoutée parce que la source est ré-encodée. Les réglages d'encodeur utilisés ici (LAME VBR ~190 kbps pour MP3, libvorbis qualité 5 ≈ 160 kbps pour OGG) sont bien au-dessus du seuil que la plupart des auditeurs perçoivent. Si vous comptez ré-éditer l'extrait plus tard, choisissez WAV ; pour un fichier compact à diffuser, choisissez MP3 ou OGG.

L'outil prend-il en charge le fade in / fade out ?

Non, la coupe est nette aux deux extrémités. Pour des fades, du multipiste, des effets ou du mastering, utilisez Audacity (open-source, gratuit, multiplateforme, publié le 28 mai 2000 à Carnegie Mellon) ou Adobe Audition. Cet outil a la bonne forme pour « j'ai juste besoin d'un extrait coupé proprement » ; pour quelque chose de plus élaboré, un véritable DAW est l'outil adapté.

Pourquoi la forme d'onde n'affiche-t-elle qu'un seul canal ?

La forme d'onde dessine le premier canal (le canal gauche dans un fichier stéréo) en une seule enveloppe par colonne de pixels. Tracer les deux canaux en couleurs différentes doublerait la place à l'écran, ou exigerait de superposer les formes d'onde ; les deux options sont plus bruitées que l'affichage mono-canal pour une UI de scrubbing rapide. La coupe elle-même préserve tous les canaux (FFmpeg les copie tels quels depuis la source), donc un enregistrement stéréo reste stéréo en sortie, même si un détail panné à l'extrême droite n'apparaît pas dans le visuel.

Mes fichiers audio sont-ils téléversés ?

Non. Chaque étape (sélection du fichier, décodage, rendu de la forme d'onde, coupe, ré-encodage, téléchargement) s'exécute localement dans votre navigateur via JavaScript et ffmpeg.wasm. Aucun téléversement, aucun appel API, aucune trace de log. Vous pouvez le vérifier en ouvrant l'onglet Network des DevTools pendant la coupe. Une fois le bundle ffmpeg.wasm chargé, vous pouvez passer la page hors ligne et l'outil continue de fonctionner, preuve la plus forte que rien n'est téléversé. Sûr pour des mémos vocaux, des enregistrements de réunion, de la dictée médicale ou tout audio que vous ne voudriez pas voir copié sur le disque dur d'un inconnu.

Outils associés