Recortador de audio

Corta y recorta archivos de audio a la duración exacta que quieras. Ajusta el inicio y el final, previsualiza y exporta. Sin subidas, sin registro.

Tus archivos nunca salen de tu dispositivo
Suelta un archivo de audio aquí o haz clic para examinar

MP3, WAV, OGG, AAC, FLAC, M4A

Cómo funciona

  1. Carga un archivo de audio. Suelta o selecciona un archivo MP3, WAV, OGG, AAC, FLAC o M4A. El navegador lo decodifica localmente para dibujar la forma de onda; nada se sube a un servidor.
  2. Define los puntos de inicio y fin. Arrastra los tiradores directamente sobre la forma de onda o escribe marcas de tiempo precisas hasta el milisegundo. La selección resalta la región conservada.
  3. Previsualiza la fuente mientras ajustas. El reproductor de audio reproduce el archivo original con un cabezal superpuesto sobre la forma de onda, útil para encontrar el punto exacto de corte de oído.
  4. Elige el formato de salida y recorta. MP3 (LAME VBR ~190 kbps), WAV (PCM 16 bits, sin pérdida) u OGG Vorbis (~160 kbps VBR). El recorte se ejecuta a través de ffmpeg.wasm en tu navegador; el archivo recortado se descarga cuando está listo.

Una breve historia de la Web Audio API

La Web Audio API es la interfaz JavaScript estandarizada por el W3C para procesar y sintetizar audio en navegadores web, la tecnología fundacional que permite a una página web decodificar un MP3 en memoria, dibujar una forma de onda, enrutar audio a través de filtros o reproducir tonos sintetizados sin complementos. El primer prototipo lo construyó Chris Rogers en Apple, dentro del proyecto WebKit, en 2010. El W3C Audio Working Group publicó su First Public Working Draft el 14 de diciembre de 2011; tras casi una década de revisiones y ciclos de implementación por los navegadores, el W3C publicó la Web Audio API como Recomendación W3C el 17 de junio de 2021. El documento de Recomendación agradece explícitamente a Chris Rogers como «antiguo editor de la especificación y autor original de esta especificación». Tres clases hacen el trabajo principal en cualquier herramienta de audio del lado del navegador: AudioContext (el contenedor de más alto nivel), AudioBuffer (un fragmento en memoria de audio PCM decodificado, con datos por canal expuestos como Float32Array) y AudioBufferSourceNode (un nodo de reproducción de uso único). El modelo completo de grafo admite muchos más tipos de nodos (ganancia, filtro, panner, analizador, convolucionador, retardo) y permite construir desde un afinador de guitarra hasta un sintetizador. Este recortador usa solo la parte de decodificación (AudioContext.decodeAudioData()) para la visualización de la forma de onda; el corte real se ejecuta a través de ffmpeg.wasm.

Recorrido por los formatos de audio que lee

WAV (1991, Microsoft + IBM) es el Waveform Audio File Format, un contenedor RIFF que aloja muestras PCM lineales sin compresión. Un WAV de calidad CD es de 44 100 muestras × 2 canales × 16 bits por segundo ≈ 10,1 MB por minuto, por lo que una canción de cuatro minutos en WAV ronda los 40 MB. La cabecera de tamaño del data-chunk de WAV es de 32 bits, lo que limita un archivo único a 4 GB; las grabaciones más largas requieren las extensiones RF64 o W64. WAV es el formato universal de intercambio precisamente porque es sin compresión, sencillo de parsear y libre de patentes. MP3 (ISO/IEC 11172-3, 1993) es el nombre coloquial de MPEG-1 Audio Layer III, desarrollado en el Instituto Fraunhofer de Erlangen, Alemania, con contribuciones clave de Karlheinz Brandenburg, Heinz Gerhäuser, Bernhard Grill, Jürgen Herre y Harald Popp. MP3 estuvo durante dos décadas gravado por patentes; la última de esas patentes expiró el 16 de abril de 2017 en Estados Unidos, y Fraunhofer anunció formalmente la finalización de su programa de licencias MP3 el 23 de abril de 2017. Esa expiración es la razón por la que los codificadores MP3 libres de regalías (libmp3lame, lamejs) pasaron a ser desplegables sin reservas en herramientas del navegador.

AAC (ISO/IEC 13818-7, 1997) y M4A: AAC se diseñó como sucesor de MP3, con mejor calidad al mismo bitrate. M4A no es un códec separado: es un archivo MPEG-4 Part 14 (.mp4) que solo lleva audio. Apple popularizó la extensión .m4a al lanzar la iTunes Music Store el 28 de abril de 2003, usando AAC a 128 kbps como formato de compra por defecto. OGG Vorbis (Xiph.Org, 2000-2002) es un códec con pérdida libre, abierto y libre de patentes, la respuesta de Xiph al clima de patentes alrededor de MP3 a finales de los noventa. El codificador de referencia, libvorbis, alcanzó la versión 1.0 en julio de 2002. Wikipedia, Spotify (al inicio), incontables videojuegos y distribuciones Linux distribuyen Vorbis. FLAC (Free Lossless Audio Codec, Xiph.Org, 20 de julio de 2001) comprime sin pérdida: la salida decodificada es bit a bit idéntica a la entrada. La compresión típica es del 50 al 60 % del tamaño del WAV original. FLAC es el formato de archivo de hecho para la distribución musical sin pérdida (Bandcamp, Qobuz, HDtracks, Internet Archive). Opus (IETF RFC 6716, septiembre de 2012) es el códec moderno libre de regalías por excelencia, diseñado conjuntamente por Xiph.Org, Mozilla y Skype/Microsoft; fusiona el códec de habla SILK de Skype con el códec musical CELT de Xiph en un único códec variable, excelente en todo el rango, desde habla a 6 kbps hasta música estéreo a 510 kbps. Opus es de implementación obligatoria en WebRTC.

Cómo funciona realmente la decodificación de audio en el navegador

Cuando sueltas un MP3 de 4 MB sobre la página del recortador, esta secuencia se ejecuta enteramente en tu navegador. FileReader.readAsArrayBuffer(file) lee los bytes desde el disco local hacia un ArrayBuffer de JavaScript: es una lectura local, sin subida. La página crea un AudioContext (con un fallback para los prefijos antiguos de WebKit). audioCtx.decodeAudioData(arrayBuffer) ejecuta el decodificador de audio nativo del navegador de manera asíncrona (típicamente el códec del sistema) y devuelve un AudioBuffer. El AudioBuffer expone getChannelData(0), que devuelve un Float32Array con las muestras del canal izquierdo normalizadas entre −1,0 y +1,0. Para una fuente mono de 4 minutos a 44,1 kHz son unos 10,6 millones de números en coma flotante, es decir 42 MB de memoria. La rutina de dibujo de la forma de onda submuestrea ese array hasta producir un pico por columna de píxeles del canvas. El AudioContext se cierra a continuación; nada más mantiene una referencia al búfer, así que la memoria se recupera. Para el corte real, ffmpeg.wasm opera sobre los bytes codificados originales en su sistema de archivos virtual: la decodificación de Web Audio sirve solo para el dibujo. Qué formatos acepta decodeAudioData depende del navegador anfitrión, no de la especificación. En la práctica en 2026: MP3 y WAV se decodifican universalmente; OGG Vorbis funciona en Chrome, Firefox y Safari reciente; AAC/M4A en Safari, Chrome, Edge y Firefox modernos; FLAC en todos los navegadores principales desde aproximadamente 2017; Opus en todos los navegadores modernos.

Renderizado de la forma de onda, técnica del pico por píxel

Dibujar una forma de onda es conceptualmente sencillo, pero fácil de hacer mal. La técnica estándar, usada aquí, es la envolvente min/max: se elige una anchura objetivo en píxeles (la del canvas); se calcula el paso como samples.length / width; para cada columna de píxeles de salida se recorren sus step muestras buscando el mínimo y el máximo locales; se dibuja una única línea vertical desde la muestra mínima hasta la máxima. El resultado es el aspecto de envolvente reflejada que se ve en cualquier DAW moderna. ¿Por qué envolvente min/max y no RMS o muestra única? Una aproximación ingenua de «por cada píxel, una muestra» pierde detalle transitorio: una muestra silenciosa puede caer en un píxel que debía representar un transitorio fuerte, produciendo una forma de onda engañosamente plana. El RMS (raíz cuadrada de la media) ofrece una curva de loudness perceptualmente justa, pero pierde la información de pico. La envolvente min/max es el compromiso visual que domina la interfaz de las DAW al menos desde Pro Tools y sigue siendo la convención en wavesurfer.js, peaks.js (BBC R&D, diseñado para periodistas que anotan audio largo) y Audacity. La implementación usa aquí devicePixelRatio para el escalado en alta densidad, de modo que la forma de onda se mantiene nítida en pantallas Retina. Una limitación honesta: getChannelData(0) devuelve solo el primer canal, así que los archivos estéreo se renderizan a partir del canal izquierdo. El recorte mismo, ejecutado a través de ffmpeg, conserva todos los canales.

Matemática de un recorte preciso a la muestra

Un recorte es conceptualmente sencillo: producir un archivo nuevo que contenga solo las muestras entre el instante t_start y el instante t_end de la fuente. Hay dos caminos. El enfoque a nivel de muestra convierte tiempos en índices (start_frame = round(t_start × sampleRate)), reserva un nuevo AudioBuffer de longitud end_frame − start_frame, copia muestras por canal y vuelve a codificar: es lo que harías solo con la Web Audio API. El corte a nivel de contenedor (lo que esta herramienta hace vía FFmpeg) pasa -ss start -to end a FFmpeg y deja que vuelva a sacar el bitstream codificado, recodificando en el códec de salida elegido. El corte dirigido por FFmpeg es más robusto porque el codificador gestiona el cuadrado, las cabeceras y los metadatos; el camino solo Web Audio exige escribir tu propio codificador MP3 o Vorbis para la salida, lo que es bastante más delicado. La frecuencia de muestreo importa: 44,1 kHz es el estándar del Compact Disc y la frecuencia dominante para música, elegida para quedar por encima del límite de Nyquist del oído humano (~20 kHz × 2 = 40 kHz mínimo) y compatible con los magnetoscopios PAL/NTSC que se usaban para masterizar los primeros CD. 48 kHz es el estándar de cine, televisión y vídeo digital. 16 kHz es la frecuencia de hecho para reconocimiento de voz y VoIP; 8 kHz, la telefonía fija clásica. 96 kHz y 192 kHz son las frecuencias de alta resolución. Esta herramienta hereda la frecuencia de muestreo de la entrada vía FFmpeg por defecto, preservando la fidelidad salvo necesidad explícita. La interfaz acepta tiempos hasta una décima de segundo (0:03.5); FFmpeg internamente es preciso a la muestra, así que una granularidad de 0,1 segundos se traduce en unas 4 410 muestras a 44,1 kHz, muy por debajo del umbral perceptible humano.

Por qué ffmpeg.wasm y no lamejs

El mayor dolor de cabeza histórico de la edición de audio en el navegador ha sido la codificación de MP3. La decodificación es gratis: se encarga el navegador. La codificación exige un codificador MP3 en JavaScript o WebAssembly. Dos opciones dominan. lamejs es un port puro de JavaScript del veterano codificador LAME (originalmente por Andreas Krennmair / zhuker en GitHub, mediante una transpilación mecánica del código C de LAME a JS). La ventaja es la huella ligera (~150 KB minificados) y la ausencia de dependencias: basta una etiqueta script y se codifica MP3 en cincuenta líneas de código. Las desventajas: solo hace MP3, la API es quisquillosa y el rendimiento en archivos largos es mediocre porque es JS interpretado y no WebAssembly compilado. ffmpeg.wasm es un build WebAssembly de FFmpeg, la navaja suiza universal del procesamiento de audio y vídeo. La ventaja es la universalidad: cada códec que FFmpeg soporta (MP3, WAV, OGG, AAC, FLAC, Opus, decenas de formatos oscuros), cada contenedor, cada transformación. La desventaja es el tamaño: el bundle de WebAssembly pesa varios MB, mucho más que lamejs solo. Esta herramienta usa ffmpeg.wasm porque ofrece tres códecs de salida reales (MP3 vía libmp3lame, WAV vía pcm_s16le, OGG vía libvorbis) desde un único motor compartido, con la misma mecánica de recorte para todos; lamejs habría limitado la salida a MP3. El compromiso es el coste en tamaño de bundle en la primera visita.

Casos de uso comunes

Alcance honesto: lo que esta herramienta no hace

Esto es una herramienta de recorte mono-archivo enfocada, no una estación de trabajo de audio digital. Cosas que no hace, y que competidores más elaborados sí gestionan: nada de fade in / fade out (el clip exportado empieza y termina abruptamente en los puntos de corte); nada de multipista ni mezcla (un archivo a la entrada, un archivo recortado a la salida); nada de efectos (sin EQ, compresión, normalización, reducción de ruido, reverberación); nada de dividir un archivo en varios clips de una pasada (para tres trozos, recortas tres veces); nada de ajuste de ganancia o volumen; nada de reproducción limitada a la región recortada: el reproductor toca el archivo entero con un cabezal animado sobre la forma de onda durante la reproducción. Para multipista, fades, efectos y mastering, usa Audacity (open-source, publicado por Dominic Mazzoni y Roger Dannenberg el 28 de mayo de 2000 en Carnegie Mellon, todavía activamente desarrollado en 2026), Adobe Audition (comercial) o Reaper (comercial, periodo de prueba generoso). Para un recorte puntual sin instalación, esta herramienta tiene la forma adecuada. El posicionamiento de privacidad es genuino: las grabaciones de voz son datos personales, a menudo con habla identificable o sonido de fondo de un espacio privado; subirlas a un «cortador de audio en línea gratuito» supone un riesgo real que una arquitectura solo de navegador esquiva por completo.

Privacidad: por qué esta arquitectura importa para el audio

Las grabaciones de audio cargan más información identificativa que la mayoría de archivos. Una nota de voz contiene habla identificable (las huellas vocales son únicas). Una canción puede ser material protegido. Una grabación de reunión puede contener discusión empresarial confidencial o detalles médicos personales. Los editores de audio del lado del servidor exigen subir el archivo, lo que significa que una copia queda en los logs del servidor, posiblemente en una caché de CDN, posiblemente en un pipeline de analítica, posiblemente en un backup. Para música comercial corriente esto es inocuo. Para notas de voz, grabaciones de reunión, dictado, descartes de podcast, grabaciones familiares o cualquier otra cosa que no querrías ver copiada en el disco duro de un desconocido, no lo es. Esta herramienta ejecuta toda la cadena (selección de archivo, decodificación, renderizado de forma de onda, recorte, recodificación, descarga) localmente en tu navegador. Sin subida, sin llamada API, sin entrada de log. Puedes verificarlo abriendo la pestaña Network de las DevTools mientras recortas: no hay peticiones salientes que transporten datos de audio. Una vez cargado el bundle de WebAssembly de FFmpeg, puedes poner la página en modo avión y la herramienta sigue funcionando, la prueba empírica más fuerte de que nada se sube.

Preguntas frecuentes

¿Qué formatos puedo importar y exportar?

Entrada: MP3, WAV, OGG (Vorbis), AAC, FLAC, M4A, todo lo que decodeAudioData de tu navegador sepa leer. Los navegadores modernos cubren todos. Salida: MP3 (LAME a bitrate variable ~190 kbps, el sweet spot para música), WAV (PCM lineal de 16 bits, sin pérdida) u OGG Vorbis (~160 kbps VBR, calidad transparente y libre de patentes). Codificación y decodificación se ejecutan a través de ffmpeg.wasm en tu navegador, así que no interviene ningún servidor.

¿Hay límite de tamaño de archivo?

No hay límite del lado servidor porque no se sube nada. El techo práctico es la memoria disponible en tu dispositivo: el archivo debe decodificarse a un Float32Array de JavaScript para mostrar la forma de onda, lo que requiere unos 42 MB de RAM para una fuente mono de 4 minutos a 44,1 kHz durante el procesamiento. Archivos de hasta unos 100 MB funcionan cómodamente en un portátil típico; archivos más largos (podcasts de varias horas, álbumes enteros) pueden ralentizarse o fallar en móviles de gama baja. Si una carga se queda colgada, prueba con un archivo más pequeño o recorta por segmentos.

¿Recortar reduce la calidad del audio?

Para salida WAV: no, WAV es sin pérdida, así que la región recortada es bit a bit idéntica a las muestras de la fuente entre los puntos de corte. Para salidas MP3 y OGG: se añade una pequeña generación adicional de cuantización con pérdida porque la fuente se está recodificando. Los ajustes de codificador usados aquí (LAME VBR ~190 kbps para MP3, libvorbis calidad 5 ≈ 160 kbps para OGG) están bien por encima del umbral que la mayoría de oyentes pueden percibir. Si planeas re-editar el clip recortado más tarde, elige WAV; si quieres un archivo pequeño para distribución, MP3 u OGG.

¿Soporta fade in / fade out?

No, el recorte es un corte limpio en ambos extremos. Para fades, edición multipista, efectos o mastering, usa Audacity (open-source, gratuito, multiplataforma, publicado el 28 de mayo de 2000 en Carnegie Mellon) o Adobe Audition. Esta herramienta tiene la forma adecuada para «solo necesito un clip recortado limpiamente»; para algo más elaborado, una DAW de verdad es la herramienta correcta.

¿Por qué la forma de onda muestra solo un canal?

La forma de onda dibuja el primer canal (el izquierdo en un archivo estéreo) como una sola envolvente por columna de píxeles. Dibujar ambos canales en colores distintos duplicaría el espacio en pantalla o exigiría superponer las formas de onda, ambas opciones más ruidosas que el dibujo mono-canal para una UI rápida de scrubbing. El recorte mismo conserva todos los canales, FFmpeg los copia tal cual desde la fuente, así que una grabación estéreo sigue siendo estéreo a la salida, aunque un detalle paneado totalmente al canal derecho no aparezca en el dibujo.

¿Mis archivos de audio se suben?

No. Cada paso (selección de archivo, decodificación, renderizado de forma de onda, recorte, recodificación, descarga) se ejecuta localmente en tu navegador a través de JavaScript y ffmpeg.wasm. Sin subida, sin llamada API, sin entrada de log. Puedes verificarlo abriendo la pestaña Network de las DevTools mientras recortas. Una vez cargado el bundle ffmpeg.wasm, puedes poner la página en modo avión y la herramienta sigue funcionando, la prueba más fuerte de que nada se sube. Seguro para notas de voz, grabaciones de reunión, dictado médico o cualquier audio que no querrías ver copiado en el disco duro de un desconocido.

Herramientas relacionadas