Trình trích xuất âm thanh từ video miễn phí
Trích xuất bản nhạc âm thanh từ bất kỳ tệp video nào. Xuất dưới dạng MP3, WAV, AAC hoặc OGG.
Kéo và thả tệp video vào đây
hoặc nhấp để duyệt · MP4, WebM, MOV, AVI, MKV (tối đa 2 GB)
Trích xuất âm thanh thực sự làm gì
Một tệp video là một container (MP4, WebM, MOV, MKV, AVI, v.v.) chứa nhiều luồng cơ bản: thường là một luồng video, một hoặc nhiều luồng âm thanh, và đôi khi có phụ đề hoặc đánh dấu chương. Trích xuất âm thanh là một thao tác demuxing: container được mở ra, luồng âm thanh được đọc ra, và được sao chép nguyên văn vào một tệp âm thanh mới (stream copy, không mất dữ liệu và nhanh) hoặc được mã hóa lại sang một codec âm thanh khác (transcode, chậm hơn với một chi phí chất lượng nhỏ). FFmpeg xử lý cả hai chế độ thông qua các cờ -c:a copy so với -c:a mp3/aac/opus. Công cụ này tự động chọn đường dẫn phù hợp dựa trên định dạng đích của bạn.
Codec âm thanh bên trong một tệp video thường là AAC (hầu hết các MP4), Opus (các tệp WebM và MKV mới hơn), hoặc đôi khi là MP3 (tệp cũ), AC-3 (kiểu DVD), hoặc PCM (không nén trong MOV/AVI). Mỗi loại là một cách khác nhau để biểu diễn cùng dữ liệu dạng sóng; chuyển đổi giữa chúng liên quan đến việc giải mã thành các mẫu PCM thô và mã hóa lại thành codec đích. Codec lossy (AAC, MP3, Opus, Vorbis) loại bỏ các tần số và mẫu không thể nghe được để tiết kiệm không gian; codec lossless (FLAC, ALAC, PCM thô trong WAV) bảo tồn mọi mẫu. Nếu mục tiêu của bạn là âm thanh sạch nhất có thể, hãy trích xuất sang FLAC hoặc WAV. Nếu mục tiêu của bạn là một tệp di động cho việc nghe thông thường, MP3 ở 192 kbps là mặc định phổ quát.
Bitrate là phiên bản âm thanh của CRF: bao nhiêu bit mỗi giây của âm thanh được phân bổ. 320 kbps MP3 là "trong suốt" với hầu hết người nghe (không thể phân biệt với chất lượng CD trong các bài kiểm tra mù). 192 kbps MP3 là mặc định cho hầu hết các thư viện âm nhạc. 128 kbps có thể chấp nhận được cho giọng nói/podcast nhưng làm xuống cấp âm nhạc một cách rõ ràng. 64 kbps là lãnh thổ chỉ-giọng-nói. AAC và Opus đạt được cùng chất lượng cảm nhận ở bitrate thấp hơn (Opus là hiệu quả nhất: 96 kbps Opus đối thủ với 192 kbps MP3 cho âm nhạc).
Cách công cụ này hoạt động bên trong
Cùng động cơ ffmpeg.wasm như các công cụ video khác: FFmpeg được biên dịch sang WebAssembly qua Emscripten, nhị phân phía trình duyệt ~30 MB, chạy hoàn toàn trong tab thông qua đa luồng SharedArrayBuffer. Khi bạn thả một video, tệp được đọc vào hệ thống tệp ảo WebAssembly thông qua trình đọc luồng.
Lệnh trích xuất trông như -i input.mp4 -vn -c:a libmp3lame -b:a 192k output.mp3 cho MP3 ở 192 kbps, trong đó -vn loại bỏ luồng video hoàn toàn. Đối với WAV (lossless): -i input.mp4 -vn -c:a pcm_s16le output.wav. Đối với AAC: -c:a aac -b:a 192k output.m4a. Đối với OGG/Opus: -c:a libopus -b:a 128k output.opus. Bộ giải mã âm thanh tích hợp trong FFmpeg xử lý bất kỳ codec nào bên trong nguồn (AAC, Opus, MP3, AC-3, FLAC, v.v.) và xuất ra codec đích đã chọn.
Khi codec âm thanh nguồn và codec đích khớp nhau (hiếm trong công cụ này vì các đích thường là MP3/WAV trong khi các nguồn thường là AAC), công cụ có thể thực hiện stream copy (-c:a copy) thay vì mã hóa lại. Stream copy giữ nguyên các bit ban đầu chính xác và hoàn thành trong vài giây ngay cả đối với video dài một giờ. Đối với tất cả các trường hợp khác, công cụ mã hóa lại, điều này bị giới hạn bởi CPU của bạn. Các thông điệp tiến trình truyền từ stderr của FFmpeg và cập nhật thanh tiến trình trên màn hình theo thời gian thực.
Lịch sử ngắn gọn về codec âm thanh và trích xuất
- MP3 (MPEG-1 Layer III), 1993.Viện Fraunhofer công bố đặc tả MP3. Định dạng này thống trị cảnh âm thanh tiêu dùng cuối những năm 1990 và đầu những năm 2000: Napster (1999), iPod (2001), iTunes Music Store (2003). Các hạn chế bằng sáng chế đã giới hạn các triển khai miễn phí cho đến năm 2017, khi các bằng sáng chế MP3 cuối cùng hết hạn.
- AAC (Advanced Audio Coding), 1997.MPEG-2 Part 7 và sau đó là MPEG-4 Part 3. Đạt chất lượng tương tự MP3 ở bitrate thấp hơn. Apple áp dụng AAC cho iTunes Music Store (2003) và iPhone (2007). AAC trở thành codec âm thanh mặc định trong các container MP4.
- FLAC (Free Lossless Audio Codec), 2001.Nén lossless cắt giảm kích thước âm thanh thô khoảng một nửa. Trở thành tiêu chuẩn cho âm thanh lưu trữ, phân phối audiophile, và rip CD. Mã nguồn mở và miễn phí bản quyền từ khi ra đời.
- Vorbis và container OGG, đầu những năm 2000.Quỹ Xiph.Org công bố Vorbis như một lựa chọn thay thế miễn phí bản quyền cho MP3, được đóng gói trong container OGG. Được một số trò chơi (Quake III, Halo) và các dự án mã nguồn mở áp dụng, nhưng không bao giờ đạt được mức độ chấp nhận chính thống của người tiêu dùng.
- Opus, 2012.IETF chuẩn hóa Opus, kết hợp các yếu tố của SILK (giọng nói, từ Skype) và CELT (âm nhạc). Trở thành codec chiếm ưu thế cho giao tiếp thời gian thực có độ trễ thấp (Discord, WebRTC, Zoom) và ngày càng cho phát trực tuyến (YouTube WebM, Spotify Web). Ở 96 kbps, nó cạnh tranh với MP3 ở 192 kbps.
- ffmpeg.wasm và trích xuất âm thanh trình duyệt, 2019 đến 2026.Jerome Wu công bố ffmpeg.wasm đầu tiên vào năm 2019. Đến năm 2024, dòng 4.x ổn định ở ~30 MB với đa luồng SharedArrayBuffer. Trích xuất âm thanh phía trình duyệt từ video trở nên thực tế, thay thế nhiều dịch vụ trích xuất dựa trên đám mây cho việc sử dụng cá nhân.
Cách hoạt động
- Tải lên video của bạn: Chọn bất kỳ tệp video nào (MP4, WebM, MOV, AVI) chứa âm thanh bạn muốn trích xuất.
- Chọn định dạng âm thanh: Chọn MP3, WAV, OGG hoặc AAC làm định dạng đầu ra và đặt chất lượng/tốc độ bit âm thanh.
- Trích xuất và tải xuống: Nhấp vào Trích xuất âm thanh và tải xuống tệp âm thanh khi quá trình xử lý hoàn tất.
Tại sao nên sử dụng Trình trích xuất âm thanh từ video?
Trích xuất âm thanh từ video là nhu cầu phổ biến, lấy nhạc từ tệp video, lấy âm thanh thuyết minh từ bản ghi, lưu âm thanh podcast từ cuộc phỏng vấn video, hoặc trích xuất lời bình luận từ video chơi game. Phần mềm âm thanh chuyên dụng hoặc công cụ dòng lệnh là quá mức cần thiết cho tác vụ đơn giản này. Trình trích xuất dựa trên trình duyệt này sẽ tách bản nhạc âm thanh từ bất kỳ video nào và lưu dưới dạng tệp âm thanh độc lập mà không cần cài đặt phần mềm.
Tính năng
- Nhiều định dạng âm thanh: Xuất dưới dạng MP3 (phổ quát), WAV (không mất dữ liệu), OGG (mở) hoặc AAC (Apple/di động).
- Điều khiển tốc độ bit: Chọn chất lượng âm thanh từ 64 kbps (giọng nói/podcast) đến 320 kbps (âm nhạc chất lượng cao).
- Cắt âm thanh: Tùy chọn chỉ định thời gian bắt đầu và kết thúc để chỉ trích xuất một đoạn âm thanh.
- Kên và tần số lấy mẫu: Các tùy chọn nâng cao cho mono/stereo và tần số lấy mẫu cho mục đích sử dụng âm thanh chuyên biệt.
- Ưu tiên quyền riêng tư: Tệp video được xử lý cục bộ trong trình duyệt của bạn, không bao giờ tải lên bất kỳ máy chủ nào.
Quy trình trích xuất trong thế giới thực
- Lấy âm thanh từ bản ghi podcast video.Nhiều podcast ghi video và âm thanh đồng thời (Riverside, Zencastr, thậm chí Zoom). Trích xuất bản nhạc âm thanh cho bạn MP3 sẵn sàng cho podcast để tải lên nền tảng lưu trữ podcast. Đối với nội dung chỉ giọng nói, 128 kbps MP3 mono là đủ; đối với podcast nặng nhạc, 192 đến 256 kbps stereo.
- Lưu âm thanh bài giảng để nghe ngoại tuyến.Các bài giảng đã ghi, các bài nói chuyện hội nghị, hoặc hội thảo trực tuyến thường có nhiều video hơn bạn cần (các slide hầu như không thay đổi). Trích xuất chỉ âm thanh cắt giảm đáng kể kích thước tệp (một video một giờ 1 GB trở thành MP3 30 MB) và cho phép bạn nghe trong khi đi làm hoặc tập thể dục mà không tốn pin video.
- Trích xuất âm nhạc từ một video âm nhạc.Đôi khi phiên bản duy nhất của một bài hát bạn có là trong một video âm nhạc. Trích xuất sang MP3 bitrate cao (256 đến 320 kbps) hoặc FLAC để không mất dữ liệu mang lại cho bạn một tệp âm thanh có thể phát cho thư viện âm nhạc của bạn. Đảm bảo bạn có quyền hoặc nó chỉ dành cho sử dụng cá nhân.
- Lưu các bản nhạc lồng tiếng hoặc tường thuật.Nếu bạn ghi một video hướng dẫn với lồng tiếng chất lượng cao và muốn tái sử dụng chỉ âm thanh (cho một podcast, sách nói, hoặc video khác), trích xuất cho bạn tệp âm thanh độc lập để trộn hoặc tái phối tách biệt.
- Bản nhạc âm thanh cho lồng tiếng hoặc phụ đề.Các dịch giả và xưởng lồng tiếng thường làm việc từ âm thanh đã trích xuất hơn là video đầy đủ, đặc biệt khi băng thông hoặc lưu trữ là quan trọng. Trích xuất tại WAV lossless cho nguồn sạch nhất có thể cho quy trình dịch/lồng tiếng.
- Tiền xử lý cho các dịch vụ phiên âm.Hầu hết các dịch vụ phiên âm tự động (Whisper, Otter, Rev) chấp nhận tải lên âm thanh nhanh hơn tải lên video. Trích xuất sang MP3 trước khi tải lên tiết kiệm thời gian và băng thông. Đầu vào chỉ âm thanh cũng có xu hướng phiên âm nhanh hơn video trên cùng một dịch vụ vì không cần giải mã video phía máy chủ.
Các cạm bẫy phổ biến và ý nghĩa của chúng
- Mã hóa lại lossy-sang-lossy thêm mất chất lượng.Trích xuất AAC từ MP4 sang MP3 có nghĩa là chuyển mã từ AAC lossy sang MP3 lossy, thêm một thế hệ khác của tiếng ồn lượng tử hóa. Kết quả thường không thể phân biệt nhưng hơi xuống cấp. Để bảo tồn thuần túy, hãy trích xuất sang FLAC hoặc WAV (lossless) và chuyển sang MP3 sau nếu cần.
- Bitrate cao hơn nguồn không giúp được.Nếu âm thanh của video được mã hóa ở 128 kbps AAC, trích xuất sang 320 kbps MP3 không khôi phục chi tiết mà nguồn không có. Nó chỉ làm tệp phình to. Khớp với bitrate nguồn hoặc tăng nhẹ nếu bạn dự định làm thêm xử lý; tăng đáng kể là lãng phí không gian.
- Video im lặng không có âm thanh để trích xuất.Ghi màn hình không có microphone, video time-lapse, cảnh quay drone được chụp trong điều kiện cách ly tiếng ồn: chúng có thể không chứa luồng âm thanh nào cả, hoặc một luồng im lặng thuần túy. Công cụ phát hiện các trường hợp không có âm thanh và thông báo cho bạn; đối với các luồng im lặng thuần túy, tệp được trích xuất sẽ hợp lệ về mặt kỹ thuật nhưng không nghe được.
- Các bản nhạc surround đa kênh giảm xuống stereo.Một số video (rip Blu-ray, ghi âm hội nghị 5.1) có âm thanh surround đa kênh. Trích xuất sang MP3 hoặc AAC thường giảm xuống stereo, mất đi sự phân tách không gian. Để bảo tồn các kênh, hãy trích xuất sang FLAC hoặc AAC đa kênh; MP3 tiêu chuẩn không có hỗ trợ đa kênh tự nhiên.
- Thẻ ID3 không đến miễn phí.Các tệp video không mang siêu dữ liệu kiểu ID3 MP3 (tiêu đề, nghệ sĩ, album, ảnh bìa). Các MP3 được trích xuất xuất hiện với các thẻ trống. Nếu bạn cần các thẻ được điền, hãy sử dụng một công cụ máy tính để bàn như Mp3tag hoặc MusicBrainz Picard sau khi trích xuất để thêm tiêu đề, nghệ sĩ và ảnh bìa.
- Video được bảo vệ DRM không được hỗ trợ.Các tải xuống Netflix, các tệp Apple TV+, và các video được bảo vệ DRM khác không thể được trích xuất bởi công cụ này (hoặc bất kỳ công cụ tiêu dùng nào). Âm thanh được mã hóa trong container. Trích xuất chỉ hoạt động trên các tệp không được mã hóa mà bạn sở hữu.
Quyền riêng tư: video của bạn không bao giờ rời khỏi thiết bị của bạn
Các dịch vụ video-sang-âm-thanh đám mây (Online Audio Converter, Audio Extractor, Convertio, hàng tá khác) đều tải lên video đầy đủ của bạn, chạy FFmpeg trên phần cứng của họ, và gửi lại âm thanh đã trích xuất. Đối với video điện thoại 200 MB, đó là 200 MB lên cộng với 10 đến 50 MB xuống thông qua cơ sở hạ tầng của họ. Nội dung âm thanh thường bao gồm tiếng nói của gia đình hoặc đồng nghiệp, các cuộc trò chuyện từ các cuộc họp, âm nhạc riêng tư, tường thuật về các chủ đề nhạy cảm. Hầu hết các nhà điều hành đều công bố các chính sách quyền riêng tư cam kết xóa các bản tải lên trong 1 đến 24 giờ và mã hóa khi vận chuyển, và những nhà điều hành lớn có chứng nhận ISO/IEC 27001. Họ có lý do kinh doanh mạnh mẽ để tôn trọng các chính sách đó. Nhưng "xóa trong vòng một giờ" không phải là "không bao giờ được nhìn thấy". Trong cửa sổ đó, tệp nằm trên cơ sở hạ tầng của nhà điều hành, có thể truy cập bởi bất kỳ quy trình hoặc người nào có quyền phù hợp, hiển thị trong nhật ký và sao lưu theo chính sách lưu giữ của nhà điều hành.
Công cụ này không bao giờ tải lên bất cứ điều gì. Đường ống đầy đủ (chọn tệp, giải mã thông qua các trình đọc gốc của trình duyệt, trích xuất thông qua WebAssembly ffmpeg.wasm, tải xuống thông qua API blob của trình duyệt) chạy bên trong tab trình duyệt của bạn. Không có tải lên, không có yêu cầu mạng nào mang dữ liệu video, không có mục nhật ký. Bạn có thể xác minh bằng cách mở các công cụ dành cho nhà phát triển của trình duyệt trên tab Mạng trước khi trích xuất: không có yêu cầu nào rời đi với nội dung video. Chỉ có lần tải trang ban đầu và lần tải xuống ffmpeg.wasm khoảng 30 MB một lần (được lưu vào bộ nhớ đệm cho các lần truy cập tiếp theo) chạm vào mạng. Đặt trình duyệt ở chế độ máy bay sau khi tải trang và trình trích xuất vẫn hoạt động trên các tệp cục bộ.
Khi một công cụ khác là lựa chọn đúng
- Các tệp trên 2 GB.Các giới hạn bộ nhớ trình duyệt trở thành một bức tường trên khoảng 2 GB. Sử dụng FFmpeg CLI trên máy tính để bàn:
ffmpeg -i big_video.mkv -vn -c:a copy big_audio.aachoạt động trong vài giây trên bất kỳ kích thước tệp nào vì nó truyền phát từ đĩa và sử dụng stream copy khi các codec khớp. - Trích xuất âm thanh đa bản nhạc.Một số video có nhiều bản nhạc âm thanh (bình luận của đạo diễn, các ngôn ngữ lồng tiếng thay thế, các biến thể tường thuật). FFmpeg CLI với
-map 0:a:Nchọn từng bản nhạc một cách rõ ràng. Các công cụ trình duyệt thường chỉ trích xuất bản nhạc âm thanh mặc định. - Trích xuất hàng loạt trên nhiều tệp.Một script shell với FFmpeg CLI xử lý một thư mục trong một lệnh:
for f in *.mp4; do ffmpeg -i "$f" -vn -c:a libmp3lame -b:a 192k "${f%.mp4}.mp3"; done. Nhanh hơn nhiều so với việc chạy một công cụ trình duyệt 100 lần thủ công. - Quy trình ID3/siêu dữ liệu nặng.Nếu bạn cần đính kèm các thẻ ID3, ảnh bìa, lời bài hát và đánh dấu chương thích hợp vào các MP3 đã trích xuất, hãy sử dụng Mp3tag (Windows) hoặc MusicBrainz Picard (đa nền tảng) sau khi trích xuất. Những công cụ này có các trình chỉnh sửa siêu dữ liệu phong phú mà các công cụ trình duyệt thiếu.
Câu hỏi thường gặp
Chất lượng âm thanh được trích xuất có khớp với video không?
Có, nếu bạn trích xuất sang định dạng không mất dữ liệu (WAV) hoặc ở cùng tốc độ bit với bản nhạc âm thanh của video. Âm thanh của video đã được mã hóa, mã hóa lại ở tốc độ bit thấp hơn sẽ giảm chất lượng. Để có kết quả tốt nhất, hãy chọn WAV hoặc tùy chọn tốc độ bit cao nhất.
Điều gì xảy ra nếu video không có bản nhạc âm thanh?
Nếu video không có bản nhạc âm thanh, công cụ sẽ thông báo cho bạn. Video câm (như bản ghi màn hình không có micrô) không chứa dữ liệu âm thanh để trích xuất.
Tôi có thể trích xuất âm thanh từ video YouTube không?
Công cụ này hoạt động với các tệp video từ thiết bị của bạn. Tải xuống hoặc trích xuất âm thanh từ video YouTube có thể vi phạm Điều khoản Dịch vụ của YouTube. Hãy sử dụng các tệp bạn sở hữu hoặc có quyền xử lý.
Các câu hỏi thường gặp khác
Sự khác biệt giữa MP3, AAC, OGG và WAV là gì?
MP3 (1993) là định dạng lossy phổ quát, phát ở mọi nơi. AAC (1997) hiệu quả hơn MP3 ở cùng chất lượng, mặc định trên các thiết bị Apple. OGG/Vorbis (đầu những năm 2000) là thay thế mở miễn phí bản quyền; Opus (2012) là người kế nhiệm hiện đại của nó và là codec lossy hiệu quả nhất cho giọng nói và âm nhạc. WAV là PCM không nén (các tệp khổng lồ nhưng lossless). FLAC là nén lossless (khoảng một nửa kích thước của WAV mà không mất chất lượng). Để chia sẻ: MP3 hoặc AAC. Để lưu trữ: FLAC. Để chỉnh sửa: WAV.
Tôi nên chọn bitrate nào?
Đối với âm nhạc: 192 đến 320 kbps MP3 hoặc AAC (320 trong suốt cho hầu hết người nghe; 192 là mặc định trên thực tế của thư viện). Đối với giọng nói/podcast: 64 đến 128 kbps mono là đủ (tệp nhỏ hơn, không mất chất lượng cho lời nói). Để lưu trữ: đừng chọn bitrate, sử dụng lossless (FLAC hoặc WAV). Chọn bitrate cao hơn bitrate âm thanh của nguồn không giúp ích; chỉ khớp hoặc tăng nhẹ.
Việc trích xuất sẽ là lossless hay lossy?
Phụ thuộc vào định dạng đích. Trích xuất sang WAV hoặc FLAC là lossless: mọi mẫu của nguồn được giải mã được bảo tồn. Trích xuất sang MP3, AAC, OGG, hoặc Opus là lossy: bộ mã hóa loại bỏ một số chi tiết không thể nghe được để tiết kiệm không gian. Nếu âm thanh nguồn đã là lossy (hầu hết các MP4 có AAC bên trong), ngay cả một trích xuất lossless cũng là "một bản sao lossless của nguồn lossy", không phải là một bản tái tạo hoàn hảo của bản ghi ban đầu.
Tại sao trích xuất đôi khi gần như tức thời và đôi khi chậm?
Nếu codec âm thanh nguồn khớp với đích (hiếm trong công cụ này vì các đích thường là MP3/WAV trong khi các nguồn thường là AAC), công cụ có thể thực hiện một stream copy chỉ ghi lại container mà không cần mã hóa lại. Stream copy hoàn thành trong vài giây cho bất kỳ kích thước tệp nào. Mã hóa lại bị giới hạn bởi CPU của bạn và mất thời gian tỷ lệ thuận với thời lượng âm thanh: 1 đến 5x thời gian thực cho MP3/AAC trên một máy tính xách tay điển hình.
Có một thiết bị tương đương trên máy tính để bàn hoặc dòng lệnh không?
Có. FFmpeg CLI: ffmpeg -i input.mp4 -vn -c:a libmp3lame -b:a 192k output.mp3. Đối với stream copy: ffmpeg -i input.mp4 -vn -c:a copy output.m4a. VLC có một hộp thoại Chuyển đổi/Lưu trích xuất âm thanh thông qua FFmpeg tích hợp sẵn của nó. Audacity có thể nhập video và xuất âm thanh ở bất kỳ định dạng nào. Tất cả tạo ra đầu ra về cơ bản giống hệt với công cụ trình duyệt này vì chúng chia sẻ cùng các codec cơ bản.
Tôi có thể trích xuất chỉ một phần của âm thanh không?
Trong công cụ này, không trực tiếp: việc trích xuất xử lý bản nhạc âm thanh đầy đủ. Để trích xuất một đoạn, hãy sử dụng một công cụ cắt video trước để cắt video của bạn theo phạm vi mong muốn, sau đó trích xuất âm thanh. Hoặc trong FFmpeg CLI: ffmpeg -i input.mp4 -vn -ss 00:01:30 -to 00:03:45 -c:a libmp3lame -b:a 192k clip.mp3 trích xuất từ 1:30 đến 3:45.