無料動画から音声抽出ツール
動画ファイルから音声トラックを抽出します。MP3、WAV、AAC、OGG形式で書き出しできます。
動画ファイルをここにドラッグ&ドロップ
またはクリックして参照 · MP4、WebM、MOV、AVI、MKV(最大2 GB)
オーディオ抽出が実際に行うこと
ビデオファイルは複数のエレメンタリーストリームを保持するコンテナ(MP4、WebM、MOV、MKV、AVIなど)です: 通常1つのビデオストリーム、1つ以上のオーディオストリーム、時には字幕やチャプターマーカー。オーディオ抽出はデマックス操作です: コンテナが開かれ、オーディオストリームが読み取られ、新しいオーディオファイルに逐語的にコピー(ストリームコピー、ロスレスで高速)されるか、別のオーディオコーデックに再エンコード(トランスコード、わずかな品質コストで遅い)されます。FFmpegは-c:a copy対-c:a mp3/aac/opusフラグを通じて両方のモードを処理します。このツールはターゲット形式に基づいて自動的に正しいパスを選択します。
ビデオファイル内のオーディオコーデックは通常AAC(ほとんどのMP4)、Opus(新しいWebMおよびMKVファイル)、または時にはMP3(古いファイル)、AC-3(DVDスタイル)、PCM(MOV/AVIで非圧縮)です。それぞれが同じ波形データを表現する異なる方法です。それらの間の変換には生のPCMサンプルへのデコードとターゲットコーデックへの再エンコードが含まれます。ロッシーコーデック(AAC、MP3、Opus、Vorbis)はスペース節約のために聞こえない周波数とパターンを破棄します。ロスレスコーデック(FLAC、ALAC、WAV内の生のPCM)はすべてのサンプルを保持します。最もクリーンなオーディオが目標の場合、FLACまたはWAVに抽出してください。カジュアルなリスニング用のポータブルファイルが目標の場合、192 kbpsのMP3が普遍的なデフォルトです。
ビットレートはCRFのオーディオ版です: 1秒あたりオーディオに割り当てられるビット数。320 kbps MP3は、ほとんどのリスナーに"透明"(ブラインドテストでCD品質と区別できない)です。192 kbps MP3はほとんどの音楽ライブラリのデフォルトです。128 kbpsは音声/ポッドキャストでは許容されますが、音楽は聴覚的に劣化します。64 kbpsは音声のみの領域です。AACとOpusはより低いビットレートで同じ知覚品質を達成します(Opusは最も効率的です: 96 kbps Opusは音楽用の192 kbps MP3に匹敵します)。
このツールの内部での動作
他のビデオツールと同じffmpeg.wasmエンジン: Emscripten経由でWebAssemblyにコンパイルされたFFmpeg、約30 MBブラウザ側バイナリ、SharedArrayBufferマルチスレッディング経由でタブで完全に実行されます。ビデオをドロップすると、ファイルはストリーミングリーダー経由でWebAssembly仮想ファイルシステムに読み込まれます。
抽出コマンドは、192 kbpsのMP3の場合-i input.mp4 -vn -c:a libmp3lame -b:a 192k output.mp3のように見えます。-vnはビデオストリームを完全にドロップします。WAV(ロスレス)の場合: -i input.mp4 -vn -c:a pcm_s16le output.wav。AACの場合: -c:a aac -b:a 192k output.m4a。OGG/Opusの場合: -c:a libopus -b:a 128k output.opus。FFmpegに組み込まれたオーディオデコーダーは、ソース内のあらゆるコーデック(AAC、Opus、MP3、AC-3、FLACなど)を処理し、選択されたターゲットコーデックを出力します。
ソースオーディオコーデックとターゲットコーデックが一致する場合(ターゲットは通常MP3/WAVでソースは通常AACであるため、このツールではまれ)、ツールは再エンコードする代わりにストリームコピー(-c:a copy)を実行できます。ストリームコピーは元のビットを正確に保持し、1時間のビデオでも数秒で終了します。他のすべてのケースでは、ツールは再エンコードしますが、これはCPUに依存します。進行メッセージはFFmpegのstderrからストリームし、画面上のプログレスバーをリアルタイムで更新します。
オーディオコーデックと抽出の簡単な歴史
- MP3(MPEG-1 Layer III)、1993年。フラウンホーファー研究所がMP3仕様を公開します。この形式は1990年代後半から2000年代初頭の消費者向けオーディオシーンを支配します: Napster(1999)、iPod(2001)、iTunes Music Store(2003)。特許制限は2017年に最後のMP3特許が期限切れになるまで無料実装を制限しました。
- AAC(Advanced Audio Coding)、1997年。MPEG-2 Part 7そして後にMPEG-4 Part 3。MP3と同等の品質を低いビットレートで達成します。AppleはiTunes Music Store(2003)とiPhone(2007)にAACを採用します。AACはMP4コンテナのデフォルトオーディオコーデックになります。
- FLAC(Free Lossless Audio Codec)、2001年。ロスレス圧縮により生のオーディオサイズが約半分になります。アーカイブオーディオ、オーディオファイル配布、CDリッピングの標準になります。最初からオープンソースでロイヤリティフリーです。
- VorbisとOGGコンテナ、2000年代初頭。Xiph.Org FoundationはMP3のロイヤリティフリーの代替としてVorbisをOGGコンテナにパッケージ化して公開します。一部のゲーム(Quake III、Halo)やオープンソースプロジェクトに採用されますが、メインストリームの消費者採用には決して到達しません。
- Opus、2012年。IETFはOpusを標準化し、SILK(音声、Skypeから)とCELT(音楽)の要素を組み合わせます。低レイテンシーリアルタイムコミュニケーション(Discord、WebRTC、Zoom)の支配的なコーデックになり、ストリーミング(YouTube WebM、Spotify Web)にも増えています。96 kbpsで192 kbpsのMP3に匹敵します。
- ffmpeg.wasmおよびブラウザオーディオ抽出、2019年から2026年。Jerome Wuは2019年に最初のffmpeg.wasmを公開しました。2024年までに4.xラインはSharedArrayBufferマルチスレッディングで約30 MBに安定します。ビデオからのブラウザ側オーディオ抽出が実用的になり、個人使用のための多くのクラウドベースの抽出サービスを置き換えます。
使い方
- 動画をアップロード: 抽出したい音声を含む動画ファイル(MP4、WebM、MOV、AVI)を選択してください。
- 音声形式を選択: 出力形式としてMP3、WAV、OGG、またはAACを選択し、音質/ビットレートを設定してください。
- 抽出してダウンロード: 「音声を抽出」をクリックし、処理が完了したら音声ファイルをダウンロードしてください。
なぜ動画から音声抽出ツールを使うのか?
動画から音声を抽出するのはよくあるニーズです, 動画ファイルから音楽を取り出したり、録画からナレーション音声を取得したり、動画インタビューからポッドキャスト音声を保存したり、ゲームプレイ動画からコメントを抽出したりすることがあります。専用の音声ソフトウェアやコマンドラインツールはこの単純なタスクには過剰です。このブラウザベースのツールは、動画から音声トラックを取り出し、ソフトウェアのインストールなしで独立した音声ファイルとして保存します。
機能
- 複数の音声形式: MP3(汎用)、WAV(ロスレス)、OGG(オープン)、AAC(Apple/モバイル)として書き出します。
- ビットレート制御: 64 kbps(音声/ポッドキャスト)から320 kbps(高品質音楽)までの音質を選択できます。
- 音声のトリミング: 開始時間と終了時間を指定して、音声の一部だけを抽出することが可能です。
- チャンネルとサンプリングレート: モノ/ステレオやサンプリングレートの詳細設定で、特殊な音声用途に対応します。
- プライバシー最優先: 動画ファイルはブラウザ内でローカルに処理されます, サーバーにアップロードされることはありません。
現実世界の抽出ワークフロー
- ビデオポッドキャスト録音からオーディオを抽出する。多くのポッドキャストはビデオとオーディオを同時に録音します(Riverside、Zencastr、Zoomさえも)。オーディオトラックを抽出すると、ポッドキャストホスティングプラットフォームにアップロードする準備ができたポッドキャスト対応MP3が得られます。音声のみのコンテンツの場合、128 kbpsモノラルMP3で十分です。音楽の多いポッドキャストの場合、192から256 kbpsステレオです。
- オフラインリスニング用に講義オーディオを保存する。録画された講義、会議トーク、ウェビナーは必要以上にビデオが多いことがよくあります(スライドはほとんど変化しません)。オーディオだけを抽出するとファイルサイズが大幅に削減され(1時間1 GBのビデオが30 MBのMP3になります)、ビデオの消費なしで通勤やワークアウト中にリスニングできます。
- ミュージックビデオから音楽をリッピングする。時々あなたが持っている曲の唯一のバージョンはミュージックビデオにあります。高ビットレートMP3(256から320 kbps)またはロスレスのFLACに抽出すると、音楽ライブラリ用の再生可能なオーディオファイルが得られます。権利を持っているか、個人使用のみであることを確認してください。
- ボイスオーバーまたはナレーショントラックを保存する。高品質のボイスオーバーでビデオチュートリアルを録画し、オーディオだけを再利用したい場合(ポッドキャスト、オーディオブック、または別のビデオのために)、抽出によりスタンドアロンのオーディオファイルが得られ、別々にミックスまたはリマスターできます。
- ダビングまたは字幕用のオーディオトラック。翻訳者とダビングスタジオは、特に帯域幅やストレージが重要な場合、完全なビデオではなく抽出されたオーディオから作業することがよくあります。ロスレスWAVで抽出すると、翻訳/ダビングワークフローの最もクリーンなソースが得られます。
- 文字起こしサービスの前処理。ほとんどの自動文字起こしサービス(Whisper、Otter、Rev)は、ビデオのアップロードよりオーディオアップロードを速く受け入れます。アップロード前にMP3に抽出すると、時間と帯域幅が節約されます。オーディオのみの入力は、サーバー側でビデオデコードが不要なため、同じサービスでビデオよりも速く文字起こしされる傾向もあります。
よくある落とし穴とその意味
- ロッシーからロッシーへの再エンコードは品質損失を追加します。MP4からAACをMP3に抽出することは、ロッシーAACからロッシーMP3へのトランスコーディングを意味し、別の世代の量子化ノイズを追加します。結果はしばしば区別できませんが、わずかに劣化しています。純粋な保存のために、FLACまたはWAV(ロスレス)に抽出し、必要に応じて後でMP3に変換してください。
- ソースより高いビットレートは役立ちません。ビデオのオーディオが128 kbps AACでエンコードされている場合、320 kbps MP3に抽出してもソースになかった詳細は復元されません。ファイルが肥大化するだけです。ソースビットレートに合わせるか、さらに処理を予定している場合は少し高くしてください。劇的に高くするのは無駄なスペースです。
- サイレントビデオには抽出するオーディオがありません。マイクなしのスクリーン録画、タイムラプスビデオ、ノイズ分離条件で撮影されたドローン映像: これらにはオーディオストリームがまったく含まれていないか、純粋な沈黙のストリームが含まれている可能性があります。ツールはオーディオなしのケースを検出して通知します。純粋な沈黙ストリームの場合、抽出されたファイルは技術的に有効ですが聞こえません。
- マルチチャネルサラウンドトラックがステレオにダウンミックスされます。一部のビデオ(Blu-rayリップ、5.1会議録音)にはマルチチャネルサラウンドオーディオがあります。MP3またはAACに抽出すると通常ステレオにダウンミックスされ、空間分離が失われます。チャネルを保持するには、FLACまたはマルチチャネルAACに抽出してください。標準MP3にはネイティブのマルチチャネルサポートがありません。
- ID3タグは無料ではありません。ビデオファイルにはMP3スタイルのID3メタデータ(タイトル、アーティスト、アルバム、カバーアート)はありません。抽出されたMP3は空のタグで出てきます。タグを埋める必要がある場合は、抽出後にMp3tag(Windows)やMusicBrainz Picard(クロスプラットフォーム)のようなデスクトップツールを使用してタイトル、アーティスト、カバーアートを追加してください。
- DRM保護されたビデオはサポートされていません。Netflixダウンロード、Apple TV+ファイル、その他のDRM保護されたビデオは、このツール(またはどの消費者ツール)でも抽出できません。オーディオはコンテナで暗号化されています。抽出は所有している暗号化されていないファイルでのみ機能します。
プライバシー: あなたのビデオはデバイスを離れません
クラウド ビデオ to オーディオサービス(Online Audio Converter、Audio Extractor、Convertio、その他多数)はすべてあなたの完全なビデオをアップロードし、彼らのハードウェアでFFmpegを実行し、抽出されたオーディオを送り返します。200 MBの電話ビデオの場合、彼らのインフラを通じて200 MBアップロードと10から50 MBダウンロードです。オーディオコンテンツには、家族や同僚の声、会議からの会話、個人音楽、機密トピックのナレーションが一般的に含まれます。ほとんどの運営者は1から24時間以内にアップロードを削除し、転送中に暗号化することを約束するプライバシーポリシーを公開しており、主要なものはISO/IEC 27001認証を保有しています。それらのポリシーを尊重する強いビジネス上の理由があります。しかし"1時間以内に削除"は"見たことがない"ではありません。そのウィンドウの間、ファイルは運営者のインフラストラクチャ上にあり、適切な権限を持つあらゆるプロセスまたは人物がアクセス可能であり、運営者の保持ポリシーごとにログとバックアップで表示されます。
このツールは何もアップロードしません。完全なパイプライン(ファイル選択、ブラウザネイティブリーダー経由のデコード、ffmpeg.wasm WebAssembly経由の抽出、ブラウザのblob API経由のダウンロード)はあなたのブラウザタブ内で実行されます。アップロードなし、ビデオデータを運ぶネットワークリクエストなし、ログエントリなし。抽出前にネットワークタブでブラウザの開発者ツールを開くことで確認できます: ビデオコンテンツでリクエストは出ていきません。最初のページロードと約30 MBのffmpeg.wasm一回限りダウンロード(後続の訪問のためにキャッシュされる)のみがネットワークに触れます。ページロード後にブラウザを機内モードに設定すると、抽出器はローカルファイルで動作し続けます。
他のツールが正しい選択である場合
- 2 GBを超えるファイル。ブラウザメモリ制限は約2 GBを超えると壁になります。デスクトップFFmpeg CLIを使用:
ffmpeg -i big_video.mkv -vn -c:a copy big_audio.aacは、ディスクからストリーミングしコーデックが一致するときにストリームコピーを使用するため、どのファイルサイズでも数秒で動作します。 - マルチトラックオーディオ抽出。一部のビデオには複数のオーディオトラック(監督のコメンタリー、代替吹替言語、ナレーションバリアント)があります。FFmpeg CLIの
-map 0:a:Nは各トラックを明示的に選択します。ブラウザツールは通常デフォルトのオーディオトラックのみを抽出します。 - 多くのファイルのバッチ抽出。FFmpeg CLIを使用したシェルスクリプトは、1つのコマンドでフォルダを処理します:
for f in *.mp4; do ffmpeg -i "$f" -vn -c:a libmp3lame -b:a 192k "${f%.mp4}.mp3"; done。ブラウザツールを手動で100回実行するよりもはるかに高速です。 - 重いID3/メタデータワークフロー。抽出されたMP3に適切なID3タグ、カバーアート、歌詞、チャプターマーカーを添付する必要がある場合は、抽出後にMp3tag(Windows)またはMusicBrainz Picard(クロスプラットフォーム)を使用してください。これらにはブラウザツールにはない豊富なメタデータエディタがあります。
よくある質問
抽出された音声の品質は動画と同じですか?
はい、ロスレス形式(WAV)または動画の音声トラックと同じビットレートで抽出すれば同じです。動画の音声はすでにエンコードされているため、低いビットレートで再エンコードすると品質が低下します。最高の結果を得るには、WAVまたは最高ビットレートオプションを選択してください。
動画に音声トラックがない場合はどうなりますか?
動画に音声トラックがない場合、ツールが通知します。無音動画(マイクなしの画面録画など)には抽出できる音声データは含まれません。
YouTubeの動画から音声を抽出できますか?
このツールはお手元の動画ファイルで動作します。YouTube動画からのダウンロードや音声抽出はYouTubeの利用規約に違反する可能性があります。ご自身が所有するファイルまたは処理の許可を得たファイルをご利用ください。
その他のよくある質問
MP3、AAC、OGG、WAVの違いは何ですか?
MP3(1993)は普遍的なロッシー形式で、どこでも再生されます。AAC(1997)は同じ品質でMP3より効率的で、Appleデバイスのデフォルトです。OGG/Vorbis(2000年代初頭)はロイヤリティフリーのオープン代替です。Opus(2012)はその現代の後継者であり、音声と音楽のための最も効率的なロッシーコーデックです。WAVは非圧縮PCMです(巨大なファイルですがロスレス)。FLACはロスレス圧縮(品質損失なしでWAVの約半分のサイズ)です。共有用: MP3またはAAC。アーカイブ用: FLAC。編集用: WAV。
どのビットレートを選ぶべきですか?
音楽の場合: 192から320 kbpsのMP3またはAAC(320はほとんどのリスナーに透明で、192は事実上のライブラリのデフォルトです)。音声/ポッドキャストの場合: 64から128 kbpsモノラルで十分です(より小さなファイル、音声の品質損失なし)。アーカイブの場合: ビットレートを選ばず、ロスレス(FLACまたはWAV)を使用してください。ソースのオーディオビットレートより高いビットレートを選んでも役立ちません。一致するか少し高くするだけです。
抽出はロスレスかロッシーかになりますか?
ターゲット形式に依存します。WAVまたはFLACへの抽出はロスレスです: デコードされたソースのすべてのサンプルが保持されます。MP3、AAC、OGG、Opusへの抽出はロッシーです: エンコーダーはスペース節約のために聞こえない詳細を破棄します。ソースオーディオがすでにロッシーだった場合(ほとんどのMP4には内部にAACがあります)、ロスレス抽出でも"ロッシーソースのロスレスコピー"であり、元の録音の完全な再現ではありません。
なぜ抽出は時々ほぼ瞬時で、時々遅いのですか?
ソースオーディオコーデックがターゲットと一致する場合(ターゲットは通常MP3/WAVでソースは通常AACであるため、このツールではまれ)、ツールは再エンコードせずにコンテナを書き換えるだけのストリームコピーを実行できます。ストリームコピーはどのファイルサイズでも数秒で終了します。再エンコードはCPUに依存し、オーディオの持続時間に比例した時間がかかります: 一般的なラップトップでMP3/AACのリアルタイムの1から5倍です。
デスクトップまたはコマンドラインの同等物はありますか?
はい。FFmpeg CLI: ffmpeg -i input.mp4 -vn -c:a libmp3lame -b:a 192k output.mp3。ストリームコピー用: ffmpeg -i input.mp4 -vn -c:a copy output.m4a。VLCには内蔵FFmpegを通じてオーディオを抽出する変換/保存ダイアログがあります。Audacityはビデオをインポートして任意の形式でオーディオをエクスポートできます。これらはすべて同じ基盤コーデックを共有するため、このブラウザツールと本質的に同一の出力を生成します。
オーディオの一部だけを抽出できますか?
このツールでは、直接できません: 抽出は完全なオーディオトラックを処理します。セグメントを抽出するには、最初にビデオトリマーを使用してビデオを希望の範囲にカットしてからオーディオを抽出してください。またはFFmpeg CLIで: ffmpeg -i input.mp4 -vn -ss 00:01:30 -to 00:03:45 -c:a libmp3lame -b:a 192k clip.mp3は1:30から3:45まで抽出します。