オーディオトリマー

音声ファイルを正確な長さにカット&トリミングします。開始と終了を設定し、プレビューしてエクスポートします。アップロードなし、登録なし。

ファイルがデバイスを離れることはありません
ここに音声ファイルをドロップ またはクリックして参照

MP3、WAV、OGG、AAC、FLAC、M4A

仕組み

  1. 音声ファイルをロード: デバイスからMP3、WAV、OGG、FLAC、M4Aファイルを選択します。
  2. 開始点と終了点を設定: 波形上のハンドルをドラッグするか、保持するセグメントをマークするために正確なタイムスタンプを入力します。
  3. 選択範囲をプレビュー: エクスポート前にトリミングされたセグメントのみを再生します。
  4. クリップをダウンロード: トリミングされた音声をデバイスにエクスポート, サーバーへのアップロードなし。

Web Audio API の簡単な歴史

Web Audio API は Web ブラウザで音声を処理および合成するための W3C 標準化された JavaScript インターフェースです。これは Web ページがプラグインなしでメモリ内の MP3 をデコードし、波形を描画し、音声をフィルターを通してルーティングし、合成された音を再生することを可能にする基盤技術です。最初のプロトタイプは Apple の Chris Rogers が WebKit プロジェクトで2010年に構築しました。W3C Audio Working Group は2011年12月14日に最初の公開ワーキングドラフトを公開しました、約10年の改訂とブラウザ実装サイクルの後、W3C は Web Audio API を2021年6月17日に W3C 勧告として公開しました。勧告ドキュメントは Chris Rogers を「以前の仕様編集者およびこの仕様の元の著者」として明示的に認めています。3つのクラスがブラウザ側の音声ツールで作業の大部分を行います:AudioContext(最上位コンテナ)、AudioBuffer(デコードされた PCM 音声のメモリ内チャンク、チャンネルごとのデータが Float32Array として公開される)、AudioBufferSourceNode(一回限りの再生ノード)。完全なグラフモデルは多くの他のノードタイプ(gain、filter、panner、analyser、convolver、delay)をサポートし、ギターチューナーからシンセサイザーまで構築できます。このトリマーは波形視覚化のためにデコード部分(AudioContext.decodeAudioData())のみを使用します、実際のトリミングは ffmpeg.wasm を経由します。

サポートされている形式

WAV(1991、Microsoft + IBM)は Waveform Audio File Format、非圧縮の線形 PCM サンプルを含む RIFF コンテナです。CD 品質の WAV は毎秒 44,100 サンプル × 2 チャンネル × 16 ビット、つまり1分あたり約 10.1 MB を表します:WAV の4分の曲は約 40 MB の重さです。データチャンクサイズヘッダーは 32 ビットでエンコードされ、WAV ファイルを 4 GB に制限します、より長い録音には RF64 または W64 拡張が必要です。WAV は普遍的な交換フォーマットです、まさに非圧縮で、解析が簡単で、特許がないからです。MP3(ISO/IEC 11172-3、1993)は MPEG-1 Audio Layer III の通称です、ドイツ・エルランゲンの Fraunhofer Institute で開発され、Karlheinz Brandenburg、Heinz Gerhäuser、Bernhard Grill、Jürgen Herre、Harald Popp の主要な貢献を伴います。MP3 は2十年間特許に縛られていました、これらの特許の最後は2017年4月16日に米国で失効し、Fraunhofer は2017年4月23日に MP3 ライセンスプログラムの終了を正式に発表しました。この失効こそが無料でロイヤリティフリーの MP3 エンコーダ(libmp3lame、lamejs)をブラウザツールで予約なしに展開可能にしました。

AAC(ISO/IEC 13818-7、1997)と M4A: AAC は MP3 の後継として設計されました、同じビットレートでより良い品質。M4A は別個のコーデックではありません、それは音声のみを運ぶ MPEG-4 Part 14(.mp4)ファイルです。Apple は2003年4月28日に iTunes Music Store のローンチで .m4a 拡張子を普及させました、デフォルト購入フォーマットとして 128 kbps の AAC で。OGG Vorbis(Xiph.Org、2000-2002)は無料、オープン、特許のない非可逆コーデックです、1990年代後半の MP3 を取り巻く特許気候への Xiph の答え。リファレンスエンコーダ libvorbis は2002年7月にバージョン 1.0 に到達しました。Wikipedia、Spotify(元々)、無数のゲーム、Linux ディストリビューションが Vorbis を埋め込みます。FLAC(Free Lossless Audio Codec、Xiph.Org、2001年7月20日)は可逆圧縮します、デコード出力は入力とビット単位で同一です。典型的な圧縮はソース WAV サイズの 50-60%。FLAC は可逆音楽配信(Bandcamp、Qobuz、HDtracks、Internet Archive)の事実上のアーカイブフォーマットになりました。Opus(IETF RFC 6716、2012年9月)は決定的な現代のロイヤリティフリーコーデックです、Xiph.Org、Mozilla、Skype/Microsoft が共同設計、Skype の SILK 音声コーデックと Xiph の CELT 音楽コーデックを単一のコーデックに融合し、6 kbps の音声から 510 kbps のステレオ音楽まで全範囲で優れています。Opus は WebRTC で実装必須です。

ブラウザでの音声デコードの仕組み

4 MB の MP3 をトリムページにドロップすると、このシーケンスが完全にブラウザで展開します。FileReader.readAsArrayBuffer(file) がローカルディスクからバイトを JavaScript の ArrayBuffer に読み込みます、これはローカル読み取りで送信ではありません。ページは AudioContext を作成します(古い WebKit プレフィックスのフォールバック付き)。audioCtx.decodeAudioData(arrayBuffer) がブラウザのネイティブ音声デコーダ(通常はシステムコーデック)を非同期で実行し AudioBuffer を返します。AudioBuffergetChannelData(0) を公開し、−1.0 と +1.0 の間に正規化された左チャンネルサンプルの Float32Array を返します。44.1 kHz の 4 分のモノソースには、これは約 1060 万の浮動小数点、つまり 42 MB のメモリです。波形描画ルーチンはこの配列をダウンサンプリングしてキャンバスのピクセル列ごとに1つのピークを生成します。AudioContext は閉じられます、何もバッファを参照しないので、メモリは回収されます。実際のトリミングのために、ffmpeg.wasm は仮想ファイルシステムで元のエンコードされたバイトを操作します、Web Audio デコードは描画のためだけです。decodeAudioData がどのフォーマットを受け入れるかは、仕様ではなくホストブラウザに依存します。2026 年の実際:MP3 と WAV は普遍的にデコード、OGG Vorbis は Chrome、Firefox、最近の Safari バージョンで動作、AAC/M4A は Safari、Chrome、Edge、現代の Firefox、FLAC は2017年頃からすべての主要ブラウザ、Opus はすべての現代ブラウザ。

波形レンダリング、ピクセルあたりピーク技術

波形を描画するのは概念的にシンプルですが、間違えやすい。ここで使用される標準技術はmin/max エンベロープです:ピクセル単位のターゲット幅(キャンバス幅)を選択、ステップを samples.length / width として計算、各出力ピクセル列について、対応する step サンプルを反復してローカル最小値と最大値を見つける、最小値から最大値まで単一の垂直線を描画。結果はあらゆる現代の DAW で見られる慣れ親しんだミラーエンベロープの外観です。なぜ RMS や単一サンプルではなく min/max エンベロープか? ナイーブなアプローチ(「各ピクセルに1つのサンプルをプロット」)は過渡的詳細を失います、低サンプルが強い過渡を表すべきピクセルに落ちる可能性があり、欺瞞的にフラットな波形を生成します。RMS(root-mean-square)は知覚的に正しいラウドネス曲線を与えますが、ピーク情報を失います。Min/max エンベロープは少なくとも Pro Tools 以来 DAW UI を支配する視覚的妥協で、wavesurfer.js、peaks.js(BBC R&D、長い音声に注釈を付けるジャーナリスト用に設計)、Audacity の慣習のままです。ここでの実装は Retina スクリーンで波形をシャープに保つために devicePixelRatio を高密度スケーリングに使用します。正直な制限:getChannelData(0) は最初のチャンネルのみを返します、ステレオファイルは左チャンネルのみを表示します。トリミング自体は ffmpeg によって実行され、すべてのチャンネルを保持します。

サンプル正確トリムの数学

トリムは概念的にシンプルです:時刻 t_start と時刻 t_end の間のサンプルのみを含む新しいファイルを生成します。2つのパスが存在します。サンプルレベルアプローチは時刻をサンプルインデックスに変換(start_frame = round(t_start × sampleRate))、長さ end_frame − start_frame の新しい AudioBuffer を割り当て、サンプルをチャンネルごとにコピー、それから再エンコード:これは Web Audio API のみで行うことです。コンテナレベルトリム(このツールが FFmpeg を介して行うこと)は -ss start -to end を FFmpeg に渡します、それは選択した出力コーデックを介して再エンコードしてエンコードされたビットストリームをストリーム出力します。FFmpeg 駆動のトリミングはより堅牢です、エンコーダがフレーミング、ヘッダー、メタデータを処理するから、純粋な Web Audio パスは出力のために独自の MP3 または Vorbis エンコーダを書くことを要求し、それははるかに微妙です。サンプリングレートが重要:44.1 kHz は Compact Disc 標準であり音楽の支配的なレート、人間の聴覚のナイキスト限界(~20 kHz × 2 = 40 kHz 最小)を超え、初期 CD のマスタリングに使用された PAL/NTSC ビデオレコーダと互換性があるように選択されました。48 kHz は映画、テレビ、デジタルビデオの標準。16 kHz は音声認識と VoIP の事実上のレート、8 kHz は古典的な固定電話。96 kHz と 192 kHz は高解像度レート。このツールは FFmpeg を介して入力からサンプリングレートを継承し、明示的な必要性がない限り忠実度を保持します。インターフェースは10分の1秒(0:03.5)の時刻を受け入れます、FFmpeg は内部でサンプル正確です、つまり 0.1 秒の粒度は 44.1 kHz で約 4,410 サンプルに対応します、人間の知覚しきい値を遥かに下回ります。

なぜ lamejs ではなく ffmpeg.wasm か

ブラウザ側音声編集の最大の歴史的な難しさは MP3 のエンコードでした。デコードは無料です:ブラウザがそれを行います。エンコードには JavaScript または WebAssembly での MP3 エンコーダが必要です。2つのオプションが支配的です。lamejs は由緒ある LAME エンコーダの純粋 JavaScript ポートです(元々 GitHub の Andreas Krennmair / zhuker による、LAME C コードを JS への機械的トランスパイルによる)。利点は軽量フットプリント(~150 KB ミニファイ)と依存関係なし:単一の script タグで十分で、50 行のコードで MP3 をエンコードできます。欠点:MP3 のみ、API は気難しく、長いファイルでのパフォーマンスは低い、コンパイルされた WebAssembly ではなく解釈された JS だから。ffmpeg.wasm は FFmpeg の WebAssembly ビルド、音声/ビデオ処理の普遍的なスイスアーミーナイフです。利点:普遍性(FFmpeg がサポートするあらゆるコーデック、つまり MP3、WAV、OGG、AAC、FLAC、Opus、その他多数の難解なフォーマット、あらゆるコンテナ、あらゆる変換)。欠点:サイズ(WebAssembly バンドルは数 MB の重さ、lamejs 単独より遥かに大きい)。このツールは ffmpeg.wasm を使用します、共有された単一エンジンから3つの実際の出力コーデック(libmp3lame 経由の MP3、pcm_s16le 経由の WAV、libvorbis 経由の OGG)を、すべてに同じトリムメカニックで提供するからです、lamejs は出力を MP3 のみに制限したでしょう。トレードオフ:初回訪問時のバンドルサイズコスト。

一般的な使用例

正直な範囲、このツールが行わないこと

これは焦点を絞った単一ファイルのトリミングツールです、デジタル音声ワークステーションではありません。それが行わないこと、そしてより手の込んだ競合相手が処理すること:フェードインまたはフェードアウトなし(エクスポートされたクリップはトリムポイントで突然始まり終わる)、マルチトラックまたはミキシングなし(1つのファイルが入って1つのトリムされたファイルが出る)、エフェクトなし(EQ、コンプレッション、ノーマライゼーション、ノイズリダクション、リバーブなし)、1つのファイルを1パスで複数のクリップにスライスしない(3つのクリップには3回トリムする)、ゲインまたはボリューム調整なしトリムされたゾーンに制限された再生なし:音声プレーヤーは再生中に波形上のアニメーション再生ヘッドでソースファイル全体を再生します。マルチトラック、フェード、エフェクト、マスタリングには、Audacity(オープンソース、Dominic Mazzoni と Roger Dannenberg が2000年5月28日に Carnegie Mellon でリリース、2026年も活発に開発中)、Adobe Audition(商用)、または Reaper(商用、寛大な無料試用)を使用してください。インストール不要のワンオフトリムには、このツールが正しい形式です。プライバシーポジショニングは誠実です:音声録音は個人データで、しばしば識別可能な発話やプライベート空間からの背景ノイズを含みます、それらを「無料オンライン音声トリマー」にアップロードするのは、純粋なブラウザアーキテクチャが完全に廃止する実際のリスクです。

プライバシー、なぜこのアーキテクチャが音声に重要か

音声録音はほとんどのファイルより多くの識別情報を運びます。音声メモは識別可能な発話を含みます(声紋は一意に識別)。曲は著作権保護されたコンテンツの可能性があります。会議録音は機密の議論や個人的な医療詳細を含む可能性があります。サーバー側音声エディタはアップロードを必要とします、コピーがサーバーログに残り、おそらく CDN キャッシュ、おそらく分析パイプライン、おそらくバックアップに。普通の商業音楽には害はありません。音声メモ、会議録音、口述、ポッドキャストアウトテイク、家族の録音、または見知らぬ人のハードドライブにコピーされたくないものには、害があります。このツールはチェーン全体(ファイル選択、デコード、波形レンダリング、トリミング、再エンコード、ダウンロード)をブラウザでローカルに実行します。アップロードなし、API 呼び出しなし、ログトレースなし。トリミング中に DevTools の Network タブを開いて確認できます:発信リクエストに音声データを運ぶものはありません。FFmpeg WebAssembly バンドルが読み込まれた後、ページをオフライン(機内モード)にしてもツールは引き続き動作します、何もアップロードされていないことの最強の経験的証拠です。

よくある質問

どのフォーマットをインポートおよびエクスポートできますか?

入力: MP3、WAV、OGG(Vorbis)、AAC、FLAC、M4A、ブラウザの decodeAudioData が読める何でも。現代のブラウザはセット全体をカバーします。出力: MP3(LAME 可変ビットレート ~190 kbps、音楽のスイートスポット)、WAV(線形 16 ビット PCM、可逆)、OGG Vorbis(~160 kbps VBR、透明品質、特許なし)。エンコードとデコードはブラウザの ffmpeg.wasm を介して行われ、サーバーは関与しません。

ファイルサイズ制限はありますか?

サーバー側制限なし、アップロードがないからです。実用的な上限はデバイスの利用可能なメモリです:ファイルは波形表示のために JavaScript Float32Array にデコードされなければならず、44.1 kHz でモノラル 4 分ソースの処理中に約 42 MB の RAM を要求します。約 100 MB までのファイルは典型的なラップトップで快適に動作します、より長いファイル(マルチ時間ポッドキャスト、フルアルバム)はローエンドモバイルで遅くなったり失敗したりするかもしれません。ロードがハングしたら、より小さなファイルを試すかセグメントごとにトリムしてください。

トリムは音質を低下させますか?

WAV 出力には:いいえ、WAV は可逆なので、トリムされた領域はトリムポイント間でソースサンプルとビット単位で同一です。MP3 と OGG 出力には:ソースが再エンコードされるので、わずかな追加の量子化生成が加わります。ここで使用されるエンコーダ設定(MP3 の LAME VBR ~190 kbps、OGG の libvorbis 品質 5 ≈ 160 kbps)はほとんどのリスナーが感知するしきい値を遥かに上回ります。後でクリップを再編集する予定なら WAV を選んでください、配信用のコンパクトファイルには MP3 や OGG を選んでください。

ツールはフェードイン/フェードアウトをサポートしますか?

いいえ、トリムは両端でシャープです。フェード、マルチトラック、エフェクト、マスタリングには、Audacity(オープンソース、無料、クロスプラットフォーム、2000年5月28日 Carnegie Mellon でリリース)または Adobe Audition を使用してください。このツールは「クリーンにトリムされたクリップが必要なだけ」に正しい形式です、より手の込んだものには、適切な DAW が正しいツールです。

なぜ波形は1つのチャンネルだけを表示しますか?

波形は最初のチャンネル(ステレオファイルの左チャンネル)をピクセル列ごとに単一エンベロープとして描画します。両方のチャンネルを異なる色で描画すると画面スペースが2倍になるか、波形を重ね合わせる必要があり、両方のオプションは素早いスクラブ UI には単一チャンネル表示よりノイジーです。トリム自体はすべてのチャンネルを保持(FFmpeg はソースからそのままコピー)、ステレオ録音は出力でステレオのままです、極端に右パンされた詳細は視覚に現れないだけです。

音声ファイルはアップロードされますか?

いいえ。各ステップ(ファイル選択、デコード、波形レンダリング、トリミング、再エンコード、ダウンロード)はブラウザで JavaScript と ffmpeg.wasm を介してローカルに実行されます。アップロードなし、API 呼び出しなし、ログトレースなし。トリミング中に DevTools の Network タブを開いて確認できます。ffmpeg.wasm バンドルがロードされた後、ページをオフラインにしてもツールは引き続き動作します、何もアップロードされていないことの最強の証拠です。音声メモ、会議録音、医療口述、または見知らぬ人のハードドライブにコピーされたくない音声に安全です。

関連ツール