無料動画テキスト変換

ブラウザの音声認識を介して、動画ファイルから話された内容をテキストに文字起こしします。MP4、WebM、MOVなどで動作します。

動画ファイルはデバイスに残ります
ここに動画ファイルをドロップ またはクリックして参照

MP4、WebM、MOV、OGG、AVI

動画の音声文字起こしが実際に行うこと

動画の文字起こしとは、録音された音声波形をテキストに変換することです。音声認識エンジンは3つのタスクを同時に実行します。音響モデリング(音の周波数を音素、つまり言語の最小音単位にマッピングする)、言語モデリング(どの音素の並びが選択された言語で可能性の高い単語を形成し、どの単語の並びが可能性の高い文を形成するかを決定する)、そして句読点と大文字化(適切な箇所にカンマ、ピリオド、大文字を挿入する)です。最新のエンジンはニューラルネットワークを使用します(数万時間のラベル付き音声で訓練された音響モデル、数十億語のテキストで訓練された言語モデル)。結果は人間が書き取るであろうものに近い文字起こしで、品質は音声の明瞭さ、訓練データへのアクセント一致、話者が使う曖昧な同音異義語の数に依存します。

このツールはブラウザに組み込まれたWeb Speech API(具体的にはSpeechRecognitionインターフェース)、つまりOSまたはブラウザベンダーの認識エンジンを公開するW3C標準を使用します。ChromeとEdgeではAPIは通常、処理のためにGoogleのクラウド音声認識サービスを通じて音声をルーティングします(音声が出ていき、文字起こしが戻ってくる)。FirefoxとSafariではエンジンはローカルで動作し、品質特性はやや異なります。文字起こしは部分的な結果のシーケンス(より多くの音声が処理されるにつれての更新)と最終結果(確定した文字起こしセグメント)として返ってきます。このツールは文字起こし中に両方を表示します。

言語の選択は非常に重要です。英語向けに調整された音声認識エンジンはフランス語や中国語の音声を誤って文字起こしします。ドロップダウンには20以上の言語ロケール(en-US、en-GB、es-ES、fr-FR、de-DE、ja-JP、zh-CNなど)が表示されます。最良の結果のために話者の方言に一致するロケールを選択してください。クリップ途中での言語切り替え(複数言語を含む単一動画)は通常結果が悪くなります。なぜならエンジンはセッション全体で1つの音響モデルと言語モデルにコミットするからです。

このツールの内部での動作

動画をドロップすると、ブラウザはURL.createObjectURL()経由でHTMLVideoElementに読み込み、ファイルをローカルに保ちます。最初は再生が一時停止されているので、言語を選んで開始をクリックできます。

開始をクリックすると、ツールはnew SpeechRecognition()(レガシーChromeではwebkitSpeechRecognition)を呼び出し、recognition.continuous = truerecognition.interimResults = trueを設定し、言語を選択したロケールに設定し、recognition.start()を呼び出すと同時に動画を再生してその音声をブラウザの音声入力パイプラインにルーティングします。認識エンジンは音声をチャンクで消費し、文字起こしを行うにつれてresultイベントを発行します。

resultイベントは信頼度でランク付けされた代替候補の配列を運びます。ツールは各最終結果のトップ候補を取り、編集可能な文字起こしボックスに追加します。中間結果(まだ洗練中)は薄いテキストで表示されます。動画が終了するか停止をクリックすると、recognition.stop()がセッションを確定します。エクスポートオプションは文字起こしをプレーンテキスト(.txt)として、または合成タイムスタンプ付きでSRTやVTT字幕として書き出し、すべてメモリ内で構築されblobダウンロードで提供されます。

音声認識の簡単な歴史

仕組み

  1. 動画をアップロード: デバイスから動画ファイルを選択するか、動画URLを貼り付けます。
  2. 言語を選択: 文字起こしの精度を高めるために動画で話されている言語を選択します。
  3. 文字起こし: オーディオトラックが抽出され、音声認識エンジンによって処理されて文字起こしが生成されます。
  4. 編集してエクスポート: 文字起こしを確認して修正してから、コピーするか、.txtまたは.srt字幕ファイルとしてダウンロードします。

なぜ動画 → テキストを使うのか?

動画をテキストに文字起こしすると、アクセシビリティ(聴覚障害者向けの字幕)、SEO(動画から検索可能なコンテンツ)、再利用(ウェビナーをブログ記事やコース教材に変換)が向上します。手動で文字起こしを作成するには、動画1時間あたり約4〜6時間かかります。ブラウザベースのツールでの自動文字起こしは、プライバシーを保ちながらこの時間を大幅に削減します, 動画はデバイスを離れることはありません。文字起こしは、コンテンツの閲覧、字幕の作成、動画要約の生成、字幕に関するコンプライアンス要件への対応にも役立ちます。

出力形式

現実世界の文字起こしワークフロー

よくある落とし穴とその意味

プライバシー: 微妙

このツールはこのサイトの他のツールよりも微妙なので、プライバシーの絵は明示的な注意に値します。動画ファイル自体はデバイスを離れません。ブラウザにローカルブロブURLとして読み込まれ、ローカルで再生され、アップロードされません。ここまでは順調です。しかしWeb Speech APIはブラウザ間で異なって実装されています。2026年のChromeとEdgeでは、APIは通常、文字起こし処理のためにデコードされた音声をGoogleのクラウド音声認識サービスに送信します。音声は転送中に暗号化され、Googleのポリシーにより広告や訓練には使用されませんが、デバイスを短時間離れます。FirefoxとSafariでは認識は通常、音声がデバイスを離れることなくローカルで実行され、精度はわずかに低くなります。ツールはブラウザが取る経路を制御できません。それはブラウザレベルの決定です。

機密コンテンツでの検証可能なローカル文字起こしのために、2つのオプションがあります。第一に、ブラウザ内ローカル認識のためにFirefoxまたはSafariを使用します(品質は低いが完全にローカル)。第二に、OpenAIのオープンソースモデルをローカルで実行するWhisperベースのデスクトップまたはWebGPUツールを使用します。whisper.cpp、MacWhisper、そして増加するブラウザベースのWhisper移植は2026年時点で完全にローカルな高品質文字起こしを提供します。日常的な機密でない動画(公開講演、カジュアルなコンテンツ)では、このツールのChromeとEdgeのクラウド支援パスは便利で高品質です。

他のツールが正しい選択である場合

その他のよくある質問

どのブラウザが最良の文字起こしを提供しますか?

ChromeとEdgeは通常、最大のデータセットで訓練され定期的に更新されるGoogleのクラウド音声エンジンを使用するため最も高い精度を持ちます。トレードオフは音声が短時間デバイスを離れることです。Firefoxは一部の言語でローカル認識を使用し、精度はやや低くなりますが完全な局所性があります。Safariの実装は2025年まで改善されましたが歴史的には限られた言語カバレッジでした。機密でないコンテンツでの利便性と精度のためにはChrome。検証可能な局所性のためにはFirefoxまたはローカルWhisper。

なぜ文字起こしが時々再起動したりギャップがあるのですか?

Web Speech APIはブラウザに応じて個々の認識セッションを5から15分に制限します。長い動画では、ツールはバックグラウンドで透過的にセッションを再起動します。各再起動は短いギャップ(1秒未満)を導入し、その間に1語か2語が失われる可能性があります。長い動画では、これらのマイクロギャップの一握りを期待し、それらを埋めるか修正するために文字起こしを慎重にレビューしてください。

SRTまたはVTT字幕を生成できますか?

はい。ダウンロードドロップダウンを使用して.srtまたは.vtt形式を選択します。ツールは単語数と平均話速(約毎分150語)に基づいて合成タイムスタンプを生成します。フレーム精度の字幕タイミングには、その後Subtitle EditまたはAegisubのようなツールでSRTを実行し、行ごとのタイミングを耳で調整できます。または正確なタイムスタンプをネイティブに提供するWhisperベースのツールを使用してください。

どの単語誤り率を期待すべきですか?

Chromeで背景ノイズのない明瞭な単一話者の英語音声では、3から8%の単語誤り率(つまり1000語の文字起こしには30から80の間違ったまたは欠落した単語)を期待してください。よりノイズの多い音声や非ネイティブ話者では、10から25%。複数話者のもつれた会話では25%以上。公開前に常に校正してください。生の文字起こしを最終コンテンツとして決して出荷しないでください。

デスクトップまたはコマンドラインの同等品はありますか?

はい。OpenAI Whisper(オープンソースモデルとCLI)はオフライン文字起こしの事実上の標準です: whisper input.mp4 --language en --output_format srt。MacWhisper、BuzzWhisper、Whisper Notesがフレンドリーなインターフェースでラップします。whisper.cppは高速なC++実装を提供します。Google Speech-to-Text、AWS Transcribe、Deepgramのようなクラウド APIは高層エンジンへの分あたり課金アクセスを提供します。最大品質のローカル処理にはWhisperが答えです。

エンジンはコード切り替え(複数言語)を処理できますか?

うまくいきません。Web Speech APIはセッションごとに1つの言語ロケールにコミットします。話者が英語とスペイン語を混ぜる場合、en-USを選ぶと英語を正確に文字起こしし、スペイン語を破壊します(逆も同様)。多言語またはコード切り替え音声の場合、Whisper large-v3は単一パスで多くの言語を処理し、セグメントごとに言語を検出します。それが現在コード切り替えコンテンツの最良の選択肢です。

関連ツール