無料動画テキスト変換
ブラウザの音声認識を介して、動画ファイルから話された内容をテキストに文字起こしします。MP4、WebM、MOVなどで動作します。
MP4、WebM、MOV、OGG、AVI
注意: 音声認識の品質は、ブラウザと音声の明瞭度に依存します。ChromeとEdgeは通常、最良の結果を提供します。Web Speech APIは、処理のためにブラウザプロバイダーに音声データを送信する場合があります。
動画の音声文字起こしが実際に行うこと
動画の文字起こしとは、録音された音声波形をテキストに変換することです。音声認識エンジンは3つのタスクを同時に実行します。音響モデリング(音の周波数を音素、つまり言語の最小音単位にマッピングする)、言語モデリング(どの音素の並びが選択された言語で可能性の高い単語を形成し、どの単語の並びが可能性の高い文を形成するかを決定する)、そして句読点と大文字化(適切な箇所にカンマ、ピリオド、大文字を挿入する)です。最新のエンジンはニューラルネットワークを使用します(数万時間のラベル付き音声で訓練された音響モデル、数十億語のテキストで訓練された言語モデル)。結果は人間が書き取るであろうものに近い文字起こしで、品質は音声の明瞭さ、訓練データへのアクセント一致、話者が使う曖昧な同音異義語の数に依存します。
このツールはブラウザに組み込まれたWeb Speech API(具体的にはSpeechRecognitionインターフェース)、つまりOSまたはブラウザベンダーの認識エンジンを公開するW3C標準を使用します。ChromeとEdgeではAPIは通常、処理のためにGoogleのクラウド音声認識サービスを通じて音声をルーティングします(音声が出ていき、文字起こしが戻ってくる)。FirefoxとSafariではエンジンはローカルで動作し、品質特性はやや異なります。文字起こしは部分的な結果のシーケンス(より多くの音声が処理されるにつれての更新)と最終結果(確定した文字起こしセグメント)として返ってきます。このツールは文字起こし中に両方を表示します。
言語の選択は非常に重要です。英語向けに調整された音声認識エンジンはフランス語や中国語の音声を誤って文字起こしします。ドロップダウンには20以上の言語ロケール(en-US、en-GB、es-ES、fr-FR、de-DE、ja-JP、zh-CNなど)が表示されます。最良の結果のために話者の方言に一致するロケールを選択してください。クリップ途中での言語切り替え(複数言語を含む単一動画)は通常結果が悪くなります。なぜならエンジンはセッション全体で1つの音響モデルと言語モデルにコミットするからです。
このツールの内部での動作
動画をドロップすると、ブラウザはURL.createObjectURL()経由でHTMLVideoElementに読み込み、ファイルをローカルに保ちます。最初は再生が一時停止されているので、言語を選んで開始をクリックできます。
開始をクリックすると、ツールはnew SpeechRecognition()(レガシーChromeではwebkitSpeechRecognition)を呼び出し、recognition.continuous = trueとrecognition.interimResults = trueを設定し、言語を選択したロケールに設定し、recognition.start()を呼び出すと同時に動画を再生してその音声をブラウザの音声入力パイプラインにルーティングします。認識エンジンは音声をチャンクで消費し、文字起こしを行うにつれてresultイベントを発行します。
各resultイベントは信頼度でランク付けされた代替候補の配列を運びます。ツールは各最終結果のトップ候補を取り、編集可能な文字起こしボックスに追加します。中間結果(まだ洗練中)は薄いテキストで表示されます。動画が終了するか停止をクリックすると、recognition.stop()がセッションを確定します。エクスポートオプションは文字起こしをプレーンテキスト(.txt)として、または合成タイムスタンプ付きでSRTやVTT字幕として書き出し、すべてメモリ内で構築されblobダウンロードで提供されます。
音声認識の簡単な歴史
- Audrey、1952年。ベル研究所が最初の自動音声認識システムであるAudreyを構築し、訓練された単一話者が話した一桁の数字を認識できるようになりました。"語彙"は0から9でした。異なる話者では精度が急激に低下しました。
- DRAGON口述、1990年代。Dragon Systemsが消費者向けにDragon Dictate(1990年)とDragon NaturallySpeaking(1997年)をリリースし、ユーザーの声で訓練した後に約80から95%の精度で連続口述を可能にしました。単一話者と静かな環境に限定されました。
- Google音声検索、2008年。GoogleがiPhoneで音声検索を開始し、その後どこでも開始しました。数十億の音声クエリで訓練されたクラウドベースの認識により、ユーザーごとの訓練なしで話者非依存の認識が実用的になりました。"OK Google"と"Hey Siri"の時代が始まります。
- ディープラーニング革命、2012年。ヒントンらが画期的な論文を発表し、ディープニューラルネットワークが音響モデリングにおいて従来の隠れマルコフモデルアプローチを劇的に上回ることを示しました。単語誤り率は数年で25から30%から10%未満に低下しました。
- Web Speech API批准、2014年から2025年。W3CがWeb Speech API仕様を公開し、ブラウザベンダーの音声認識をJavaScriptに公開します。Chromeが最初にAPIを出荷し、Edge、Safari、Firefoxが続きます。実装は品質とプライバシー姿勢(クラウド対ローカル処理)で異なります。
- Whisperとオープンソース音声認識、2022年から2026年。OpenAIがWhisper(2022年)をリリース、これは68万時間の多言語データで訓練された15億パラメータのオープンソース自動音声認識モデルです。WebGPUは2024年から2026年にwhisper.cppのWASM移植でWhisperをブラウザにもたらし、クラウド呼び出しなしで完全にローカルな高品質文字起こしを提供します。
仕組み
- 動画をアップロード: デバイスから動画ファイルを選択するか、動画URLを貼り付けます。
- 言語を選択: 文字起こしの精度を高めるために動画で話されている言語を選択します。
- 文字起こし: オーディオトラックが抽出され、音声認識エンジンによって処理されて文字起こしが生成されます。
- 編集してエクスポート: 文字起こしを確認して修正してから、コピーするか、.txtまたは.srt字幕ファイルとしてダウンロードします。
なぜ動画 → テキストを使うのか?
動画をテキストに文字起こしすると、アクセシビリティ(聴覚障害者向けの字幕)、SEO(動画から検索可能なコンテンツ)、再利用(ウェビナーをブログ記事やコース教材に変換)が向上します。手動で文字起こしを作成するには、動画1時間あたり約4〜6時間かかります。ブラウザベースのツールでの自動文字起こしは、プライバシーを保ちながらこの時間を大幅に削減します, 動画はデバイスを離れることはありません。文字起こしは、コンテンツの閲覧、字幕の作成、動画要約の生成、字幕に関するコンプライアンス要件への対応にも役立ちます。
出力形式
- プレーンテキスト(.txt), ドキュメントとブログ記事用のクリーンな文字起こし
- SRT字幕(.srt), 動画プレーヤー用のタイムスタンプ付き字幕ファイル
- VTT字幕(.vtt), HTML5動画トラック用のWebVTT形式
- プライバシー第一, すべての処理はデバイスに残ります
現実世界の文字起こしワークフロー
- アクセシビリティのための字幕。ソーシャルメディア動画、研修資料、ウェビナー録画にキャプションを追加することで、聴覚障害者や難聴の視聴者をサポートし、公開コンテンツのADAやWCAGコンプライアンス要件を満たします。文字起こしをSRTまたはVTTとしてエクスポートし、動画ファイルと一緒にほとんどの最新プレーヤー(YouTube、Vimeo、カスタムHTML5プレーヤーでも)にアップロードします。
- 動画をブログ記事に再利用する。30分のインタビュー、ポッドキャスト、ウェビナーを文字起こしすると、3,000から5,000語のソース素材が得られます。軽く編集し、見出しと主張を加えれば、ブログ記事やLinkedIn記事になります。文字起こしは検索エンジンが動画にロックされた他のテキストコンテンツをインデックスできるためSEOにも役立ちます。
- 検索可能なアーカイブ。録画された会議、講義、研修セッションは文字起こしされると検索可能になります。何時間もの動画をスクラブする代わりに、"価格について議論した部分"を数秒で見つけられます。文字起こしを文書フォルダや知識ベースの動画と並べて保存します。
- マーケティングのための引用抽出。動画として撮影された顧客の証言や専門家のインタビューから引用可能な行を採掘できます。文字起こしは正確な言葉を浮かび上がらせます。その後、文脈のために動画を参照する引用カードやソーシャル投稿をデザインできます。その良い1文を見つけるために再視聴するより速いです。
- 言語学習の補助。外国語の動画を生成された文字起こしと一緒に見ることで、学習者は聞き逃した単語をキャッチできます。文字起こしの精度は完璧ではありませんが、正しく聞き取れた単語がエンジンが間違えた単語を固定するのに役立ちます。あまり一般的でない言語の学生にとって、文字起こしのエクスポートはAnkiのようなフラッシュカードツールに供給できます。
- 録画からの会議メモ。録画されたZoom、Teams、または対面の会議はフォローアップメモのために文字起こしできます。文字起こしを編集してアクションアイテム、決定、フォローアップのコミットメントを抽出します。会議中にメモを取るより簡単で、後で記憶に頼るより正確です。
よくある落とし穴とその意味
- アクセントと方言の不一致は精度を損ないます。主にアメリカ英語で訓練された音声エンジンは、インド英語、スコットランド英語、非ネイティブ話者でより多くのエラーを生成します。ロケールドロップダウンではen-GBかen-USを選べますが、強い地域アクセントのカバレッジは不均一です。中立的または訓練データに一致するアクセントの話者はより正確に文字起こしされます。
- 背景ノイズは品質を急速に低下させます。カフェの環境音、交通、ファン、対話の背後の音楽: それぞれがエラーを追加します。集中した人間のようにエンジンは音声をノイズから分離できません。クリーンなソース音声(良いマイク、最小限の背景)が最良の結果を出します。ノイズの多い映像では、10から25%の単語誤り率を期待してください。
- 複数の話者が重ねて話す。Web Speech APIは話者分離(誰が何を言ったかを分離する)を実行しません。話者が重ならない2人のインタビューは1つの流れる文字起こしとして許容できるほど文字起こしされます。3者パネルや論争の討論はもつれを生み出します。正確な複数話者文字起こしには、Whisperまたは分離を含むOtterのような有料サービスを使用してください。
- 同音異義語は推測されます。"Their"対"there"対"they're"、"to"対"too"対"two"、固有名詞対一般単語: エンジンは文脈から推測します。多くの場合うまく推測します。時々間違った同音異義語を選び、文字起こしには校正が必要です。公開前に常に文字起こしをレビューして編集してください。生のマシン出力を出荷しないでください。
- 技術用語と固有名詞はエンジンを混乱させます。ドメイン固有の用語(医学、法律、科学、ブランド名、キャラクター名)は訓練データで十分に表現されていなかったため、しばしば文字起こしが悪くなります。専門語彙を手動で修正することを期待してください。検索置換は体系的な誤転写の味方です。
- 長い動画は認識セッションの制限に達します。Web Speech APIはブラウザに応じて個々のセッションを5から15分に制限します。長い動画の場合、ツールは認識セッションを定期的に再起動します(短いギャップあり)。これにより各再起動で1語か2語が抜ける可能性があります。1時間の動画では一握りのマイクロギャップを期待してください。文字起こしを慎重にレビューしてください。
プライバシー: 微妙
このツールはこのサイトの他のツールよりも微妙なので、プライバシーの絵は明示的な注意に値します。動画ファイル自体はデバイスを離れません。ブラウザにローカルブロブURLとして読み込まれ、ローカルで再生され、アップロードされません。ここまでは順調です。しかしWeb Speech APIはブラウザ間で異なって実装されています。2026年のChromeとEdgeでは、APIは通常、文字起こし処理のためにデコードされた音声をGoogleのクラウド音声認識サービスに送信します。音声は転送中に暗号化され、Googleのポリシーにより広告や訓練には使用されませんが、デバイスを短時間離れます。FirefoxとSafariでは認識は通常、音声がデバイスを離れることなくローカルで実行され、精度はわずかに低くなります。ツールはブラウザが取る経路を制御できません。それはブラウザレベルの決定です。
機密コンテンツでの検証可能なローカル文字起こしのために、2つのオプションがあります。第一に、ブラウザ内ローカル認識のためにFirefoxまたはSafariを使用します(品質は低いが完全にローカル)。第二に、OpenAIのオープンソースモデルをローカルで実行するWhisperベースのデスクトップまたはWebGPUツールを使用します。whisper.cpp、MacWhisper、そして増加するブラウザベースのWhisper移植は2026年時点で完全にローカルな高品質文字起こしを提供します。日常的な機密でない動画(公開講演、カジュアルなコンテンツ)では、このツールのChromeとEdgeのクラウド支援パスは便利で高品質です。
他のツールが正しい選択である場合
- 完全にローカルな処理を必要とする機密コンテンツ。文字起こししている音声に弁護士依頼人特権素材、医療情報、社内の企業戦略、またはいかなる状況でもデバイスを離れてはならない他のコンテンツが含まれている場合、クラウドルーティングブラウザでWeb Speech APIを使用するのではなく、ローカルなWhisperベースのツール(MacWhisper、whisper.cppなど)を使用してください。
- 分離を必要とする複数話者会話。話者ラベル("Alice:"、"Bob:")には分離が必要で、Web Speech APIは提供しません。Otter.ai、Rev、Descript、またはpyannote分離付きのWhisperベースのツールを使用してください。ポッドキャスト、インタビュー、証言録取の分あたりのコストに値します。
- 技術コンテンツでの最大精度。医学、法律、科学領域向けに調整された専門音声エンジン(Nuance Dragon Medical、Lexile、Verbit)は専門用語でのエラー率がはるかに低くなります。エラーがコストをかけるミッションクリティカルな文字起こしでは、有料の専門サービスが無料の汎用ツールに勝ります。
- 非常に長い形式のコンテンツ(数時間)。数時間の文字起こし(全カンファレンス、終日の会議、法的手続き)では、有料サービスへのバッチアップロードがブラウザのセッション制限とその場限りの再起動に依存するよりも信頼性が高くなります。Otter、Rev、Trint、Descriptはすべて、このツールが遭遇するセッション中断なしに1時間以上のコンテンツを処理します。
その他のよくある質問
どのブラウザが最良の文字起こしを提供しますか?
ChromeとEdgeは通常、最大のデータセットで訓練され定期的に更新されるGoogleのクラウド音声エンジンを使用するため最も高い精度を持ちます。トレードオフは音声が短時間デバイスを離れることです。Firefoxは一部の言語でローカル認識を使用し、精度はやや低くなりますが完全な局所性があります。Safariの実装は2025年まで改善されましたが歴史的には限られた言語カバレッジでした。機密でないコンテンツでの利便性と精度のためにはChrome。検証可能な局所性のためにはFirefoxまたはローカルWhisper。
なぜ文字起こしが時々再起動したりギャップがあるのですか?
Web Speech APIはブラウザに応じて個々の認識セッションを5から15分に制限します。長い動画では、ツールはバックグラウンドで透過的にセッションを再起動します。各再起動は短いギャップ(1秒未満)を導入し、その間に1語か2語が失われる可能性があります。長い動画では、これらのマイクロギャップの一握りを期待し、それらを埋めるか修正するために文字起こしを慎重にレビューしてください。
SRTまたはVTT字幕を生成できますか?
はい。ダウンロードドロップダウンを使用して.srtまたは.vtt形式を選択します。ツールは単語数と平均話速(約毎分150語)に基づいて合成タイムスタンプを生成します。フレーム精度の字幕タイミングには、その後Subtitle EditまたはAegisubのようなツールでSRTを実行し、行ごとのタイミングを耳で調整できます。または正確なタイムスタンプをネイティブに提供するWhisperベースのツールを使用してください。
どの単語誤り率を期待すべきですか?
Chromeで背景ノイズのない明瞭な単一話者の英語音声では、3から8%の単語誤り率(つまり1000語の文字起こしには30から80の間違ったまたは欠落した単語)を期待してください。よりノイズの多い音声や非ネイティブ話者では、10から25%。複数話者のもつれた会話では25%以上。公開前に常に校正してください。生の文字起こしを最終コンテンツとして決して出荷しないでください。
デスクトップまたはコマンドラインの同等品はありますか?
はい。OpenAI Whisper(オープンソースモデルとCLI)はオフライン文字起こしの事実上の標準です: whisper input.mp4 --language en --output_format srt。MacWhisper、BuzzWhisper、Whisper Notesがフレンドリーなインターフェースでラップします。whisper.cppは高速なC++実装を提供します。Google Speech-to-Text、AWS Transcribe、Deepgramのようなクラウド APIは高層エンジンへの分あたり課金アクセスを提供します。最大品質のローカル処理にはWhisperが答えです。
エンジンはコード切り替え(複数言語)を処理できますか?
うまくいきません。Web Speech APIはセッションごとに1つの言語ロケールにコミットします。話者が英語とスペイン語を混ぜる場合、en-USを選ぶと英語を正確に文字起こしし、スペイン語を破壊します(逆も同様)。多言語またはコード切り替え音声の場合、Whisper large-v3は単一パスで多くの言語を処理し、セグメントごとに言語を検出します。それが現在コード切り替えコンテンツの最良の選択肢です。