無料オンライン音声をテキストに変換

声を即座にテキストに変換します。アップロード不要、サインアップ不要、アカウント不要, 話すだけで文字起こしができます。

🔒 プライバシー:すべての処理はブラウザ内で行われます
単語数: 0
注意: このツールは音声認識に対応したモダンブラウザ(Chrome、Edge、Safari、Opera)が必要です。マイクロフォンへのアクセスが必要で、録音セッション中にのみ使用されます。

使い方

  1. マイクロフォンアクセスを許可: プロンプトが表示されたらブラウザのマイクロフォン権限を許可してください, 音声はローカルに留まり、サーバーに送られることはありません。
  2. 口述を開始: 開始をクリックして、はっきりと話してください。Web Speech APIが認識すると、リアルタイムで言葉が表示されます。
  3. トランスクリプトを編集: 認識されたテキストは完全に編集可能です, テキストエリアで直接エラーを修正してください。
  4. コピーまたはダウンロード: トランスクリプトをクリップボードにコピーするか、.txtファイルとしてダウンロードします。

なぜ音声からテキスト変換を使うのか?

音声口述はほとんどの人にとってタイピングより3~4倍高速で、长時間のキーボード使用による反復性ストレスを軽減します。Web Speech APIを使用したブラウザベースの音声認識は、現在ChromiumベースのブラウザとSafariで利用でき、バックエンドサービスなしで多くの言語に高精度を提供します。メール、ノート、ブログ投稿、フォーム入力の口述に使用できます, または聴いている音声の大まかなトランスクリプトを作成できます。アクセシビリティの面でも、音声入力は運動障害のあるユーザーやタイピングが困難な方々にとって不可欠です。

機能

ブラウザの音声認識が実際に行うこと

音声認識 (自動音声認識、ASRとも呼ばれる) は話された音声を書かれたテキストに変換します。現代のASRシステムは音響モデル (音がどのように音素にマッピングされるか)、言語モデル (実際の言語で単語と句がどのように繋がるか)、そして音声を与えられた最も可能性の高い単語シーケンスを見つけるデコーダを組み合わせます。2010年代の革命は深層学習でした: ニューラルネットワークが音響と言語のモデリングの両方で従来の隠れマルコフモデルを置き換え、クリーンな音声で約80%から協力的な単一話者音声で95%以上に精度を引き上げました。2022年までに、OpenAIのWhisperは単一の多言語モデルが99言語にわたって専門化されたシステムに匹敵または上回ることを実証しました。

このツールはブラウザのWeb Speech API、Chrome 25 (2013) で導入されたブラウザ内ASRのW3C標準を使用し、徐々にEdge、Safari、ほとんどのChromiumブラウザに追加されました。APIはマイクの音声をブラウザが実装する音声サービスにストリーミングするSpeechRecognitionオブジェクトを公開します: ChromeとEdgeはそれぞれ音声をGoogleとMicrosoftのクラウド音声サービスにルーティングし、iOS 17+とmacOS Sonoma+上のSafariはデバイス上で認識を実行します。FirefoxはWeb Speech APIをまったく実装していません。このプライバシーの区別は重要です: ツール自体はブラウザで動作し、あなたの音声を決して見ませんが、ChromeとEdgeは処理のために音声をGoogle/Microsoftのサーバーに送信します。

ほとんどのユーザーにとって、タイピングとのトレードオフは劇的です。オフィスワーカーの平均タイピング速度は1分あたり40〜60語; 平均音声速度は1分あたり130〜150語です。音声口述は最初のテキストを書き留めるのに2〜3倍高速ですが、その後の編集は通常依然としてタイピングです。音声入力はアクセシビリティでも重要です: 運動障害、反復性運動損傷、または一時的な傷害のあるユーザーは、タイピングが非現実的な場合に音声でテキストを生成できます。語学学習者にとって、システムがあなたの発話を正しく認識したかどうかを聞くことは発音についてのフィードバックを提供します。会議のキャプチャでは、リアルタイムの文字起こしが参加者と不在の同僚の双方を助けます。

このツールが内部でどのように動くか

「録音開始」をクリックすると、ページはSpeechRecognitionオブジェクト (または古いChromeではwebkitSpeechRecognition) を作成しstart()を呼び出します。ブラウザは以前に付与されていない場合マイクの許可を要求し、その後キャプチャした音声をシステム音声サービスにストリーミングし始めます。選択した言語タグ (例えばen-USfr-FRzh-CN) はサービスに渡され、適切な音響モデルと言語モデルをロードします。

ブラウザはページに2種類の結果を配信します: 暫定結果 (新しい音声が入ってくると毎秒5〜20回更新される部分的なベスト推測) と最終結果 (完全な発話の確定された文字起こし、典型的に話者が一瞬停止すると発行されます)。ツールのテキストエリアは暫定結果をより薄いスタイルで表示し、最終結果が到着するとそれらをロックします。単語カウンターは最終結果からのみ更新されるので、暫定推測が変わってもちらつきません。継続モード (チェックボックスオプション) は、長い沈黙の後にブラウザが終了させた場合に認識セッションを自動的に再開します。これはChromeでは一般的ですがSafariでは稀です。

停止すると、文字起こしはテキストエリアに残り、完全に編集可能です。コピーとダウンロードのボタンはテキストエリアのテキストに対して機能します; 両方ともサーバーの関与なしにローカルで起こります。ツール自体は決してあなたの音声や文字起こしをどこにも送信しません; 唯一のネットワーク活動はブラウザがGoogleやMicrosoftの音声サービスと通信するために内部的に行うこと (またはSafariではなし) です。あなたの文字起こしは決して保存されません: ページをリロードすると、最初にコピーまたはダウンロードしない限り消えます。

音声認識の簡単な歴史

実際のワークフロー

よくある落とし穴とその意味

プライバシー: 音声の取り扱いはブラウザによって異なる

このサイトの完全にクライアント側で実行されるほとんどのツールとは異なり、Web Speech APIのプライバシー特性はどのブラウザを使うかに依存します。ChromeとEdgeはあなたのマイク音声をGoogleとMicrosoftのクラウド音声認識サービスに送信します。両社は音声認識クエリ用に長期的に音声を保存しないと述べています (ユーザー訓練の音声プロファイルとは対照的に) が、音声はあなたのデバイスを離れ、彼らのネットワークを通過し、彼らのサーバーで処理されます。iOS 17+およびmacOS Sonoma+上のSafariはAppleのオンデバイスASRを使用して音声認識を完全にデバイス上で実行するので、あなたの音声はMacやiPhoneを離れません。古いSafariバージョンと他のAppleブラウザは異なる場合があります。

Absolutool自体は何も受け取りません。ページはブラウザの音声APIを呼び出し、ブラウザは音声を処理し (オンデバイスまたはベンダーのクラウドサービス経由)、結果の文字起こしテキストだけがページに戻ってきます。ツールはその後テキストを表示し、コピーまたはダウンロードを許可します; ページ自体によってサーバー呼び出しは行われません。機密コンテンツを扱うユーザーには、推奨されるアプローチは: (1) オンデバイス処理のために最近のApple deviceでSafariを使う、または (2) Whisperをローカルで実行するような専用のオフラインツールを使う、または (3) ChromeとEdgeがGoogle/Microsoftを介して音声をルーティングすることを受け入れ、機密でないコンテンツのためにのみ使うことです。

別のツールが正しい選択になるとき

その他のよくある質問

なぜ認識は1分後に止まるのですか?

ChromeとEdgeには、帯域幅を節約し偶発的な無期限録音を防ぐことを意図した、約30〜60秒後にWeb Speech認識セッションを終了する組み込みタイムアウトがあります。これが起こったときに認識を自動的に再開するために、ツールで継続モードを有効にしてください。継続モードはセッション間に短い一時停止 (通常1秒未満) を導入し、継ぎ目で時折見逃された単語が発生する可能性があります。Safariはタイムアウトなしで長いセッションをより優雅に処理します。

なぜ精度が期待したより低いのですか?

3つの要因: (1) あなたのアクセントが訓練データと異なる可能性があります; より近い言語バリアント (例えば、インド英語の場合en-IN、オーストラリアの場合en-AU) を試すことを検討してください。(2) バックグラウンドノイズ、マイクの距離、音声品質が重要です; 静かな部屋と近いマイクは95%+の精度を生み出し、ノイズの多い環境と遠いマイクは70%以下に落ちます。(3) 専門語彙 (技術用語、固有名詞、ブランド名) は一般的な音声よりも難しいです; 高精度のプロの口述には、Dragonの話者訓練とカスタム語彙はコストに値します。

音声で句読点を口述できますか?

このツールではできません。Web Speech APIは句読点の音声コマンドを解釈しません; ピリオドと言うと.の記号ではなくピリオドという単語が挿入されます。一部の専用口述ツール (Dragon、Apple Dictation、Windows Voice Access) は話された句読点コマンドを認識します。ブラウザベースの口述では、典型的なワークフローは: 単語を口述し、それからキーボードで編集パスで句読点を追加することです。現代の長文形式モデル (Whisper) は、しばしば音声パターンに基づいて自動的に句読点を追加します。

iPhoneで動作しますか?

はい、Safari経由でiOS 14.5以降で動作します。iOS 17はSafariのWeb Speech API実装を通じてオンデバイス音声認識をもたらし、あなたの音声はiPhoneを離れません。iPhoneまたはiPadでの持続的な口述には、システム全体のiOS口述 (キーボードのマイクアイコンをタップ) も使用でき、これはOS全体の任意のテキストフィールドで動作します。

なぜFirefoxはこれをサポートしないのですか?

Mozillaは、主にChromeとEdgeが使用するクラウドルーティングモデルに関するプライバシーの懸念と、プライバシーを保護する代替を実装するエンジニアリングの複雑さのために、FirefoxでWeb Speech APIを実装していません。Mozillaのバグトラッカー上のFirefoxユーザーは何年も音声サポートを要求してきました; Mozillaの公式立場は、意味のあるローカル音声認識には重要なリソースが必要であり、彼らはそれを優先していないというものです。今のところ、音声入力を求めるFirefoxユーザーはChrome、Edge、Safari、またはOSレベルの口述のようなシステム全体のソリューションを使うべきです。

事前に録音された音声ファイルを文字起こしできますか?

直接はできません。Web Speech APIはライブマイク入力のみを受け入れ、ファイルアップロードは受け入れません。録音されたファイルを文字起こしするには、回避策はコンピュータのスピーカーを通じて音声ファイルを再生する (またはSoundflowerやBlackHoleのような音声ルーティングソフトウェアを使用する) ことで、このツールはマイクを介して聞きます。これは音響歪みのために精度を多少失います。録音された音声の高品質文字起こしには、専用ツールを使ってください: Whisper (オフライン、無料)、Otter.ai、またはRevのような文字起こしサービス。時折の非公式な文字起こしには、再生-を-マイクを通すトリックが機能します。

関連ツール