無料オンライン音声をテキストに変換
声を即座にテキストに変換します。アップロード不要、サインアップ不要、アカウント不要, 話すだけで文字起こしができます。
使い方
- マイクロフォンアクセスを許可: プロンプトが表示されたらブラウザのマイクロフォン権限を許可してください, 音声はローカルに留まり、サーバーに送られることはありません。
- 口述を開始: 開始をクリックして、はっきりと話してください。Web Speech APIが認識すると、リアルタイムで言葉が表示されます。
- トランスクリプトを編集: 認識されたテキストは完全に編集可能です, テキストエリアで直接エラーを修正してください。
- コピーまたはダウンロード: トランスクリプトをクリップボードにコピーするか、.txtファイルとしてダウンロードします。
なぜ音声からテキスト変換を使うのか?
音声口述はほとんどの人にとってタイピングより3~4倍高速で、长時間のキーボード使用による反復性ストレスを軽減します。Web Speech APIを使用したブラウザベースの音声認識は、現在ChromiumベースのブラウザとSafariで利用でき、バックエンドサービスなしで多くの言語に高精度を提供します。メール、ノート、ブログ投稿、フォーム入力の口述に使用できます, または聴いている音声の大まかなトランスクリプトを作成できます。アクセシビリティの面でも、音声入力は運動障害のあるユーザーやタイピングが困難な方々にとって不可欠です。
機能
- リアルタイム文字起こし, 話すと同時に言葉が表示されます
- 多言語対応, 30を超える言語と方言
- 連続モード, クリックするために一時停止せずに口述できます
- プライバシーを最優先, 音声はブラウザによってローカルで処理されます
- 編集可能な出力, 認識エラーをインラインで修正
ブラウザの音声認識が実際に行うこと
音声認識 (自動音声認識、ASRとも呼ばれる) は話された音声を書かれたテキストに変換します。現代のASRシステムは音響モデル (音がどのように音素にマッピングされるか)、言語モデル (実際の言語で単語と句がどのように繋がるか)、そして音声を与えられた最も可能性の高い単語シーケンスを見つけるデコーダを組み合わせます。2010年代の革命は深層学習でした: ニューラルネットワークが音響と言語のモデリングの両方で従来の隠れマルコフモデルを置き換え、クリーンな音声で約80%から協力的な単一話者音声で95%以上に精度を引き上げました。2022年までに、OpenAIのWhisperは単一の多言語モデルが99言語にわたって専門化されたシステムに匹敵または上回ることを実証しました。
このツールはブラウザのWeb Speech API、Chrome 25 (2013) で導入されたブラウザ内ASRのW3C標準を使用し、徐々にEdge、Safari、ほとんどのChromiumブラウザに追加されました。APIはマイクの音声をブラウザが実装する音声サービスにストリーミングするSpeechRecognitionオブジェクトを公開します: ChromeとEdgeはそれぞれ音声をGoogleとMicrosoftのクラウド音声サービスにルーティングし、iOS 17+とmacOS Sonoma+上のSafariはデバイス上で認識を実行します。FirefoxはWeb Speech APIをまったく実装していません。このプライバシーの区別は重要です: ツール自体はブラウザで動作し、あなたの音声を決して見ませんが、ChromeとEdgeは処理のために音声をGoogle/Microsoftのサーバーに送信します。
ほとんどのユーザーにとって、タイピングとのトレードオフは劇的です。オフィスワーカーの平均タイピング速度は1分あたり40〜60語; 平均音声速度は1分あたり130〜150語です。音声口述は最初のテキストを書き留めるのに2〜3倍高速ですが、その後の編集は通常依然としてタイピングです。音声入力はアクセシビリティでも重要です: 運動障害、反復性運動損傷、または一時的な傷害のあるユーザーは、タイピングが非現実的な場合に音声でテキストを生成できます。語学学習者にとって、システムがあなたの発話を正しく認識したかどうかを聞くことは発音についてのフィードバックを提供します。会議のキャプチャでは、リアルタイムの文字起こしが参加者と不在の同僚の双方を助けます。
このツールが内部でどのように動くか
「録音開始」をクリックすると、ページはSpeechRecognitionオブジェクト (または古いChromeではwebkitSpeechRecognition) を作成しstart()を呼び出します。ブラウザは以前に付与されていない場合マイクの許可を要求し、その後キャプチャした音声をシステム音声サービスにストリーミングし始めます。選択した言語タグ (例えばen-US、fr-FR、zh-CN) はサービスに渡され、適切な音響モデルと言語モデルをロードします。
ブラウザはページに2種類の結果を配信します: 暫定結果 (新しい音声が入ってくると毎秒5〜20回更新される部分的なベスト推測) と最終結果 (完全な発話の確定された文字起こし、典型的に話者が一瞬停止すると発行されます)。ツールのテキストエリアは暫定結果をより薄いスタイルで表示し、最終結果が到着するとそれらをロックします。単語カウンターは最終結果からのみ更新されるので、暫定推測が変わってもちらつきません。継続モード (チェックボックスオプション) は、長い沈黙の後にブラウザが終了させた場合に認識セッションを自動的に再開します。これはChromeでは一般的ですがSafariでは稀です。
停止すると、文字起こしはテキストエリアに残り、完全に編集可能です。コピーとダウンロードのボタンはテキストエリアのテキストに対して機能します; 両方ともサーバーの関与なしにローカルで起こります。ツール自体は決してあなたの音声や文字起こしをどこにも送信しません; 唯一のネットワーク活動はブラウザがGoogleやMicrosoftの音声サービスと通信するために内部的に行うこと (またはSafariではなし) です。あなたの文字起こしは決して保存されません: ページをリロードすると、最初にコピーまたはダウンロードしない限り消えます。
音声認識の簡単な歴史
- Audrey、IBM 1952。ベル研究所が最初の音声認識システムAudreyを構築し、訓練された単一話者からの0〜9までの話された数字を認識できました。システムは部屋を埋め、1桁あたり数秒かかりました。IBMは1962年にShoeboxで続き、16個の話された英語の単語を認識します。
- 隠れマルコフモデル、1970年代と1980年代。IBM、CMU、ベル研究所の研究者が隠れマルコフモデル (HMM) を音声に適用し、精度と語彙サイズを劇的に向上させました。カーネギーメロンのHarpy (1976) は複数の話者から約1,000語を認識します。この技術は2010年まで音声認識の基盤として残ります。
- Dragon NaturallySpeaking、1997。Dragon SystemsがWindows PC用に最初の広く使用された商用口述ソフトウェアを発売します。話者訓練 (あなたの声に較正するために一節を声に出して読む) は30分かかります; 精度は最適な条件下で約95%に達します。2000年代を通じて法的文字起こし、医療口述、アクセシビリティのスタンダードになります。
- Apple Siri、2011。AppleがSiri Inc.を買収しiPhone 4Sに音声認識を統合します。初めて、音声認識は何億人ものユーザーが毎日アクセスする主流のコンシューマー機能となります。Google Now (2012) とAmazon Alexa (2014) が続きます。
- ブラウザでのWeb Speech API、2012〜2013。GoogleはChrome 25に
webkitSpeechRecognitionを追加し、まもなくW3C Web Speech APIとして標準化されます。Webページは、ネイティブアプリを必要とせずに、Google検索とNowを支えるのと同じ音声認識にアクセスできるようになります。採用はその後10年間でChrome、Edge、Safari、その他のChromiumブラウザに広がります。 - Whisperとオンデバイスのアクセシブルなアプリケーション、2022〜2024。OpenAIは2022年9月にWhisperをリリースし、680,000時間の音声で訓練されたオープンソースの多言語音声認識モデルです。99言語にわたって人間レベルの精度に近づきます。iOS 17とmacOS Sonoma (2023) でのAppleのオンデバイス口述は、AppleのサーバーにAudioを送信する必要をなくします。プライバシーを保護するオンデバイス音声認識への傾向が加速します。
実際のワークフロー
- メールとメッセージの口述。タイピングが遅い長文の書き込みでは、音声認識はキーボード入力の2〜3倍短い時間でコンテンツを下書きします。一般的なワークフロー: 最初の下書きを口述し、それから読み返してキーボードでエラーを修正します。メール、Slackメッセージ、ソーシャルメディアの投稿、アイデアがキーボードよりも口頭で流れる任意のテキストでうまく機能します。
- 会議や講義のノート取り。ラップトップをスピーカー (または自分) の近くに置き、会議または講義中に文字起こしを実行させます。出力は手書きのノートよりも多くの逐語的な詳細をキャプチャします。複数の話者とアクセントを持つ複雑な会議では、Otter.aiのような専用ツールがよりクリーンな文字起こしを生成します; ソロ講義では、ブラウザベースの口述で十分かつ無料です。
- 運動障害のためのアクセシビリティ。関節炎、反復性運動損傷、麻痺、または他の運動制限のあるユーザーにとって、音声入力は便利さではなく主要なアクセス方法です。ブラウザのWeb Speech APIはマイク付きの任意のデバイスで動作し、専門ハードウェアを必要とせず、即座に動作します。重度の使用には、専用のアクセシビリティツール (Dragon、Apple Voice Control、Windows Voice Access) がテキスト入力だけでなくOS自体の制御を含むより深いシステム統合を提供します。
- ジャーナリズムとインタビューの文字起こし。記者はインタビューの間に記事を下書きし、録音されたインタビューの粗い文字起こしを生成するために音声口述を使用します。ブラウザツールは完全な文字起こしサービスではありません (単一話者、単一音声ソース) が、編集できる出発点をくれというワークフローでは、再生から全文字起こしをタイプするのに比べて大幅な時間を節約します。
- 言語学習の発音フィードバック。学習している言語に言語を設定し、文を話し、システムが文字起こしした内容を読み返します。認識されたテキストが言おうとした内容と一致する場合、発音は明確でした; 異なる場合、どの音に作業が必要かについての具体的なフィードバックがあります。無料、即時、30以上の言語で動作します。
- 長いエントリのフォーム入力。求人応募、顧客フィードバックフォーム、または長いテキストフィールドを持つサポートチケットには、口述はページをナビゲートするために手を自由に保ちながらタイピングよりも速く出力を生成します。オンスクリーンキーボードが入力を遅くするタブレットや電話で特に役立ちます。回答を話し、フォームフィールドに貼り付け、それからレビューします。
よくある落とし穴とその意味
- アクセントとノイズは精度を下げる。音声認識モデルは主に特定のアクセントの種類 (一般的なアメリカ英語、RPブリティッシュなど) で訓練されています。強い地域アクセント、第二言語話者、バックグラウンドノイズは精度を95%+から70%以下に下げることができます。非標準アクセントの場合は、わずかにゆっくり明瞭に話し、マイクに近づき、Dragonのようなあなたのアクセントで訓練された専用ツールまたは話者適応のあるものを検討してください。
- 句読点は欠落しているか信頼性が低い。Web Speech APIは自動的に句読点を挿入しません; ピリオドまたは疑問符と言うと実際の単語が挿入され、句読点記号ではありません。一部の専門口述ツール (Dragon、Apple Dictation) は句読点の音声コマンドを解釈しますが、ブラウザAPIはそうではありません。口述後の編集パスで句読点を追加するように計画してください。
- ブラウザのタイムアウトはセッションを予期せず終了させる。Chromeは約30〜60秒の沈黙後または時には発話の途中で音声認識を終了します。ツールの継続モードオプションは認識を自動的に再開しますが、継ぎ目で短い一時停止または見逃された単語に気づくかもしれません。長い口述セッションでは時折のギャップを予想してください。Safariは長いセッションをより優雅に処理します。
- FirefoxはWeb Speech APIをサポートしない。Mozillaはプライバシーと複雑さの懸念を引用してFirefoxでWeb Speech APIを実装しないことを選択しました。Firefoxユーザーはこのツールを開くと音声認識がサポートされていませんと表示されます。アクセシビリティ依存のFirefoxユーザーにとって、これは重要なギャップです; Chrome、Edge、または専用のスクリーンリーダー統合ツールが必要です。
- ChromeとEdgeは音声をGoogleまたはMicrosoftに送る。このサイトのほとんどのブラウザツールとは異なり、ChromeとEdgeのWeb Speech APIはオンデバイスで実行されません; あなたの音声は処理のためにGoogleまたはMicrosoftの音声サービスに送信されます。機密コンテンツ (法的証言、医療口述、専有計画) の場合、これは意味のあるプライバシーの考慮事項です。Safari (iOS 17+およびmacOS Sonoma+でオンデバイス) を使うか、Whisperをローカルで実行するような専用のオフラインツールを使ってください。
- 同音異義語と固有名詞がモデルを混乱させる。Their / there / they're、to / too / two、Sean / Shawnのような名前は文脈から推測され、時には間違っています。技術専門用語、ブランド名、外国語、珍しい語彙は特にエラーが起こりやすいです。さらなるレビューなしに公開または送信されるコンテンツのために、特に校正することを計画してください。
プライバシー: 音声の取り扱いはブラウザによって異なる
このサイトの完全にクライアント側で実行されるほとんどのツールとは異なり、Web Speech APIのプライバシー特性はどのブラウザを使うかに依存します。ChromeとEdgeはあなたのマイク音声をGoogleとMicrosoftのクラウド音声認識サービスに送信します。両社は音声認識クエリ用に長期的に音声を保存しないと述べています (ユーザー訓練の音声プロファイルとは対照的に) が、音声はあなたのデバイスを離れ、彼らのネットワークを通過し、彼らのサーバーで処理されます。iOS 17+およびmacOS Sonoma+上のSafariはAppleのオンデバイスASRを使用して音声認識を完全にデバイス上で実行するので、あなたの音声はMacやiPhoneを離れません。古いSafariバージョンと他のAppleブラウザは異なる場合があります。
Absolutool自体は何も受け取りません。ページはブラウザの音声APIを呼び出し、ブラウザは音声を処理し (オンデバイスまたはベンダーのクラウドサービス経由)、結果の文字起こしテキストだけがページに戻ってきます。ツールはその後テキストを表示し、コピーまたはダウンロードを許可します; ページ自体によってサーバー呼び出しは行われません。機密コンテンツを扱うユーザーには、推奨されるアプローチは: (1) オンデバイス処理のために最近のApple deviceでSafariを使う、または (2) Whisperをローカルで実行するような専用のオフラインツールを使う、または (3) ChromeとEdgeがGoogle/Microsoftを介して音声をルーティングすることを受け入れ、機密でないコンテンツのためにのみ使うことです。
別のツールが正しい選択になるとき
- オフライン文字起こし用のWhisper。OpenAIのWhisper (オープンソース、無料) は一度ダウンロードしてからローカルマシンで完全に実行します。モデルは明確な音声に対して人間レベルに近い精度で99言語を処理します。Pythonまたは多くのGUIラッパー (Whisper Desktop、MacWhisper、Buzz) の一つと、リアルタイム操作のための合理的に強力なマシンが必要です。機密コンテンツ、オフライン操作、または録音された音声ファイルのバッチ文字起こしには、Whisperが正しいツールです。
- プロの口述用のDragon NaturallySpeaking。Dragon (現在Nuance/Microsoft所有、エディションによって200〜500ドル) は、話者訓練、カスタム語彙、句読点とフォーマット用の音声コマンド、Microsoft Wordおよび他のアプリとの深い統合を備えた、持続的なプロの口述に最高の精度を提供します。法的文字起こし、医療口述、または1日数時間口述する人には、価格は正当化されます。
- 複数話者会議の文字起こし用のOtter.ai。Otter.ai (フリーミアム、Proで月8.33ドル) は、話者ダイアライゼーション (誰が何を言ったかを知る)、自動句読点、要約、Zoom、Teams、Google Meetとの統合を備えた会議文字起こしを専門とします。属性が重要な複数の参加者を持つ会議には、Otterが正しいツールです。プライバシーのトレードオフ: 会議はOtterのサーバーに保存されます。
- システム全体の音声入力用のネイティブOS口述。Windows Voice Access、macOS Voice Control / 拡張口述、iOS / Androidシステム口述は、単一のWebページだけでなく、タイプできるどこでも動作します。OS全体で音声入力を必要とするアクセシビリティユーザーには、ネイティブ口述はブラウザツールよりも実用的です。macOS拡張口述とiOS 17+口述はオンデバイスです。
その他のよくある質問
なぜ認識は1分後に止まるのですか?
ChromeとEdgeには、帯域幅を節約し偶発的な無期限録音を防ぐことを意図した、約30〜60秒後にWeb Speech認識セッションを終了する組み込みタイムアウトがあります。これが起こったときに認識を自動的に再開するために、ツールで継続モードを有効にしてください。継続モードはセッション間に短い一時停止 (通常1秒未満) を導入し、継ぎ目で時折見逃された単語が発生する可能性があります。Safariはタイムアウトなしで長いセッションをより優雅に処理します。
なぜ精度が期待したより低いのですか?
3つの要因: (1) あなたのアクセントが訓練データと異なる可能性があります; より近い言語バリアント (例えば、インド英語の場合en-IN、オーストラリアの場合en-AU) を試すことを検討してください。(2) バックグラウンドノイズ、マイクの距離、音声品質が重要です; 静かな部屋と近いマイクは95%+の精度を生み出し、ノイズの多い環境と遠いマイクは70%以下に落ちます。(3) 専門語彙 (技術用語、固有名詞、ブランド名) は一般的な音声よりも難しいです; 高精度のプロの口述には、Dragonの話者訓練とカスタム語彙はコストに値します。
音声で句読点を口述できますか?
このツールではできません。Web Speech APIは句読点の音声コマンドを解釈しません; ピリオドと言うと.の記号ではなくピリオドという単語が挿入されます。一部の専用口述ツール (Dragon、Apple Dictation、Windows Voice Access) は話された句読点コマンドを認識します。ブラウザベースの口述では、典型的なワークフローは: 単語を口述し、それからキーボードで編集パスで句読点を追加することです。現代の長文形式モデル (Whisper) は、しばしば音声パターンに基づいて自動的に句読点を追加します。
iPhoneで動作しますか?
はい、Safari経由でiOS 14.5以降で動作します。iOS 17はSafariのWeb Speech API実装を通じてオンデバイス音声認識をもたらし、あなたの音声はiPhoneを離れません。iPhoneまたはiPadでの持続的な口述には、システム全体のiOS口述 (キーボードのマイクアイコンをタップ) も使用でき、これはOS全体の任意のテキストフィールドで動作します。
なぜFirefoxはこれをサポートしないのですか?
Mozillaは、主にChromeとEdgeが使用するクラウドルーティングモデルに関するプライバシーの懸念と、プライバシーを保護する代替を実装するエンジニアリングの複雑さのために、FirefoxでWeb Speech APIを実装していません。Mozillaのバグトラッカー上のFirefoxユーザーは何年も音声サポートを要求してきました; Mozillaの公式立場は、意味のあるローカル音声認識には重要なリソースが必要であり、彼らはそれを優先していないというものです。今のところ、音声入力を求めるFirefoxユーザーはChrome、Edge、Safari、またはOSレベルの口述のようなシステム全体のソリューションを使うべきです。
事前に録音された音声ファイルを文字起こしできますか?
直接はできません。Web Speech APIはライブマイク入力のみを受け入れ、ファイルアップロードは受け入れません。録音されたファイルを文字起こしするには、回避策はコンピュータのスピーカーを通じて音声ファイルを再生する (またはSoundflowerやBlackHoleのような音声ルーティングソフトウェアを使用する) ことで、このツールはマイクを介して聞きます。これは音響歪みのために精度を多少失います。録音された音声の高品質文字起こしには、専用ツールを使ってください: Whisper (オフライン、無料)、Otter.ai、またはRevのような文字起こしサービス。時折の非公式な文字起こしには、再生-を-マイクを通すトリックが機能します。