免费在线语音转文字

立即将您的语音转换为文字。无需上传、无需注册、无需账户,只需说话并转写。

🔒 使用您浏览器内置的语音识别
字数: 0
注意: 此工具需要支持语音识别的现代浏览器(Chrome、Edge、Safari、Opera)。需要麦克风访问权限,仅在您的录音会话期间使用。

工作原理

  1. 允许麦克风访问: 在提示时授予浏览器麦克风权限,音频保留在本地,绝不发送到服务器。
  2. 开始听写: 点击“开始”并清晰地说话。当 Web Speech API 识别到您的语音时,文字将实时显示。
  3. 编辑转写文本: 识别出的文本完全可编辑,直接在文本区域中改正任何错误。
  4. 复制或下载: 将转写文本复制到剪贴板,或作为 .txt 文件下载。

为什么使用语音转文字?

对大多数人来说,语音听写比打字快 3 to 4 倍,并能减轻长时间使用键盘造成的重复性劳损。使用 Web Speech API 的基于浏览器的语音识别现在在基于 Chromium 的浏览器和 Safari 中可用,无需任何后端服务即可为许多语言提供高精度。使用它来听写电子邮件、笔记、博客文章和表单条目,或为您正在收听的音频创建粗略转写稿。在无障碍方面,语音输入对于有运动残疾或打字困难的用户来说至关重要。

功能

浏览器语音转文字的真正作用

语音识别(也称为自动语音识别,ASR)将说话的音频转换为书写文字。现代ASR系统结合声学模型(声音如何映射到音素)、语言模型(在真实语言中单词和短语如何组合)和解码器,找出给定音频最可能的单词序列。2010年代的革命是深度学习:神经网络替代了早期的隐马尔可夫模型用于声学和语言建模,将干净语音的准确度从约80%提升到合作单说话者音频的95%+。到2022年,OpenAI的Whisper证明单一多语言模型可以在99种语言上匹配或超过专业系统。

本工具使用浏览器的Web Speech API,2013年在Chrome 25引入的W3C浏览器内ASR标准,逐步添加到Edge、Safari和大多数Chromium浏览器。该API公开一个SpeechRecognition对象,将麦克风音频流式传输到浏览器实现的语音服务:Chrome和Edge将音频分别路由到Google和Microsoft的云语音服务,而iOS 17+和macOS Sonoma+上的Safari在设备上运行识别。Firefox完全不实现Web Speech API。这一隐私区别很重要:工具本身在你的浏览器中运行,从不看到你的音频,但Chrome和Edge确实将音频传输到Google/Microsoft服务器进行处理。

对大多数用户,与打字相比的权衡是显著的。办公室工作者的平均打字速度是每分钟40到60个单词;平均语速是每分钟130到150个单词。语音听写比初始文字输入快2到3倍,附带说明是事后编辑通常仍是打字。语音输入对无障碍也很重要:行动障碍、重复性劳损或暂时受伤的用户可以在打字不切实际时通过语音生产文字。对语言学习者,听系统是否正确识别你的语音提供发音反馈。对会议捕获,实时转录有助于参与者和缺席同事。

本工具的幕后运作

当你点击「开始录音」时,页面创建一个SpeechRecognition对象(或较旧Chrome中的webkitSpeechRecognition)并调用start()。如果之前未授予,浏览器请求麦克风权限,然后开始将捕获的音频流式传输到系统语音服务。你选择的语言标签(例如en-USfr-FRzh-CN)传递给服务,使其加载适当的声学和语言模型。

浏览器向页面传递两种类型的结果:临时结果(部分最佳猜测,随着新音频到来每秒更新5到20次)和最终结果(完整发音的锁定转录,通常在说话者短暂停顿时发出)。工具的文本区域以更浅样式显示临时结果,并在最终结果到达时锁定。单词计数器仅从最终结果更新,因此不会随临时猜测变化而闪烁。连续模式(一个复选框选项)在浏览器长时间静默后结束识别会话时自动重启,这在Chrome上常见但在Safari上罕见。

一旦你停止,转录保留在文本区域中,完全可编辑。复制和下载按钮作用于文本区域中的文本;两者都在本地发生,无服务器涉及。工具本身从不将你的音频或转录传输到任何地方;唯一的网络活动是浏览器内部与Google或Microsoft的语音服务通信(在Safari上则没有)。你的转录从不被存储:刷新页面,它就消失了,除非你先复制或下载了它。

语音识别简史

真实世界的工作流

常见陷阱及其含义

隐私:音频处理因浏览器而异

与本网站上大多数完全在客户端运行的工具不同,Web Speech API的隐私属性取决于你使用的浏览器。Chrome和Edge将你的麦克风音频传输到Google和Microsoft的云语音识别服务。两家公司都表示他们不长期存储语音识别查询的音频(与用户训练的语音配置文件相对),但音频确实离开你的设备、穿过他们的网络并在他们的服务器上处理。iOS 17+和macOS Sonoma+上的Safari使用Apple的设备上ASR完全在设备上运行语音识别,因此你的音频从不离开你的Mac或iPhone。较旧的Safari版本和其他Apple浏览器可能不同。

Absolutool本身不接收任何东西。页面调用浏览器的语音API,浏览器处理音频(在设备上或通过其供应商的云服务),只有结果转录文本返回到页面。然后工具显示文本并让你复制或下载它;页面本身不进行服务器调用。对于处理机密内容的用户,推荐的方法是:(1)在最近的Apple设备上使用Safari进行设备上处理,或(2)使用本地运行的专用离线工具如Whisper,或(3)接受Chrome和Edge通过Google/Microsoft路由音频,仅将它们用于非敏感内容。

什么时候另一个工具是正确选择

更多常见问题

为什么识别在一分钟后停止?

Chrome和Edge有内置超时,在约30至60秒后结束Web Speech识别会话,旨在节省带宽和防止意外的无限期录制。在工具中启用连续模式以在此发生时自动重启识别。连续模式在会话之间引入简短的暂停(通常少于一秒),这可能导致接缝处偶尔漏字。Safari更优雅地处理较长的会话而无超时。

为什么准确性低于我的预期?

三个因素:(1)你的口音可能与训练数据不同;考虑尝试更接近的语言变体(例如en-IN代表印度英语,en-AU代表澳大利亚)。(2)背景噪音、麦克风距离和音频质量很重要;安静的房间和近距离麦克风产生95%+的准确性,而嘈杂的环境和远距离麦克风降到70%或更低。(3)专业词汇(技术术语、专有名词、品牌名称)比一般语音更难;对于高准确性专业听写,Dragon的说话者训练和自定义词汇值得成本。

我可以用语音口述标点符号吗?

在本工具中不能。Web Speech API不解释标点符号的语音命令;说「句号」插入「句号」一词,不是「.」标记。一些专用的听写工具(Dragon、Apple Dictation、Windows Voice Access)识别说出的标点命令。对于基于浏览器的听写,典型工作流是:口述单词,然后用键盘在编辑阶段添加标点。现代长篇模型(Whisper)通常基于语音模式自动添加标点。

这在iPhone上工作吗?

是的,在iOS 14.5及更高版本上通过Safari工作。iOS 17通过Safari的Web Speech API实现带来了设备上语音识别,因此你的音频从不离开你的iPhone。对于iPhone或iPad上的持续听写,你也可以使用系统范围的iOS听写(点击键盘上的麦克风图标),在OS的任何文本字段中工作。

为什么Firefox不支持这个?

Mozilla没有在Firefox中实现Web Speech API,主要由于对Chrome和Edge使用的云路由模型的隐私担忧,以及实现保护隐私的替代方案的工程复杂性。Mozilla的bug跟踪器上的Firefox用户多年来一直要求语音支持;Mozilla的官方立场是有意义的本地语音识别需要大量资源,他们没有优先考虑。目前,寻求语音输入的Firefox用户应该使用Chrome、Edge、Safari或像OS级别听写这样的系统范围解决方案。

我可以转录预录音频文件吗?

不直接。Web Speech API只接受实时麦克风输入,不接受文件上传。要转录录制的文件,变通方法是通过计算机的扬声器播放音频文件(或使用音频路由软件如Soundflower或BlackHole),同时此工具通过麦克风监听。由于声学失真,这会失去一些准确性。对于录制音频的高质量转录,使用专用工具:Whisper(离线、免费)、Otter.ai或像Rev这样的转录服务。对于偶尔的非正式转录,通过麦克风播放的技巧有效。

相关工具