免费在线语音转文字
立即将您的语音转换为文字。无需上传、无需注册、无需账户,只需说话并转写。
工作原理
- 允许麦克风访问: 在提示时授予浏览器麦克风权限,音频保留在本地,绝不发送到服务器。
- 开始听写: 点击“开始”并清晰地说话。当 Web Speech API 识别到您的语音时,文字将实时显示。
- 编辑转写文本: 识别出的文本完全可编辑,直接在文本区域中改正任何错误。
- 复制或下载: 将转写文本复制到剪贴板,或作为 .txt 文件下载。
为什么使用语音转文字?
对大多数人来说,语音听写比打字快 3 to 4 倍,并能减轻长时间使用键盘造成的重复性劳损。使用 Web Speech API 的基于浏览器的语音识别现在在基于 Chromium 的浏览器和 Safari 中可用,无需任何后端服务即可为许多语言提供高精度。使用它来听写电子邮件、笔记、博客文章和表单条目,或为您正在收听的音频创建粗略转写稿。在无障碍方面,语音输入对于有运动残疾或打字困难的用户来说至关重要。
功能
- 实时转写 , 说话时字词即时显示
- 多语言支持 , 超过 30 种语言和方言
- 连续模式 , 无需停顿点击即可听写
- 隐私优先 , 音频由浏览器在本地处理
- 可编辑输出 , 在行内修正识别错误
浏览器语音转文字的真正作用
语音识别(也称为自动语音识别,ASR)将说话的音频转换为书写文字。现代ASR系统结合声学模型(声音如何映射到音素)、语言模型(在真实语言中单词和短语如何组合)和解码器,找出给定音频最可能的单词序列。2010年代的革命是深度学习:神经网络替代了早期的隐马尔可夫模型用于声学和语言建模,将干净语音的准确度从约80%提升到合作单说话者音频的95%+。到2022年,OpenAI的Whisper证明单一多语言模型可以在99种语言上匹配或超过专业系统。
本工具使用浏览器的Web Speech API,2013年在Chrome 25引入的W3C浏览器内ASR标准,逐步添加到Edge、Safari和大多数Chromium浏览器。该API公开一个SpeechRecognition对象,将麦克风音频流式传输到浏览器实现的语音服务:Chrome和Edge将音频分别路由到Google和Microsoft的云语音服务,而iOS 17+和macOS Sonoma+上的Safari在设备上运行识别。Firefox完全不实现Web Speech API。这一隐私区别很重要:工具本身在你的浏览器中运行,从不看到你的音频,但Chrome和Edge确实将音频传输到Google/Microsoft服务器进行处理。
对大多数用户,与打字相比的权衡是显著的。办公室工作者的平均打字速度是每分钟40到60个单词;平均语速是每分钟130到150个单词。语音听写比初始文字输入快2到3倍,附带说明是事后编辑通常仍是打字。语音输入对无障碍也很重要:行动障碍、重复性劳损或暂时受伤的用户可以在打字不切实际时通过语音生产文字。对语言学习者,听系统是否正确识别你的语音提供发音反馈。对会议捕获,实时转录有助于参与者和缺席同事。
本工具的幕后运作
当你点击「开始录音」时,页面创建一个SpeechRecognition对象(或较旧Chrome中的webkitSpeechRecognition)并调用start()。如果之前未授予,浏览器请求麦克风权限,然后开始将捕获的音频流式传输到系统语音服务。你选择的语言标签(例如en-US、fr-FR、zh-CN)传递给服务,使其加载适当的声学和语言模型。
浏览器向页面传递两种类型的结果:临时结果(部分最佳猜测,随着新音频到来每秒更新5到20次)和最终结果(完整发音的锁定转录,通常在说话者短暂停顿时发出)。工具的文本区域以更浅样式显示临时结果,并在最终结果到达时锁定。单词计数器仅从最终结果更新,因此不会随临时猜测变化而闪烁。连续模式(一个复选框选项)在浏览器长时间静默后结束识别会话时自动重启,这在Chrome上常见但在Safari上罕见。
一旦你停止,转录保留在文本区域中,完全可编辑。复制和下载按钮作用于文本区域中的文本;两者都在本地发生,无服务器涉及。工具本身从不将你的音频或转录传输到任何地方;唯一的网络活动是浏览器内部与Google或Microsoft的语音服务通信(在Safari上则没有)。你的转录从不被存储:刷新页面,它就消失了,除非你先复制或下载了它。
语音识别简史
- Audrey,IBM 1952年。贝尔实验室构建了第一个语音识别系统「Audrey」,可以识别单个训练说话者的0到9说出的数字。该系统占满一个房间,每个数字需要几秒钟。IBM在1962年跟进Shoebox,识别16个说出的英语单词。
- 隐马尔可夫模型,1970年代和1980年代。IBM、CMU和贝尔实验室的研究人员将隐马尔可夫模型(HMM)应用于语音,戏剧性地提高了准确性和词汇量。卡内基梅隆的Harpy(1976)识别多个说话者的约1,000个单词。该技术一直是语音识别的基础直到2010年。
- Dragon NaturallySpeaking,1997年。Dragon Systems推出第一个广泛使用的Windows PC商业听写软件。说话者训练(朗读一段以校准到你的声音)需要30分钟;在最佳条件下准确性达到约95%。在2000年代成为法律转录、医疗听写和无障碍的标准。
- Apple Siri,2011年。Apple收购Siri Inc.并将语音识别集成到iPhone 4S。语音识别首次成为主流消费者功能,每天被数亿用户访问。Google Now(2012)和Amazon Alexa(2014)跟进。
- 浏览器中的Web Speech API,2012至2013年。Google在Chrome 25中添加
webkitSpeechRecognition,很快标准化为W3C Web Speech API。网页获得对推动Google搜索和Now的相同语音识别的访问,无需原生应用。在接下来的十年中,采用扩展到Chrome、Edge、Safari和其他Chromium浏览器。 - Whisper和设备上ASR,2022至2024年。OpenAI发布Whisper(2022年9月),一个在680,000小时音频上训练的开源多语言语音识别模型。在99种语言上接近人类水平的准确性。Apple在iOS 17和macOS Sonoma(2023)上的设备听写消除了将音频发送到Apple服务器的需要。设备上、保护隐私的语音识别趋势加速。
真实世界的工作流
- 听写电子邮件和消息。对于打字慢的较长写作,语音转文字以键盘输入2到3倍的时间起草内容。常见工作流:听写第一草稿,然后通读并用键盘纠正错误。适用于电子邮件、Slack消息、社交媒体帖子和任何想法在口头上比在键盘上更易流出的文字。
- 会议和讲座记笔记。将你的笔记本电脑放在扬声器(或自己)附近,让转录在会议或讲座期间运行。输出捕获比手写笔记可能的更多逐字详细信息。对于有多个说话者和口音的复杂会议,专门工具如Otter.ai产生更干净的转录;对于单独讲座,基于浏览器的听写就足够且免费。
- 行动障碍的无障碍。对于关节炎、重复性劳损、瘫痪或其他行动限制的用户,语音输入不是便利而是主要访问方法。浏览器Web Speech API在带麦克风的任何设备上工作,不需要专业硬件,立即运行。对于重度使用,专用无障碍工具(Dragon、Apple Voice Control、Windows Voice Access)提供更深的系统集成,包括控制OS本身而不仅是文本输入。
- 新闻业和采访转录。记者使用语音听写在采访间起草文章并产生录音采访的粗略转录。浏览器工具不是完整转录服务(单一说话者、单一音频源),但对于「给我一个我可以编辑的起点」工作流,与从回放中输入整个转录相比,它节省大量时间。
- 语言学习发音反馈。将语言设置为你正在学习的语言,说一个句子,然后回读系统转录的内容。如果识别的文本与你想说的匹配,你的发音是清晰的;如果不同,你对哪些声音需要努力得到具体反馈。免费、即时,在30多种语言中运行。
- 长条目的表单填写。对于带长文本字段的求职申请、客户反馈表或支持票,听写产生比打字更快的输出,同时保持你的双手自由以导航页面。在平板和手机上特别有用,屏幕键盘减慢输入。说出答案,粘贴到表单字段中,然后审查。
常见陷阱及其含义
- 口音和噪音降低准确性。语音识别模型主要在某些口音变种(一般美式英语、英式RP等)上训练。强烈的地区口音、第二语言说话者和背景噪音可能将准确性从95%+降到70%或更低。对于非标准口音,说话稍慢和清晰一些,靠近麦克风,并考虑专为你的口音训练的专用工具或带说话者适应的工具如Dragon。
- 标点符号缺失或不可靠。Web Speech API不自动插入标点符号;说「句号」或「问号」插入实际的单词,不是标点符号。某些专门的听写工具(Dragon、Apple Dictation)解释标点符号的语音命令,但浏览器API不解释。计划在听写后的编辑阶段添加标点符号。
- 浏览器超时意外结束会话。Chrome在约30至60秒静默后或有时在发音中间结束语音识别。工具的连续模式选项在此发生时自动重启识别,但你可能在接缝处注意到简短的暂停或漏字。对于长听写会话,预计偶尔的间隙。Safari更优雅地处理较长的会话。
- Firefox不支持Web Speech API。Mozilla选择不在Firefox中实现Web Speech API,引用隐私和复杂性问题。Firefox用户在打开此工具时看到「语音识别不支持」。对于依赖无障碍的Firefox用户,这是显著差距;需要Chrome、Edge或与屏幕阅读器集成的专用工具。
- Chrome和Edge将音频发送到Google或Microsoft。与本网站上的大多数浏览器工具不同,Chrome和Edge中的Web Speech API不在设备上运行;你的音频被传输到Google或Microsoft的语音服务进行处理。对于机密内容(法律陈述、医疗听写、专有规划),这是有意义的隐私考虑。使用Safari(在iOS 17+和macOS Sonoma+上是设备上的)或专用的离线工具如本地运行的Whisper。
- 同音字和专有名词使模型出错。「他们的/那里/他们是」、「到/也/二」、像「Sean/Shawn」这样的名字根据上下文猜测,有时错误。技术行话、品牌名称、外语和不常见词汇特别容易出错。计划校对,特别是对将被发布或不需进一步审查就发送的内容。
隐私:音频处理因浏览器而异
与本网站上大多数完全在客户端运行的工具不同,Web Speech API的隐私属性取决于你使用的浏览器。Chrome和Edge将你的麦克风音频传输到Google和Microsoft的云语音识别服务。两家公司都表示他们不长期存储语音识别查询的音频(与用户训练的语音配置文件相对),但音频确实离开你的设备、穿过他们的网络并在他们的服务器上处理。iOS 17+和macOS Sonoma+上的Safari使用Apple的设备上ASR完全在设备上运行语音识别,因此你的音频从不离开你的Mac或iPhone。较旧的Safari版本和其他Apple浏览器可能不同。
Absolutool本身不接收任何东西。页面调用浏览器的语音API,浏览器处理音频(在设备上或通过其供应商的云服务),只有结果转录文本返回到页面。然后工具显示文本并让你复制或下载它;页面本身不进行服务器调用。对于处理机密内容的用户,推荐的方法是:(1)在最近的Apple设备上使用Safari进行设备上处理,或(2)使用本地运行的专用离线工具如Whisper,或(3)接受Chrome和Edge通过Google/Microsoft路由音频,仅将它们用于非敏感内容。
什么时候另一个工具是正确选择
- Whisper用于离线转录。OpenAI的Whisper(开源、免费)在一次性下载后完全在你的本地机器上运行。该模型处理99种语言,对清晰音频的准确性接近人类水平。需要Python或许多GUI包装器之一(Whisper Desktop、MacWhisper、Buzz)以及合理强大的机器进行实时操作。对于机密内容、离线操作或批量转录录制的音频文件,Whisper是正确的工具。
- Dragon NaturallySpeaking用于专业听写。Dragon(现归Nuance/Microsoft所有,200至500美元,取决于版本)为持续的专业听写提供最高准确性,配有说话者训练、自定义词汇、标点和格式的语音命令以及与Microsoft Word等应用的深度集成。对于法律转录、医疗听写或每天听写数小时的任何人,价格是合理的。
- Otter.ai用于多说话者会议转录。Otter.ai(免费增值,Pro每月8.33美元)专门用于带说话者分离(知道谁说了什么)、自动标点、摘要以及与Zoom、Teams和Google Meet集成的会议转录。对于属性很重要的多参与者会议,Otter是正确的工具。隐私权衡:会议存储在Otter的服务器上。
- 原生OS听写用于系统范围的语音输入。Windows Voice Access、macOS Voice Control / 增强听写以及iOS / Android系统听写在你可以输入的任何地方工作,不仅在单个网页中。对于需要在整个OS中进行语音输入的无障碍用户,原生听写比浏览器工具更实用。macOS增强听写和iOS 17+听写在设备上。
更多常见问题
为什么识别在一分钟后停止?
Chrome和Edge有内置超时,在约30至60秒后结束Web Speech识别会话,旨在节省带宽和防止意外的无限期录制。在工具中启用连续模式以在此发生时自动重启识别。连续模式在会话之间引入简短的暂停(通常少于一秒),这可能导致接缝处偶尔漏字。Safari更优雅地处理较长的会话而无超时。
为什么准确性低于我的预期?
三个因素:(1)你的口音可能与训练数据不同;考虑尝试更接近的语言变体(例如en-IN代表印度英语,en-AU代表澳大利亚)。(2)背景噪音、麦克风距离和音频质量很重要;安静的房间和近距离麦克风产生95%+的准确性,而嘈杂的环境和远距离麦克风降到70%或更低。(3)专业词汇(技术术语、专有名词、品牌名称)比一般语音更难;对于高准确性专业听写,Dragon的说话者训练和自定义词汇值得成本。
我可以用语音口述标点符号吗?
在本工具中不能。Web Speech API不解释标点符号的语音命令;说「句号」插入「句号」一词,不是「.」标记。一些专用的听写工具(Dragon、Apple Dictation、Windows Voice Access)识别说出的标点命令。对于基于浏览器的听写,典型工作流是:口述单词,然后用键盘在编辑阶段添加标点。现代长篇模型(Whisper)通常基于语音模式自动添加标点。
这在iPhone上工作吗?
是的,在iOS 14.5及更高版本上通过Safari工作。iOS 17通过Safari的Web Speech API实现带来了设备上语音识别,因此你的音频从不离开你的iPhone。对于iPhone或iPad上的持续听写,你也可以使用系统范围的iOS听写(点击键盘上的麦克风图标),在OS的任何文本字段中工作。
为什么Firefox不支持这个?
Mozilla没有在Firefox中实现Web Speech API,主要由于对Chrome和Edge使用的云路由模型的隐私担忧,以及实现保护隐私的替代方案的工程复杂性。Mozilla的bug跟踪器上的Firefox用户多年来一直要求语音支持;Mozilla的官方立场是有意义的本地语音识别需要大量资源,他们没有优先考虑。目前,寻求语音输入的Firefox用户应该使用Chrome、Edge、Safari或像OS级别听写这样的系统范围解决方案。
我可以转录预录音频文件吗?
不直接。Web Speech API只接受实时麦克风输入,不接受文件上传。要转录录制的文件,变通方法是通过计算机的扬声器播放音频文件(或使用音频路由软件如Soundflower或BlackHole),同时此工具通过麦克风监听。由于声学失真,这会失去一些准确性。对于录制音频的高质量转录,使用专用工具:Whisper(离线、免费)、Otter.ai或像Rev这样的转录服务。对于偶尔的非正式转录,通过麦克风播放的技巧有效。