视频 → 文字转录,免费
通过浏览器语音识别将视频中的语音转录为文字。支持 MP4、WebM、MOV 等格式。
MP4、WebM、MOV、OGG、AVI
注意:语音识别质量取决于您的浏览器和音频清晰度。Chrome 和 Edge 通常效果最佳。Web Speech API 可能会将音频数据发送到浏览器提供商进行处理。
视频语音转文字究竟做了什么
视频转录意味着把录制的音频波形转换为文本。语音转文字引擎同时执行三项任务:声学建模(把声音频率映射到音素,即一种语言中最小的声音单元)、语言建模(决定哪些音素序列形成可能的词语以及哪些词语序列在所选语言中形成可能的句子)以及标点和大小写(在适当处插入逗号、句号和大小写)。现代引擎使用神经网络(声学模型在数万小时的标记语音上训练,语言模型在数十亿词的文本上训练)。结果是一个近似人类会写下的文本,质量取决于音频清晰度、口音与训练数据的匹配,以及说话者使用多少模糊的同音异义词。
本工具使用浏览器内置的 Web Speech API(具体是 SpeechRecognition 接口),这是 W3C 标准,暴露操作系统或浏览器供应商的识别引擎。在 Chrome 和 Edge 上 API 通常通过 Google 的云语音转文字服务路由音频进行处理(音频出去,转录返回);在 Firefox 和 Safari 上引擎在本地运行,质量特性略有不同。转录作为部分结果(随更多音频被处理而更新)和最终结果(已锁定的转录片段)序列返回。本工具在转录期间显示两者。
语言选择很重要。为英语调优的语音转文字引擎会把法语或普通话音频转录错误。下拉列表显示 20+ 种语言区域设置(en-US、en-GB、es-ES、fr-FR、de-DE、ja-JP、zh-CN 等)。选择与您说话者方言匹配的区域设置以获得最佳结果。剪辑中途的语言切换(单个视频含多种语言)通常产生差结果,因为引擎对整个会话提交一个声学/语言模型。
本工具的工作原理
当您拖入视频时,浏览器通过 URL.createObjectURL() 把它加载到 HTMLVideoElement 中,这保持文件本地。最初播放暂停,以便您选择语言并点击开始。
点击开始时,工具调用 new SpeechRecognition()(或 Chrome legacy 上的 webkitSpeechRecognition),设置 recognition.continuous = true 和 recognition.interimResults = true,把语言设为您选择的区域设置,并调用 recognition.start(),同时播放视频并把其音频路由到浏览器的音频输入管线。识别引擎按块消耗音频,并在转录时发出 result 事件。
每个 result 事件带有按置信度排名的备选数组。工具为每个最终结果取顶级备选并附加到可编辑的转录框。中间结果(仍在细化)以更浅的文本显示。当视频结束或您点击停止时,recognition.stop() 完成会话。导出选项把转录写成纯文本(.txt)或带合成时间戳的 SRT/VTT 字幕,全部在内存中构建并通过 blob 下载提供。
语音识别简史
- Audrey,1952 年。Bell Labs 构建 Audrey,第一个自动语音识别系统,能够识别单个训练说话者说出的单个数字。「词汇」是 0 到 9;对不同说话者的准确性急剧下降。
- DRAGON 听写,1990 年代。Dragon Systems 为消费者发布 Dragon Dictate(1990)和 Dragon NaturallySpeaking(1997),允许连续听写,在对用户声音训练后准确率约 80 至 95%。仅限单个说话者和安静环境。
- Google 语音搜索,2008 年。Google 在 iPhone 上推出语音搜索,然后到处推出。基于云的识别在数十亿语音查询上训练,使说话者无关识别在无需每用户训练的情况下变得实用。「OK Google」和「Hey Siri」时代开始。
- 深度学习革命,2012 年。Hinton 等发表突破性论文,显示深度神经网络在声学建模上戏剧性地超过传统隐马尔可夫模型方法。词错误率在几年内从 25 至 30% 降到 10% 以下。
- Web Speech API 获批,2014 至 2025 年。W3C 发布 Web Speech API 规范,向 JavaScript 暴露浏览器供应商的语音识别。Chrome 首先发布 API,然后是 Edge、Safari 和 Firefox。实现在质量和隐私姿态上各异(云 vs 本地处理)。
- Whisper 和开源 ASR,2022 至 2026 年。OpenAI 发布 Whisper(2022),一个 15 亿参数的开源自动语音识别模型,在 680,000 小时多语言数据上训练。WebGPU 在 2024 至 2026 年通过 whisper.cpp WASM 端口把 Whisper 带到浏览器,提供完全本地的高质量转录,无需云调用。
工作原理
- 上传视频:从您的设备选择视频文件或粘贴视频 URL。
- 选择语言:选择视频中说的语言,以获得更好的转录精度。
- 开始转录:工具会提取音频并通过语音识别引擎处理以生成转录文字。
- 编辑与导出:审阅并修正转录文字,然后复制或下载为 .txt 或 .srt 字幕文件。
为什么使用视频 → 文字?
将视频转录为文字可提升可访问性(为聋人和听障人士提供字幕)、SEO(让视频内容可被搜索)和复用(将网络研讨会变成博客文章或课程材料)。手动转录通常每小时视频需要 4-6 小时。使用基于浏览器的工具进行自动转录能大幅缩短这一时间,同时保护隐私 · 视频从不离开您的设备。转录也可用于浏览内容、创建字幕、生成视频摘要并满足字幕合规要求。
输出格式
- 纯文本(.txt) · 干净的转录,用于文档和博客文章
- SRT 字幕(.srt) · 带时间戳的字幕文件,适用于视频播放器
- VTT 字幕(.vtt) · 用于 HTML5 视频轨道的 WebVTT 格式
- 隐私优先 · 所有处理都留在您的设备上
真实世界的转录工作流
- 用于可访问性的字幕。为社交媒体视频、培训材料或网络研讨会录像添加字幕支持失聪和听障观众,并满足公共内容的 ADA/WCAG 合规要求。把转录导出为 SRT 或 VTT,然后随视频文件一起上传到大多数现代播放器(YouTube、Vimeo,甚至自定义 HTML5 播放器)。
- 把视频改成博客文章。30 分钟的采访、播客或网络研讨会转录后给您 3,000 至 5,000 词的源材料。轻微编辑、添加标题和主题,您就有了博客文章或 LinkedIn 文章。转录也有助于 SEO,因为搜索引擎可以索引否则锁在视频中的文字内容。
- 可搜索的存档。录制的会议、讲座或培训会话在转录后变得可搜索。您可以在几秒钟内找到「我们讨论定价的那部分」,而不必拖动几小时的视频。把转录与视频一起保存在文档文件夹或知识库中。
- 为营销提取引用。拍成视频的客户证言和专家采访可以挖掘出可引用的句子。转录浮现出确切的词;然后您可以设计一张引用卡或社交帖子,回链到视频提供背景。比为找一个好句子而重看快得多。
- 语言学习辅助。用生成的转录观看外语视频帮助学习者抓到他们错过的词。转录准确性不完美,但您正确听到的词帮助锚定引擎弄错的词。对学习较少见语言的学生,转录导出可以送入 Anki 等闪卡工具。
- 从录像生成会议笔记。录制的 Zoom、Teams 或亲自见面的会议可以转录用于跟进笔记。编辑转录以提取行动项、决定和跟进承诺。比开会时记笔记更容易,比事后依靠记忆更准确。
常见陷阱及其含义
- 口音和方言不匹配损害准确性。主要在美式英语上训练的语音引擎在印度英语、苏格兰英语或非母语说话者上会产生更多错误。区域设置下拉列表让您选 en-GB vs en-US,但对强地区口音的覆盖不均匀。中性或匹配训练数据口音的说话者转录更准确。
- 背景噪声迅速降低质量。咖啡馆环境音、交通、风扇、对话背后的音乐:每个都增加错误。引擎无法像专注的人那样把声音从噪音中分离。干净的源音频(好麦克风、最小背景)给出最佳结果。对噪音素材,期望 10 至 25% 的词错误率。
- 多个说话者互相重叠。Web Speech API 不执行说话者分离(区分谁说了什么)。两人采访说话者不重叠时可以接受地转录为一段流畅的转录。三方小组或激烈辩论产生混乱。对准确的多说话者转录,请使用 Whisper 或包含分离的付费服务如 Otter。
- 同音异义词被猜测。「their」vs「there」vs「they're」、「to」vs「too」vs「two」、专有名词 vs 常见词:引擎从上下文猜测。常常猜对。有时它选错同音异义词,您的转录需要校对。在发布前始终审阅和编辑转录;不要直接发送原始机器输出。
- 技术术语和专有名词混淆引擎。领域特定术语(医疗、法律、科学、品牌名、角色名)经常转录不佳,因为它们在训练数据中代表不足。预期手动修复专门词汇。查找替换是系统性错转的朋友。
- 长视频触及识别会话限制。Web Speech API 把单个会话上限定在 5 至 15 分钟,取决于浏览器。对更长视频,工具定期重启识别会话(带短暂间隙),这可能在每次重启时丢一两个词。对一小时长的视频,期望几次微间隙;仔细审阅转录。
隐私:有细微差别
本工具比本站其他工具更有细微差别,所以隐私情况值得明确关注。视频文件本身从不离开您的设备:它作为本地 blob URL 加载到浏览器,在本地播放,从不上传。到目前为止很好。但 Web Speech API 在不同浏览器中实现不同。在 2026 年的 Chrome 和 Edge 上,API 通常把解码的音频发送到 Google 的云语音转文字服务进行转录处理;音频在传输中加密,按 Google 的政策不用于广告或训练,但它确实短暂离开您的设备。在 Firefox 和 Safari 上识别通常本地运行,没有音频离开设备,准确性略低。工具无法控制浏览器走哪条路径;那是浏览器级别的决定。
对敏感内容上可验证本地的转录,两个选项。第一,使用 Firefox 或 Safari 进行浏览器内本地识别(质量较低但完全本地)。第二,使用基于 Whisper 的桌面或 WebGPU 工具,本地运行 OpenAI 的开源模型;whisper.cpp、MacWhisper 以及 2026 年越来越多的基于浏览器的 Whisper 端口提供完全本地的高质量转录。对常规非敏感视频(公开讲座、休闲内容),本工具的 Chrome/Edge 云辅助路径方便且高质量。
何时另一个工具才是正确选择
- 需要完全本地处理的敏感内容。如果您转录的音频包含律师-客户特权材料、医疗信息、公司内部战略或在任何情况下都不能离开您设备的其他内容,请使用基于 Whisper 的本地工具(MacWhisper、whisper.cpp 等),而不是在云路由浏览器中使用 Web Speech API。
- 需要说话者分离的多说话者对话。说话者标签(「Alice:」「Bob:」)需要分离,Web Speech API 不提供。使用 Otter.ai、Rev、Descript 或带 pyannote 分离的基于 Whisper 的工具。对播客、采访、证词每分钟成本是值得的。
- 技术内容上的最大准确性。为医疗、法律或科学领域调优的专门语音引擎(Nuance Dragon Medical、Lexile、Verbit)在其领域的错误率低得多。对错误成本钱的关键任务转录,付费专门服务击败免费通用工具。
- 非常长格式内容(数小时)。对多小时转录(整场会议、整天会议、法律程序),批量上传到付费服务比依赖浏览器会话限制和临时重启更可靠。Otter、Rev、Trint、Descript 都能处理一小时以上的内容,没有本工具遇到的会话中断。
其他常见问题
哪个浏览器给出最好的转录?
Chrome 和 Edge 通常具有最高准确性,因为它们使用 Google 的云语音引擎,该引擎在最大数据集上训练并定期更新。权衡是音频短暂离开您的设备。Firefox 对某些语言使用本地识别,准确性略低但完全本地。Safari 实现在 2025 年有所改进,但历史上语言覆盖有限。对非敏感内容的便利和准确性,选 Chrome。对可验证的本地性,选 Firefox 或本地 Whisper。
为什么转录有时重启或有间隙?
Web Speech API 把单个识别会话上限定在 5 至 15 分钟,取决于浏览器。对更长视频,工具透明地在后台重启会话。每次重启引入短暂间隙(小于一秒),其间可能丢失一两个词。对长视频,期望几次这种微间隙,并仔细审阅转录以填补或纠正。
我能生成 SRT 或 VTT 字幕吗?
可以。使用下载下拉菜单选 .srt 或 .vtt 格式。工具根据词数和平均说话速度(约每分钟 150 词)生成合成时间戳。对帧精确字幕计时,之后通过 Subtitle Edit 或 Aegisub 等工具运行 SRT,您可以按耳朵调整每行计时。或使用基于 Whisper 的工具,原生提供精确时间戳。
我应该期望什么词错误率?
对 Chrome 上没有背景噪声的清晰单说话者英语音频,期望 3 至 8% 词错误率(所以 1000 词转录有 30 至 80 个错或缺失词)。对更嘈杂音频或非母语说话者,10 至 25%。对多说话者纠缠对话,25%+。在发布前始终校对;从不发送原始转录作为最终内容。
有桌面或命令行的等效工具吗?
有。OpenAI Whisper(开源模型和 CLI)是离线转录的事实标准:whisper input.mp4 --language en --output_format srt。MacWhisper、BuzzWhisper 和 Whisper Notes 用友好的 UI 包装它。whisper.cpp 提供快速 C++ 实现。Google Speech-to-Text、AWS Transcribe 和 Deepgram 等云 API 提供按分钟付费访问更高层级的引擎。对最大质量的本地处理,Whisper 是答案。
引擎能处理代码切换(多种语言)吗?
处理得不好。Web Speech API 对每个会话提交一种语言区域设置。如果您的说话者混合英语和西班牙语,选 en-US 正确转录英语并搞乱西班牙语(反之亦然)。对多语言或代码切换音频,Whisper large-v3 在单次通过中处理多种语言并按片段检测语言;这目前是代码切换内容的最佳选择。