视频 → 文字转录,免费

通过浏览器语音识别将视频中的语音转录为文字。支持 MP4、WebM、MOV 等格式。

您的视频文件始终保留在您的设备上
将视频文件拖到此处 或点击浏览

MP4、WebM、MOV、OGG、AVI

视频语音转文字究竟做了什么

视频转录意味着把录制的音频波形转换为文本。语音转文字引擎同时执行三项任务:声学建模(把声音频率映射到音素,即一种语言中最小的声音单元)、语言建模(决定哪些音素序列形成可能的词语以及哪些词语序列在所选语言中形成可能的句子)以及标点和大小写(在适当处插入逗号、句号和大小写)。现代引擎使用神经网络(声学模型在数万小时的标记语音上训练,语言模型在数十亿词的文本上训练)。结果是一个近似人类会写下的文本,质量取决于音频清晰度、口音与训练数据的匹配,以及说话者使用多少模糊的同音异义词。

本工具使用浏览器内置的 Web Speech API(具体是 SpeechRecognition 接口),这是 W3C 标准,暴露操作系统或浏览器供应商的识别引擎。在 Chrome 和 Edge 上 API 通常通过 Google 的云语音转文字服务路由音频进行处理(音频出去,转录返回);在 Firefox 和 Safari 上引擎在本地运行,质量特性略有不同。转录作为部分结果(随更多音频被处理而更新)和最终结果(已锁定的转录片段)序列返回。本工具在转录期间显示两者。

语言选择很重要。为英语调优的语音转文字引擎会把法语或普通话音频转录错误。下拉列表显示 20+ 种语言区域设置(en-US、en-GB、es-ES、fr-FR、de-DE、ja-JP、zh-CN 等)。选择与您说话者方言匹配的区域设置以获得最佳结果。剪辑中途的语言切换(单个视频含多种语言)通常产生差结果,因为引擎对整个会话提交一个声学/语言模型。

本工具的工作原理

当您拖入视频时,浏览器通过 URL.createObjectURL() 把它加载到 HTMLVideoElement 中,这保持文件本地。最初播放暂停,以便您选择语言并点击开始。

点击开始时,工具调用 new SpeechRecognition()(或 Chrome legacy 上的 webkitSpeechRecognition),设置 recognition.continuous = truerecognition.interimResults = true,把语言设为您选择的区域设置,并调用 recognition.start(),同时播放视频并把其音频路由到浏览器的音频输入管线。识别引擎按块消耗音频,并在转录时发出 result 事件。

每个 result 事件带有按置信度排名的备选数组。工具为每个最终结果取顶级备选并附加到可编辑的转录框。中间结果(仍在细化)以更浅的文本显示。当视频结束或您点击停止时,recognition.stop() 完成会话。导出选项把转录写成纯文本(.txt)或带合成时间戳的 SRT/VTT 字幕,全部在内存中构建并通过 blob 下载提供。

语音识别简史

工作原理

  1. 上传视频:从您的设备选择视频文件或粘贴视频 URL。
  2. 选择语言:选择视频中说的语言,以获得更好的转录精度。
  3. 开始转录:工具会提取音频并通过语音识别引擎处理以生成转录文字。
  4. 编辑与导出:审阅并修正转录文字,然后复制或下载为 .txt 或 .srt 字幕文件。

为什么使用视频 → 文字?

将视频转录为文字可提升可访问性(为聋人和听障人士提供字幕)、SEO(让视频内容可被搜索)和复用(将网络研讨会变成博客文章或课程材料)。手动转录通常每小时视频需要 4-6 小时。使用基于浏览器的工具进行自动转录能大幅缩短这一时间,同时保护隐私 · 视频从不离开您的设备。转录也可用于浏览内容、创建字幕、生成视频摘要并满足字幕合规要求。

输出格式

真实世界的转录工作流

常见陷阱及其含义

隐私:有细微差别

本工具比本站其他工具更有细微差别,所以隐私情况值得明确关注。视频文件本身从不离开您的设备:它作为本地 blob URL 加载到浏览器,在本地播放,从不上传。到目前为止很好。但 Web Speech API 在不同浏览器中实现不同。在 2026 年的 Chrome 和 Edge 上,API 通常把解码的音频发送到 Google 的云语音转文字服务进行转录处理;音频在传输中加密,按 Google 的政策不用于广告或训练,但它确实短暂离开您的设备。在 Firefox 和 Safari 上识别通常本地运行,没有音频离开设备,准确性略低。工具无法控制浏览器走哪条路径;那是浏览器级别的决定。

对敏感内容上可验证本地的转录,两个选项。第一,使用 Firefox 或 Safari 进行浏览器内本地识别(质量较低但完全本地)。第二,使用基于 Whisper 的桌面或 WebGPU 工具,本地运行 OpenAI 的开源模型;whisper.cpp、MacWhisper 以及 2026 年越来越多的基于浏览器的 Whisper 端口提供完全本地的高质量转录。对常规非敏感视频(公开讲座、休闲内容),本工具的 Chrome/Edge 云辅助路径方便且高质量。

何时另一个工具才是正确选择

其他常见问题

哪个浏览器给出最好的转录?

Chrome 和 Edge 通常具有最高准确性,因为它们使用 Google 的云语音引擎,该引擎在最大数据集上训练并定期更新。权衡是音频短暂离开您的设备。Firefox 对某些语言使用本地识别,准确性略低但完全本地。Safari 实现在 2025 年有所改进,但历史上语言覆盖有限。对非敏感内容的便利和准确性,选 Chrome。对可验证的本地性,选 Firefox 或本地 Whisper。

为什么转录有时重启或有间隙?

Web Speech API 把单个识别会话上限定在 5 至 15 分钟,取决于浏览器。对更长视频,工具透明地在后台重启会话。每次重启引入短暂间隙(小于一秒),其间可能丢失一两个词。对长视频,期望几次这种微间隙,并仔细审阅转录以填补或纠正。

我能生成 SRT 或 VTT 字幕吗?

可以。使用下载下拉菜单选 .srt 或 .vtt 格式。工具根据词数和平均说话速度(约每分钟 150 词)生成合成时间戳。对帧精确字幕计时,之后通过 Subtitle Edit 或 Aegisub 等工具运行 SRT,您可以按耳朵调整每行计时。或使用基于 Whisper 的工具,原生提供精确时间戳。

我应该期望什么词错误率?

对 Chrome 上没有背景噪声的清晰单说话者英语音频,期望 3 至 8% 词错误率(所以 1000 词转录有 30 至 80 个错或缺失词)。对更嘈杂音频或非母语说话者,10 至 25%。对多说话者纠缠对话,25%+。在发布前始终校对;从不发送原始转录作为最终内容。

有桌面或命令行的等效工具吗?

有。OpenAI Whisper(开源模型和 CLI)是离线转录的事实标准:whisper input.mp4 --language en --output_format srt。MacWhisper、BuzzWhisper 和 Whisper Notes 用友好的 UI 包装它。whisper.cpp 提供快速 C++ 实现。Google Speech-to-Text、AWS Transcribe 和 Deepgram 等云 API 提供按分钟付费访问更高层级的引擎。对最大质量的本地处理,Whisper 是答案。

引擎能处理代码切换(多种语言)吗?

处理得不好。Web Speech API 对每个会话提交一种语言区域设置。如果您的说话者混合英语和西班牙语,选 en-US 正确转录英语并搞乱西班牙语(反之亦然)。对多语言或代码切换音频,Whisper large-v3 在单次通过中处理多种语言并按片段检测语言;这目前是代码切换内容的最佳选择。

相关工具