Phiên âm video sang văn bản miễn phí
Phiên âm lời nói từ tệp video thành văn bản qua nhận dạng giọng nói của trình duyệt. Hoạt động với MP4, WebM, MOV và hơn thế.
MP4, WebM, MOV, OGG, AVI
Lưu ý: chất lượng nhận dạng giọng nói phụ thuộc vào trình duyệt của bạn và độ rõ ràng của âm thanh. Chrome và Edge thường cho kết quả tốt nhất. API Web Speech có thể gửi dữ liệu âm thanh đến nhà cung cấp trình duyệt để xử lý.
Chuyển giọng nói thành văn bản từ video thực sự làm gì
Phiên âm video có nghĩa là biến dạng sóng âm thanh được ghi thành văn bản. Một công cụ chuyển giọng nói thành văn bản thực hiện ba nhiệm vụ cùng một lúc: mô hình hóa âm học (ánh xạ tần số âm thanh tới âm vị, đơn vị âm thanh nhỏ nhất của một ngôn ngữ), mô hình hóa ngôn ngữ (quyết định chuỗi âm vị nào tạo thành các từ có khả năng và chuỗi từ nào tạo thành các câu có khả năng trong ngôn ngữ đã chọn), và dấu câu và viết hoa (chèn dấu phẩy, dấu chấm và viết hoa ở những nơi phù hợp). Các công cụ hiện đại sử dụng mạng nơ-ron (mô hình âm học được huấn luyện trên hàng chục nghìn giờ giọng nói có nhãn, mô hình ngôn ngữ được huấn luyện trên hàng tỷ từ văn bản). Kết quả là một bản phiên âm gần đúng với những gì con người sẽ viết ra, với chất lượng phụ thuộc vào độ rõ của âm thanh, sự khớp giọng với dữ liệu huấn luyện và số lượng từ đồng âm mơ hồ mà người nói sử dụng.
Công cụ này sử dụng Web Speech API tích hợp trong trình duyệt (cụ thể là giao diện SpeechRecognition), tiêu chuẩn W3C phơi bày công cụ nhận dạng của hệ điều hành hoặc nhà cung cấp trình duyệt. Trên Chrome và Edge, API thường định tuyến âm thanh qua dịch vụ chuyển giọng nói thành văn bản đám mây của Google để xử lý (âm thanh đi ra, bản phiên âm quay lại); trên Firefox và Safari, công cụ chạy cục bộ với đặc tính chất lượng hơi khác. Bản phiên âm trở lại dưới dạng một chuỗi kết quả một phần (cập nhật khi có thêm âm thanh được xử lý) và kết quả cuối cùng (các đoạn đã phiên âm cố định). Công cụ này hiển thị cả hai trong quá trình phiên âm.
Việc chọn ngôn ngữ rất quan trọng. Một công cụ chuyển giọng nói thành văn bản được điều chỉnh cho tiếng Anh sẽ phiên âm sai âm thanh tiếng Pháp hoặc tiếng Quan Thoại. Menu thả xuống hiển thị hơn 20 ngôn ngữ địa phương (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN và nhiều hơn nữa). Chọn ngôn ngữ địa phương phù hợp với phương ngữ của người nói để có kết quả tốt nhất. Việc chuyển đổi ngôn ngữ giữa clip (một video duy nhất với nhiều ngôn ngữ) thường cho kết quả kém vì công cụ cam kết với một mô hình âm học và ngôn ngữ cho toàn bộ phiên.
Cách công cụ này hoạt động bên trong
Khi bạn thả một video, trình duyệt tải nó vào HTMLVideoElement qua URL.createObjectURL() giữ tệp ở cục bộ. Phát lại được tạm dừng ban đầu để bạn có thể chọn ngôn ngữ và nhấp vào Bắt đầu.
Khi nhấp vào Bắt đầu, công cụ gọi new SpeechRecognition() (hoặc webkitSpeechRecognition trên Chrome cũ), đặt recognition.continuous = true và recognition.interimResults = true, đặt ngôn ngữ theo địa phương đã chọn của bạn và gọi recognition.start() trong khi đồng thời phát video với âm thanh được định tuyến đến đường ống đầu vào âm thanh của trình duyệt. Công cụ nhận dạng tiêu thụ âm thanh theo từng khối và phát ra các sự kiện result khi phiên âm.
Mỗi sự kiện result mang theo một mảng các lựa chọn thay thế được xếp hạng theo độ tin cậy. Công cụ lấy lựa chọn hàng đầu cho mỗi kết quả cuối cùng và nối nó vào hộp phiên âm có thể chỉnh sửa. Kết quả tạm thời (vẫn đang được tinh chỉnh) hiển thị bằng văn bản nhạt hơn. Khi video kết thúc hoặc bạn nhấp vào Dừng, recognition.stop() hoàn thành phiên. Các tùy chọn xuất ghi bản phiên âm dưới dạng văn bản thuần (.txt) hoặc với dấu thời gian tổng hợp dưới dạng phụ đề SRT hoặc VTT, tất cả đều được xây dựng trong bộ nhớ và được cung cấp qua tải xuống blob.
Lịch sử ngắn gọn về nhận dạng giọng nói
- Audrey, 1952.Bell Labs xây dựng Audrey, hệ thống nhận dạng giọng nói tự động đầu tiên, có khả năng nhận dạng các chữ số đơn được nói bởi một người nói được huấn luyện duy nhất. "Vốn từ vựng" là từ 0 đến 9; độ chính xác giảm mạnh với những người nói khác nhau.
- Đọc chính tả DRAGON, thập niên 1990.Dragon Systems phát hành Dragon Dictate cho người tiêu dùng (1990) và Dragon NaturallySpeaking (1997), cho phép đọc chính tả liên tục với độ chính xác khoảng 80 đến 95% sau khi huấn luyện trên giọng nói của người dùng. Hạn chế ở người nói đơn lẻ và môi trường yên tĩnh.
- Tìm kiếm bằng giọng nói Google, 2008.Google ra mắt tìm kiếm bằng giọng nói trên iPhone, sau đó ở khắp mọi nơi. Nhận dạng dựa trên đám mây được huấn luyện trên hàng tỷ truy vấn giọng nói làm cho nhận dạng độc lập với người nói trở nên thực tế mà không cần huấn luyện cho từng người dùng. Thời đại của "OK Google" và "Hey Siri" bắt đầu.
- Cuộc cách mạng học sâu, 2012.Hinton và các cộng sự công bố các bài báo đột phá cho thấy mạng nơ-ron sâu vượt trội đáng kể so với các cách tiếp cận Mô hình Markov ẩn truyền thống cho mô hình hóa âm học. Tỷ lệ lỗi từ giảm từ 25 đến 30% xuống dưới 10% trong vài năm.
- Web Speech API được phê chuẩn, 2014 đến 2025.W3C công bố thông số kỹ thuật Web Speech API, phơi bày nhận dạng giọng nói của nhà cung cấp trình duyệt cho JavaScript. Chrome triển khai API đầu tiên, tiếp theo là Edge, Safari và Firefox. Các triển khai khác nhau về chất lượng và tư thế bảo mật (xử lý đám mây so với cục bộ).
- Whisper và ASR mã nguồn mở, 2022 đến 2026.OpenAI phát hành Whisper (2022), một mô hình nhận dạng giọng nói tự động mã nguồn mở 1,5 tỷ tham số được huấn luyện trên 680.000 giờ dữ liệu đa ngôn ngữ. WebGPU đưa Whisper vào trình duyệt trong giai đoạn 2024 đến 2026 với các cổng WASM whisper.cpp, cung cấp phiên âm chất lượng cao hoàn toàn cục bộ mà không cần gọi đám mây.
Cách hoạt động
- Tải lên video: chọn tệp video từ thiết bị của bạn hoặc dán URL video.
- Chọn ngôn ngữ: chọn ngôn ngữ được nói trong video để có độ chính xác phiên âm tốt hơn.
- Phiên âm: bản âm thanh được trích xuất và xử lý bởi công cụ nhận dạng giọng nói để tạo ra bản phiên âm.
- Chỉnh sửa và xuất: đọc lại và sửa bản phiên âm, sau đó sao chép hoặc tải xuống dưới dạng .txt hoặc tệp phụ đề .srt.
Tại sao sử dụng video → văn bản?
Phiên âm video sang văn bản cải thiện khả năng tiếp cận (phụ đề cho người điếc và khiếm thính), SEO (nội dung có thể tìm kiếm từ video) và tái sử dụng (biến hội thảo trực tuyến thành bài viết blog hoặc tài liệu khóa học). Tạo bản phiên âm thủ công mất khoảng 4 đến 6 giờ cho mỗi giờ video. Phiên âm tự động với một công cụ dựa trên trình duyệt giảm thời gian này đáng kể trong khi vẫn bảo vệ riêng tư, video không bao giờ rời khỏi thiết bị của bạn. Bản phiên âm cũng hữu ích cho việc lướt qua nội dung, tạo phụ đề, tạo tóm tắt video và đáp ứng các yêu cầu tuân thủ về phụ đề.
Định dạng đầu ra
- Văn bản thuần (.txt), bản phiên âm sạch cho tài liệu và bài viết blog
- Phụ đề SRT (.srt), tệp phụ đề có dấu thời gian cho trình phát video
- Phụ đề VTT (.vtt), định dạng WebVTT cho các bản video HTML5
- Riêng tư trước hết, toàn bộ xử lý ở lại trên thiết bị của bạn
Quy trình phiên âm trong thế giới thực
- Phụ đề cho khả năng truy cập.Thêm chú thích vào video truyền thông xã hội, tài liệu đào tạo hoặc bản ghi hội thảo trực tuyến hỗ trợ người xem khiếm thính và khó nghe và đáp ứng các yêu cầu tuân thủ ADA hoặc WCAG cho nội dung công khai. Xuất bản phiên âm dưới dạng SRT hoặc VTT, sau đó tải lên cùng với tệp video lên hầu hết các trình phát hiện đại (YouTube, Vimeo, thậm chí cả các trình phát HTML5 tùy chỉnh).
- Tái sử dụng video thành bài đăng blog.Một cuộc phỏng vấn, podcast hoặc hội thảo trực tuyến 30 phút được phiên âm cung cấp cho bạn 3.000 đến 5.000 từ tài liệu nguồn. Chỉnh sửa nhẹ, thêm tiêu đề và luận điểm, và bạn có một bài đăng blog hoặc bài viết LinkedIn. Bản phiên âm cũng giúp SEO vì các công cụ tìm kiếm có thể lập chỉ mục nội dung văn bản bị khóa trong video.
- Lưu trữ có thể tìm kiếm.Các cuộc họp được ghi âm, bài giảng hoặc các buổi đào tạo trở nên có thể tìm kiếm khi được phiên âm. Bạn có thể tìm "phần mà chúng tôi đã thảo luận về giá" trong vài giây thay vì lướt qua hàng giờ video. Lưu bản phiên âm cùng với video trong thư mục tài liệu hoặc cơ sở tri thức.
- Trích xuất trích dẫn cho tiếp thị.Lời chứng thực của khách hàng và các cuộc phỏng vấn chuyên gia được quay dưới dạng video có thể được khai thác để tìm các dòng có thể trích dẫn. Phiên âm làm nổi bật những từ chính xác; sau đó bạn có thể thiết kế một thẻ trích dẫn hoặc bài đăng xã hội tham chiếu trở lại video để có ngữ cảnh. Nhanh hơn việc xem lại để tìm câu hay đó.
- Hỗ trợ học ngôn ngữ.Xem video bằng tiếng nước ngoài với bản phiên âm được tạo giúp người học bắt được các từ họ đã bỏ lỡ. Độ chính xác của phiên âm không hoàn hảo, nhưng các từ bạn nghe đúng giúp neo những từ mà công cụ đã sai. Đối với học viên ngôn ngữ ít phổ biến hơn, xuất bản phiên âm có thể được đưa vào các công cụ flashcard như Anki.
- Ghi chú cuộc họp từ bản ghi.Các cuộc họp Zoom, Teams hoặc trực tiếp được ghi lại có thể được phiên âm để ghi chú theo dõi. Chỉnh sửa bản phiên âm để trích xuất các mục hành động, quyết định và cam kết theo dõi. Dễ dàng hơn ghi chú trong cuộc họp và chính xác hơn dựa vào trí nhớ sau đó.
Các cạm bẫy phổ biến và ý nghĩa của chúng
- Sự không khớp về giọng và phương ngữ làm giảm độ chính xác.Một công cụ giọng nói được huấn luyện chủ yếu trên tiếng Anh Mỹ sẽ tạo ra nhiều lỗi hơn trên tiếng Anh Ấn Độ, tiếng Anh Scotland hoặc người nói không bản ngữ. Menu thả xuống địa phương cho phép bạn chọn en-GB so với en-US, nhưng phạm vi của các giọng vùng mạnh là không đều. Người nói với giọng trung tính hoặc khớp với dữ liệu huấn luyện được phiên âm chính xác hơn.
- Tiếng ồn nền làm giảm chất lượng nhanh chóng.Không khí quán cà phê, giao thông, quạt, nhạc nền phía sau đối thoại: mỗi thứ thêm lỗi. Công cụ không thể tách giọng khỏi tiếng ồn theo cách mà một con người tập trung có thể làm. Âm thanh nguồn sạch (micro tốt, ít nền) cho kết quả tốt nhất. Đối với cảnh quay ồn ào, hãy mong đợi tỷ lệ lỗi từ 10 đến 25%.
- Nhiều người nói chồng lên nhau.Web Speech API không thực hiện phân tách người nói (tách ai đã nói gì). Cuộc phỏng vấn hai người mà người nói không chồng lên nhau được phiên âm chấp nhận được như một bản phiên âm chảy. Các bảng ba bên hoặc các cuộc tranh luận căng thẳng tạo ra một mớ hỗn độn. Đối với bản phiên âm nhiều người nói chính xác, hãy sử dụng Whisper hoặc một dịch vụ trả phí như Otter có bao gồm phân tách.
- Từ đồng âm bị đoán."Their" so với "there" so với "they're", "to" so với "too" so với "two", danh từ riêng so với từ thông thường: công cụ đoán từ ngữ cảnh. Thường thì đoán tốt. Đôi khi chọn sai từ đồng âm và bản phiên âm của bạn cần đọc soát. Luôn xem lại và chỉnh sửa bản phiên âm trước khi xuất bản; không gửi đầu ra máy thô.
- Thuật ngữ kỹ thuật và danh từ riêng làm rối các công cụ.Các thuật ngữ chuyên ngành (y tế, pháp lý, khoa học, tên thương hiệu, tên nhân vật) thường phiên âm kém vì chúng không được đại diện tốt trong dữ liệu huấn luyện. Mong đợi sửa thủ công vốn từ chuyên ngành. Tìm và thay thế là người bạn của bạn đối với các lỗi phiên âm có hệ thống.
- Video dài chạm đến giới hạn phiên nhận dạng.Web Speech API giới hạn các phiên riêng lẻ ở 5 đến 15 phút tùy thuộc vào trình duyệt. Đối với video dài hơn, công cụ khởi động lại phiên nhận dạng định kỳ (với một khoảng ngắn), điều này có thể làm rơi một hoặc hai từ ở mỗi lần khởi động lại. Đối với video dài một giờ, hãy mong đợi một vài khoảng vi mô; xem xét bản phiên âm cẩn thận.
Quyền riêng tư: tinh tế
Công cụ này tinh tế hơn các công cụ khác trên trang này, vì vậy bức tranh quyền riêng tư xứng đáng được chú ý rõ ràng. Bản thân tệp video không bao giờ rời khỏi thiết bị của bạn: nó được tải dưới dạng URL blob cục bộ vào trình duyệt, phát lại cục bộ và không bao giờ được tải lên. Cho đến nay rất tốt. Nhưng Web Speech API được triển khai khác nhau giữa các trình duyệt. Trên Chrome và Edge vào năm 2026, API thường gửi âm thanh đã được giải mã đến dịch vụ chuyển giọng nói thành văn bản đám mây của Google để xử lý phiên âm; âm thanh được mã hóa trong quá trình truyền và theo chính sách của Google không được sử dụng cho quảng cáo hoặc huấn luyện, nhưng nó rời khỏi thiết bị của bạn trong thời gian ngắn. Trên Firefox và Safari, nhận dạng thường chạy cục bộ mà không có âm thanh rời khỏi thiết bị, với độ chính xác hơi thấp hơn. Công cụ không thể kiểm soát đường nào trình duyệt sẽ chọn; đó là quyết định cấp trình duyệt.
Đối với phiên âm có thể xác minh cục bộ trên nội dung nhạy cảm, có hai lựa chọn. Đầu tiên, sử dụng Firefox hoặc Safari để nhận dạng cục bộ trong trình duyệt (chất lượng thấp hơn nhưng hoàn toàn cục bộ). Thứ hai, sử dụng một công cụ máy tính để bàn dựa trên Whisper hoặc WebGPU chạy mô hình mã nguồn mở của OpenAI cục bộ; whisper.cpp, MacWhisper và số lượng ngày càng tăng các cổng Whisper dựa trên trình duyệt cung cấp phiên âm chất lượng cao hoàn toàn cục bộ tính đến năm 2026. Đối với video thông thường không nhạy cảm (bài giảng công khai, nội dung thông thường), đường dẫn hỗ trợ đám mây của Chrome hoặc Edge của công cụ này thuận tiện và chất lượng cao.
Khi một công cụ khác là lựa chọn đúng
- Nội dung nhạy cảm yêu cầu xử lý hoàn toàn cục bộ.Nếu âm thanh bạn đang phiên âm chứa tài liệu đặc quyền luật sư-khách hàng, thông tin y tế, chiến lược nội bộ công ty hoặc nội dung khác không được rời khỏi thiết bị của bạn trong bất kỳ trường hợp nào, hãy sử dụng một công cụ dựa trên Whisper cục bộ (MacWhisper, whisper.cpp, v.v.) thay vì Web Speech API trong các trình duyệt định tuyến đám mây.
- Các cuộc trò chuyện nhiều người nói yêu cầu phân tách.Nhãn người nói ("Alice:", "Bob:") yêu cầu phân tách, mà Web Speech API không cung cấp. Sử dụng Otter.ai, Rev, Descript hoặc các công cụ dựa trên Whisper với phân tách pyannote. Đáng giá cho chi phí trên phút đối với podcast, phỏng vấn, lời khai.
- Độ chính xác tối đa trên nội dung kỹ thuật.Các công cụ giọng nói chuyên biệt được điều chỉnh cho các lĩnh vực y tế, pháp lý hoặc khoa học (Nuance Dragon Medical, Lexile, Verbit) có tỷ lệ lỗi thấp hơn nhiều trên thuật ngữ chuyên ngành. Đối với phiên âm quan trọng nhiệm vụ nơi lỗi tốn tiền, các dịch vụ chuyên biệt trả phí đánh bại các công cụ chung miễn phí.
- Nội dung dạng rất dài (nhiều giờ).Đối với phiên âm nhiều giờ (toàn bộ hội nghị, cuộc họp cả ngày, các thủ tục pháp lý), tải lên hàng loạt lên dịch vụ trả phí đáng tin cậy hơn dựa vào giới hạn phiên trình duyệt và khởi động lại tạm thời. Otter, Rev, Trint, Descript đều xử lý nội dung từ một giờ trở lên mà không có các phiên ngắt mà công cụ này gặp phải.
Các câu hỏi thường gặp khác
Trình duyệt nào cho phiên âm tốt nhất?
Chrome và Edge thường có độ chính xác cao nhất vì chúng sử dụng công cụ giọng nói đám mây của Google, được huấn luyện trên tập dữ liệu lớn nhất và cập nhật thường xuyên. Đánh đổi là âm thanh rời khỏi thiết bị của bạn trong thời gian ngắn. Firefox sử dụng nhận dạng cục bộ cho một số ngôn ngữ, với độ chính xác hơi thấp hơn nhưng tính cục bộ đầy đủ. Triển khai Safari đã được cải thiện đến năm 2025 nhưng theo lịch sử có phạm vi ngôn ngữ hạn chế. Để tiện lợi và chính xác trên nội dung không nhạy cảm, Chrome. Để có tính cục bộ có thể xác minh, Firefox hoặc Whisper cục bộ.
Tại sao bản phiên âm đôi khi khởi động lại hoặc có khoảng trống?
Web Speech API giới hạn các phiên nhận dạng riêng lẻ ở 5 đến 15 phút tùy thuộc vào trình duyệt. Đối với video dài hơn, công cụ khởi động lại phiên một cách trong suốt ở nền. Mỗi lần khởi động lại tạo ra một khoảng ngắn (dưới một giây) trong đó một hoặc hai từ có thể bị bỏ lỡ. Đối với video dài, hãy mong đợi một vài khoảng vi mô này và xem xét bản phiên âm cẩn thận để điền hoặc sửa chúng.
Tôi có thể tạo phụ đề SRT hoặc VTT không?
Có. Sử dụng menu thả xuống tải xuống để chọn định dạng .srt hoặc .vtt. Công cụ tạo dấu thời gian tổng hợp dựa trên số từ và tốc độ nói trung bình (khoảng 150 từ mỗi phút). Đối với thời gian phụ đề chính xác từng khung hình, hãy chạy SRT thông qua một công cụ như Subtitle Edit hoặc Aegisub sau đó, nơi bạn có thể điều chỉnh thời gian từng dòng bằng tai. Hoặc sử dụng một công cụ dựa trên Whisper cung cấp dấu thời gian chính xác một cách bản địa.
Tôi nên mong đợi tỷ lệ lỗi từ nào?
Đối với âm thanh tiếng Anh một người nói rõ ràng không có tiếng ồn nền trên Chrome, hãy mong đợi tỷ lệ lỗi từ 3 đến 8% (vì vậy một bản phiên âm 1000 từ có 30 đến 80 từ sai hoặc thiếu). Đối với âm thanh ồn hơn hoặc người nói không bản ngữ, 10 đến 25%. Đối với cuộc trò chuyện nhiều người nói rối rắm, 25%+. Luôn đọc soát trước khi xuất bản; không bao giờ gửi các bản phiên âm thô làm nội dung cuối cùng.
Có tương đương trên máy tính để bàn hoặc dòng lệnh không?
Có. OpenAI Whisper (mô hình mã nguồn mở và CLI) là tiêu chuẩn thực tế cho phiên âm ngoại tuyến: whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper và Whisper Notes bao bọc nó với giao diện thân thiện. whisper.cpp cung cấp một triển khai C++ nhanh. Các API đám mây như Google Speech-to-Text, AWS Transcribe và Deepgram cung cấp quyền truy cập trả phí theo phút vào các công cụ cấp cao hơn. Đối với xử lý cục bộ với chất lượng tối đa, Whisper là câu trả lời.
Công cụ có thể xử lý chuyển đổi mã (nhiều ngôn ngữ) không?
Kém. Web Speech API cam kết với một ngôn ngữ địa phương mỗi phiên. Nếu người nói của bạn pha trộn tiếng Anh và tiếng Tây Ban Nha, chọn en-US phiên âm tiếng Anh chính xác và làm hỏng tiếng Tây Ban Nha (và ngược lại). Đối với âm thanh đa ngôn ngữ hoặc chuyển đổi mã, Whisper large-v3 xử lý nhiều ngôn ngữ trong một lượt và phát hiện ngôn ngữ theo từng đoạn; đó hiện là lựa chọn tốt nhất cho nội dung chuyển đổi mã.