Phiên âm video sang văn bản miễn phí

Phiên âm lời nói từ tệp video thành văn bản qua nhận dạng giọng nói của trình duyệt. Hoạt động với MP4, WebM, MOV và hơn thế.

Tệp video của bạn ở lại trên thiết bị của bạn
Thả tệp video tại đây hoặc nhấp để duyệt

MP4, WebM, MOV, OGG, AVI

Chuyển giọng nói thành văn bản từ video thực sự làm gì

Phiên âm video có nghĩa là biến dạng sóng âm thanh được ghi thành văn bản. Một công cụ chuyển giọng nói thành văn bản thực hiện ba nhiệm vụ cùng một lúc: mô hình hóa âm học (ánh xạ tần số âm thanh tới âm vị, đơn vị âm thanh nhỏ nhất của một ngôn ngữ), mô hình hóa ngôn ngữ (quyết định chuỗi âm vị nào tạo thành các từ có khả năng và chuỗi từ nào tạo thành các câu có khả năng trong ngôn ngữ đã chọn), và dấu câu và viết hoa (chèn dấu phẩy, dấu chấm và viết hoa ở những nơi phù hợp). Các công cụ hiện đại sử dụng mạng nơ-ron (mô hình âm học được huấn luyện trên hàng chục nghìn giờ giọng nói có nhãn, mô hình ngôn ngữ được huấn luyện trên hàng tỷ từ văn bản). Kết quả là một bản phiên âm gần đúng với những gì con người sẽ viết ra, với chất lượng phụ thuộc vào độ rõ của âm thanh, sự khớp giọng với dữ liệu huấn luyện và số lượng từ đồng âm mơ hồ mà người nói sử dụng.

Công cụ này sử dụng Web Speech API tích hợp trong trình duyệt (cụ thể là giao diện SpeechRecognition), tiêu chuẩn W3C phơi bày công cụ nhận dạng của hệ điều hành hoặc nhà cung cấp trình duyệt. Trên Chrome và Edge, API thường định tuyến âm thanh qua dịch vụ chuyển giọng nói thành văn bản đám mây của Google để xử lý (âm thanh đi ra, bản phiên âm quay lại); trên Firefox và Safari, công cụ chạy cục bộ với đặc tính chất lượng hơi khác. Bản phiên âm trở lại dưới dạng một chuỗi kết quả một phần (cập nhật khi có thêm âm thanh được xử lý) và kết quả cuối cùng (các đoạn đã phiên âm cố định). Công cụ này hiển thị cả hai trong quá trình phiên âm.

Việc chọn ngôn ngữ rất quan trọng. Một công cụ chuyển giọng nói thành văn bản được điều chỉnh cho tiếng Anh sẽ phiên âm sai âm thanh tiếng Pháp hoặc tiếng Quan Thoại. Menu thả xuống hiển thị hơn 20 ngôn ngữ địa phương (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN và nhiều hơn nữa). Chọn ngôn ngữ địa phương phù hợp với phương ngữ của người nói để có kết quả tốt nhất. Việc chuyển đổi ngôn ngữ giữa clip (một video duy nhất với nhiều ngôn ngữ) thường cho kết quả kém vì công cụ cam kết với một mô hình âm học và ngôn ngữ cho toàn bộ phiên.

Cách công cụ này hoạt động bên trong

Khi bạn thả một video, trình duyệt tải nó vào HTMLVideoElement qua URL.createObjectURL() giữ tệp ở cục bộ. Phát lại được tạm dừng ban đầu để bạn có thể chọn ngôn ngữ và nhấp vào Bắt đầu.

Khi nhấp vào Bắt đầu, công cụ gọi new SpeechRecognition() (hoặc webkitSpeechRecognition trên Chrome cũ), đặt recognition.continuous = truerecognition.interimResults = true, đặt ngôn ngữ theo địa phương đã chọn của bạn và gọi recognition.start() trong khi đồng thời phát video với âm thanh được định tuyến đến đường ống đầu vào âm thanh của trình duyệt. Công cụ nhận dạng tiêu thụ âm thanh theo từng khối và phát ra các sự kiện result khi phiên âm.

Mỗi sự kiện result mang theo một mảng các lựa chọn thay thế được xếp hạng theo độ tin cậy. Công cụ lấy lựa chọn hàng đầu cho mỗi kết quả cuối cùng và nối nó vào hộp phiên âm có thể chỉnh sửa. Kết quả tạm thời (vẫn đang được tinh chỉnh) hiển thị bằng văn bản nhạt hơn. Khi video kết thúc hoặc bạn nhấp vào Dừng, recognition.stop() hoàn thành phiên. Các tùy chọn xuất ghi bản phiên âm dưới dạng văn bản thuần (.txt) hoặc với dấu thời gian tổng hợp dưới dạng phụ đề SRT hoặc VTT, tất cả đều được xây dựng trong bộ nhớ và được cung cấp qua tải xuống blob.

Lịch sử ngắn gọn về nhận dạng giọng nói

Cách hoạt động

  1. Tải lên video: chọn tệp video từ thiết bị của bạn hoặc dán URL video.
  2. Chọn ngôn ngữ: chọn ngôn ngữ được nói trong video để có độ chính xác phiên âm tốt hơn.
  3. Phiên âm: bản âm thanh được trích xuất và xử lý bởi công cụ nhận dạng giọng nói để tạo ra bản phiên âm.
  4. Chỉnh sửa và xuất: đọc lại và sửa bản phiên âm, sau đó sao chép hoặc tải xuống dưới dạng .txt hoặc tệp phụ đề .srt.

Tại sao sử dụng video → văn bản?

Phiên âm video sang văn bản cải thiện khả năng tiếp cận (phụ đề cho người điếc và khiếm thính), SEO (nội dung có thể tìm kiếm từ video) và tái sử dụng (biến hội thảo trực tuyến thành bài viết blog hoặc tài liệu khóa học). Tạo bản phiên âm thủ công mất khoảng 4 đến 6 giờ cho mỗi giờ video. Phiên âm tự động với một công cụ dựa trên trình duyệt giảm thời gian này đáng kể trong khi vẫn bảo vệ riêng tư, video không bao giờ rời khỏi thiết bị của bạn. Bản phiên âm cũng hữu ích cho việc lướt qua nội dung, tạo phụ đề, tạo tóm tắt video và đáp ứng các yêu cầu tuân thủ về phụ đề.

Định dạng đầu ra

Quy trình phiên âm trong thế giới thực

Các cạm bẫy phổ biến và ý nghĩa của chúng

Quyền riêng tư: tinh tế

Công cụ này tinh tế hơn các công cụ khác trên trang này, vì vậy bức tranh quyền riêng tư xứng đáng được chú ý rõ ràng. Bản thân tệp video không bao giờ rời khỏi thiết bị của bạn: nó được tải dưới dạng URL blob cục bộ vào trình duyệt, phát lại cục bộ và không bao giờ được tải lên. Cho đến nay rất tốt. Nhưng Web Speech API được triển khai khác nhau giữa các trình duyệt. Trên Chrome và Edge vào năm 2026, API thường gửi âm thanh đã được giải mã đến dịch vụ chuyển giọng nói thành văn bản đám mây của Google để xử lý phiên âm; âm thanh được mã hóa trong quá trình truyền và theo chính sách của Google không được sử dụng cho quảng cáo hoặc huấn luyện, nhưng nó rời khỏi thiết bị của bạn trong thời gian ngắn. Trên Firefox và Safari, nhận dạng thường chạy cục bộ mà không có âm thanh rời khỏi thiết bị, với độ chính xác hơi thấp hơn. Công cụ không thể kiểm soát đường nào trình duyệt sẽ chọn; đó là quyết định cấp trình duyệt.

Đối với phiên âm có thể xác minh cục bộ trên nội dung nhạy cảm, có hai lựa chọn. Đầu tiên, sử dụng Firefox hoặc Safari để nhận dạng cục bộ trong trình duyệt (chất lượng thấp hơn nhưng hoàn toàn cục bộ). Thứ hai, sử dụng một công cụ máy tính để bàn dựa trên Whisper hoặc WebGPU chạy mô hình mã nguồn mở của OpenAI cục bộ; whisper.cpp, MacWhisper và số lượng ngày càng tăng các cổng Whisper dựa trên trình duyệt cung cấp phiên âm chất lượng cao hoàn toàn cục bộ tính đến năm 2026. Đối với video thông thường không nhạy cảm (bài giảng công khai, nội dung thông thường), đường dẫn hỗ trợ đám mây của Chrome hoặc Edge của công cụ này thuận tiện và chất lượng cao.

Khi một công cụ khác là lựa chọn đúng

Các câu hỏi thường gặp khác

Trình duyệt nào cho phiên âm tốt nhất?

Chrome và Edge thường có độ chính xác cao nhất vì chúng sử dụng công cụ giọng nói đám mây của Google, được huấn luyện trên tập dữ liệu lớn nhất và cập nhật thường xuyên. Đánh đổi là âm thanh rời khỏi thiết bị của bạn trong thời gian ngắn. Firefox sử dụng nhận dạng cục bộ cho một số ngôn ngữ, với độ chính xác hơi thấp hơn nhưng tính cục bộ đầy đủ. Triển khai Safari đã được cải thiện đến năm 2025 nhưng theo lịch sử có phạm vi ngôn ngữ hạn chế. Để tiện lợi và chính xác trên nội dung không nhạy cảm, Chrome. Để có tính cục bộ có thể xác minh, Firefox hoặc Whisper cục bộ.

Tại sao bản phiên âm đôi khi khởi động lại hoặc có khoảng trống?

Web Speech API giới hạn các phiên nhận dạng riêng lẻ ở 5 đến 15 phút tùy thuộc vào trình duyệt. Đối với video dài hơn, công cụ khởi động lại phiên một cách trong suốt ở nền. Mỗi lần khởi động lại tạo ra một khoảng ngắn (dưới một giây) trong đó một hoặc hai từ có thể bị bỏ lỡ. Đối với video dài, hãy mong đợi một vài khoảng vi mô này và xem xét bản phiên âm cẩn thận để điền hoặc sửa chúng.

Tôi có thể tạo phụ đề SRT hoặc VTT không?

Có. Sử dụng menu thả xuống tải xuống để chọn định dạng .srt hoặc .vtt. Công cụ tạo dấu thời gian tổng hợp dựa trên số từ và tốc độ nói trung bình (khoảng 150 từ mỗi phút). Đối với thời gian phụ đề chính xác từng khung hình, hãy chạy SRT thông qua một công cụ như Subtitle Edit hoặc Aegisub sau đó, nơi bạn có thể điều chỉnh thời gian từng dòng bằng tai. Hoặc sử dụng một công cụ dựa trên Whisper cung cấp dấu thời gian chính xác một cách bản địa.

Tôi nên mong đợi tỷ lệ lỗi từ nào?

Đối với âm thanh tiếng Anh một người nói rõ ràng không có tiếng ồn nền trên Chrome, hãy mong đợi tỷ lệ lỗi từ 3 đến 8% (vì vậy một bản phiên âm 1000 từ có 30 đến 80 từ sai hoặc thiếu). Đối với âm thanh ồn hơn hoặc người nói không bản ngữ, 10 đến 25%. Đối với cuộc trò chuyện nhiều người nói rối rắm, 25%+. Luôn đọc soát trước khi xuất bản; không bao giờ gửi các bản phiên âm thô làm nội dung cuối cùng.

Có tương đương trên máy tính để bàn hoặc dòng lệnh không?

Có. OpenAI Whisper (mô hình mã nguồn mở và CLI) là tiêu chuẩn thực tế cho phiên âm ngoại tuyến: whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper và Whisper Notes bao bọc nó với giao diện thân thiện. whisper.cpp cung cấp một triển khai C++ nhanh. Các API đám mây như Google Speech-to-Text, AWS Transcribe và Deepgram cung cấp quyền truy cập trả phí theo phút vào các công cụ cấp cao hơn. Đối với xử lý cục bộ với chất lượng tối đa, Whisper là câu trả lời.

Công cụ có thể xử lý chuyển đổi mã (nhiều ngôn ngữ) không?

Kém. Web Speech API cam kết với một ngôn ngữ địa phương mỗi phiên. Nếu người nói của bạn pha trộn tiếng Anh và tiếng Tây Ban Nha, chọn en-US phiên âm tiếng Anh chính xác và làm hỏng tiếng Tây Ban Nha (và ngược lại). Đối với âm thanh đa ngôn ngữ hoặc chuyển đổi mã, Whisper large-v3 xử lý nhiều ngôn ngữ trong một lượt và phát hiện ngôn ngữ theo từng đoạn; đó hiện là lựa chọn tốt nhất cho nội dung chuyển đổi mã.

Công cụ liên quan