Chuyển Giọng Nói Sang Văn Bản Miễn Phí Trực Tuyến

Chuyển giọng nói của bạn thành văn bản ngay lập tức. Không tải lên, không đăng ký, không tài khoản, chỉ cần nói và phiên âm.

🔒 Riêng tư: Mọi xử lý diễn ra trong trình duyệt của bạn
Số từ: 0
Lưu ý: Công cụ này yêu cầu trình duyệt hiện đại hỗ trợ nhận dạng giọng nói (Chrome, Edge, Safari, Opera). Cần quyền truy cập micrô và sẽ chỉ được sử dụng trong phiên ghi của bạn.

Cách Hoạt Động

  1. Cho phép truy cập micrô: Cấp quyền micrô cho trình duyệt khi được nhắc, âm thanh lưu cục bộ và không bao giờ được gửi đến máy chủ.
  2. Bắt đầu đọc chính tả: Nhấp Bắt đầu và nói rõ ràng. Lời của bạn xuất hiện theo thời gian thực khi Web Speech API nhận dạng chúng.
  3. Chỉnh sửa bản phiên âm: Văn bản được nhận dạng hoàn toàn có thể chỉnh sửa, sửa bất kỳ lỗi nào trực tiếp trong vùng văn bản.
  4. Sao chép hoặc tải xuống: Sao chép bản phiên âm vào clipboard hoặc tải xuống dưới dạng tệp .txt.

Tại Sao Sử Dụng Chuyển Giọng Nói Sang Văn Bản?

Đọc chính tả bằng giọng nói nhanh hơn 3–4 lần so với gõ phím đối với hầu hết mọi người và giảm căng thẳng lặp lại từ việc sử dụng bàn phím kéo dài. Nhận dạng giọng nói dựa trên trình duyệt sử dụng Web Speech API hiện có sẵn trong các trình duyệt dựa trên Chromium và Safari, cung cấp độ chính xác cao cho nhiều ngôn ngữ mà không cần bất kỳ dịch vụ backend nào. Sử dụng nó để đọc chính tả email, ghi chú, bài đăng blog và mục nhập biểu mẫu, hoặc tạo bản phiên âm thô của âm thanh bạn đang nghe. Để tiếp cận, nhập giọng nói rất quan trọng đối với người dùng khuyết tật vận động hoặc những người gặp khó khăn khi gõ phím.

Tính năng

Speech-to-text trên trình duyệt thực sự làm gì

Nhận dạng giọng nói (còn gọi là Nhận dạng Giọng nói Tự động, ASR) chuyển đổi âm thanh nói thành văn bản viết. Các hệ thống ASR hiện đại kết hợp một mô hình âm học (cách âm thanh ánh xạ tới các âm vị), một mô hình ngôn ngữ (cách các từ và cụm từ kết hợp với nhau trong ngôn ngữ thực) và một bộ giải mã tìm chuỗi từ có khả năng cao nhất dựa trên âm thanh. Cuộc cách mạng của những năm 2010 là deep learning: các mạng nơ-ron thay thế các Mô hình Markov Ẩn trước đây cho cả mô hình âm học và ngôn ngữ, nâng độ chính xác từ khoảng 80% trên giọng nói sạch lên 95%+ trên âm thanh đơn người nói hợp tác. Đến năm 2022, Whisper của OpenAI đã chứng minh rằng một mô hình đa ngôn ngữ duy nhất có thể sánh ngang hoặc vượt qua các hệ thống chuyên dụng trên 99 ngôn ngữ.

Công cụ này sử dụng Web Speech API của trình duyệt, tiêu chuẩn W3C cho ASR trong trình duyệt được giới thiệu trong Chrome 25 (2013) và được thêm dần vào Edge, Safari và hầu hết các trình duyệt Chromium. API tiết lộ một đối tượng SpeechRecognition phát trực tuyến âm thanh microphone đến bất kỳ dịch vụ giọng nói nào mà trình duyệt thực hiện: Chrome và Edge định tuyến âm thanh đến các dịch vụ giọng nói đám mây của Google và Microsoft tương ứng, trong khi Safari trên iOS 17+ và macOS Sonoma+ chạy nhận dạng trên thiết bị. Firefox hoàn toàn không thực hiện Web Speech API. Sự phân biệt về quyền riêng tư này quan trọng: công cụ tự nó chạy trong trình duyệt của bạn và không bao giờ thấy âm thanh của bạn, nhưng Chrome và Edge truyền âm thanh đến các máy chủ của Google/Microsoft để xử lý.

Đối với hầu hết người dùng, sự đánh đổi so với gõ phím là đáng kể. Tốc độ gõ trung bình của nhân viên văn phòng là 40 đến 60 từ mỗi phút; tốc độ nói trung bình là 130 đến 150 từ mỗi phút. Đọc chính tả bằng giọng nói nhanh hơn 2x đến 3x để có được văn bản ban đầu, với lưu ý rằng việc chỉnh sửa sau đó thường vẫn là gõ phím. Đầu vào bằng giọng nói cũng quan trọng đối với khả năng tiếp cận: người dùng bị khuyết tật vận động, căng thẳng lặp đi lặp lại, hoặc chấn thương tạm thời có thể tạo văn bản bằng giọng nói khi gõ phím không thực tế. Đối với người học ngôn ngữ, nghe xem hệ thống có nhận ra giọng nói của bạn đúng không cung cấp phản hồi về cách phát âm. Đối với chụp ảnh cuộc họp, bản ghi thời gian thực giúp cả người tham gia và đồng nghiệp vắng mặt.

Công cụ này hoạt động bên dưới như thế nào

Khi bạn nhấp Bắt đầu Ghi âm, trang tạo một đối tượng SpeechRecognition (hoặc webkitSpeechRecognition trong Chrome cũ hơn) và gọi start(). Trình duyệt yêu cầu quyền microphone nếu chưa được cấp trước đó, sau đó bắt đầu phát trực tuyến âm thanh đã chụp đến dịch vụ giọng nói hệ thống. Thẻ ngôn ngữ bạn đã chọn (ví dụ: en-US, fr-FR, zh-CN) được truyền đến dịch vụ để nó tải các mô hình âm học và ngôn ngữ thích hợp.

Trình duyệt cung cấp hai loại kết quả cho trang: kết quả tạm thời (dự đoán tốt nhất một phần, được cập nhật 5 đến 20 lần mỗi giây khi âm thanh mới đến) và kết quả cuối cùng (phiên âm bị khóa của một phát ngôn hoàn chỉnh, thường được phát hành khi người nói tạm dừng một lúc). Textarea của công cụ hiển thị kết quả tạm thời với kiểu nhạt hơn và khóa kết quả cuối cùng khi chúng đến. Bộ đếm từ chỉ cập nhật từ kết quả cuối cùng, vì vậy nó không nhấp nháy khi các dự đoán tạm thời thay đổi. Chế độ liên tục (tùy chọn checkbox) tự động khởi động lại phiên nhận dạng nếu trình duyệt kết thúc nó sau một khoảng im lặng dài, điều phổ biến trên Chrome nhưng hiếm trên Safari.

Khi bạn dừng, bản ghi vẫn ở trong textarea, hoàn toàn có thể chỉnh sửa. Các nút Sao chép và Tải xuống hoạt động trên văn bản trong textarea; cả hai đều xảy ra cục bộ mà không có sự tham gia của máy chủ. Công cụ tự nó không bao giờ truyền âm thanh hoặc bản ghi của bạn đến bất kỳ đâu; hoạt động mạng duy nhất là bất cứ điều gì trình duyệt làm bên trong để giao tiếp với dịch vụ giọng nói của Google hoặc Microsoft (hoặc không có gì, trên Safari). Bản ghi của bạn không bao giờ được lưu trữ: tải lại trang và nó biến mất trừ khi bạn đã sao chép hoặc tải xuống trước.

Lịch sử ngắn về nhận dạng giọng nói

Quy trình làm việc thực tế

Cạm bẫy phổ biến và ý nghĩa của chúng

Quyền riêng tư: xử lý âm thanh khác nhau theo trình duyệt

Không giống như hầu hết các công cụ trên trang web này chạy hoàn toàn phía client, các thuộc tính quyền riêng tư của Web Speech API phụ thuộc vào trình duyệt nào bạn sử dụng. Chrome và Edge truyền âm thanh microphone của bạn đến các dịch vụ nhận dạng giọng nói đám mây của Google và Microsoft. Cả hai công ty đều tuyên bố rằng họ không lưu trữ âm thanh lâu dài cho các truy vấn nhận dạng giọng nói (trái với hồ sơ giọng nói được người dùng đào tạo), nhưng âm thanh rời khỏi thiết bị của bạn, đi qua mạng của họ và được xử lý trên máy chủ của họ. Safari trên iOS 17+ và macOS Sonoma+ chạy nhận dạng giọng nói hoàn toàn trên thiết bị sử dụng ASR trên thiết bị của Apple, vì vậy âm thanh của bạn không bao giờ rời khỏi Mac hoặc iPhone của bạn. Các phiên bản Safari cũ hơn và các trình duyệt Apple khác có thể khác nhau.

Bản thân Absolutool không nhận được gì. Trang gọi API giọng nói của trình duyệt, trình duyệt xử lý âm thanh (hoặc trên thiết bị hoặc qua dịch vụ đám mây của nhà cung cấp) và chỉ văn bản bản ghi kết quả quay lại trang. Sau đó công cụ hiển thị văn bản và cho phép bạn sao chép hoặc tải xuống nó; không có cuộc gọi máy chủ nào được thực hiện bởi chính trang đó. Đối với người dùng xử lý nội dung bí mật, phương pháp được khuyến nghị là: (1) sử dụng Safari trên thiết bị Apple gần đây để xử lý trên thiết bị, hoặc (2) sử dụng công cụ ngoại tuyến chuyên dụng như Whisper chạy cục bộ, hoặc (3) chấp nhận rằng Chrome và Edge định tuyến âm thanh qua Google/Microsoft và chỉ sử dụng chúng cho nội dung không nhạy cảm.

Khi một công cụ khác là lựa chọn đúng

Các câu hỏi thường gặp khác

Tại sao nhận dạng dừng sau một phút?

Chrome và Edge có thời gian chờ tích hợp sẵn kết thúc các phiên nhận dạng Web Speech sau khoảng 30 đến 60 giây, nhằm tiết kiệm băng thông và ngăn chặn ghi âm vô hạn vô tình. Bật Chế độ Liên tục trong công cụ để tự động khởi động lại nhận dạng khi điều này xảy ra. Chế độ liên tục giới thiệu các khoảng dừng ngắn giữa các phiên (thường ít hơn một giây), có thể dẫn đến các từ bị bỏ lỡ thỉnh thoảng ở các đường ghép. Safari xử lý các phiên dài hơn một cách duyên dáng hơn mà không có thời gian chờ.

Tại sao độ chính xác thấp hơn tôi mong đợi?

Ba yếu tố: (1) Giọng của bạn có thể khác với dữ liệu đào tạo; xem xét thử một biến thể ngôn ngữ gần hơn (ví dụ: en-IN cho tiếng Anh Ấn Độ, en-AU cho Úc). (2) Tiếng ồn nền, khoảng cách microphone và chất lượng âm thanh quan trọng; phòng yên tĩnh và microphone gần tạo ra độ chính xác 95%+, trong khi môi trường ồn ào và microphone xa giảm xuống 70% hoặc thấp hơn. (3) Từ vựng chuyên dụng (thuật ngữ kỹ thuật, danh từ riêng, tên thương hiệu) khó hơn lời nói chung; đối với đọc chính tả chuyên nghiệp độ chính xác cao, đào tạo người nói của Dragon và từ vựng tùy chỉnh xứng đáng với chi phí.

Tôi có thể đọc chính tả dấu câu bằng giọng nói không?

Không trong công cụ này. Web Speech API không diễn giải lệnh giọng nói cho dấu câu; nói chấm sẽ chèn từ chấm, không phải dấu chấm. Một số công cụ đọc chính tả chuyên dụng (Dragon, Apple Dictation, Windows Voice Access) nhận ra các lệnh dấu câu được nói. Đối với đọc chính tả dựa trên trình duyệt, quy trình làm việc điển hình là: đọc các từ, sau đó thêm dấu câu trong giai đoạn chỉnh sửa bằng bàn phím. Các mô hình dạng dài hiện đại (Whisper) thường tự động thêm dấu câu dựa trên các mẫu lời nói.

Điều này có hoạt động trên iPhone không?

Có, trên iOS 14.5 và mới hơn thông qua Safari. iOS 17 đã đưa nhận dạng giọng nói trên thiết bị thông qua việc triển khai Web Speech API của Safari, vì vậy âm thanh của bạn không bao giờ rời khỏi iPhone của bạn. Đối với đọc chính tả bền vững trên iPhone hoặc iPad, bạn cũng có thể sử dụng Đọc chính tả iOS toàn hệ thống (chạm vào biểu tượng microphone trên bàn phím), hoạt động trong bất kỳ trường văn bản nào trên OS.

Tại sao Firefox không hỗ trợ điều này?

Mozilla chưa triển khai Web Speech API trong Firefox, chủ yếu do các lo ngại về quyền riêng tư với mô hình định tuyến đám mây được sử dụng bởi Chrome và Edge, và độ phức tạp kỹ thuật của việc triển khai một giải pháp thay thế bảo vệ quyền riêng tư. Người dùng Firefox trên trình theo dõi lỗi của Mozilla đã yêu cầu hỗ trợ giọng nói trong nhiều năm; quan điểm chính thức của Mozilla là nhận dạng giọng nói cục bộ có ý nghĩa đòi hỏi nguồn lực đáng kể và họ chưa ưu tiên nó. Hiện tại, người dùng Firefox tìm kiếm đầu vào giọng nói nên sử dụng Chrome, Edge, Safari hoặc một giải pháp toàn hệ thống như đọc chính tả cấp OS.

Tôi có thể phiên âm một tệp âm thanh đã ghi sẵn không?

Không trực tiếp. Web Speech API chỉ chấp nhận đầu vào microphone trực tiếp, không phải tải lên tệp. Để phiên âm một tệp đã ghi, giải pháp thay thế là phát tệp âm thanh qua loa máy tính của bạn (hoặc sử dụng phần mềm định tuyến âm thanh như Soundflower hoặc BlackHole) trong khi công cụ này lắng nghe qua microphone. Điều này mất một số độ chính xác do biến dạng âm học. Đối với phiên âm chất lượng cao của âm thanh đã ghi, hãy sử dụng một công cụ chuyên dụng: Whisper (ngoại tuyến, miễn phí), Otter.ai hoặc một dịch vụ phiên âm như Rev. Đối với phiên âm không chính thức thỉnh thoảng, thủ thuật playback-qua-microphone hoạt động.

Công cụ Liên quan