Is my data safe and private?

Depends on your browser. Safari transcribes entirely on-device, nothing leaves your Mac, iPhone or iPad. Chrome and Edge use their speech APIs, which send short audio chunks to Google or Microsoft servers for transcription and return the text. Absolutool itself never sees your audio, we only receive the text the browser returns.

Does this work with my Bluetooth or USB headset?

Yes, but the browser uses whatever your OS has set as the default input device. If nothing seems to be captured, check your system settings (Windows Sound settings, macOS System Preferences → Sound, Android Bluetooth audio) and make sure your headset is the default input. Reload the page after changing it.

Why is nothing being transcribed?

Most common causes, (1) microphone permission was denied (check the 🔒 icon in the address bar); (2) your OS is capturing audio from a different mic than you expect; (3) background noise is too loud; (4) you're using Firefox, which doesn't implement the Web Speech API. Chrome, Edge, Safari, and Opera all work.

Does it work on mobile?

Yes on Chrome Android and Safari iOS. Some Bluetooth headsets on Android only activate the built-in phone mic instead of the headset mic when a browser requests audio, an OS-level quirk we can't fix from the web page.

Which languages are supported?

60+ languages via the Language dropdown, including English variants, French, Spanish, German, Portuguese, Chinese, Japanese, Korean, Hindi, Arabic, and more. Actual quality depends on your browser's speech service.

Does the transcript stay on my device?

Yes. The text itself never leaves your browser. Only the microphone audio (in Chrome/Edge) is sent to the speech service for transcription; Absolutool doesn't receive or store anything.

Chuyển Giọng Nói Sang Văn Bản Miễn Phí Trực Tuyến

Chuyển giọng nói của bạn thành văn bản ngay lập tức. Không tải lên, không đăng ký, không tài khoản, chỉ cần nói và phiên âm.

🔒 Riêng tư: Mọi xử lý diễn ra trong trình duyệt của bạn

Ngôn ngữ:

Số từ: 0

Chế độ liên tục (tự động khởi động lại nhận dạng)

Lưu ý: Công cụ này yêu cầu trình duyệt hiện đại hỗ trợ nhận dạng giọng nói (Chrome, Edge, Safari, Opera). Cần quyền truy cập micrô và sẽ chỉ được sử dụng trong phiên ghi của bạn.

Cách Hoạt Động

Cho phép truy cập micrô: Cấp quyền micrô cho trình duyệt khi được nhắc, âm thanh lưu cục bộ và không bao giờ được gửi đến máy chủ.
Bắt đầu đọc chính tả: Nhấp Bắt đầu và nói rõ ràng. Lời của bạn xuất hiện theo thời gian thực khi Web Speech API nhận dạng chúng.
Chỉnh sửa bản phiên âm: Văn bản được nhận dạng hoàn toàn có thể chỉnh sửa, sửa bất kỳ lỗi nào trực tiếp trong vùng văn bản.
Sao chép hoặc tải xuống: Sao chép bản phiên âm vào clipboard hoặc tải xuống dưới dạng tệp .txt.

Tại Sao Sử Dụng Chuyển Giọng Nói Sang Văn Bản?

Đọc chính tả bằng giọng nói nhanh hơn 3–4 lần so với gõ phím đối với hầu hết mọi người và giảm căng thẳng lặp lại từ việc sử dụng bàn phím kéo dài. Nhận dạng giọng nói dựa trên trình duyệt sử dụng Web Speech API hiện có sẵn trong các trình duyệt dựa trên Chromium và Safari, cung cấp độ chính xác cao cho nhiều ngôn ngữ mà không cần bất kỳ dịch vụ backend nào. Sử dụng nó để đọc chính tả email, ghi chú, bài đăng blog và mục nhập biểu mẫu, hoặc tạo bản phiên âm thô của âm thanh bạn đang nghe. Để tiếp cận, nhập giọng nói rất quan trọng đối với người dùng khuyết tật vận động hoặc những người gặp khó khăn khi gõ phím.

Tính năng

Phiên âm thời gian thực, từ ngữ xuất hiện khi bạn nói
Hỗ trợ đa ngôn ngữ, hơn 30 ngôn ngữ và phương ngữ
Chế độ liên tục, đọc chính tả mà không cần dừng lại để nhấp
Ưu tiên quyền riêng tư, âm thanh được trình duyệt xử lý cục bộ
Đầu ra có thể chỉnh sửa, sửa lỗi nhận dạng trực tiếp

Speech-to-text trên trình duyệt thực sự làm gì

Nhận dạng giọng nói (còn gọi là Nhận dạng Giọng nói Tự động, ASR) chuyển đổi âm thanh nói thành văn bản viết. Các hệ thống ASR hiện đại kết hợp một mô hình âm học (cách âm thanh ánh xạ tới các âm vị), một mô hình ngôn ngữ (cách các từ và cụm từ kết hợp với nhau trong ngôn ngữ thực) và một bộ giải mã tìm chuỗi từ có khả năng cao nhất dựa trên âm thanh. Cuộc cách mạng của những năm 2010 là deep learning: các mạng nơ-ron thay thế các Mô hình Markov Ẩn trước đây cho cả mô hình âm học và ngôn ngữ, nâng độ chính xác từ khoảng 80% trên giọng nói sạch lên 95%+ trên âm thanh đơn người nói hợp tác. Đến năm 2022, Whisper của OpenAI đã chứng minh rằng một mô hình đa ngôn ngữ duy nhất có thể sánh ngang hoặc vượt qua các hệ thống chuyên dụng trên 99 ngôn ngữ.

Công cụ này sử dụng Web Speech API của trình duyệt, tiêu chuẩn W3C cho ASR trong trình duyệt được giới thiệu trong Chrome 25 (2013) và được thêm dần vào Edge, Safari và hầu hết các trình duyệt Chromium. API tiết lộ một đối tượng SpeechRecognition phát trực tuyến âm thanh microphone đến bất kỳ dịch vụ giọng nói nào mà trình duyệt thực hiện: Chrome và Edge định tuyến âm thanh đến các dịch vụ giọng nói đám mây của Google và Microsoft tương ứng, trong khi Safari trên iOS 17+ và macOS Sonoma+ chạy nhận dạng trên thiết bị. Firefox hoàn toàn không thực hiện Web Speech API. Sự phân biệt về quyền riêng tư này quan trọng: công cụ tự nó chạy trong trình duyệt của bạn và không bao giờ thấy âm thanh của bạn, nhưng Chrome và Edge truyền âm thanh đến các máy chủ của Google/Microsoft để xử lý.

Đối với hầu hết người dùng, sự đánh đổi so với gõ phím là đáng kể. Tốc độ gõ trung bình của nhân viên văn phòng là 40 đến 60 từ mỗi phút; tốc độ nói trung bình là 130 đến 150 từ mỗi phút. Đọc chính tả bằng giọng nói nhanh hơn 2x đến 3x để có được văn bản ban đầu, với lưu ý rằng việc chỉnh sửa sau đó thường vẫn là gõ phím. Đầu vào bằng giọng nói cũng quan trọng đối với khả năng tiếp cận: người dùng bị khuyết tật vận động, căng thẳng lặp đi lặp lại, hoặc chấn thương tạm thời có thể tạo văn bản bằng giọng nói khi gõ phím không thực tế. Đối với người học ngôn ngữ, nghe xem hệ thống có nhận ra giọng nói của bạn đúng không cung cấp phản hồi về cách phát âm. Đối với chụp ảnh cuộc họp, bản ghi thời gian thực giúp cả người tham gia và đồng nghiệp vắng mặt.

Công cụ này hoạt động bên dưới như thế nào

Khi bạn nhấp Bắt đầu Ghi âm, trang tạo một đối tượng SpeechRecognition (hoặc webkitSpeechRecognition trong Chrome cũ hơn) và gọi start(). Trình duyệt yêu cầu quyền microphone nếu chưa được cấp trước đó, sau đó bắt đầu phát trực tuyến âm thanh đã chụp đến dịch vụ giọng nói hệ thống. Thẻ ngôn ngữ bạn đã chọn (ví dụ: en-US, fr-FR, zh-CN) được truyền đến dịch vụ để nó tải các mô hình âm học và ngôn ngữ thích hợp.

Trình duyệt cung cấp hai loại kết quả cho trang: kết quả tạm thời (dự đoán tốt nhất một phần, được cập nhật 5 đến 20 lần mỗi giây khi âm thanh mới đến) và kết quả cuối cùng (phiên âm bị khóa của một phát ngôn hoàn chỉnh, thường được phát hành khi người nói tạm dừng một lúc). Textarea của công cụ hiển thị kết quả tạm thời với kiểu nhạt hơn và khóa kết quả cuối cùng khi chúng đến. Bộ đếm từ chỉ cập nhật từ kết quả cuối cùng, vì vậy nó không nhấp nháy khi các dự đoán tạm thời thay đổi. Chế độ liên tục (tùy chọn checkbox) tự động khởi động lại phiên nhận dạng nếu trình duyệt kết thúc nó sau một khoảng im lặng dài, điều phổ biến trên Chrome nhưng hiếm trên Safari.

Khi bạn dừng, bản ghi vẫn ở trong textarea, hoàn toàn có thể chỉnh sửa. Các nút Sao chép và Tải xuống hoạt động trên văn bản trong textarea; cả hai đều xảy ra cục bộ mà không có sự tham gia của máy chủ. Công cụ tự nó không bao giờ truyền âm thanh hoặc bản ghi của bạn đến bất kỳ đâu; hoạt động mạng duy nhất là bất cứ điều gì trình duyệt làm bên trong để giao tiếp với dịch vụ giọng nói của Google hoặc Microsoft (hoặc không có gì, trên Safari). Bản ghi của bạn không bao giờ được lưu trữ: tải lại trang và nó biến mất trừ khi bạn đã sao chép hoặc tải xuống trước.

Lịch sử ngắn về nhận dạng giọng nói

Audrey, IBM 1952.Bell Labs xây dựng hệ thống nhận dạng giọng nói đầu tiên, Audrey, có thể nhận ra các chữ số được nói từ 0 đến 9 từ một người nói được đào tạo. Hệ thống lấp đầy một phòng và mất vài giây cho mỗi chữ số. IBM theo sau vào năm 1962 với Shoebox, nhận ra 16 từ tiếng Anh được nói.
Mô hình Markov Ẩn, những năm 1970 và 1980.Các nhà nghiên cứu tại IBM, CMU và Bell Labs áp dụng Mô hình Markov Ẩn (HMM) cho giọng nói, cải thiện đáng kể độ chính xác và kích thước từ vựng. Harpy của Carnegie Mellon (1976) nhận ra khoảng 1.000 từ từ nhiều người nói. Kỹ thuật vẫn là nền tảng của nhận dạng giọng nói cho đến năm 2010.
Dragon NaturallySpeaking, 1997.Dragon Systems tung ra phần mềm đọc chính tả thương mại được sử dụng rộng rãi đầu tiên cho PC Windows. Đào tạo người nói (đọc to một đoạn để hiệu chuẩn với giọng của bạn) mất 30 phút; độ chính xác đạt khoảng 95% trong điều kiện tối ưu. Trở thành tiêu chuẩn cho phiên âm pháp lý, đọc chính tả y khoa và khả năng tiếp cận trong suốt những năm 2000.
Apple Siri, 2011.Apple mua lại Siri Inc. và tích hợp nhận dạng giọng nói vào iPhone 4S. Lần đầu tiên, nhận dạng giọng nói là một tính năng người tiêu dùng chính thống, được truy cập bởi hàng trăm triệu người dùng hàng ngày. Google Now (2012) và Amazon Alexa (2014) theo sau.
Web Speech API trong trình duyệt, 2012 đến 2013.Google thêm webkitSpeechRecognition vào Chrome 25, sớm được tiêu chuẩn hóa thành Web Speech API W3C. Các trang web có được quyền truy cập vào cùng một nhận dạng giọng nói cung cấp năng lượng cho tìm kiếm Google và Now, mà không yêu cầu ứng dụng gốc. Việc áp dụng mở rộng thông qua Chrome, Edge, Safari và các trình duyệt Chromium khác trong thập kỷ tiếp theo.
Whisper và ASR trên thiết bị, 2022 đến 2024.OpenAI phát hành Whisper (tháng 9 năm 2022), một mô hình nhận dạng giọng nói đa ngôn ngữ mã nguồn mở được đào tạo trên 680.000 giờ âm thanh. Tiếp cận độ chính xác cấp độ con người trên 99 ngôn ngữ. Đọc chính tả trên thiết bị của Apple trên iOS 17 và macOS Sonoma (2023) loại bỏ nhu cầu gửi âm thanh đến máy chủ của Apple. Xu hướng nhận dạng giọng nói trên thiết bị, bảo vệ quyền riêng tư đang tăng tốc.

Quy trình làm việc thực tế

Đọc chính tả email và tin nhắn.Đối với việc viết dạng dài hơn nơi gõ phím chậm, speech-to-text phác thảo nội dung trong thời gian ít hơn 2x đến 3x so với đầu vào bàn phím. Quy trình làm việc phổ biến: đọc chính tả bản nháp đầu tiên, sau đó đọc qua và sửa lỗi bằng bàn phím. Hoạt động tốt cho email, tin nhắn Slack, bài đăng trên mạng xã hội và bất kỳ văn bản nào mà ý tưởng chảy dễ dàng hơn bằng lời nói so với tại bàn phím.
Ghi chép cuộc họp và bài giảng.Đặt laptop của bạn gần một loa (hoặc chính bạn) và để bản ghi chạy trong cuộc họp hoặc bài giảng. Đầu ra ghi lại nhiều chi tiết nguyên văn hơn so với ghi chú viết tay có thể. Đối với các cuộc họp phức tạp với nhiều người nói và giọng nói, các công cụ chuyên dụng như Otter.ai tạo ra các bản ghi sạch hơn; đối với các bài giảng đơn, đọc chính tả dựa trên trình duyệt là đủ và miễn phí.
Khả năng tiếp cận cho khuyết tật vận động.Đối với người dùng bị viêm khớp, chấn thương căng thẳng lặp đi lặp lại, liệt hoặc các hạn chế vận động khác, đầu vào giọng nói không phải là sự tiện lợi mà là phương pháp truy cập chính. Web Speech API của trình duyệt hoạt động trên bất kỳ thiết bị nào có microphone, không yêu cầu phần cứng chuyên dụng và hoạt động ngay lập tức. Đối với sử dụng nặng, các công cụ tiếp cận chuyên dụng (Dragon, Apple Voice Control, Windows Voice Access) cung cấp tích hợp hệ thống sâu hơn bao gồm điều khiển chính OS, không chỉ đầu vào văn bản.
Báo chí và phiên âm phỏng vấn.Phóng viên sử dụng đọc chính tả bằng giọng nói để phác thảo bài viết giữa các cuộc phỏng vấn và để tạo ra các bản ghi thô của các cuộc phỏng vấn đã ghi. Công cụ trình duyệt không phải là dịch vụ phiên âm đầy đủ (một người nói, một nguồn âm thanh), nhưng đối với các quy trình làm việc cho tôi điểm khởi đầu mà tôi có thể chỉnh sửa, nó tiết kiệm thời gian đáng kể so với gõ toàn bộ bản ghi từ phát lại.
Phản hồi cách phát âm học ngôn ngữ.Đặt ngôn ngữ thành ngôn ngữ bạn đang học, nói một câu và đọc lại những gì hệ thống đã phiên âm. Nếu văn bản được nhận ra khớp với những gì bạn dự định nói, cách phát âm của bạn rõ ràng; nếu khác, bạn có phản hồi cụ thể về âm thanh nào cần làm việc. Miễn phí, ngay lập tức và hoạt động ở hơn 30 ngôn ngữ.
Điền biểu mẫu cho các mục nhập dài.Đối với đơn xin việc, biểu mẫu phản hồi khách hàng hoặc phiếu hỗ trợ với các trường văn bản dài, đọc chính tả tạo đầu ra nhanh hơn gõ phím trong khi giữ tay của bạn rảnh để điều hướng trang. Đặc biệt hữu ích trên máy tính bảng và điện thoại nơi bàn phím trên màn hình làm chậm đầu vào. Nói câu trả lời, dán vào trường biểu mẫu, sau đó xem lại.

Cạm bẫy phổ biến và ý nghĩa của chúng

Giọng nói và tiếng ồn làm giảm độ chính xác.Các mô hình nhận dạng giọng nói được đào tạo chủ yếu trên các loại giọng nói nhất định (tiếng Anh Mỹ tổng quát, RP Anh, v.v.). Giọng vùng miền mạnh, người nói ngôn ngữ thứ hai và tiếng ồn nền có thể giảm độ chính xác từ 95%+ xuống 70% hoặc thấp hơn. Đối với giọng không tiêu chuẩn, hãy nói chậm hơn và rõ ràng hơn một chút, đến gần microphone hơn và xem xét một công cụ chuyên dụng được đào tạo trên giọng của bạn hoặc một công cụ có khả năng thích ứng người nói như Dragon.
Dấu câu vắng mặt hoặc không đáng tin cậy.Web Speech API không tự động chèn dấu câu; nói chấm hoặc dấu hỏi sẽ chèn từ thực tế, không phải dấu câu. Một số công cụ đọc chính tả chuyên dụng (Dragon, Apple Dictation) diễn giải lệnh giọng nói cho dấu câu, nhưng API trình duyệt thì không. Lên kế hoạch thêm dấu câu trong giai đoạn chỉnh sửa sau khi đọc chính tả.
Thời gian chờ của trình duyệt kết thúc phiên đột ngột.Chrome kết thúc nhận dạng giọng nói sau khoảng 30 đến 60 giây im lặng hoặc đôi khi giữa lời nói. Tùy chọn Chế độ Liên tục của công cụ tự động khởi động lại nhận dạng, nhưng bạn có thể nhận thấy các khoảng dừng ngắn hoặc các từ bị bỏ lỡ ở các đường ghép. Đối với các phiên đọc chính tả dài, hãy mong đợi các khoảng trống thỉnh thoảng. Safari xử lý các phiên dài hơn một cách duyên dáng hơn.
Firefox không hỗ trợ Web Speech API.Mozilla đã chọn không triển khai Web Speech API trong Firefox, viện dẫn các lo ngại về quyền riêng tư và độ phức tạp. Người dùng Firefox thấy nhận dạng giọng nói không được hỗ trợ khi mở công cụ này. Đối với người dùng Firefox phụ thuộc vào khả năng tiếp cận, đây là một khoảng cách đáng kể; Chrome, Edge hoặc một công cụ tích hợp đọc màn hình chuyên dụng là cần thiết.
Chrome và Edge gửi âm thanh đến Google hoặc Microsoft.Không giống như hầu hết các công cụ trình duyệt trên trang web này, Web Speech API trong Chrome và Edge không chạy trên thiết bị; âm thanh của bạn được truyền đến dịch vụ giọng nói của Google hoặc Microsoft để xử lý. Đối với nội dung bí mật (lời khai pháp lý, đọc chính tả y tế, lập kế hoạch độc quyền), đây là một cân nhắc về quyền riêng tư đáng kể. Sử dụng Safari (trên thiết bị trên iOS 17+ và macOS Sonoma+) hoặc một công cụ ngoại tuyến chuyên dụng như Whisper chạy cục bộ.
Đồng âm và danh từ riêng làm bối rối mô hình.Their / there / they're, to / too / two, các tên như Sean / Shawn được đoán từ ngữ cảnh, đôi khi sai. Biệt ngữ kỹ thuật, tên thương hiệu, từ nước ngoài và từ vựng không phổ biến đặc biệt dễ bị lỗi. Lên kế hoạch hiệu đính, đặc biệt đối với nội dung sẽ được xuất bản hoặc gửi đi mà không có đánh giá thêm.

Quyền riêng tư: xử lý âm thanh khác nhau theo trình duyệt

Không giống như hầu hết các công cụ trên trang web này chạy hoàn toàn phía client, các thuộc tính quyền riêng tư của Web Speech API phụ thuộc vào trình duyệt nào bạn sử dụng. Chrome và Edge truyền âm thanh microphone của bạn đến các dịch vụ nhận dạng giọng nói đám mây của Google và Microsoft. Cả hai công ty đều tuyên bố rằng họ không lưu trữ âm thanh lâu dài cho các truy vấn nhận dạng giọng nói (trái với hồ sơ giọng nói được người dùng đào tạo), nhưng âm thanh rời khỏi thiết bị của bạn, đi qua mạng của họ và được xử lý trên máy chủ của họ. Safari trên iOS 17+ và macOS Sonoma+ chạy nhận dạng giọng nói hoàn toàn trên thiết bị sử dụng ASR trên thiết bị của Apple, vì vậy âm thanh của bạn không bao giờ rời khỏi Mac hoặc iPhone của bạn. Các phiên bản Safari cũ hơn và các trình duyệt Apple khác có thể khác nhau.

Bản thân Absolutool không nhận được gì. Trang gọi API giọng nói của trình duyệt, trình duyệt xử lý âm thanh (hoặc trên thiết bị hoặc qua dịch vụ đám mây của nhà cung cấp) và chỉ văn bản bản ghi kết quả quay lại trang. Sau đó công cụ hiển thị văn bản và cho phép bạn sao chép hoặc tải xuống nó; không có cuộc gọi máy chủ nào được thực hiện bởi chính trang đó. Đối với người dùng xử lý nội dung bí mật, phương pháp được khuyến nghị là: (1) sử dụng Safari trên thiết bị Apple gần đây để xử lý trên thiết bị, hoặc (2) sử dụng công cụ ngoại tuyến chuyên dụng như Whisper chạy cục bộ, hoặc (3) chấp nhận rằng Chrome và Edge định tuyến âm thanh qua Google/Microsoft và chỉ sử dụng chúng cho nội dung không nhạy cảm.

Khi một công cụ khác là lựa chọn đúng

Whisper cho phiên âm ngoại tuyến.Whisper của OpenAI (mã nguồn mở, miễn phí) chạy hoàn toàn trên máy tính cục bộ của bạn sau một lần tải xuống một lần. Mô hình xử lý 99 ngôn ngữ với độ chính xác tiếp cận cấp độ con người cho âm thanh rõ ràng. Yêu cầu Python hoặc một trong nhiều trình bao bọc GUI (Whisper Desktop, MacWhisper, Buzz) và một máy có sức mạnh hợp lý cho hoạt động thời gian thực. Đối với nội dung bí mật, hoạt động ngoại tuyến hoặc phiên âm hàng loạt các tệp âm thanh đã ghi, Whisper là công cụ đúng.
Dragon NaturallySpeaking cho đọc chính tả chuyên nghiệp.Dragon (hiện thuộc sở hữu của Nuance/Microsoft, 200 đến 500 đô tùy thuộc vào phiên bản) cung cấp độ chính xác cao nhất cho đọc chính tả chuyên nghiệp bền vững, với đào tạo người nói, từ vựng tùy chỉnh, lệnh giọng nói cho dấu câu và định dạng, và tích hợp sâu với Microsoft Word và các ứng dụng khác. Đối với phiên âm pháp lý, đọc chính tả y tế hoặc bất kỳ ai đọc chính tả trong nhiều giờ mỗi ngày, mức giá là hợp lý.
Otter.ai cho bản ghi cuộc họp đa người nói.Otter.ai (freemium, 8,33 đô/tháng cho Pro) chuyên về phiên âm cuộc họp với phân tách người nói (biết ai đã nói gì), dấu câu tự động, tóm tắt và tích hợp với Zoom, Teams và Google Meet. Đối với các cuộc họp với nhiều người tham gia mà sự ghi nhận quan trọng, Otter là công cụ đúng. Đánh đổi quyền riêng tư: các cuộc họp được lưu trữ trên máy chủ của Otter.
Đọc chính tả OS gốc cho đầu vào giọng nói toàn hệ thống.Windows Voice Access, macOS Voice Control / Enhanced Dictation và đọc chính tả hệ thống iOS / Android hoạt động ở bất cứ nơi nào bạn có thể gõ, không chỉ trong một trang web duy nhất. Đối với người dùng khả năng tiếp cận cần đầu vào giọng nói trên toàn bộ OS, đọc chính tả gốc thực tế hơn công cụ trình duyệt. Đọc chính tả Nâng cao macOS và đọc chính tả iOS 17+ là trên thiết bị.

Các câu hỏi thường gặp khác

Tại sao nhận dạng dừng sau một phút?

Chrome và Edge có thời gian chờ tích hợp sẵn kết thúc các phiên nhận dạng Web Speech sau khoảng 30 đến 60 giây, nhằm tiết kiệm băng thông và ngăn chặn ghi âm vô hạn vô tình. Bật Chế độ Liên tục trong công cụ để tự động khởi động lại nhận dạng khi điều này xảy ra. Chế độ liên tục giới thiệu các khoảng dừng ngắn giữa các phiên (thường ít hơn một giây), có thể dẫn đến các từ bị bỏ lỡ thỉnh thoảng ở các đường ghép. Safari xử lý các phiên dài hơn một cách duyên dáng hơn mà không có thời gian chờ.

Tại sao độ chính xác thấp hơn tôi mong đợi?

Ba yếu tố: (1) Giọng của bạn có thể khác với dữ liệu đào tạo; xem xét thử một biến thể ngôn ngữ gần hơn (ví dụ: en-IN cho tiếng Anh Ấn Độ, en-AU cho Úc). (2) Tiếng ồn nền, khoảng cách microphone và chất lượng âm thanh quan trọng; phòng yên tĩnh và microphone gần tạo ra độ chính xác 95%+, trong khi môi trường ồn ào và microphone xa giảm xuống 70% hoặc thấp hơn. (3) Từ vựng chuyên dụng (thuật ngữ kỹ thuật, danh từ riêng, tên thương hiệu) khó hơn lời nói chung; đối với đọc chính tả chuyên nghiệp độ chính xác cao, đào tạo người nói của Dragon và từ vựng tùy chỉnh xứng đáng với chi phí.

Tôi có thể đọc chính tả dấu câu bằng giọng nói không?

Không trong công cụ này. Web Speech API không diễn giải lệnh giọng nói cho dấu câu; nói chấm sẽ chèn từ chấm, không phải dấu chấm. Một số công cụ đọc chính tả chuyên dụng (Dragon, Apple Dictation, Windows Voice Access) nhận ra các lệnh dấu câu được nói. Đối với đọc chính tả dựa trên trình duyệt, quy trình làm việc điển hình là: đọc các từ, sau đó thêm dấu câu trong giai đoạn chỉnh sửa bằng bàn phím. Các mô hình dạng dài hiện đại (Whisper) thường tự động thêm dấu câu dựa trên các mẫu lời nói.

Điều này có hoạt động trên iPhone không?

Có, trên iOS 14.5 và mới hơn thông qua Safari. iOS 17 đã đưa nhận dạng giọng nói trên thiết bị thông qua việc triển khai Web Speech API của Safari, vì vậy âm thanh của bạn không bao giờ rời khỏi iPhone của bạn. Đối với đọc chính tả bền vững trên iPhone hoặc iPad, bạn cũng có thể sử dụng Đọc chính tả iOS toàn hệ thống (chạm vào biểu tượng microphone trên bàn phím), hoạt động trong bất kỳ trường văn bản nào trên OS.

Tại sao Firefox không hỗ trợ điều này?

Mozilla chưa triển khai Web Speech API trong Firefox, chủ yếu do các lo ngại về quyền riêng tư với mô hình định tuyến đám mây được sử dụng bởi Chrome và Edge, và độ phức tạp kỹ thuật của việc triển khai một giải pháp thay thế bảo vệ quyền riêng tư. Người dùng Firefox trên trình theo dõi lỗi của Mozilla đã yêu cầu hỗ trợ giọng nói trong nhiều năm; quan điểm chính thức của Mozilla là nhận dạng giọng nói cục bộ có ý nghĩa đòi hỏi nguồn lực đáng kể và họ chưa ưu tiên nó. Hiện tại, người dùng Firefox tìm kiếm đầu vào giọng nói nên sử dụng Chrome, Edge, Safari hoặc một giải pháp toàn hệ thống như đọc chính tả cấp OS.

Tôi có thể phiên âm một tệp âm thanh đã ghi sẵn không?

Không trực tiếp. Web Speech API chỉ chấp nhận đầu vào microphone trực tiếp, không phải tải lên tệp. Để phiên âm một tệp đã ghi, giải pháp thay thế là phát tệp âm thanh qua loa máy tính của bạn (hoặc sử dụng phần mềm định tuyến âm thanh như Soundflower hoặc BlackHole) trong khi công cụ này lắng nghe qua microphone. Điều này mất một số độ chính xác do biến dạng âm học. Đối với phiên âm chất lượng cao của âm thanh đã ghi, hãy sử dụng một công cụ chuyên dụng: Whisper (ngoại tuyến, miễn phí), Otter.ai hoặc một dịch vụ phiên âm như Rev. Đối với phiên âm không chính thức thỉnh thoảng, thủ thuật playback-qua-microphone hoạt động.