Konversi Suara ke Teks Online Gratis
Ubah suara Anda menjadi teks secara instan. Tanpa unggah, tanpa pendaftaran, tanpa akun, cukup bicara dan transkripsikan.
Cara Kerjanya
- Izinkan akses mikrofon: Berikan izin mikrofon browser saat diminta, audio tetap lokal dan tidak pernah dikirim ke server.
- Mulai dikte: Klik Mulai dan berbicaralah dengan jelas. Kata-kata Anda muncul secara real-time saat Web Speech API mengenalinya.
- Edit transkrip: Teks yang dikenali dapat diedit sepenuhnya, perbaiki kesalahan apa pun langsung di area teks.
- Salin atau unduh: Salin transkrip ke clipboard Anda atau unduh sebagai file .txt.
Mengapa Menggunakan Suara ke Teks?
Dikte suara 3–4× lebih cepat daripada mengetik bagi kebanyakan orang dan mengurangi ketegangan berulang dari penggunaan keyboard yang lama. Pengenalan suara berbasis browser menggunakan Web Speech API kini tersedia di browser berbasis Chromium dan Safari, memberikan akurasi tinggi untuk banyak bahasa tanpa layanan backend apa pun. Gunakan untuk mendikte email, catatan, posting blog, dan entri formulir, atau untuk membuat transkrip kasar dari audio yang Anda dengarkan. Untuk aksesibilitas, input suara sangat penting bagi pengguna dengan disabilitas motorik atau mereka yang merasa mengetik sulit.
Fitur
- Transkripsi real-time, kata-kata muncul saat Anda berbicara
- Dukungan multi-bahasa, lebih dari 30 bahasa dan dialek
- Mode berkelanjutan, dikte tanpa jeda untuk mengklik
- Privasi utama, audio diproses secara lokal oleh browser
- Output yang dapat diedit, perbaiki kesalahan pengenalan secara inline
Apa yang sebenarnya dilakukan speech-to-text browser
Pengenalan suara (juga disebut Automatic Speech Recognition, ASR) mengonversi audio yang diucapkan menjadi teks tertulis. Sistem ASR modern menggabungkan model akustik (bagaimana suara dipetakan ke fonem), model bahasa (bagaimana kata dan frasa bersatu dalam bahasa nyata), dan dekoder yang menemukan urutan kata yang paling mungkin diberikan audio. Revolusi 2010-an adalah pembelajaran mendalam: jaringan saraf menggantikan Hidden Markov Models sebelumnya untuk pemodelan akustik dan bahasa, meningkatkan akurasi dari sekitar 80% pada ucapan bersih menjadi 95%+ pada audio satu pembicara yang kooperatif. Pada 2022, Whisper dari OpenAI menunjukkan bahwa satu model multibahasa dapat menyamai atau melebihi sistem khusus di 99 bahasa.
Alat ini menggunakan Web Speech API browser, standar W3C untuk ASR in-browser yang diperkenalkan di Chrome 25 (2013) dan secara bertahap ditambahkan ke Edge, Safari, dan sebagian besar browser Chromium. API mengekspos objek SpeechRecognition yang mengalirkan audio mikrofon ke layanan suara mana pun yang diterapkan browser: Chrome dan Edge merutekan audio ke layanan suara cloud Google dan Microsoft secara berurutan, sementara Safari di iOS 17+ dan macOS Sonoma+ menjalankan pengenalan di perangkat. Firefox sama sekali tidak menerapkan Web Speech API. Perbedaan privasi ini penting: alat itu sendiri berjalan di browser Anda dan tidak pernah melihat audio Anda, tetapi Chrome dan Edge memang mengirimkan audio ke server Google/Microsoft untuk pemrosesan.
Bagi sebagian besar pengguna, trade-off versus mengetik sangat dramatis. Kecepatan mengetik rata-rata untuk pekerja kantor adalah 40 hingga 60 kata per menit; ucapan rata-rata adalah 130 hingga 150 kata per menit. Dikte suara 2x hingga 3x lebih cepat untuk mendapatkan teks awal, dengan catatan bahwa pengeditan setelahnya biasanya masih mengetik. Input suara juga penting untuk aksesibilitas: pengguna dengan disabilitas motorik, ketegangan berulang, atau cedera sementara dapat menghasilkan teks dengan suara saat mengetik tidak praktis. Bagi pelajar bahasa, mendengar apakah sistem mengenali ucapan Anda dengan benar memberikan umpan balik tentang pelafalan. Untuk penangkapan rapat, transkrip waktu nyata membantu peserta dan rekan kerja yang tidak hadir.
Bagaimana alat ini bekerja di balik layar
Saat Anda mengklik Mulai Merekam, halaman membuat objek SpeechRecognition (atau webkitSpeechRecognition di Chrome yang lebih lama) dan memanggil start(). Browser meminta izin mikrofon jika tidak diberikan sebelumnya, lalu mulai mengalirkan audio yang ditangkap ke layanan suara sistem. Tag bahasa yang Anda pilih (misalnya, en-US, fr-FR, zh-CN) diteruskan ke layanan sehingga memuat model akustik dan bahasa yang sesuai.
Browser mengirimkan dua jenis hasil ke halaman: hasil sementara (tebakan terbaik sebagian, diperbarui 5 hingga 20 kali per detik saat audio baru masuk) dan hasil akhir (transkripsi terkunci dari ucapan lengkap, biasanya dikeluarkan saat pembicara berhenti sejenak). Textarea alat menampilkan hasil sementara dengan gaya lebih terang dan mengunci hasil akhir saat mereka tiba. Penghitung kata diperbarui hanya dari hasil akhir, sehingga tidak berkedip saat tebakan sementara berubah. Mode berkelanjutan (opsi kotak centang) secara otomatis memulai ulang sesi pengenalan jika browser mengakhirinya setelah keheningan panjang, yang umum di Chrome tetapi langka di Safari.
Setelah Anda berhenti, transkrip tetap di textarea, sepenuhnya dapat diedit. Tombol Salin dan Unduh berfungsi pada teks di textarea; keduanya terjadi secara lokal tanpa keterlibatan server. Alat itu sendiri tidak pernah mengirimkan audio atau transkrip Anda ke mana pun; satu-satunya aktivitas jaringan adalah apa pun yang dilakukan browser secara internal untuk berkomunikasi dengan layanan suara Google atau Microsoft (atau tidak ada, di Safari). Transkrip Anda tidak pernah disimpan: muat ulang halaman dan itu hilang kecuali Anda menyalinnya atau mengunduhnya terlebih dahulu.
Sejarah singkat pengenalan suara
- Audrey, IBM 1952.Bell Labs membangun sistem pengenalan suara pertama, Audrey, yang dapat mengenali angka 0 hingga 9 yang diucapkan dari satu pembicara terlatih. Sistem ini memenuhi satu ruangan dan membutuhkan beberapa detik per digit. IBM mengikuti pada 1962 dengan Shoebox, mengenali 16 kata bahasa Inggris yang diucapkan.
- Hidden Markov Models, 1970-an dan 1980-an.Para peneliti di IBM, CMU, dan Bell Labs menerapkan Hidden Markov Models (HMM) ke ucapan, secara dramatis meningkatkan akurasi dan ukuran kosakata. Harpy dari Carnegie Mellon (1976) mengenali sekitar 1.000 kata dari beberapa pembicara. Tekniknya tetap menjadi dasar pengenalan suara hingga 2010.
- Dragon NaturallySpeaking, 1997.Dragon Systems meluncurkan perangkat lunak dikte komersial pertama yang banyak digunakan untuk PC Windows. Pelatihan pembicara (membaca dengan keras suatu bagian untuk mengkalibrasi ke suara Anda) memakan waktu 30 menit; akurasi mencapai sekitar 95% dalam kondisi optimal. Menjadi standar untuk transkripsi hukum, dikte medis, dan aksesibilitas sepanjang tahun 2000-an.
- Apple Siri, 2011.Apple mengakuisisi Siri Inc. dan mengintegrasikan pengenalan suara ke dalam iPhone 4S. Untuk pertama kalinya, pengenalan suara menjadi fitur konsumen utama, diakses oleh ratusan juta pengguna setiap hari. Google Now (2012) dan Amazon Alexa (2014) menyusul.
- Web Speech API di browser, 2012 hingga 2013.Google menambahkan
webkitSpeechRecognitionke Chrome 25, segera distandarisasi sebagai Web Speech API W3C. Halaman web mendapatkan akses ke pengenalan suara yang sama yang memberdayakan pencarian Google dan Now, tanpa memerlukan aplikasi native. Adopsi meluas melalui Chrome, Edge, Safari, dan browser Chromium lainnya selama dekade berikutnya. - Whisper dan ASR on-device, 2022 hingga 2024.OpenAI merilis Whisper (September 2022), model pengenalan suara multibahasa open-source yang dilatih pada 680.000 jam audio. Mendekati akurasi tingkat manusia di 99 bahasa. Dikte on-device Apple di iOS 17 dan macOS Sonoma (2023) menghilangkan kebutuhan untuk mengirim audio ke server Apple. Tren menuju pengenalan suara on-device yang menjaga privasi semakin cepat.
Alur kerja dunia nyata
- Mendikte email dan pesan.Untuk penulisan bentuk lebih panjang di mana mengetik lambat, speech-to-text mendrafkan konten dalam 2x hingga 3x lebih cepat daripada input keyboard. Alur kerja umum: dikte draft pertama, lalu baca dan koreksi kesalahan dengan keyboard. Bekerja dengan baik untuk email, pesan Slack, posting media sosial, dan teks apa pun di mana ide mengalir lebih mudah secara verbal daripada di keyboard.
- Pencatatan rapat dan kuliah.Letakkan laptop Anda di dekat speaker (atau diri sendiri) dan biarkan transkrip berjalan selama rapat atau kuliah. Output menangkap lebih banyak detail verbatim daripada yang dapat dilakukan catatan tulisan tangan. Untuk rapat kompleks dengan banyak pembicara dan aksen, alat khusus seperti Otter.ai menghasilkan transkrip yang lebih bersih; untuk kuliah solo, dikte berbasis browser sudah cukup dan gratis.
- Aksesibilitas untuk disabilitas motorik.Bagi pengguna dengan artritis, cedera tegangan berulang, kelumpuhan, atau keterbatasan motorik lainnya, input suara bukan kenyamanan tetapi metode akses utama. Web Speech API browser bekerja di perangkat apa pun dengan mikrofon, tidak memerlukan perangkat keras khusus, dan beroperasi seketika. Untuk penggunaan berat, alat aksesibilitas khusus (Dragon, Apple Voice Control, Windows Voice Access) menyediakan integrasi sistem yang lebih dalam termasuk mengontrol OS itu sendiri, bukan hanya input teks.
- Jurnalisme dan transkripsi wawancara.Wartawan menggunakan dikte suara untuk mendrafkan artikel di antara wawancara dan untuk menghasilkan transkrip kasar dari wawancara yang direkam. Alat browser bukan layanan transkripsi lengkap (pembicara tunggal, sumber audio tunggal), tetapi untuk alur kerja berikan saya titik awal yang dapat saya edit, ini menghemat waktu substansial dibandingkan mengetik seluruh transkrip dari pemutaran.
- Umpan balik pelafalan pembelajaran bahasa.Atur bahasa ke bahasa yang sedang Anda pelajari, ucapkan sebuah kalimat, dan baca apa yang ditranskrip sistem. Jika teks yang dikenali cocok dengan apa yang Anda maksudkan, pelafalan Anda jelas; jika berbeda, Anda memiliki umpan balik khusus tentang suara mana yang perlu diperbaiki. Gratis, segera, dan beroperasi di lebih dari 30 bahasa.
- Pengisian formulir untuk entri panjang.Untuk lamaran kerja, formulir umpan balik pelanggan, atau tiket dukungan dengan bidang teks panjang, dikte menghasilkan output lebih cepat daripada mengetik sambil menjaga tangan Anda bebas untuk menavigasi halaman. Sangat berguna di tablet dan ponsel di mana keyboard di layar memperlambat input. Ucapkan jawabannya, tempelkan ke bidang formulir, lalu tinjau.
Jebakan umum dan artinya
- Aksen dan kebisingan mengurangi akurasi.Model pengenalan suara dilatih terutama pada varietas aksen tertentu (bahasa Inggris Amerika umum, RP Inggris, dll.). Aksen daerah yang kuat, pembicara bahasa kedua, dan kebisingan latar belakang dapat menurunkan akurasi dari 95%+ menjadi 70% atau lebih rendah. Untuk aksen non-standar, bicara sedikit lebih lambat dan jelas, dekati mikrofon, dan pertimbangkan alat khusus yang dilatih pada aksen Anda atau yang memiliki adaptasi pembicara seperti Dragon.
- Tanda baca tidak ada atau tidak dapat diandalkan.Web Speech API tidak menyisipkan tanda baca secara otomatis; mengucapkan titik atau tanda tanya menyisipkan kata sebenarnya, bukan tanda baca. Beberapa alat dikte khusus (Dragon, Apple Dictation) menafsirkan perintah suara untuk tanda baca, tetapi API browser tidak. Rencanakan untuk menambahkan tanda baca dalam pass pengeditan setelah dikte.
- Timeout browser mengakhiri sesi secara tak terduga.Chrome mengakhiri pengenalan suara setelah sekitar 30 hingga 60 detik keheningan atau kadang-kadang di tengah ucapan. Opsi Mode Berkelanjutan alat secara otomatis memulai ulang pengenalan, tetapi Anda mungkin melihat jeda singkat atau kata-kata yang terlewat di jahitan. Untuk sesi dikte panjang, harapkan kesenjangan sesekali. Safari menangani sesi yang lebih panjang dengan lebih elegan.
- Firefox tidak mendukung Web Speech API.Mozilla telah memilih untuk tidak menerapkan Web Speech API di Firefox, mengutip kekhawatiran privasi dan kompleksitas. Pengguna Firefox melihat pengenalan suara tidak didukung saat membuka alat ini. Untuk pengguna Firefox yang bergantung pada aksesibilitas, ini adalah kesenjangan yang signifikan; Chrome, Edge, atau alat khusus terintegrasi pembaca layar diperlukan.
- Chrome dan Edge mengirim audio ke Google atau Microsoft.Tidak seperti kebanyakan alat browser di situs ini, Web Speech API di Chrome dan Edge tidak berjalan on-device; audio Anda dikirimkan ke layanan suara Google atau Microsoft untuk pemrosesan. Untuk konten rahasia (deposisi hukum, dikte medis, perencanaan proprietary), ini adalah pertimbangan privasi yang bermakna. Gunakan Safari (yang on-device di iOS 17+ dan macOS Sonoma+) atau alat offline khusus seperti Whisper yang berjalan secara lokal.
- Homofon dan kata benda yang tepat menjebak model.Their / there / they're, to / too / two, nama seperti Sean / Shawn ditebak dari konteks, kadang-kadang salah. Jargon teknis, nama merek, kata-kata asing, dan kosakata yang tidak biasa sangat rentan terhadap kesalahan. Rencanakan untuk mengoreksi, terutama untuk konten yang akan diterbitkan atau dikirim tanpa ulasan lebih lanjut.
Privasi: penanganan audio berbeda menurut browser
Tidak seperti kebanyakan alat di situs ini yang berjalan sepenuhnya di sisi klien, properti privasi Web Speech API tergantung pada browser mana yang Anda gunakan. Chrome dan Edge mengirimkan audio mikrofon Anda ke layanan pengenalan suara cloud Google dan Microsoft. Kedua perusahaan menyatakan bahwa mereka tidak menyimpan audio jangka panjang untuk kueri pengenalan suara (bertentangan dengan profil suara yang dilatih pengguna), tetapi audio meninggalkan perangkat Anda, melintasi jaringan mereka, dan diproses di server mereka. Safari di iOS 17+ dan macOS Sonoma+ menjalankan pengenalan suara sepenuhnya on-device menggunakan ASR on-device Apple, sehingga audio Anda tidak pernah meninggalkan Mac atau iPhone Anda. Versi Safari yang lebih lama dan browser Apple lainnya mungkin berbeda.
Absolutool itu sendiri tidak menerima apa pun. Halaman memanggil API suara browser, browser menangani audio (baik on-device atau melalui layanan cloud vendornya), dan hanya teks transkrip yang dihasilkan kembali ke halaman. Alat kemudian menampilkan teks dan memungkinkan Anda menyalin atau mengunduhnya; tidak ada panggilan server yang dilakukan oleh halaman itu sendiri. Bagi pengguna yang menangani konten rahasia, pendekatan yang direkomendasikan adalah: (1) gunakan Safari di perangkat Apple terbaru untuk pemrosesan on-device, atau (2) gunakan alat offline khusus seperti Whisper yang berjalan secara lokal, atau (3) terima bahwa Chrome dan Edge merutekan audio melalui Google/Microsoft dan gunakan hanya untuk konten yang tidak sensitif.
Saat alat lain adalah pilihan yang tepat
- Whisper untuk transkripsi offline.Whisper dari OpenAI (open-source, gratis) berjalan sepenuhnya di mesin lokal Anda setelah unduhan satu kali. Model menangani 99 bahasa dengan akurasi mendekati tingkat manusia untuk audio yang jelas. Memerlukan Python atau salah satu dari banyak pembungkus GUI (Whisper Desktop, MacWhisper, Buzz) dan mesin yang cukup kuat untuk operasi waktu nyata. Untuk konten rahasia, operasi offline, atau transkripsi batch file audio yang direkam, Whisper adalah alat yang tepat.
- Dragon NaturallySpeaking untuk dikte profesional.Dragon (sekarang dimiliki oleh Nuance/Microsoft, 200 hingga 500 dolar tergantung edisi) memberikan akurasi tertinggi untuk dikte profesional yang berkelanjutan, dengan pelatihan pembicara, kosakata kustom, perintah suara untuk tanda baca dan format, dan integrasi mendalam dengan Microsoft Word dan aplikasi lain. Untuk transkripsi hukum, dikte medis, atau siapa pun yang mendikte berjam-jam per hari, harganya dibenarkan.
- Otter.ai untuk transkrip rapat multi-pembicara.Otter.ai (freemium, 8,33 dolar/bulan untuk Pro) berspesialisasi dalam transkripsi rapat dengan diarisasi pembicara (mengetahui siapa berkata apa), tanda baca otomatis, ringkasan, dan integrasi dengan Zoom, Teams, dan Google Meet. Untuk rapat dengan banyak peserta di mana atribusi penting, Otter adalah alat yang tepat. Trade-off privasi: rapat disimpan di server Otter.
- Dikte OS native untuk input suara sistem-wide.Windows Voice Access, macOS Voice Control / Enhanced Dictation, dan dikte sistem iOS / Android bekerja di mana pun Anda dapat mengetik, bukan hanya dalam satu halaman web. Untuk pengguna aksesibilitas yang membutuhkan input suara di seluruh OS, dikte native lebih praktis daripada alat browser. Enhanced Dictation macOS dan dikte iOS 17+ adalah on-device.
Pertanyaan umum lainnya
Mengapa pengenalan berhenti setelah satu menit?
Chrome dan Edge memiliki timeout bawaan yang mengakhiri sesi pengenalan Web Speech setelah sekitar 30 hingga 60 detik, dimaksudkan untuk menghemat bandwidth dan mencegah perekaman tak terbatas yang tidak disengaja. Aktifkan Mode Berkelanjutan di alat untuk secara otomatis memulai ulang pengenalan saat ini terjadi. Mode berkelanjutan memperkenalkan jeda singkat antar sesi (biasanya kurang dari satu detik), yang dapat menyebabkan kata-kata yang terlewat sesekali di jahitan. Safari menangani sesi yang lebih panjang dengan lebih anggun tanpa timeout.
Mengapa akurasinya lebih rendah dari yang saya harapkan?
Tiga faktor: (1) Aksen Anda mungkin berbeda dari data pelatihan; pertimbangkan untuk mencoba varian bahasa yang lebih dekat (misalnya, en-IN untuk bahasa Inggris India, en-AU untuk Australia). (2) Kebisingan latar belakang, jarak mikrofon, dan kualitas audio penting; ruangan yang tenang dan mikrofon dekat menghasilkan akurasi 95%+, sementara lingkungan berisik dan mikrofon jauh turun ke 70% atau lebih rendah. (3) Kosakata khusus (istilah teknis, kata benda yang tepat, nama merek) lebih sulit daripada ucapan umum; untuk dikte profesional akurasi tinggi, pelatihan pembicara Dragon dan kosakata kustom sepadan dengan biayanya.
Dapatkah saya mendikte tanda baca dengan suara?
Tidak di alat ini. Web Speech API tidak menafsirkan perintah suara untuk tanda baca; mengucapkan titik menyisipkan kata titik, bukan tanda .. Beberapa alat dikte khusus (Dragon, Apple Dictation, Windows Voice Access) mengenali perintah tanda baca yang diucapkan. Untuk dikte berbasis browser, alur kerja tipikal adalah: dikte kata-kata, lalu tambahkan tanda baca dalam pass pengeditan dengan keyboard. Model bentuk panjang modern (Whisper) sering menambahkan tanda baca secara otomatis berdasarkan pola ucapan.
Apakah ini berfungsi di iPhone?
Ya, di iOS 14.5 dan lebih baru melalui Safari. iOS 17 membawa pengenalan suara on-device melalui implementasi Web Speech API Safari, sehingga audio Anda tidak pernah meninggalkan iPhone Anda. Untuk dikte berkelanjutan di iPhone atau iPad, Anda juga dapat menggunakan Dikte iOS sistem-wide (ketuk ikon mikrofon di keyboard), yang berfungsi di bidang teks apa pun di seluruh OS.
Mengapa Firefox tidak mendukung ini?
Mozilla belum menerapkan Web Speech API di Firefox, terutama karena kekhawatiran privasi dengan model perutean cloud yang digunakan oleh Chrome dan Edge, dan kompleksitas rekayasa untuk menerapkan alternatif yang menjaga privasi. Pengguna Firefox di pelacak bug Mozilla telah meminta dukungan suara selama bertahun-tahun; posisi resmi Mozilla adalah bahwa pengenalan suara lokal yang berarti memerlukan sumber daya signifikan dan mereka belum memprioritaskannya. Untuk saat ini, pengguna Firefox yang mencari input suara harus menggunakan Chrome, Edge, Safari, atau solusi sistem-wide seperti dikte tingkat OS.
Dapatkah saya mentranskripsi file audio yang sudah direkam sebelumnya?
Tidak secara langsung. Web Speech API hanya menerima input mikrofon langsung, bukan unggahan file. Untuk mentranskripsi file yang direkam, solusi alternatifnya adalah memutar file audio melalui speaker komputer Anda (atau menggunakan perangkat lunak perutean audio seperti Soundflower atau BlackHole) sementara alat ini mendengarkan melalui mikrofon. Ini kehilangan beberapa akurasi karena distorsi akustik. Untuk transkripsi berkualitas tinggi dari audio yang direkam, gunakan alat khusus: Whisper (offline, gratis), Otter.ai, atau layanan transkripsi seperti Rev. Untuk transkripsi informal sesekali, trik playback-melalui-mikrofon berfungsi.