Konversi Suara ke Teks Online Gratis

Ubah suara Anda menjadi teks secara instan. Tanpa unggah, tanpa pendaftaran, tanpa akun, cukup bicara dan transkripsikan.

🔒 Pribadi: Semua pemrosesan terjadi di browser Anda
Jumlah kata: 0
Catatan: Alat ini memerlukan browser modern dengan dukungan pengenalan suara (Chrome, Edge, Safari, Opera). Akses mikrofon diperlukan dan hanya akan digunakan selama sesi perekaman Anda.

Cara Kerjanya

  1. Izinkan akses mikrofon: Berikan izin mikrofon browser saat diminta, audio tetap lokal dan tidak pernah dikirim ke server.
  2. Mulai dikte: Klik Mulai dan berbicaralah dengan jelas. Kata-kata Anda muncul secara real-time saat Web Speech API mengenalinya.
  3. Edit transkrip: Teks yang dikenali dapat diedit sepenuhnya, perbaiki kesalahan apa pun langsung di area teks.
  4. Salin atau unduh: Salin transkrip ke clipboard Anda atau unduh sebagai file .txt.

Mengapa Menggunakan Suara ke Teks?

Dikte suara 3–4× lebih cepat daripada mengetik bagi kebanyakan orang dan mengurangi ketegangan berulang dari penggunaan keyboard yang lama. Pengenalan suara berbasis browser menggunakan Web Speech API kini tersedia di browser berbasis Chromium dan Safari, memberikan akurasi tinggi untuk banyak bahasa tanpa layanan backend apa pun. Gunakan untuk mendikte email, catatan, posting blog, dan entri formulir, atau untuk membuat transkrip kasar dari audio yang Anda dengarkan. Untuk aksesibilitas, input suara sangat penting bagi pengguna dengan disabilitas motorik atau mereka yang merasa mengetik sulit.

Fitur

Apa yang sebenarnya dilakukan speech-to-text browser

Pengenalan suara (juga disebut Automatic Speech Recognition, ASR) mengonversi audio yang diucapkan menjadi teks tertulis. Sistem ASR modern menggabungkan model akustik (bagaimana suara dipetakan ke fonem), model bahasa (bagaimana kata dan frasa bersatu dalam bahasa nyata), dan dekoder yang menemukan urutan kata yang paling mungkin diberikan audio. Revolusi 2010-an adalah pembelajaran mendalam: jaringan saraf menggantikan Hidden Markov Models sebelumnya untuk pemodelan akustik dan bahasa, meningkatkan akurasi dari sekitar 80% pada ucapan bersih menjadi 95%+ pada audio satu pembicara yang kooperatif. Pada 2022, Whisper dari OpenAI menunjukkan bahwa satu model multibahasa dapat menyamai atau melebihi sistem khusus di 99 bahasa.

Alat ini menggunakan Web Speech API browser, standar W3C untuk ASR in-browser yang diperkenalkan di Chrome 25 (2013) dan secara bertahap ditambahkan ke Edge, Safari, dan sebagian besar browser Chromium. API mengekspos objek SpeechRecognition yang mengalirkan audio mikrofon ke layanan suara mana pun yang diterapkan browser: Chrome dan Edge merutekan audio ke layanan suara cloud Google dan Microsoft secara berurutan, sementara Safari di iOS 17+ dan macOS Sonoma+ menjalankan pengenalan di perangkat. Firefox sama sekali tidak menerapkan Web Speech API. Perbedaan privasi ini penting: alat itu sendiri berjalan di browser Anda dan tidak pernah melihat audio Anda, tetapi Chrome dan Edge memang mengirimkan audio ke server Google/Microsoft untuk pemrosesan.

Bagi sebagian besar pengguna, trade-off versus mengetik sangat dramatis. Kecepatan mengetik rata-rata untuk pekerja kantor adalah 40 hingga 60 kata per menit; ucapan rata-rata adalah 130 hingga 150 kata per menit. Dikte suara 2x hingga 3x lebih cepat untuk mendapatkan teks awal, dengan catatan bahwa pengeditan setelahnya biasanya masih mengetik. Input suara juga penting untuk aksesibilitas: pengguna dengan disabilitas motorik, ketegangan berulang, atau cedera sementara dapat menghasilkan teks dengan suara saat mengetik tidak praktis. Bagi pelajar bahasa, mendengar apakah sistem mengenali ucapan Anda dengan benar memberikan umpan balik tentang pelafalan. Untuk penangkapan rapat, transkrip waktu nyata membantu peserta dan rekan kerja yang tidak hadir.

Bagaimana alat ini bekerja di balik layar

Saat Anda mengklik Mulai Merekam, halaman membuat objek SpeechRecognition (atau webkitSpeechRecognition di Chrome yang lebih lama) dan memanggil start(). Browser meminta izin mikrofon jika tidak diberikan sebelumnya, lalu mulai mengalirkan audio yang ditangkap ke layanan suara sistem. Tag bahasa yang Anda pilih (misalnya, en-US, fr-FR, zh-CN) diteruskan ke layanan sehingga memuat model akustik dan bahasa yang sesuai.

Browser mengirimkan dua jenis hasil ke halaman: hasil sementara (tebakan terbaik sebagian, diperbarui 5 hingga 20 kali per detik saat audio baru masuk) dan hasil akhir (transkripsi terkunci dari ucapan lengkap, biasanya dikeluarkan saat pembicara berhenti sejenak). Textarea alat menampilkan hasil sementara dengan gaya lebih terang dan mengunci hasil akhir saat mereka tiba. Penghitung kata diperbarui hanya dari hasil akhir, sehingga tidak berkedip saat tebakan sementara berubah. Mode berkelanjutan (opsi kotak centang) secara otomatis memulai ulang sesi pengenalan jika browser mengakhirinya setelah keheningan panjang, yang umum di Chrome tetapi langka di Safari.

Setelah Anda berhenti, transkrip tetap di textarea, sepenuhnya dapat diedit. Tombol Salin dan Unduh berfungsi pada teks di textarea; keduanya terjadi secara lokal tanpa keterlibatan server. Alat itu sendiri tidak pernah mengirimkan audio atau transkrip Anda ke mana pun; satu-satunya aktivitas jaringan adalah apa pun yang dilakukan browser secara internal untuk berkomunikasi dengan layanan suara Google atau Microsoft (atau tidak ada, di Safari). Transkrip Anda tidak pernah disimpan: muat ulang halaman dan itu hilang kecuali Anda menyalinnya atau mengunduhnya terlebih dahulu.

Sejarah singkat pengenalan suara

Alur kerja dunia nyata

Jebakan umum dan artinya

Privasi: penanganan audio berbeda menurut browser

Tidak seperti kebanyakan alat di situs ini yang berjalan sepenuhnya di sisi klien, properti privasi Web Speech API tergantung pada browser mana yang Anda gunakan. Chrome dan Edge mengirimkan audio mikrofon Anda ke layanan pengenalan suara cloud Google dan Microsoft. Kedua perusahaan menyatakan bahwa mereka tidak menyimpan audio jangka panjang untuk kueri pengenalan suara (bertentangan dengan profil suara yang dilatih pengguna), tetapi audio meninggalkan perangkat Anda, melintasi jaringan mereka, dan diproses di server mereka. Safari di iOS 17+ dan macOS Sonoma+ menjalankan pengenalan suara sepenuhnya on-device menggunakan ASR on-device Apple, sehingga audio Anda tidak pernah meninggalkan Mac atau iPhone Anda. Versi Safari yang lebih lama dan browser Apple lainnya mungkin berbeda.

Absolutool itu sendiri tidak menerima apa pun. Halaman memanggil API suara browser, browser menangani audio (baik on-device atau melalui layanan cloud vendornya), dan hanya teks transkrip yang dihasilkan kembali ke halaman. Alat kemudian menampilkan teks dan memungkinkan Anda menyalin atau mengunduhnya; tidak ada panggilan server yang dilakukan oleh halaman itu sendiri. Bagi pengguna yang menangani konten rahasia, pendekatan yang direkomendasikan adalah: (1) gunakan Safari di perangkat Apple terbaru untuk pemrosesan on-device, atau (2) gunakan alat offline khusus seperti Whisper yang berjalan secara lokal, atau (3) terima bahwa Chrome dan Edge merutekan audio melalui Google/Microsoft dan gunakan hanya untuk konten yang tidak sensitif.

Saat alat lain adalah pilihan yang tepat

Pertanyaan umum lainnya

Mengapa pengenalan berhenti setelah satu menit?

Chrome dan Edge memiliki timeout bawaan yang mengakhiri sesi pengenalan Web Speech setelah sekitar 30 hingga 60 detik, dimaksudkan untuk menghemat bandwidth dan mencegah perekaman tak terbatas yang tidak disengaja. Aktifkan Mode Berkelanjutan di alat untuk secara otomatis memulai ulang pengenalan saat ini terjadi. Mode berkelanjutan memperkenalkan jeda singkat antar sesi (biasanya kurang dari satu detik), yang dapat menyebabkan kata-kata yang terlewat sesekali di jahitan. Safari menangani sesi yang lebih panjang dengan lebih anggun tanpa timeout.

Mengapa akurasinya lebih rendah dari yang saya harapkan?

Tiga faktor: (1) Aksen Anda mungkin berbeda dari data pelatihan; pertimbangkan untuk mencoba varian bahasa yang lebih dekat (misalnya, en-IN untuk bahasa Inggris India, en-AU untuk Australia). (2) Kebisingan latar belakang, jarak mikrofon, dan kualitas audio penting; ruangan yang tenang dan mikrofon dekat menghasilkan akurasi 95%+, sementara lingkungan berisik dan mikrofon jauh turun ke 70% atau lebih rendah. (3) Kosakata khusus (istilah teknis, kata benda yang tepat, nama merek) lebih sulit daripada ucapan umum; untuk dikte profesional akurasi tinggi, pelatihan pembicara Dragon dan kosakata kustom sepadan dengan biayanya.

Dapatkah saya mendikte tanda baca dengan suara?

Tidak di alat ini. Web Speech API tidak menafsirkan perintah suara untuk tanda baca; mengucapkan titik menyisipkan kata titik, bukan tanda .. Beberapa alat dikte khusus (Dragon, Apple Dictation, Windows Voice Access) mengenali perintah tanda baca yang diucapkan. Untuk dikte berbasis browser, alur kerja tipikal adalah: dikte kata-kata, lalu tambahkan tanda baca dalam pass pengeditan dengan keyboard. Model bentuk panjang modern (Whisper) sering menambahkan tanda baca secara otomatis berdasarkan pola ucapan.

Apakah ini berfungsi di iPhone?

Ya, di iOS 14.5 dan lebih baru melalui Safari. iOS 17 membawa pengenalan suara on-device melalui implementasi Web Speech API Safari, sehingga audio Anda tidak pernah meninggalkan iPhone Anda. Untuk dikte berkelanjutan di iPhone atau iPad, Anda juga dapat menggunakan Dikte iOS sistem-wide (ketuk ikon mikrofon di keyboard), yang berfungsi di bidang teks apa pun di seluruh OS.

Mengapa Firefox tidak mendukung ini?

Mozilla belum menerapkan Web Speech API di Firefox, terutama karena kekhawatiran privasi dengan model perutean cloud yang digunakan oleh Chrome dan Edge, dan kompleksitas rekayasa untuk menerapkan alternatif yang menjaga privasi. Pengguna Firefox di pelacak bug Mozilla telah meminta dukungan suara selama bertahun-tahun; posisi resmi Mozilla adalah bahwa pengenalan suara lokal yang berarti memerlukan sumber daya signifikan dan mereka belum memprioritaskannya. Untuk saat ini, pengguna Firefox yang mencari input suara harus menggunakan Chrome, Edge, Safari, atau solusi sistem-wide seperti dikte tingkat OS.

Dapatkah saya mentranskripsi file audio yang sudah direkam sebelumnya?

Tidak secara langsung. Web Speech API hanya menerima input mikrofon langsung, bukan unggahan file. Untuk mentranskripsi file yang direkam, solusi alternatifnya adalah memutar file audio melalui speaker komputer Anda (atau menggunakan perangkat lunak perutean audio seperti Soundflower atau BlackHole) sementara alat ini mendengarkan melalui mikrofon. Ini kehilangan beberapa akurasi karena distorsi akustik. Untuk transkripsi berkualitas tinggi dari audio yang direkam, gunakan alat khusus: Whisper (offline, gratis), Otter.ai, atau layanan transkripsi seperti Rev. Untuk transkripsi informal sesekali, trik playback-melalui-mikrofon berfungsi.

Alat Terkait