Transkripsi Video ke Teks Gratis
Transkripsi ucapan dari berkas video menjadi teks melalui pengenalan suara peramban. Berfungsi dengan MP4, WebM, MOV, dan lainnya.
MP4, WebM, MOV, OGG, AVI
Catatan: kualitas pengenalan suara bergantung pada peramban Anda dan kejernihan audio. Chrome dan Edge umumnya memberikan hasil terbaik. API Web Speech mungkin mengirim data audio ke penyedia peramban untuk diproses.
Apa yang sebenarnya dilakukan ucapan ke teks dari video
Mentranskripsi video berarti mengubah gelombang audio yang direkam menjadi teks. Mesin ucapan ke teks melakukan tiga tugas sekaligus: pemodelan akustik (memetakan frekuensi suara ke fonem, unit suara terkecil dari suatu bahasa), pemodelan bahasa (memutuskan urutan fonem mana yang membentuk kata yang kemungkinan besar dan urutan kata mana yang membentuk kalimat yang kemungkinan besar dalam bahasa yang dipilih), dan tanda baca dan kapitalisasi (menyisipkan koma, titik, dan kapitalisasi di tempat yang sesuai). Mesin modern menggunakan jaringan saraf (model akustik dilatih pada puluhan ribu jam ucapan berlabel, model bahasa dilatih pada miliaran kata teks). Hasilnya adalah transkrip yang mendekati apa yang akan ditulis manusia, dengan kualitas tergantung pada kejernihan audio, kecocokan aksen dengan data pelatihan, dan berapa banyak homofon ambigu yang digunakan pembicara.
Alat ini menggunakan Web Speech API bawaan browser (khususnya antarmuka SpeechRecognition), standar W3C yang memaparkan mesin pengenalan sistem operasi atau vendor browser. Pada Chrome dan Edge, API biasanya merutekan audio melalui layanan ucapan ke teks cloud Google untuk pemrosesan (audio keluar, transkrip kembali); pada Firefox dan Safari, mesin berjalan secara lokal dengan karakteristik kualitas yang sedikit berbeda. Transkrip kembali sebagai urutan hasil parsial (pembaruan saat lebih banyak audio diproses) dan hasil akhir (segmen transkripsi yang terkunci). Alat ini menampilkan keduanya selama transkripsi.
Pemilihan bahasa sangat penting. Mesin ucapan ke teks yang disetel untuk bahasa Inggris akan salah mentranskripsi audio Prancis atau Mandarin. Dropdown menampilkan lebih dari 20 lokal bahasa (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN dan lainnya). Pilih lokal yang sesuai dengan dialek pembicara Anda untuk hasil terbaik. Pergantian bahasa di tengah klip (satu video dengan beberapa bahasa) biasanya menghasilkan hasil yang buruk karena mesin berkomitmen pada satu model akustik dan bahasa untuk seluruh sesi.
Cara kerja alat ini di balik layar
Saat Anda menjatuhkan video, browser memuatnya ke HTMLVideoElement melalui URL.createObjectURL() yang menjaga file tetap lokal. Pemutaran dijeda pada awalnya sehingga Anda dapat memilih bahasa dan mengklik Mulai.
Saat mengklik Mulai, alat memanggil new SpeechRecognition() (atau webkitSpeechRecognition pada Chrome warisan), menetapkan recognition.continuous = true dan recognition.interimResults = true, menetapkan bahasa ke lokal yang Anda pilih, dan memanggil recognition.start() sambil secara bersamaan memutar video dengan audionya dirutekan ke pipa input audio browser. Mesin pengenalan mengkonsumsi audio dalam potongan dan memancarkan peristiwa result saat mentranskripsi.
Setiap peristiwa result membawa larik alternatif yang diperingkat berdasarkan kepercayaan. Alat mengambil alternatif teratas untuk setiap hasil akhir dan menambahkannya ke kotak transkrip yang dapat diedit. Hasil sementara (masih disempurnakan) ditampilkan dalam teks yang lebih terang. Saat video berakhir atau Anda mengklik Berhenti, recognition.stop() menyelesaikan sesi. Opsi ekspor menulis transkrip sebagai teks biasa (.txt) atau dengan stempel waktu sintetis sebagai subtitle SRT atau VTT, semuanya dibangun dalam memori dan ditawarkan melalui unduhan blob.
Sejarah singkat pengenalan ucapan
- Audrey, 1952.Bell Labs membangun Audrey, sistem pengenalan ucapan otomatis pertama, mampu mengenali angka tunggal yang diucapkan oleh seorang pembicara tunggal yang terlatih. "Kosakata" adalah 0 sampai 9; akurasi menurun tajam dengan pembicara yang berbeda.
- Dikte DRAGON, 1990-an.Dragon Systems merilis Dragon Dictate untuk konsumen (1990) dan Dragon NaturallySpeaking (1997), memungkinkan dikte berkelanjutan dengan akurasi sekitar 80 hingga 95% setelah pelatihan pada suara pengguna. Terbatas pada pembicara tunggal dan lingkungan yang tenang.
- Pencarian Suara Google, 2008.Google meluncurkan pencarian suara di iPhone, kemudian di mana saja. Pengenalan berbasis cloud yang dilatih pada miliaran kueri suara membuat pengenalan independen pembicara praktis tanpa pelatihan per pengguna. Era "OK Google" dan "Hey Siri" dimulai.
- Revolusi deep learning, 2012.Hinton dan lainnya menerbitkan makalah terobosan yang menunjukkan jaringan saraf dalam secara dramatis mengungguli pendekatan Hidden Markov Model tradisional untuk pemodelan akustik. Tingkat kesalahan kata turun dari 25 hingga 30% menjadi di bawah 10% dalam beberapa tahun.
- Web Speech API diratifikasi, 2014 hingga 2025.W3C menerbitkan spesifikasi Web Speech API, memaparkan pengenalan ucapan vendor browser ke JavaScript. Chrome mengirimkan API pertama, diikuti oleh Edge, Safari, dan Firefox. Implementasi bervariasi dalam kualitas dan postur privasi (pemrosesan cloud vs lokal).
- Whisper dan ASR sumber terbuka, 2022 hingga 2026.OpenAI merilis Whisper (2022), model pengenalan ucapan otomatis sumber terbuka 1,5 miliar parameter yang dilatih pada 680.000 jam data multibahasa. WebGPU membawa Whisper ke browser pada 2024 hingga 2026 dengan port WASM whisper.cpp, menawarkan transkripsi berkualitas tinggi sepenuhnya lokal tanpa panggilan cloud.
Cara kerja
- Unggah video: pilih berkas video dari perangkat Anda atau tempel URL video.
- Pilih bahasa: pilih bahasa yang diucapkan dalam video untuk akurasi transkripsi yang lebih baik.
- Transkripsi: trek audio diekstrak dan diproses oleh mesin pengenalan suara untuk menghasilkan transkrip.
- Sunting dan ekspor: tinjau dan koreksi transkrip, lalu salin atau unduh sebagai .txt atau berkas subtitle .srt.
Mengapa menggunakan video → teks?
Mentranskripsi video menjadi teks meningkatkan aksesibilitas (subtitle untuk tunarungu dan sulit mendengar), SEO (konten yang dapat dicari dari video), dan penggunaan kembali (mengubah webinar menjadi posting blog atau materi kursus). Membuat transkrip secara manual memakan waktu sekitar 4 hingga 6 jam per jam video. Transkripsi otomatis dengan alat berbasis peramban mengurangi waktu ini secara signifikan sambil menjaga privasi, video tidak pernah meninggalkan perangkat Anda. Transkrip juga berguna untuk menelusuri konten, membuat subtitle, menghasilkan ringkasan video, dan memenuhi persyaratan kepatuhan dalam hal subtitle.
Format keluaran
- Teks biasa (.txt), transkrip bersih untuk dokumen dan posting blog
- Subtitle SRT (.srt), berkas subtitle berstempel waktu untuk pemutar video
- Subtitle VTT (.vtt), format WebVTT untuk trek video HTML5
- Privasi terlebih dahulu, semua pemrosesan tetap di perangkat Anda
Alur kerja transkripsi dunia nyata
- Subtitle untuk aksesibilitas.Menambahkan keterangan ke video media sosial, materi pelatihan, atau rekaman webinar mendukung pemirsa tuli dan sulit mendengar serta memenuhi persyaratan kepatuhan ADA atau WCAG untuk konten yang menghadap publik. Ekspor transkrip sebagai SRT atau VTT, lalu unggah bersama file video ke sebagian besar pemutar modern (YouTube, Vimeo, bahkan pemutar HTML5 khusus).
- Memanfaatkan ulang video menjadi posting blog.Wawancara, podcast, atau webinar 30 menit yang ditranskripsi memberi Anda 3.000 hingga 5.000 kata materi sumber. Edit ringan, tambahkan judul dan tesis, dan Anda memiliki posting blog atau artikel LinkedIn. Transkrip juga membantu SEO karena mesin pencari dapat mengindeks konten tekstual yang sebaliknya terkunci dalam video.
- Arsip yang dapat dicari.Pertemuan yang direkam, kuliah, atau sesi pelatihan menjadi dapat dicari ketika ditranskripsi. Anda dapat menemukan "bagian di mana kami membahas harga" dalam hitungan detik daripada menggosok berjam-jam video. Simpan transkrip bersama video di folder dokumen atau basis pengetahuan.
- Menarik kutipan untuk pemasaran.Testimoni pelanggan dan wawancara ahli yang direkam sebagai video dapat ditambang untuk baris yang dapat dikutip. Transkripsi memunculkan kata-kata yang tepat; Anda kemudian dapat merancang kartu kutipan atau posting sosial yang merujuk kembali ke video untuk konteks. Lebih cepat daripada menonton ulang untuk menemukan satu kalimat yang baik itu.
- Bantuan pembelajaran bahasa.Menonton video bahasa asing dengan transkrip yang dihasilkan membantu pembelajar menangkap kata-kata yang mereka lewatkan. Akurasi transkripsi tidak sempurna, tetapi kata-kata yang Anda dengar dengan benar membantu menjangkar kata-kata yang salah dipahami mesin. Untuk siswa bahasa yang kurang umum, ekspor transkrip dapat dimasukkan ke alat flashcard seperti Anki.
- Catatan rapat dari rekaman.Pertemuan Zoom, Teams, atau tatap muka yang direkam dapat ditranskripsi untuk catatan tindak lanjut. Edit transkrip untuk mengekstrak item tindakan, keputusan, dan komitmen tindak lanjut. Lebih mudah daripada mencatat selama rapat dan lebih akurat daripada mengandalkan memori setelahnya.
Jebakan umum dan artinya
- Ketidaksesuaian aksen dan dialek merusak akurasi.Mesin ucapan yang dilatih terutama pada bahasa Inggris AS akan menghasilkan lebih banyak kesalahan pada bahasa Inggris India, bahasa Inggris Skotlandia, atau pembicara non-asli. Dropdown lokal memungkinkan Anda memilih en-GB vs en-US, tetapi cakupan aksen regional yang kuat tidak merata. Pembicara dengan aksen netral atau yang sesuai data pelatihan mentranskripsi lebih akurat.
- Kebisingan latar belakang menurunkan kualitas dengan cepat.Suasana kafe, lalu lintas, kipas, musik di belakang dialog: masing-masing menambah kesalahan. Mesin tidak dapat memisahkan suara dari kebisingan seperti yang dilakukan manusia yang fokus. Audio sumber yang bersih (mikrofon yang baik, latar belakang minimal) memberikan hasil terbaik. Untuk rekaman berisik, harapkan tingkat kesalahan kata 10 hingga 25%.
- Beberapa pembicara berbicara bersamaan.Web Speech API tidak melakukan diarisasi pembicara (memisahkan siapa mengatakan apa). Wawancara dua orang di mana pembicara tidak tumpang tindih mentranskripsi dengan dapat diterima sebagai satu transkrip mengalir. Panel tiga arah atau debat yang kontroversial menghasilkan kekusutan. Untuk transkrip multi-pembicara yang akurat, gunakan Whisper atau layanan berbayar seperti Otter yang mencakup diarisasi.
- Homofon ditebak."Their" vs "there" vs "they're", "to" vs "too" vs "two", kata benda yang tepat vs kata umum: mesin menebak dari konteks. Seringkali menebak dengan baik. Kadang-kadang memilih homofon yang salah dan transkrip Anda membutuhkan koreksi. Selalu tinjau dan edit transkrip sebelum publikasi; jangan mengirim keluaran mesin mentah.
- Jargon teknis dan kata benda yang tepat membingungkan mesin.Istilah khusus domain (medis, hukum, ilmiah, nama merek, nama karakter) sering mentranskripsi dengan buruk karena tidak terwakili dengan baik dalam data pelatihan. Harapkan untuk memperbaiki kosakata khusus secara manual. Cari dan ganti adalah teman Anda untuk kesalahan transkripsi sistematis.
- Video panjang mencapai batas sesi pengenalan.Web Speech API membatasi sesi individu hingga 5 hingga 15 menit tergantung pada browser. Untuk video yang lebih panjang, alat memulai ulang sesi pengenalan secara berkala (dengan jeda singkat), yang dapat menjatuhkan satu atau dua kata pada setiap memulai ulang. Untuk video selama satu jam, harapkan segenggam mikro-celah; tinjau transkrip dengan hati-hati.
Privasi: bernuansa
Alat ini lebih bernuansa daripada alat lain di situs ini, jadi gambaran privasi layak mendapat perhatian eksplisit. File video itu sendiri tidak pernah meninggalkan perangkat Anda: dimuat sebagai URL blob lokal ke browser, diputar secara lokal, dan tidak pernah diunggah. Sejauh ini bagus. Tetapi Web Speech API diimplementasikan secara berbeda di seluruh browser. Pada Chrome dan Edge di 2026, API biasanya mengirim audio yang didekodekan ke layanan ucapan ke teks cloud Google untuk pemrosesan transkripsi; audio dienkripsi dalam transit dan menurut kebijakan Google tidak digunakan untuk iklan atau pelatihan, tetapi secara singkat meninggalkan perangkat Anda. Pada Firefox dan Safari, pengenalan biasanya berjalan secara lokal tanpa audio meninggalkan perangkat, dengan akurasi sedikit lebih rendah. Alat tidak dapat mengontrol jalur mana yang diambil browser; itu adalah keputusan tingkat browser.
Untuk transkripsi yang dapat diverifikasi secara lokal pada konten sensitif, dua opsi. Pertama, gunakan Firefox atau Safari untuk pengenalan lokal dalam browser (kualitas lebih rendah tetapi sepenuhnya lokal). Kedua, gunakan alat desktop atau WebGPU berbasis Whisper yang menjalankan model sumber terbuka OpenAI secara lokal; whisper.cpp, MacWhisper, dan jumlah port Whisper berbasis browser yang meningkat menawarkan transkripsi berkualitas tinggi sepenuhnya lokal pada 2026. Untuk video non-sensitif rutin (kuliah publik, konten santai), jalur cloud-dibantu Chrome atau Edge alat ini nyaman dan berkualitas tinggi.
Saat alat lain adalah pilihan yang tepat
- Konten sensitif yang memerlukan pemrosesan sepenuhnya lokal.Jika audio yang Anda transkripsi berisi materi hak istimewa pengacara-klien, informasi medis, strategi perusahaan internal, atau konten lain yang tidak boleh meninggalkan perangkat Anda dalam keadaan apa pun, gunakan alat berbasis Whisper lokal (MacWhisper, whisper.cpp, dll.) daripada Web Speech API di browser yang merutekan cloud.
- Percakapan multi-pembicara yang memerlukan diarisasi.Label pembicara ("Alice:", "Bob:") memerlukan diarisasi, yang tidak disediakan Web Speech API. Gunakan Otter.ai, Rev, Descript, atau alat berbasis Whisper dengan diarisasi pyannote. Berharga untuk biaya per menit untuk podcast, wawancara, deposisi.
- Akurasi maksimum pada konten teknis.Mesin ucapan khusus yang disetel untuk domain medis, hukum, atau ilmiah (Nuance Dragon Medical, Lexile, Verbit) memiliki tingkat kesalahan yang jauh lebih rendah pada jargon. Untuk transkripsi kritis-misi di mana kesalahan menghabiskan uang, layanan khusus berbayar mengalahkan alat tujuan umum gratis.
- Konten bentuk sangat panjang (berjam-jam).Untuk transkripsi multi-jam (konferensi penuh, pertemuan sepanjang hari, proses hukum), unggahan batch ke layanan berbayar lebih dapat diandalkan daripada mengandalkan batas sesi browser dan memulai ulang ad-hoc. Otter, Rev, Trint, Descript semuanya menangani konten satu jam lebih tanpa jeda sesi yang ditemui alat ini.
Pertanyaan lain yang sering ditanyakan
Browser mana yang memberikan transkripsi terbaik?
Chrome dan Edge biasanya memiliki akurasi tertinggi karena mereka menggunakan mesin ucapan cloud Google, yang dilatih pada dataset terbesar dan diperbarui secara teratur. Trade-off adalah audio secara singkat meninggalkan perangkat Anda. Firefox menggunakan pengenalan lokal untuk beberapa bahasa, dengan akurasi yang sedikit lebih rendah tetapi lokalitas penuh. Implementasi Safari telah meningkat hingga 2025 tetapi secara historis memiliki cakupan bahasa terbatas. Untuk kenyamanan dan akurasi pada konten non-sensitif, Chrome. Untuk lokalitas yang dapat diverifikasi, Firefox atau Whisper lokal.
Mengapa transkrip kadang-kadang memulai ulang atau memiliki celah?
Web Speech API membatasi sesi pengenalan individu hingga 5 hingga 15 menit tergantung pada browser. Untuk video yang lebih panjang, alat secara transparan memulai ulang sesi di latar belakang. Setiap memulai ulang memperkenalkan celah singkat (kurang dari satu detik) di mana satu atau dua kata mungkin terlewat. Untuk video panjang, harapkan segenggam mikro-celah ini dan tinjau transkrip dengan hati-hati untuk mengisi atau mengoreksinya.
Bisakah saya menghasilkan subtitle SRT atau VTT?
Ya. Gunakan dropdown unduh untuk memilih format .srt atau .vtt. Alat menghasilkan stempel waktu sintetis berdasarkan jumlah kata dan kecepatan bicara rata-rata (sekitar 150 kata per menit). Untuk waktu subtitle yang akurat frame, jalankan SRT melalui alat seperti Subtitle Edit atau Aegisub setelahnya, di mana Anda dapat menyesuaikan waktu per baris dengan telinga. Atau gunakan alat berbasis Whisper yang menyediakan stempel waktu yang tepat secara native.
Tingkat kesalahan kata apa yang harus saya harapkan?
Untuk audio bahasa Inggris pembicara tunggal yang jelas tanpa kebisingan latar belakang pada Chrome, harapkan tingkat kesalahan kata 3 hingga 8% (jadi transkrip 1000 kata memiliki 30 hingga 80 kata yang salah atau hilang). Untuk audio yang lebih berisik atau pembicara non-asli, 10 hingga 25%. Untuk percakapan multi-pembicara yang kusut, 25%+. Selalu koreksi sebelum publikasi; jangan pernah mengirim transkrip mentah sebagai konten akhir.
Apakah ada padanan desktop atau baris perintah?
Ya. OpenAI Whisper (model sumber terbuka dan CLI) adalah standar de facto untuk transkripsi offline: whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper, dan Whisper Notes membungkusnya dengan UI yang ramah. whisper.cpp menyediakan implementasi C++ yang cepat. API cloud seperti Google Speech-to-Text, AWS Transcribe, dan Deepgram menawarkan akses bayar per menit ke mesin tingkat lebih tinggi. Untuk pemrosesan lokal dengan kualitas maksimum, Whisper adalah jawabannya.
Bisakah mesin menangani pergantian kode (beberapa bahasa)?
Buruk. Web Speech API berkomitmen pada satu lokal bahasa per sesi. Jika pembicara Anda mencampur bahasa Inggris dan Spanyol, memilih en-US mentranskripsi bahasa Inggris dengan benar dan mengacaukan bahasa Spanyol (dan sebaliknya). Untuk audio multibahasa atau pergantian kode, Whisper large-v3 menangani banyak bahasa dalam satu langkah dan mendeteksi bahasa per segmen; itu saat ini adalah pilihan terbaik untuk konten pergantian kode.