Transkripsi Video ke Teks Gratis

Transkripsi ucapan dari berkas video menjadi teks melalui pengenalan suara peramban. Berfungsi dengan MP4, WebM, MOV, dan lainnya.

Berkas video Anda tetap di perangkat Anda
Letakkan berkas video di sini atau klik untuk menelusuri

MP4, WebM, MOV, OGG, AVI

Apa yang sebenarnya dilakukan ucapan ke teks dari video

Mentranskripsi video berarti mengubah gelombang audio yang direkam menjadi teks. Mesin ucapan ke teks melakukan tiga tugas sekaligus: pemodelan akustik (memetakan frekuensi suara ke fonem, unit suara terkecil dari suatu bahasa), pemodelan bahasa (memutuskan urutan fonem mana yang membentuk kata yang kemungkinan besar dan urutan kata mana yang membentuk kalimat yang kemungkinan besar dalam bahasa yang dipilih), dan tanda baca dan kapitalisasi (menyisipkan koma, titik, dan kapitalisasi di tempat yang sesuai). Mesin modern menggunakan jaringan saraf (model akustik dilatih pada puluhan ribu jam ucapan berlabel, model bahasa dilatih pada miliaran kata teks). Hasilnya adalah transkrip yang mendekati apa yang akan ditulis manusia, dengan kualitas tergantung pada kejernihan audio, kecocokan aksen dengan data pelatihan, dan berapa banyak homofon ambigu yang digunakan pembicara.

Alat ini menggunakan Web Speech API bawaan browser (khususnya antarmuka SpeechRecognition), standar W3C yang memaparkan mesin pengenalan sistem operasi atau vendor browser. Pada Chrome dan Edge, API biasanya merutekan audio melalui layanan ucapan ke teks cloud Google untuk pemrosesan (audio keluar, transkrip kembali); pada Firefox dan Safari, mesin berjalan secara lokal dengan karakteristik kualitas yang sedikit berbeda. Transkrip kembali sebagai urutan hasil parsial (pembaruan saat lebih banyak audio diproses) dan hasil akhir (segmen transkripsi yang terkunci). Alat ini menampilkan keduanya selama transkripsi.

Pemilihan bahasa sangat penting. Mesin ucapan ke teks yang disetel untuk bahasa Inggris akan salah mentranskripsi audio Prancis atau Mandarin. Dropdown menampilkan lebih dari 20 lokal bahasa (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN dan lainnya). Pilih lokal yang sesuai dengan dialek pembicara Anda untuk hasil terbaik. Pergantian bahasa di tengah klip (satu video dengan beberapa bahasa) biasanya menghasilkan hasil yang buruk karena mesin berkomitmen pada satu model akustik dan bahasa untuk seluruh sesi.

Cara kerja alat ini di balik layar

Saat Anda menjatuhkan video, browser memuatnya ke HTMLVideoElement melalui URL.createObjectURL() yang menjaga file tetap lokal. Pemutaran dijeda pada awalnya sehingga Anda dapat memilih bahasa dan mengklik Mulai.

Saat mengklik Mulai, alat memanggil new SpeechRecognition() (atau webkitSpeechRecognition pada Chrome warisan), menetapkan recognition.continuous = true dan recognition.interimResults = true, menetapkan bahasa ke lokal yang Anda pilih, dan memanggil recognition.start() sambil secara bersamaan memutar video dengan audionya dirutekan ke pipa input audio browser. Mesin pengenalan mengkonsumsi audio dalam potongan dan memancarkan peristiwa result saat mentranskripsi.

Setiap peristiwa result membawa larik alternatif yang diperingkat berdasarkan kepercayaan. Alat mengambil alternatif teratas untuk setiap hasil akhir dan menambahkannya ke kotak transkrip yang dapat diedit. Hasil sementara (masih disempurnakan) ditampilkan dalam teks yang lebih terang. Saat video berakhir atau Anda mengklik Berhenti, recognition.stop() menyelesaikan sesi. Opsi ekspor menulis transkrip sebagai teks biasa (.txt) atau dengan stempel waktu sintetis sebagai subtitle SRT atau VTT, semuanya dibangun dalam memori dan ditawarkan melalui unduhan blob.

Sejarah singkat pengenalan ucapan

Cara kerja

  1. Unggah video: pilih berkas video dari perangkat Anda atau tempel URL video.
  2. Pilih bahasa: pilih bahasa yang diucapkan dalam video untuk akurasi transkripsi yang lebih baik.
  3. Transkripsi: trek audio diekstrak dan diproses oleh mesin pengenalan suara untuk menghasilkan transkrip.
  4. Sunting dan ekspor: tinjau dan koreksi transkrip, lalu salin atau unduh sebagai .txt atau berkas subtitle .srt.

Mengapa menggunakan video → teks?

Mentranskripsi video menjadi teks meningkatkan aksesibilitas (subtitle untuk tunarungu dan sulit mendengar), SEO (konten yang dapat dicari dari video), dan penggunaan kembali (mengubah webinar menjadi posting blog atau materi kursus). Membuat transkrip secara manual memakan waktu sekitar 4 hingga 6 jam per jam video. Transkripsi otomatis dengan alat berbasis peramban mengurangi waktu ini secara signifikan sambil menjaga privasi, video tidak pernah meninggalkan perangkat Anda. Transkrip juga berguna untuk menelusuri konten, membuat subtitle, menghasilkan ringkasan video, dan memenuhi persyaratan kepatuhan dalam hal subtitle.

Format keluaran

Alur kerja transkripsi dunia nyata

Jebakan umum dan artinya

Privasi: bernuansa

Alat ini lebih bernuansa daripada alat lain di situs ini, jadi gambaran privasi layak mendapat perhatian eksplisit. File video itu sendiri tidak pernah meninggalkan perangkat Anda: dimuat sebagai URL blob lokal ke browser, diputar secara lokal, dan tidak pernah diunggah. Sejauh ini bagus. Tetapi Web Speech API diimplementasikan secara berbeda di seluruh browser. Pada Chrome dan Edge di 2026, API biasanya mengirim audio yang didekodekan ke layanan ucapan ke teks cloud Google untuk pemrosesan transkripsi; audio dienkripsi dalam transit dan menurut kebijakan Google tidak digunakan untuk iklan atau pelatihan, tetapi secara singkat meninggalkan perangkat Anda. Pada Firefox dan Safari, pengenalan biasanya berjalan secara lokal tanpa audio meninggalkan perangkat, dengan akurasi sedikit lebih rendah. Alat tidak dapat mengontrol jalur mana yang diambil browser; itu adalah keputusan tingkat browser.

Untuk transkripsi yang dapat diverifikasi secara lokal pada konten sensitif, dua opsi. Pertama, gunakan Firefox atau Safari untuk pengenalan lokal dalam browser (kualitas lebih rendah tetapi sepenuhnya lokal). Kedua, gunakan alat desktop atau WebGPU berbasis Whisper yang menjalankan model sumber terbuka OpenAI secara lokal; whisper.cpp, MacWhisper, dan jumlah port Whisper berbasis browser yang meningkat menawarkan transkripsi berkualitas tinggi sepenuhnya lokal pada 2026. Untuk video non-sensitif rutin (kuliah publik, konten santai), jalur cloud-dibantu Chrome atau Edge alat ini nyaman dan berkualitas tinggi.

Saat alat lain adalah pilihan yang tepat

Pertanyaan lain yang sering ditanyakan

Browser mana yang memberikan transkripsi terbaik?

Chrome dan Edge biasanya memiliki akurasi tertinggi karena mereka menggunakan mesin ucapan cloud Google, yang dilatih pada dataset terbesar dan diperbarui secara teratur. Trade-off adalah audio secara singkat meninggalkan perangkat Anda. Firefox menggunakan pengenalan lokal untuk beberapa bahasa, dengan akurasi yang sedikit lebih rendah tetapi lokalitas penuh. Implementasi Safari telah meningkat hingga 2025 tetapi secara historis memiliki cakupan bahasa terbatas. Untuk kenyamanan dan akurasi pada konten non-sensitif, Chrome. Untuk lokalitas yang dapat diverifikasi, Firefox atau Whisper lokal.

Mengapa transkrip kadang-kadang memulai ulang atau memiliki celah?

Web Speech API membatasi sesi pengenalan individu hingga 5 hingga 15 menit tergantung pada browser. Untuk video yang lebih panjang, alat secara transparan memulai ulang sesi di latar belakang. Setiap memulai ulang memperkenalkan celah singkat (kurang dari satu detik) di mana satu atau dua kata mungkin terlewat. Untuk video panjang, harapkan segenggam mikro-celah ini dan tinjau transkrip dengan hati-hati untuk mengisi atau mengoreksinya.

Bisakah saya menghasilkan subtitle SRT atau VTT?

Ya. Gunakan dropdown unduh untuk memilih format .srt atau .vtt. Alat menghasilkan stempel waktu sintetis berdasarkan jumlah kata dan kecepatan bicara rata-rata (sekitar 150 kata per menit). Untuk waktu subtitle yang akurat frame, jalankan SRT melalui alat seperti Subtitle Edit atau Aegisub setelahnya, di mana Anda dapat menyesuaikan waktu per baris dengan telinga. Atau gunakan alat berbasis Whisper yang menyediakan stempel waktu yang tepat secara native.

Tingkat kesalahan kata apa yang harus saya harapkan?

Untuk audio bahasa Inggris pembicara tunggal yang jelas tanpa kebisingan latar belakang pada Chrome, harapkan tingkat kesalahan kata 3 hingga 8% (jadi transkrip 1000 kata memiliki 30 hingga 80 kata yang salah atau hilang). Untuk audio yang lebih berisik atau pembicara non-asli, 10 hingga 25%. Untuk percakapan multi-pembicara yang kusut, 25%+. Selalu koreksi sebelum publikasi; jangan pernah mengirim transkrip mentah sebagai konten akhir.

Apakah ada padanan desktop atau baris perintah?

Ya. OpenAI Whisper (model sumber terbuka dan CLI) adalah standar de facto untuk transkripsi offline: whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper, dan Whisper Notes membungkusnya dengan UI yang ramah. whisper.cpp menyediakan implementasi C++ yang cepat. API cloud seperti Google Speech-to-Text, AWS Transcribe, dan Deepgram menawarkan akses bayar per menit ke mesin tingkat lebih tinggi. Untuk pemrosesan lokal dengan kualitas maksimum, Whisper adalah jawabannya.

Bisakah mesin menangani pergantian kode (beberapa bahasa)?

Buruk. Web Speech API berkomitmen pada satu lokal bahasa per sesi. Jika pembicara Anda mencampur bahasa Inggris dan Spanyol, memilih en-US mentranskripsi bahasa Inggris dengan benar dan mengacaukan bahasa Spanyol (dan sebaliknya). Untuk audio multibahasa atau pergantian kode, Whisper large-v3 menangani banyak bahasa dalam satu langkah dan mendeteksi bahasa per segmen; itu saat ini adalah pilihan terbaik untuk konten pergantian kode.

Alat terkait