Penulis
Intisari-Online.com -Pengenalan wicara sebetulnya bukan barang baru. Intisariedisi 581 bulan Agustus 2011, menulis bahwa teknologi pengenalan wicara atau speech recognition mulai dipergunakan dalam sidang-sidang penting di lembaga-lembaga tinggi Indonesia.
Teknologi ini memang memberikan kelegaan tersendiri bagi para notulis rapat dan sidang. Mereka tak perlu lagi kelelahan mendengar dan mengopi pembicaraan peserta di atas kertas.
Teknologi pengenalan wicara dibagi menjadi dua jenis menurut jumlah kosakatanya. Pengenalan wicara dengan jumlah kosakata sedikit, biasa dipergunakan untuk mesin penjawab telepon otomatis. Penelepon bisa menggunakan suara ganti menekan tombol untuk disambungkan kepada tujuan yang diinginkannya.
Jenis pengenalan wicara yang kedua dipergunakan untuk kebutuhan bisnis seperti rapat dan sidang. Pengenalan wicara yang satu ini memiliki kosa kata yang lebih banyak. Tingkat koreksinya pun lebih tinggi, yaitu sekitar 85%. Hanya saja, jenis ini perlu dikembangkan terus menerus, mengingat manusia berbicara dalam banyak dialek dengan tingkat kecepatan yang berbeda-beda.
Untuk mengubah pembicaraan menjadi sebuah teks di layar komputer. Komputer akan menjalankan beberapa tahap yang mungkin sedikit rumit. Suara yang diucapkan akan berbentuk gelombang. Gelombang ini akan masuk melalui mikrofon, dan diubah menjadi bentuk digital oleh analog-to digital converter (ADC).
Dalam mengubah gelombang suara menjadi data digital, ADC membandingkan tinggi rendahnya gelombang dalam frekuensi dengan data yang telah tersimpan sebelumnya. Semakin tinggi ketepatan antara gelombang suara yang masuk dengan gelombang yang telah ada, maka makin mudah ADC menganalisisnya.
Sistem ini juga akan menyesuaikan tinggi-rendahnya suara, kecepatan suara yang masuk, dan menyaring semua bunyi-bunyian yang tidak diperlukan. Bak seleksi calon mantu saja.
Data digital hasil konversi akan diproses lebih lanjut. Komputer mencacah data yang berupa angka 0 dan 1 menjadi beberapa bagian. Cacahan tersebut akan diubah menjadi fonem. Fonem-fonem ini akan dihubungkan antara satu dengan yang lain. Penghubungan ini melihat kecocokan antara satu fonem dengan fonem yang lain menggunakan referensi database kosa kata.
Teknologi pengenalan wicara sebelum ini hanya bisa mengenali kata-per-kata, sehingga pada pembicaraan rumit dan kalimat sering tak dapat dikenali. Selain itu dialek dan aksen membuat komputer makin kerepotan untuk menganalisis kata dan kalimat. Untuk itu dikembangkan sistem pengenalan wicara yang lebih rumit yaitu statistical modeling systems.
Sistem pemodelan statistik menggunakan rumus probabilitas dan fungsi matematika untuk menentukan kata apa yang harus ditulis. Sistem pemodelan statistikyang paling umum digunakan adalah model Hidden Markov. Hidden Markov menghubungkan fonem-fonem yang teridentifikasi menjadi satu layaknya rantai.
Di rantai tersebut terdapat pula cabang-cabang kemungkinan fonem-fonem yang lain. Komputer menilai setiap fonem dengan nilai probabilitas yang berbeda. Fonem dengan nilai tertinggi akan dipakai menjadi bagian kata. Penilaian fonem, lagi-lagi berdasar pada referensi database kosakata dan fonem.
Sistem ini sebetulnya amat rumit. Bayangkan saja bila sebuah program pengenalan wicara memiliki database kosakata sebanyak 60.000 kata, maka untuk mengenali tiga buah kata, komputer harus menganalisa 216 triliun kemungkinan fonem. Oleh karena itulah sistem ini diciptakan dengan kemampuan untuk berkembang. Peneliti setiap harinya terus menambahkan kata-kata dan fonem dalam berbagai dialek.
Tapi tidak hanya itu, sang pemakai juga harus terus berlatih agar menemukan cara ‘pas’ dalam mengucapkan kata-kata yang mudah dikenali oleh pengenalan wicara. Dengan begitu, pekerjaan mengkoreksi kata yang keluar juga semakin ringan.