DEFINISI
Pengenal ucapan (Speech Recognition) adalah suatu pengembangan teknik dan system
yang memungkinkan computer untuk menerima masukan berupa kata yang diucapkan. Teknologi
ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang
diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut
dengan pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang
diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah
gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan
kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari
identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau
dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan
suatu pekerjaan.
Alat
pengenal ucapan, yang sering disebut dengan speech recognizer,
membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna. Sampel kata
akan didigitalisasi, disimpan dalam komputer,
dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang diucapkan
selanjutnya. Sebagian besar alat pengenal ucapan
sifatnya masih tergantung kepada pengeras suara. Alat ini hanya dapat mengenal
kata yang diucapkan dari satu atau dua orang saja dan hanya bisa mengenal
kata-kata terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat jeda
antar kata. Hanya sebagian kecil dari peralatan yang menggunakan teknologi ini
yang sifatnya tidak tergantung pada pengeras
suara. Alat ini sudah dapat mengenal kata yang diucapkan oleh banyak
orang dan juga dapat mengenal kata-kata kontinu, atau kata-kata yang dalam
penyampaiannya tidak terdapat jeda antar kata.
Pengenalan
ucapan dalam perkembangan teknologinya merupakan bagian dari pengenalan suara
(proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri
terbagi menjadi dua, yaitu pengenalan pengguna (identifikasi suara berdasarkan
orang yang berbicara) dan pengenalan ucapan (identifikasi suara berdasarkan kata
yang diucapkan).
Hardware
yang dibutuhkan
adalah :
a. SoundCard, merupakan alat yang ditambahkan
dalam suatu Komputer yang fungsinya sebagai input dan output suara untuk
mengubah sinyal elektrik, menjadi analog maupun menjadi digital.
b. Microphone, Alat untuk mengubah suara yang
melewati udara, air dari benda orang menjadi sinyal elektrik.
c. Processor/Komputer, Dalam proses suara digital
menterjemahkan gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor
biner yang dapat diproses lagi. Saat pengunaan menggunakan mikrofon, soundcard
berkualitas baik, sehingga akan mengurangi noise yang disebabkan karena
terganggu sinyal monitor, pci slots.
d. Software pendukung Speech dan
Voice Recognition,
misal yang bersifat Freeware
Perkembangan Speech Recognition
Sejak
tahun 1940, perusahaan American Telephone and Telegraph Company
(AT&T) sudah mulai mengembangkan suatu perangkat teknologi yang dapat
mengidentifikasi kata yang diucapkan manusia. Sekitar tahun 1960-an, para
peneliti dari perusahaan tersebut sudah berhasil membuat suatu perangkat yang
dapat mengidentifikasi kata-kata terpisah dan pada tahun 1970-an mereka
berhasil membuat perangkat yang dapat mengidentifikasi kata-kata kontinu. Alat
pengenal ucapan kemudian menjadi sangat fungsional sejak tahun 1980-an dan
masih dikembangkan dan terus ditingkatkan keefektifannya hingga sekarang.
Jenis-jenis Speech Recognition
Berdasarkan
kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata,
yaitu :
- Kata-kata yang terisolasi.
Proses pengidentifikasian kata yang hanya dapat mengenal
kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar
kata
- Kata-kata yang berhubungan.
Proses pengidentifikasian kata yang mirip dengan kata-kata
terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih
singkat
- Kata-kata yang berkelanjutan.
Proses pengidentifikasian kata yang sudah lebih maju karena
dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda
waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini
sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang
diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata
secara natural
- Kata-kata spontan.
Proses pengidentifikasian kata yang dapat mengenal kata-kata
yang diucapkan secara spontan tanpa jeda waktu antar kata
- Verifikasi atau identifikasi suara.
Proses pengidentifikasian kata yang tidak hanya mampu
mengenal kata, namun juga mengidentifikasi siapa yang berbicara.
Proses Kerja Speech Recognition
Alat pengenal ucapan memiliki empat tahapan dalam prosesnya, yaitu :
- Tahap penerimaan masukan.
Masukan berupa kata-kata yang diucapkan lewat pengeras
suara.
- Tahap ekstraksi.
Tahap ini adalah tahap penyimpanaan masukan yang berupa
suara sekaligus pembuatan basis data sebagai pola. Proses ekstraksi dilakukan
berdasarkan metode Model Markov
Tersembunyi atau Hidden Markov Model (HMM), yang merupakan
model statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu
proses dengan parameter yang tidak diketahui. Tantangan dalam model statistik
ini adalah menentukan parameter-parameter tersembunyi dari parameter yang dapat
diamati. Parameter-parameter yang telah kita tentukan kemudian digunakan untuk
analisis yang lebih jauh pada proses pengenalan kata yang diucapkan.
Berdasarkan HMM, proses pengenalan ucapan secara umum menghasilkan keluaran
yang dapat dikarakterisasikan sebagai sinyal. Sinyal dapat
bersifat diskrit (karakter dalam abjad) maupun kontinu (pengukuran temperatur,
alunan musik). Sinyal
dapat pula bersifat stabil (nilai statistiknya tidak berubah terhadap waktu)
maupun nonstabil (nilai sinyal berubah-ubah terhadap waktu). Dengan melakukan
pemodelan terhadap sinyal secara benar, dapat dilakukan simulasi terhadap
masukan dan pelatihan sebanyak mungkin melalui proses simulasi tersebut
sehingga model dapat diterapkan dalam sistem prediksi, sistem pengenalan,
maupun sistem identifikasi. Secara garis besar model sinyal dapat dikategorikan
menjadi dua golongan, yaitu: model deterministik dan model statistikal. Model deterministik
menggunakan nilai-nilai properti dari sebuah sinyal seperti: amplitudo,
frekuensi,
dan fase dari gelombang sinus. Model statistikal
menggunakan nilai-nilai statistik dari sebuah sinyal seperti: proses Gaussian,
proses Poisson, proses Markov, dan proses Markov
Tersembunyi. Suatu model HMM secara umum memiliki unsur-unsur sebagai berikut:
- N, yaitu jumlah bagian dalam model. Secara umum bagian tersebut saling terhubung satu dengan yang lain, dan suatu bagian bisa mencapai semua bagian yang lain, serta sebaliknya (disebut dengan model ergodik). Namun hal tersebut tidak mutlak karena terdapat kondisi lain dimana suatu bagian hanya bisa berputar ke diri sendiri dan berpindah ke satu bagian berikutnya. Hal ini bergantung pada implementasi dari model.
- M, yaitu jumlah simbol observasi secara unik pada tiap bagiannya, misalnya: karakter dalam abjad, dimana bagian diartikan sebagai huruf dalam kata.
- Probabilita Perpindahan Bagian { } = ij A a
- Probabilita Simbol Observasi pada bagian j, { } () = j Bb k
- Inisial Distribusi Bagian i p p
Setelah memberikan nilai N, M, A, B, dan p , maka proses
ekstraksi dapat diurutkan. Berikut adalah tahapan ekstraksi pengenalan ucapan
berdasarkan HMM :
1.
Tahap
ekstraksi tampilan.
Penyaringan sinyal suara dan pengubahan sinyal suara analog
ke digital
2.
Tahap
tugas pemodelan.
Pembuatan suatu model HMM dari data-data yang berupa sampel
ucapan sebuah kata yang sudah berupa data digital
3.
Tahap
sistem pengenalan HMM.
Penemuan parameter-parameter yang dapat merepresentasikan
sinyal suara untuk analisis lebih lanjut.
3.
Tahap pembandingan.
Tahap ini merupakan tahap pencocokan data baru dengan data
suara (pencocokan tata bahasa) pada pola. Tahap ini dimulai dengan proses
konversi sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan
dianalisa dengan membandingkannya dengan pola suara pada basis data.
Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu
berdasarkan urutannya. Pemilihan ini dilakukan agar proses analisis dapat
dilakukan secara paralel. Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam
bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi
dua bagian :
1.
Transformasi
gelombang diskrit menjadi
data yang terurut
Gelombang diskrit berbentuk masukan berukuran n yang menjadi objek yang akan dibagi pada proses konversi dengan cara pembagian rincian waktu
Gelombang diskrit berbentuk masukan berukuran n yang menjadi objek yang akan dibagi pada proses konversi dengan cara pembagian rincian waktu
2.
Menghitung
frekuensi
pada tiap elemen data yang terurut
Selanjutnya tiap elemen dari data yang terurut tersebut
dikonversi ke dalam bentuk bilangan biner. Data biner tersebut nantinya akan dibandingkan dengan pola data
suara dan kemudian diterjemahkan sebagai keluaran yang dapat berbentuk tulisan
ataupun perintah pada perangkat.
- Tahap validasi identitas pengguna.
Alat pengenal ucapan yang sudah memiliki sistem verifikasi/identifikasi
suara akan melakukan identifikasi orang yang berbicara berdasarkan kata yang
diucapkan setelah menerjemahkan suara tersebut menjadi tulisan atau komando.
Aplikasi Speech Recognition
Siri adalah
fitur terbaru yang didedikasikan khusus untuk iPhone 4S. Siri memungkinkan
pengguna untuk melakukan perintah dengan suara mereka dan Siri dapat menjadi
asisten pribadi yang handal. Dengan Siri, pengguna bisa menggunakan suara
mereka untuk mengirim pesan, mengingatkan jadwal pertemuan, panggilan telepon,
dan masih banyak lagi.
Sejarah
Siri pada awalnya merupakan aplikasi
gratis yang ada di App Store. Aplikasi perangkat lunak ini berperan sebagai
“asisten pribadi” yang memungkinkan untuk menjalankan perintah penggunanya
seperti membeli tiket bioskop.
Dengan adanya Siri maka pengguna iPhone
tidak perlu menklik atau menelusuri internet untuk mendapatkan kebutuhan
mereka. Para pengguna akan “terbebas” dari keharusan menggenggam handphone-nya
untuk menjalankan perintah.
Teknologi yang ditampilkan oleh Siri
membuat Apple terkesan dan membuatnya mengakuisisi perusahaan tersebut pada
april 2010. Sejak saat itu, Apple berusaha untuk mengintegrasikan SIRI kedalam
iOS 5 yang merupakan sistem operasi terbaru Apple yang ada pada iPhone 4S.
Dengan didukung oleh prosessor A5 Siri mampu untuk terintegrasi dengan kontak
pengguna dan e-mail, serta melakukan tugas-tugas pengguna yang rumit seperti
membuat pesan dan e-mail kemudian mengirimkannya.
Cara Kerja :
Apple menggambarkan Siri sebagai
kontrol suara paling mutakhir. Dengan aplikasi ini, pengguna dapat berbicara
dengan iPhone mereka seperti mereka berbicara dengan orang lain.
Siri memungkinkan pengguna Apple untuk
berbincang dalam bahasa yang lebih alami. Misalnya, jika Anda menanyakan
“Apakah ada pizza yang enak disekitar sini ?” maka Siri akan menampilkan daftar
restoran lokal yang ada disekitar Anda.
Akan tetapi, Siri telah melampaui
“bentuk” aslinya yang telah ada di App Store. SIRI mampu untuk memperingatkan
Anda apabila ada jadwal yang bentrok atau memberitahukan berbagai jadwal Anda
pada hari itu.
“Banyak perangkat dapat mengenali kata
yang Anda katakan,” kata Scott Forstall, senior wakil presiden Apple untuk IOS
Software di sebuah video promosi resmi. “Tapi kemampuan untuk memahami apa yang
Anda maksud dan bertindak di atasnya, itulah terobosan dengan Siri Ini
benar-benar mengubah cara Anda berpikir tentang apa telepon bisa dilakukan..”
Siri yang didukung oleh prosessor A5
merupakan perangkat lunak yang diakuisisi oleh Apple. Perusahaan ini juga
bermitra dengan Nuance Communication yang membuat Dragon NaturallySpeaking yang
membantu memahami suara pengguna.
Fitur “Voice Feedback” yang ada pada
Siri memungkinkannya untuk merespon pembicaraan dari penggunanya. Saat ini,
Siri hanya tersedia dalam bahasa Inggris, Jerman, dan Prancis tetapi
selanjutnya akan tersedia dalam berbagai bahasa yang akan terus di-update.
Inilah teknolog terbaru dari Apple.
Sepertinya dimasa yang akan datang SIRI, atau teknologi Voice Recognition akan
menjadi standar teknologi pada Telepon Genggam.