Teknologi Speech Synthesizer

Author: Franky Hutapea // Category:
Dari dulu sampai sekarang, para ahli berusaha mengimplamantasikan kecerdasan manusia pada komputer. Berbagai aplikasi artificial intelligence (AI) disematkan dalam komputer agar mesin ini mampu berkomunikasi dengan manusia atau paling tidak manusia. Salah satu AI yang terus dikembangkan sampai saat ini adalah speech synthesizer yang memungkinkan komputer berbicara dalam bahasa manusia.

Di televisi, Anda mungkin pernah menyaksikan Stephen Hawking berbicara di depan mahasiswanya. Fisikawan yang terkenal dengan teori black hole-nya ini sudah tidak mampu lagi mengeluarkan suara dari lisannya, namun berkat teknologi speech synthesizer, dia masih bisa bercakap-cakap. Mesin speech synthesizer Hawking memang cukup kompleks. Alat ini tidak hanya memproduksi suara, tetapi juga menangkap input dari gerakan mata sang doktor. Demikian pula, misalnya, dengan aplikasi voice command yang banyak tertanam di smartphone mutakhir yang memadukan speech recognizer dengan speech synthesizer.
Aplikasi speech synthesizer yang paling sederhana sebenarnya ada pada setiap PC ber-OS Windows. Bila anda menekan tuts Winkey + U di keyboard, Windows akan mengaktifkan Utility Manager, yang di dalamnya terdapat aplikasi Microsoft Narrator. Aplikasi ini akan membaca setiap jendela yang anda aktifkan, termasuk tombol-tombol di dalamnya. Atau, mungkin anda pernah menginstal aplikasi microsoft reader di PC. Aplikasi yang diperuntukkan bagi file >LTT ini pun dilengkapi dengan kemampuan menerjemahkan teks menjadi suara (text to speech) yang merupakan contoh teknologi speech sybthesizer.
Alur kerja
Seperti halnya speech recognition , desain aplikasi speech synthesizer tidak hanya dikerjakan oleh ahli-ahl informatika, melainkan juga melibatkan ahli-ahli linguistik. Untuk memahami cara kerja speech synthesizer, kita mulai dari nama lainnya : text-to-speech, yang artinya mengubah teks menjadi suara. Sekarang kita sudah mendapatkan dua elemen dalam speech synthesizer, yakni teks sebagai elemen input, dan suara sebagai elemen output. Apa yang terjadi di antara input dan output inilah yang disebut proses atau manipulasi. Dalam speech synthesizer, proses dibagi menjadi dua bagian besar: front-end dan back-end.
Bagian front-end memiliki dua tugas utama. Pertama adalah mengkonversi teks mentah yang berisi simbol-simbol seperti angka dan singkatan ke dalam huruf-huruf yang terbaca. Sebagai contoh, tugas pertama bagian front-end mengkonversi teks 1 menjadi one, btw menjadi by the way, dan lain-lain. Proses ini sering disebut sebagai text normalization,pre-processing, atau tokenization. Bagian front-end ini kemudian memberikan transkipsi fonetis pada setiap kata, memisahkannya, dan menandai teks ke dalam unit-unit prosodik (irama, tekanan, dan intonasi), seperti frase (sekelompok kata yang berfungsi sebagai satu unit sintaksis), klausa (anak kalimat), dan kalimat. Proses penyemetan transkipsi fonetis pada kata-kata ini dikenal dengan istilah text-to-phone-me atau graphemeto-phoneme. Transkipsi fonetis dan informasi prosodi tersebut digabung dan membentuk representasi linguistik simbolis yang merupakan output dari front-end. Bagian backend, yang sering disebut sebagai synthesizer itu sendiri, kemudian mengonversi representasi linguistik simbolis ini menjadi suara. Demikianlah gambaran alur kerja sebuah aplikasi speech synthesizer atau text-to-speech.
Teknologi synthesizer
Kualitas terpenting dari sebuah aplikasi speech synthesizer adalah seberapa alami dan inteligibel output yang dihasilkannya. Alami, artinya seberapa dekat suara yang dihasilkan aplikasi speech synthesizer dengan suara manusia. Sedangkan inteligibel adalah seberapa mudah output tersebut dipahami oleh manusia. Semua aplikasi speech synthesizer berusaha untuk menghasilkan output yang alami dan inteligibel sekaligus.
Sampai saat ini, ada banyak teknologi untuk meng-generate gelombang suara sintetis ini. Dua teknologi yang paling banyak digunakan adalah concatenative synthesis dan formant synthesis. Keduanya memiliki keunggulan dan kekurangan sendiri-sendiri.
Teknologi pertama, concatenative synthesis, berbasis pada rangkaian (atau merangkai bersama) segmen-segmen dari suara yang direkam. Umumnya, teknologi ini menghasilkan suara sintesis yang terdengar paling alami.Namun, perbedaan antara suara alami yang direkam dengan segmentasi gelombang bunyi kadang menghasilkan suara yang menggangu. Mirip seperti suara pemberitahuan nomor antrean di bank atau suara call center operator ponsel yang menyebutkan sisa pulsa dan masa berlaku kartu ponsel anda.
Teknologi kedua, formant synthesis, tidak menggunakan sampel suara manusia melainkan membuat suara sintesi menggunakan model akustik. Parameter-parameter seperti frekuensi dasar, alunan suara, dan tingkat kebisingan bervariasi dari waktu ke waktu untuk menciptakan gelombang suara buatan.
Kebanyakan aplikasi berbasis teknologi ini menghasilkan suara buatan (tidak alami) seperti suara robot. Melihat keterbatasan kedua teknologi ini dalam menghasilkan suara buatan, seperti kita harus sabar menunggu pengembangannya lebih lanjut dalam beberapa tahun atau dekade ke depan.

0 Responses to "Teknologi Speech Synthesizer"

Posting Komentar