Saya terpaksa menukar saya ChatGPT suara kepada lelaki Inggeris yang marah. Saya takut jika suara itu terlalu mesra saya akan jatuh cinta dengannya.
Seperti lelaki itu. Dalam filem itu.
Mari kita bercakap tentang pembantu suara.
Siri pernah menjadi bahan jenaka. Tetapi semasa kami sibuk bertanya kepada Siri cara menyembunyikan mayat, AI suara secara senyap-senyap meresap ke seluruh penjuru pasaran. Sehingga 2025, 67% organisasi menganggap AI suara sebagai teras kepada perniagaan mereka .
Organisasi tersebut menyedari bahawa ejen AI lebih baik dengan keupayaan pertuturan.
Oh, dan filem itu yang saya rujuk? Tidak begitu jauh. Pemerolehan io oleh Open AI baru-baru ini dijangka dengan niat untuk membina pembantu suara yang tidak invasif, sentiasa sedar.
Anda tahu, kawan kecil di telinga anda pada setiap masa.
Jadi inilah kami: Alexa lebih dikenali sebagai produk berbanding nama seseorang, CEO syarikat AI sedang mengambil gambar pertunangan bersama-sama dan dua pertiga daripada perniagaan telah pun menyimpan tarikh .
Dan jika anda tidak berada di atasnya, maka kakak, anda berada di belakang .
Yang boleh difahami. Teknologi ini membingungkan, dan tidak ramai yang menerangkan cara ia berfungsi . Tetapi teka siapa yang mempunyai dua ibu jari dan ijazah siswazah dalam teknologi pertuturan?
(Anda tidak dapat melihat tetapi saya mengangkat ibu jari saya.)
(...Anda tahu siapa lagi yang tidak dapat melihat? Pembantu suara.)
(Saya menyimpang.)
Saya menulis artikel ini untuk mengejar anda dengan pantas. Kami akan bercakap tentang Pembantu Suara AI: cara mereka berfungsi, perkara yang boleh anda lakukan dengan mereka dan sebab begitu banyak syarikat memilih untuk menyepadukan mereka ke dalam operasi mereka.
Apakah itu Pembantu Suara AI?
Pembantu suara AI ialah perisian berkuasa AI yang memproses input pertuturan, memahaminya, melaksanakan tugas dan memberikan respons kepada pengguna. Pembantu ini digunakan merentas industri dan kes penggunaan, menambahkan sentuhan peribadi pada pengurusan tugas dan sokongan pelanggan.
Bagaimanakah AI Voice Assistants berfungsi?

Pembantu suara AI ialah orkestrasi kompleks teknologi AI . Dalam beberapa saat antara menangkap pertuturan input pengguna dan menjana respons, beberapa proses dicetuskan untuk menyampaikan interaksi yang lancar.
Pengecaman Pertuturan Automatik (ASR)
Pengecaman pertuturan automatik kadangkala dipanggil pertuturan ke teks, kerana itulah hakikatnya.
Apabila pengguna bercakap ke dalam peranti mereka– sama ada telefon, pembantu rumah atau papan pemuka kereta, pertuturan mereka ditukar menjadi teks. Untuk melakukan ini, rangkaian saraf dalam dilatih untuk meramalkan transkripsi klip audio .
Selepas latihan mengenai 1,000 jam data pertuturan merentas berjuta-juta klip berbeza yang melibatkan pembesar suara, aksen dan keadaan hingar yang berbeza, model AI ini menjadi sangat baik dalam menyalin.
Dan itu penting– langkah pertama dalam sistem berbilang lapisan perlu teguh.
Pemprosesan Bahasa Semulajadi (NLP)
Dengan input pertuturan ditranskripsikan, model bergerak untuk mentafsirnya.
NLP ialah konsep payung untuk semua teknik yang digunakan untuk menghuraikan pertanyaan pengguna (sebagai teks yang ditranskripsi) kepada unit niat dan bermakna.
Pengiktirafan Niat
Teks tidak berstruktur, dan tugas mengusik makna adalah jauh dari remeh. Ambil beberapa pertanyaan berikut:
- “Jadualkan panggilan dengan Aniqa pada hari Selasa pukul 1.”
- "Bolehkah anda bermain Cher?"
- “Apa yang sesuai dengan keju kambing?”
Pembantu AI akan mempunyai siri niat terhingga di bawah hud. Untuk bot kami, itu termasuk:
- tempahan janji temu
- bermain media
- mungkin mencari di web , dan
- berbual santai
Pengecaman niat bertanggungjawab untuk mengklasifikasikan setiap pertanyaan pengguna ke dalam salah satu kategori ini.
Jadi, yang manakah setiap contoh kita termasuk?
“Jadualkan panggilan…” diungkapkan sebagai imperatif. Agak mudah. “Bolehkah awak…?” diungkapkan sebagai soalan. Tetapi ia juga merupakan arahan, seperti pertanyaan sebelumnya. Dalam kedua-dua kes, anda secara intuitif memahami tindakan yang diingini, tetapi ia tidak begitu mudah untuk diformalkan.
“Apa yang sesuai dengan…?” adalah mudah– semacam.
Kami tahu jenis jawapan yang kami mahu: makanan. Tetapi ia tidak begitu jelas dari mana ia harus mendapatkan jawapannya.
Patutkah ia mencari di web? Jika ya, berapa banyak jawapan yang perlu diberikan? Keputusan pertama tidak akan begitu teliti, tetapi memberikan banyak respons boleh merumitkan tugas mudah.
Sebaliknya, mungkin ia hanya boleh menggali dari pengetahuan dalamannya– tetapi kita semakin mendahului diri kita sendiri.
Perkara yang boleh diambil ialah: pilihannya tidak selalunya mudah, dan kerumitan tugasan ini mempunyai banyak kaitan dengan reka bentuk– atau personaliti– bot seperti halnya dengan pertanyaan pengguna.
Pengiktirafan Entiti Dinamakan
Di atas dan di luar mengetahui tugas yang perlu dilakukan, bot perlu mengenali maklumat yang diberikan.
Pengiktirafan entiti bernama berkenaan dengan mengekstrak unit bermakna – atau entiti bernama – daripada teks tidak berstruktur . Contohnya, mengenal pasti nama nama orang, artis muzik atau tarikh dalam pertanyaan pengguna.
Mari kita lihat pada pertanyaan pertama sekali lagi:
- “Jadualkan panggilan dengan Aniqa pada hari Selasa pukul 1.”
Aniqa ialah seorang, dan tersirat daripada pertanyaan bahawa pengguna mengenalinya . Itu menjadikan dia - kemungkinan besar - kenalan.

Dalam kes ini, "kenalan" akan dipraprogramkan sebagai entiti dan bot akan mempunyai akses kepada kenalan pengguna.
Ini berlaku untuk masa, lokasi dan sebarang maklumat bermakna lain yang mungkin disembunyikan dalam pertanyaan pengguna.
Mendapatkan Maklumat
Setelah memahami perkara yang anda mahukan, pembantu suara perlu mencari maklumat yang berkaitan untuk membantunya bertindak balas. Bot yang baik akan dilengkapi dengan rangkaian lengkap sambungan untuk membantu memenuhi keperluan anda.
Kami bercakap tentang pengetahuan dalaman tadi. Saya pasti anda terpesona pada satu ketika oleh model bahasa yang besar' ( LLM ) dan pengetahuan mereka yang luas. Dan ia mengagumkan, tetapi apabila pertanyaan anda semakin khusus, keretakan mula kelihatan.
Penjanaan Pertambahan Pengambilan (RAG)
Pembantu yang baik mempunyai akses kepada sumber pengetahuan luar – ia tidak bergantung semata-mata pada pengetahuan yang diperoleh semasa latihan . RAG menetapkan tindak balas AI pada pengetahuan itu.
Pengetahuan, dalam kes ini, merujuk kepada dokumen, jadual, imej, atau pada asasnya apa sahaja yang boleh diproses secara digital.
Ia mencari melalui dokumentasi, menarik item yang paling berkaitan dengan pertanyaan pengguna dan menggunakannya untuk memaklumkan respons model .
- Kadangkala ia bertujuan untuk menajamkan maklumat LLMs , seperti merujuknya kepada literatur akademik semasa membuat penyelidikan.
- Pada masa lain ia adalah mengenai memberi akses kepada maklumat yang model tidak akan mempunyai , seperti data pelanggan.
Dalam mana-mana kes, ia mempunyai kelebihan tambahan untuk memetik sumbernya, menjadikan respons lebih dipercayai dan boleh disahkan.
API dan Integrasi
Dengan cara yang sama bahawa an LLM boleh antara muka dengan maklumat luaran, API dan integrasi membolehkannya bersambung dengan teknologi luaran.
Ingin menempah janji temu Google Meets melalui Calendly untuk membuat susulan pada petunjuk HubSpot yang dinilai dengan pengayaan Clearbit? Melainkan anda membina kalendar, teknologi persidangan video, CRM dan alat analitis (yang sangat tidak digalakkan), anda perlu 🔌menyepadukan⚡️.
Alat pihak ke-3 ini biasanya mempunyai API yang mendedahkan operasi supaya ia boleh dilakukan oleh teknologi automatik lain– seperti ejen anda.

Penyepaduan menjadikannya lebih mudah bagi bot untuk antara muka dengan teknologi pihak ke-3. Ia dibina di atas API, menutupi kekacauan supaya anda boleh menghubungkan ejen anda dengan sedikit kerja.
Membalas dan Teks ke Pertuturan (TTS)
Jadi, input pengguna telah ditranskripsikan, niat mereka dihuraikan, maklumat yang berkaitan diambil dan tugas telah dilaksanakan.
Kini tiba masanya untuk bertindak balas.
Sama ada ia menjawab soalan pengguna atau mengesahkan bahawa ia melaksanakan tugas yang diminta, bot suara hampir selalu menawarkan respons.
Teks ke Pertuturan (TTS)
Sama dan bertentangan dengan pengecaman pertuturan ialah sintesis pertuturan, atau teks ke pertuturan .
Ini adalah model, juga dilatih pada pasangan teks pertuturan, selalunya dikondisikan pada pembesar suara, intonasi dan emosi untuk menyampaikan ujaran seperti manusia.
TTS menutup gelung yang bermula dan berakhir dengan pertuturan manusia(-oid).
Faedah Pembantu Suara
Lapisan suara di atas kefungsian AI meningkatkan pengalaman di sekeliling. Sudah tentu, ia diperibadikan dan intuitif, tetapi ia juga mempunyai kelebihan dari segi perniagaan.
Suara Lebih Cepat daripada Teks
Dengan percambahan chatbots, pengguna telah terbiasa dengan respons pantas. Dengan pembantu AI suara, kami juga telah berjaya meningkatkan masa input.
Ejen AI Suara menghalang kami daripada perlu merumuskan ayat yang betul. Sebaliknya, anda boleh mengeluarkan aliran kesedaran, dan minta bot memahaminya.
Begitu juga dengan respons. Saya akan menjadi orang pertama yang mengakui bahawa membaca boleh menjadi seret– tetapi tidak menjadi masalah apabila respons diceritakan kepada anda.
24/7 Respons
Satu lagi jenis kelajuan. Dengan orang yang bekerja dari jauh dan urus niaga perniagaan berlaku di seluruh benua, adalah mustahil untuk mengambil kira semua zon waktu dan waktu bekerja yang perlu anda lindungi.
Interaksi lisan harus tersedia untuk semua orang, bukan hanya pelanggan yang terlibat dalam waktu kerja tertentu. Dan dengan pembantu AI suara, itu boleh menjadi kenyataan.
Lebih Banyak Interaksi Diperibadikan
Bercakap adalah lebih daripada perkataan. Mempunyai bot suara mencipta pengalaman yang lebih peribadi yang menanamkan rasa yakin dalam diri pengguna. Ditambah dengan kualiti seperti manusia AI chatbots , lapisan suara menghasilkan sambungan yang lebih kukuh.
Mudah Bersepadu
Hakikat bahawa pembantu suara adalah bebas tangan bermakna ia juga bebas UI. Ia tidak memerlukan skrin, atau penggunaan mata anda– itulah sebabnya ia sangat popular di dalam kereta.
Malah, mereka boleh menyepadukan di mana sahaja mikrofon boleh disambungkan. Itu adalah bar yang sangat rendah untuk dilalui, bukan sahaja kerana mikrofon sangat kecil, tetapi kerana ia sudah ada di mana-mana: komputer, telefon pintar, dan juga talian tetap.
Namakan satu lagi teknologi canggih yang boleh diakses melalui telefon berputar.

Lebih Boleh Diakses
"Bebas tangan" bukan sahaja mengenai kemudahan. Bagi orang yang mempunyai pelbagai keperluan, ia boleh menjadi satu keperluan.
Pembantu suara tersedia untuk orang yang mempunyai kepelbagaian mobiliti, penglihatan dan celik huruf yang mungkin bergelut dengan antara muka AI tradisional.
Gunakan Kes Bot Suara Merentasi Industri
Jadi, anda dijual pada bot suara. Hebat. Tetapi bagaimana anda menggunakannya?
Berita baiknya ialah hampir setiap industri boleh dipertingkatkan dengan AI suara.
Penjagaan kesihatan
Prosedur penjagaan kesihatan terkenal membosankan. Dan untuk alasan yang baik: ia adalah kerja yang tinggi, dan ia perlu dilakukan dengan betul. Ruang ini meminta automasi AI, dengan syarat ia boleh dipercayai dan berkesan.
Kami telah melihat aplikasi AI dalam penjagaan kesihatan , dan suara menambah banyak peluang baharu untuk bertambah baik.
Satu contoh yang baik ialah soal selidik perubatan: maklumat peribadi, sejarah perubatan, dsb.
Itu membosankan. Tetapi mereka penting.
Peningkatan dalam kelajuan dan produktiviti mengurangkan beban kerja profesional penjagaan kesihatan yang terlalu bekerja, dan aliran perbualan seperti manusia memecahkan kebosanan menjawab soalan demi soalan.
Kebolehcapaian diambil kira, dan mengikut saluran paip berbilang lapisan yang kuat yang kami bincangkan sebelum ini, saya boleh memberi jaminan kepada anda bahawa teknologi itu boleh dipercayai.
Perbankan
Bercakap tentang taruhan tinggi dan membosankan.
Perkara seperti menyemak baki akaun dan mengemas kini maklumat adalah transaksi yang agak mudah, tetapi mempunyai beberapa lapisan perlindungan untuk mengurangkan ralat dan penipuan.
Ejen suara NatWest berurusan dengan transaksi biasa, membebaskan ejen manusia untuk menghabiskan lebih banyak masa pada interaksi sensitif atau kompleks, meningkatkan kepuasan pelanggan sebanyak 150% tanpa menjejaskan keselamatan.
Sokongan pengguna
Mengenai topik mengautomasikan panggilan rutin, SuperTOBI Vodafone, pembantu AI suara, telah meningkatkan skor penganjur bersih (NPS) mereka daripada 14 kepada 64 .
Ini kerana interaksi perkhidmatan pelanggan adalah berulang dan pertanyaan pelanggan dijawab sama, sama ada oleh seseorang atau ejen. Pendekatan ini tidak berkompromi dengan kes-kes tepi - yang diserahkan kepada ejen manusia.
Runcit
Saya agak merindui hari-hari bercakap dengan jurujual.
Masalahnya ialah, mereka terlalu sibuk untuk membiasakan diri dengan katalog dan polisi kedai, apatah lagi masa yang diperlukan untuk berurusan dengan setiap pelanggan individu.
Masukkan pembantu jualan suara seperti Lowe's' MyLow: rakan jualan maya dengan maklumat tentang butiran produk, inventori dan dasar.
LLMs ' pengetahuan umum benar-benar bersinar di sini: selain memberikan maklumat khusus Lowe, ia menggunakan pengetahuan reka bentuk dalaman untuk menasihati pelanggan tentang menghias rumah.
Sesetengah pelanggan masih mencari interaksi manusia. Nasib baik, MyLow juga tersedia untuk rakan jualan. Pekerja boleh mendapatkan maklumat yang mereka perlukan daripada MyLow dan membantu pelanggan itu sendiri.
Mula Menawarkan Pembantu Suara AI
Pembantu AI suara adalah cara yang jelas untuk pergi. Kecekapan dan keperibadian, tanpa menjejaskan kemanusiaan– ia menang-menang.
Botpress menawarkan pembina drag-and-drop yang boleh disesuaikan, pengawasan gelung manusia, pelbagai integrasi pra-bina, dan tambahan lagi, pembungkus suara yang terletak dengan lancar di atas ejen anda.
Bot kami bersih dan intuitif, tetapi tidak bermakna asas.
Mula membina hari ini . Ia percuma.