我不得不改变我的ChatGPT 向那个恼火的英国人发出声音。我担心如果声音太友好,我会爱上它。
就像那部电影里的那个人一样。
让我们来谈谈语音助手。
Siri 曾一度成为人们的笑柄。但就在我们忙着问 Siri 如何隐藏尸体的时候,语音 AI 却悄然渗透到了市场的各个角落。截至 2025 年,67% 的组织将语音 AI 视为其业务的核心。
这些组织意识到人工智能代理拥有更强大的语音能力。
哦,还有我提到的那部电影?这倒也不算太离谱。Open AI 最近收购了 io,预计是为了打造一款非侵入式、永久感知的语音助手。
你知道,你的耳边随时都有一个小伙伴。
所以我们现在看到:Alexa 作为产品比作为人名更容易被识别,人工智能公司的首席执行官们正在一起拍摄订婚照,三分之二的企业已经保存了日期。
如果你不掌握它,那么姐妹,你就落后了。
这可以理解。这项技术本身就很神秘,而且很少有人解释它的工作原理。但你猜谁有两只大拇指,还拥有语音技术研究生学位呢?
(你看不到,但我竖起了大拇指。)
(...您知道还有谁看不见吗?语音助手。)
(我离题了。)
我写这篇文章是为了让你快速了解情况。我们将讨论人工智能语音助手:它们的工作原理、它们的用途,以及众多公司选择将其集成到运营中的原因。
什么是AI语音助手?
AI语音助手是一款基于人工智能的软件,能够处理、理解语音输入、执行任务并向用户提供响应。这类助手广泛应用于各行各业和各种用例,为任务管理和客户支持增添个性化体验。
AI语音助手如何工作?

AI语音助手是AI技术的复杂编排。在捕捉用户输入语音和生成响应之间的几秒钟内,会触发多个流程以实现无缝交互。
自动语音识别(ASR)
自动语音识别有时也称为语音转文本,因为它就是这样的。
当用户对着设备(无论是手机、家庭助理还是汽车仪表盘)说话时,他们的语音会被转换成文本。为此,深度神经网络经过训练,可以预测音频片段的转录。
在对数百万个涉及不同说话者、口音和噪音条件的不同片段的数千小时语音数据进行训练后,这些 AI 模型的转录能力已经相当出色。
这很重要——多层系统的第一步必须稳健。
自然语言处理(NLP)
随着语音输入被转录,模型开始对其进行解释。
NLP是用于将用户查询(作为转录文本)解析为意图和有意义的单元的所有技术的总括概念。
意图识别
文本是非结构化的,提取其含义绝非易事。请考虑以下几个查询:
- “安排周二 1 点与 Aniqa 通话。”
- “你会演奏雪儿吗?”
- “什么和山羊奶酪很搭?”
人工智能助手会拥有一系列有限的意图。对于我们的机器人来说,这些意图包括:
- 预约
- 播放媒体
- 可能正在搜索网络,并且
- 随意交谈
意图识别负责将每个用户查询分类到这些类别之一。
那么,我们的每个例子属于哪一种呢?
“安排一次通话……”的表述是祈使句,相对简单。“你能……吗?”的表述是疑问句,但它同时也是命令,就像前面的疑问句一样。在这两种情况下,你都能直观地理解所需的操作,但要将其正式化却不那么容易。
“什么和……很相配?” 很简单——某种程度上。
我们知道我们想要什么样的答案:食物。但它不太清楚应该从哪里获取答案。
它应该搜索网络吗?如果是,应该给出多少条结果?第一个结果可能不是很全面,但给出太多结果会使简单的任务变得过于复杂。
另一方面,也许它可以从其内部知识中进行挖掘——但我们有点操之过急了。
要点是:选择并不总是简单的,并且此任务的复杂性与机器人的设计或个性以及用户的查询有很大关系。
命名实体识别
除了知道要执行哪项任务之外,机器人还需要识别所提供的信息。
命名实体识别致力于从非结构化文本中提取有意义的单元(或命名实体)。例如,识别用户查询中的人名、音乐家或日期。
让我们再看一下第一个查询:
- “安排周二 1 点与 Aniqa 通话。”
Aniqa是一个人,从查询结果来看,用户认识她。因此,她很有可能是联系人。

在这种情况下,“联系人”将被预先编程为一个实体,并且机器人将可以访问用户的联系人。
这适用于时间、地点以及用户查询中可能隐藏的任何其他有意义的信息。
检索信息
理解了你的需求后,语音助手需要搜索相关信息才能做出响应。优秀的机器人会配备一整套扩展功能,以满足你的需求。
我们之前讨论过内部知识。我相信你一定对大型语言模型感到过震惊。 LLM )及其广博的知识。这确实令人印象深刻,但随着你的问题变得越来越专业,漏洞开始显现。
检索-增强生成(RAG)
优秀的助手能够获取外部知识来源——它不仅仅依赖于训练过程中获得的知识。RAG 会根据这些知识来调整AI的反应。
在这种情况下,知识是指文档、表格、图像或基本上任何可以进行数字化处理的东西。
它搜索文档,提取与用户查询最相关的项目,并使用它们来通知模型的响应。
- 有时,这有利于增强LLMs信息,例如在进行研究时参考学术文献。
- 其他时候,它是关于提供模型本来无法获得的信息,例如客户数据。
无论哪种情况,它都有引用来源的额外优势,使得回应更加可靠和可验证。
API 和集成
就像LLM 可以与外部信息交互,API 和集成允许它与外部技术交互。
想要通过以下方式预约 Google Meets Calendly 跟进使用 Clearbit enrichment 评估的 HubSpot 潜在客户?除非您自己构建了日历、视频会议技术、CRM 和分析工具(这是非常不明智的),否则您需要🔌集成⚡️。
这些第三方工具通常具有公开操作的 API,以便其他自动化技术(例如您的代理)可以执行它们。

集成功能使机器人与第三方技术接口更加便捷。它基于 API 构建,解决了繁琐的流程,让您轻松连接代理。
响应和文本转语音 (TTS)
因此,用户输入已被转录,他们的意图已被解析,相关信息已被检索,并且任务已执行。
现在到了作出回应的时候了。
无论是回答用户的问题还是确认执行了请求的任务,语音机器人几乎总是会提供答复。
文本转语音 (TTS)
与语音识别相同且相反的是语音合成,或文本转语音。
这些模型也是针对语音-文本对进行训练的,通常根据说话者、语调和情感进行调整,以发出类似人类的言语。
TTS 关闭了以人类语音开始和结束的循环。
语音助手的好处
在人工智能功能之上添加语音层,全面提升了用户体验。它不仅个性化且直观,而且在商业方面也具有优势。
语音比文本更快
随着聊天机器人的普及,用户已经习惯了快速响应。借助语音AI助手,我们也成功缩短了输入时间。
语音AI代理让我们无需组织正确的句子。相反,你可以脱口而出一段意识流,然后让机器人理解它。
回复也一样。我承认阅读确实挺费劲的——但如果回复是旁白,那就没问题了。
全天候响应
又是一种速度。由于人们远程办公,业务交易跨越大洲,你不可能考虑到所有需要覆盖的时区和工作时间。
语音互动应该面向所有人,而不仅仅是特定工作时段的顾客。有了语音AI助手,这一切或许就能成为现实。
更加个性化的互动
沟通远不止于文字。语音机器人能够创造更个性化的体验,增强用户的信任感。结合人工智能聊天机器人的类人特性,语音层能够增强联系。
轻松集成
语音助手无需动手,这意味着它们也无需用户界面。它们不需要屏幕,也不需要用眼睛——这就是它们在汽车上如此受欢迎的原因。
事实上,它们可以集成到任何可以连接麦克风的地方。这门槛很低,不仅因为麦克风体积很小,还因为它们已经无处不在:电脑、智能手机,甚至座机。
说出另一种可通过旋转电话访问的尖端技术。

更易于访问
“免提”不仅仅意味着方便。对于有不同需求的人来说,它是一种必需品。
语音助手可供行动能力、视力和读写能力各异的人士使用,否则他们可能无法使用传统的人工智能界面。
各行业语音机器人的使用案例
所以,你对语音机器人心动了。太好了。但是,该如何使用它们呢?
好消息是,几乎每个行业都可以通过语音 AI 得到改进。
医疗保健
众所周知,医疗保健流程繁琐冗长。原因很简单:这项工作风险高,必须确保安全可靠。这个领域迫切需要人工智能自动化,前提是它可靠且有效。
我们已经看到人工智能在医疗保健领域的应用,语音也带来了一系列新的改进机会。
一个很好的例子就是医疗问卷:个人信息、病史等。
这些很乏味,但很重要。
速度和生产力的提高减轻了过度劳累的医疗专业人员的工作量,类似人类的对话流程打破了回答一个又一个问题的单调乏味。
可访问性已得到考虑,并且根据我们之前讨论过的强大的多层次管道,我可以向您保证该技术是可靠的。
银行业
说到高风险和乏味。
检查账户余额和更新信息等是相对简单的交易,但有几层保障措施可以减少错误和欺诈。
NatWest 的语音代理处理常规交易,使人工代理能够花更多时间处理敏感或复杂的交互,在不影响安全性的情况下将客户满意度提高 150% 。
客户支持
在自动化例行呼叫方面,沃达丰的语音 AI 助手 SuperTOBI 将其净推荐值 (NPS) 从 14 提高到 64 。
这是因为客户服务互动是重复性的,客户的疑问无论由人工还是客服人员解答,都是一样的。这种方法不会影响到边缘情况——这些情况都会交给人工客服人员处理。
零售
我有点怀念与销售人员交谈的日子。
问题是,他们太忙了,没有时间熟悉商店的目录和政策,更不用说花时间与每个客户打交道了。
输入语音销售助理,例如 Lowe's 的MyLow:一个拥有产品详细信息、库存和政策信息的虚拟销售助理。
LLMs ' 广义的知识在这里真正发挥了作用:除了提供 Lowe's 特定的信息之外,它还利用室内设计知识为客户提供家居装饰方面的建议。
有些顾客仍然希望与人互动。幸运的是,MyLow 也可供销售人员使用。员工可以从 MyLow 获取所需信息,并自行为客户提供帮助。
开始提供人工智能语音助手
语音AI助手无疑是未来的发展方向。高效、个性化,同时又不牺牲人性——这是一个双赢的局面。
Botpress 提供可定制的拖放构建器、人工循环监督、大量预构建集成,最重要的是,提供无缝位于代理之上的语音包装器。
我们的机器人简洁、直观,但绝不是基础的。
今天就开始建设。它是免费的。