Qualcomm博客

个人语音助理时代已经来临

2018年1月30日

Qualcomm products mentioned within this post are offered by Qualcomm Technologies, Inc. and/or its subsidiaries.

这个圣诞季最受欢迎的礼物之一就是个人虚拟助理,尤其是搭载语音用户界面(VUI)的设备。

自2011年Siri推出至今,语音助理设备已经变得家喻户晓。目前约有7亿人在使用AI个人助理,到2021年预计将增长到近20亿人。从Siri 到 Google Assistant、亚马逊Alexa和微软Cortana,AI个人助理如雨后春笋不断涌现。 三星最近推出了他们的Bixby助手,而Facebook预计明年将实现自主虚拟助手(简称“M”)的商业化。

作为开发者,了解这些设备的工作原理以及如何利用其功能非常重要。 它们内置蓝牙、Wi-Fi模块(如Qualcomm QCA9377-3)以及处理器(如 Qualcomm 骁龙移动平台)。 在这篇博文中,我们将深入探讨如何将这些模块完美融合在一起。

会话和基于命令的交互

会话界面是模仿人类交谈的用户界面。 个人助理主要有两种:聊天机器人(或基于文本的交互),以及语音用户界面(或语音激活助手),如前面所述的商业产品。 语音激活助手通常是基于命令的AI交互 - 你需要“唤醒”并给它下达命令。

语音激活助手是日常工作的理想选择,例如:

  • 信息搜索:通过互联网查找信息,比如时间和天气查询等。
  • 任务处理:设置闹钟,发送消息,播放音乐和视频,在线购物,智能家居协调等。
  • 信息收集:呼叫中心收集用户信息,医疗服务提供初步诊断。
  • 技能培训:通过与AI老师交谈来学习一门新的语言。

使用VUI可以帮助用户摆脱键盘、屏幕和拼写检查的束缚,尤其适合免提通信以及无障碍需求。

组件

语音助理的硬件组件包括扬声器和麦克风,蓝牙和Wi-Fi模块以及标准计算机体系架构(CPU,RAM)。 虽然设备中内置很多技术,但真正的“大脑”通常驻留在云端。

要开始编写VUI应用,最简单的方法是使用一个类似Dialogflow的库,它集成了所有的主要应用组件。 如果你想深入研究这个“大脑”,你可以学习更多关于自然语言处理和机器学习的知识。

过程和原理

作为一名开发者和设计师,要充分使用这项技术,你需要理解完整的命令交互过程:

虚拟助手使用一个触发词(“Ok Google”,“Hey Siri”)来“唤醒”,以确保它只在命令下达时才运行。

音频被记录在设备上,经过压缩并通过Wi-Fi传输到云端。 通常会采用降噪算法来记录音频,以便云端“大脑”更容易理解用户的命令。

使用专有的“语音到文本”平台将音频转换成文本命令。 通过指定的频率对模拟信号进行采样,将模拟声波转换为数字数据。 分析数字数据以确定英语音素(“bb”,“oo”,“sh”等)的出现位置。 一旦识别出音素,就使用统计建模算法(如Hidden Markhov模型)来确定特定单词的可能性。

使用自然语言处理(NLP)技术来处理文本以确定所需的操作。 该算法首先使用词性标注来确定哪些词是形容词、动词和名词等,然后将这种标记与统计机器学习模型相结合起来,推断句子的含义。

如果命令操作需要进一步的搜索,系统将立即进行搜索。 例如,“嘿,Si想·ri,什么是骁龙移动平台?”将触发互联网搜索,并返回所得到的信息。 如果该命令类似于“Ok Google,给妈妈发送一条消息”,则命令数据(操作:发送消息,收件人:妈妈)会被直接发送到虚拟助理。

“大脑”在云中构建相应的答案,并且从语音样本数据库中检索最佳的输出词,然后将这些词拼接起来形成句子并返回到硬件向用户播放。

谁会是下一个“爆款”?

了解语音助手的工作原理,你就可以打造属于自己的产品:比如声控遥控车,或者能跟孩子对话的许愿圣诞树等等。 凭借强大的语音识别功能和最新的Qualcomm 技术,包括我们的蓝牙和Wi-Fi模块以及我们的Qualcomm 3D音频工具,你可以在这个圣诞季挑战自己,开发出一些新鲜有趣的产品。

关注微博或扫描下方二维码关注微信公众号(ID:Qualcomm_China),了解更多 Qualcomm 资讯。