天猫精灵是什么系统(天猫精灵AliGenie 5.0系统体验：唤醒语音助手不再靠喊话)

朱大可

2022-04-20 11:09:50

你应该看过那个视频:有人跑到苹果店大喊& # 34；嘿，Siri & # 34瞬间，几十上百个Siri齐声& # 34；是的，什么事& # 34；那环绕声效果堪比杜比全景声！

毫无疑问，这样做的人是为了好玩，但这也开了所谓人工智能语音助手的一个缺点的玩笑，那就是你必须喊唤醒词才能进行对话或发出指令。需要唤醒词的语音助手醒来似乎是天经地义的事，但这件事现在被颠覆了。

9月17日，天猫精灵在云起发布会上发布了首款全场景人机交流系统AliGenie 5.0，首次集成了人脸唤醒、唇动唤醒、手势操控、语音交互等多种交互模式。

简单来说，我不需要再喊了& # 34；天猫精灵& # 34；你可以直接和机器对话。有时候做减法比做加法更难。AliGenie 5.0省略的这一步，对于人机交互来说是革命性的。

多模态唤醒首次大规模应用落地

AliGenie升级到5.0后，集成了唇动、手势、语音语义等多种形式的交互信息。，在人机交互领域也被称为多模态。

情态不是我们的日常用语，但从字面上看很容易理解。就像我们有视觉、听觉、嗅觉、触觉一样，传递的信息包括视频、图像、声音、手势、手势等。每种形式都可以称为一种情态。

人机交互的多模态融合一直是人工智能研究的热点领域，但在此之前，还停留在学术研究层面。AliGenie 5.0系统已登陆天猫精灵今秋三款新品:天猫精灵CC10电池版家用智能屏(以下简称CC10电池版)、天猫精灵CC MINI智能时钟屏、Insugar 2智能时钟音箱。其中，CC10电池版将率先推出多模态唤醒功能，并将于10月中旬逐步升级覆盖带屏CC系列产品。

这是多模态唤醒在消费电子产品中的首次大规模应用，对阿里公司乃至整个人机交互技术领域都具有重要意义。这可能也意味着，你对手机、智能音箱甚至整个智能家居发号施令的方式，很快就会被彻底改变。

当然，改变的前提是天猫精灵AliGenie 5.0系统带来的多模态唤醒体验真的像他们宣称的那么好。我已经体验了一段时间的CC10电池版本的多模式唤醒功能。可以说真的刷新了我对智能音箱等产品使用的认识。这种感觉不能说是颠覆性的，但是很新奇，很熟悉。

就像在跟身旁同事说话

新奇和熟悉是两个矛盾的词，却很适合CC10电池版的交互体验。之所以新奇，是因为我不需要先喊& # 34；天猫精灵& # 34；，它可以直接回复我。

比如我一般会把CC10电池版放在书桌边，写稿的时候想听歌。我只要把头转向它，左下角的天猫精灵就会提示& # 34；那张脸醒了，我在听...&# 34;，几乎同时，我对它说& # 34；播放音乐& # 34；，然后开始放歌，整个过程就像和下一站的同事说话一样，也没必要费口舌喊& # 34；天猫精灵& # 34；。

我就是这么说的& # 34；熟悉& # 34；为什么，你觉得和它说话就像和旁边的同事聊天一样，自然的交流，能不熟悉吗？

升级到AliGenie5.0后，CC10电池版还支持多种手势分离空操控，比如你可以用拇指指着屏幕来收藏当前播放的内容，做一个& # 34；嘘& # 34；手势，可以立刻静音天猫精灵，非常& # 34；拟人& # 34；沟通方式让互动感觉更顺畅。

在使用的过程中，我也发现，从歪着脸到下达指令，或者举手做动作& # 34；嘘& # 34；手势，到CC10电池版接收指令响应，中间没有太多等待时间，整个响应过程一气呵成，这也离不开多模态唤醒的作用。

据介绍，天猫精灵的算法专家融合视觉识别能力、语音识别能力和上下文语义，通过深度学习融合视觉和语音信息后输入机器& # 34；大脑& # 34；然后做出全面的决定，让机器& # 34；能听能看& # 34；。

也就是说，开启多模态唤醒功能后，盯着机器的嘴巴说话时，天猫精灵会自动识别我的嘴唇运动、眼睛朝向和面部表情，并能在接收到语音信息时直接给出相应的反馈。

在使用CC10电池版的时候，我还发现，如果我在同事说话的时候不对CC10电池版说话，它不会误唤醒，因为机器接收到的声音和图像信息不匹配。当我说话时，它会接收我的嘴唇动作与我的声音相匹配的信息，它会醒来并识别指令。

在我们对未来人工智能的想象中，我们不想看到机械的觉醒方式——接收指令，而是综合& # 34；拟人& # 34；交流。当没有必要大喊大叫的时候& # 34；天猫精灵& # 34；唤醒词，可以自然的和CC10电池版互动，我发现这个智能助手真的懂我。

让每个人无差别享受AI

根据天猫精灵的数据，在家庭生活场景中，结合人脸、唇唤醒、语音自然对话，多模态识别准确率达到99%以上。从CC10电池版在我办公桌的时候来看，近距离唤醒嘴唇的成功率非常高。即使在人声比较嘈杂的办公环境下，也没有被别人的声音误吵醒。

事实上，多模式唤醒可以比单个语音唤醒字更好地降低错误唤醒率。在智能助手的开发过程中，为了语音唤醒的成功率，算法会把语音感知的灵敏度调得很高。过高的灵敏度很容易捕捉到中文中一些发音相近的音节，所以即使一家人日常聊天，电视里播新闻，甚至半夜，音箱里的语音助手也可能会突然说话，让人觉得莫名其妙。

在免唤醒对话场景下，天猫精灵需要集成嘴唇和语音的动态信息识别，可以帮助机器过滤掉90%以上的环境背景干扰信息，但可以达到比特定唤醒词更高的准确率，大大降低误唤醒率。

唇唤醒法也是天猫精灵AliGenie 5.0系统的首创。首先，提取人说话时嘴唇运动的关键特征点。经过嘴唇运动分析，当图像序列和音频序列能够成功匹配时，那么就可以结合上下文语义综合判断用户与机器对话的行为意图，最终唤醒设备。

CC10电池版搭载AliGenie 5.0，根据普通& # 34；近场、中场和远场& # 34；三种人机交互场景可以综合调动各种交互信息来确认我们的沟通意图。在近场，也就是1米左右的交互场景中，嘴唇的运动唤起无疑是最自然的。在场地中央1-1.5米左右的距离，人以问候的形式向机器挥手就可以醒来，这个时候不需要喊出来& # 34；天猫精灵& # 34；。

更远，直接通过& # 34；天猫精灵& # 34；唤醒指令也是最拟人化的体验。未来，天猫精灵还将利用声纹识别技术识别声源的方向和位置，让语音唤醒的反馈更加准确。虽然在现实生活场景中，会受到人脸距离、光线等因素的影响，但AliGenie 5.0无疑开启了人机交互的新征程。

天猫精灵是什么

有了多模态识别的能力，经过一段时间的训练，未来的人工智能助手将能够识别人、声音、语音方向和手势& # 34；坐在正确的位置& # 34；在一个family 空的房间里，你能真正认识和区分每一个家庭成员，熟悉每个人的生活习惯和喜好，在任何位置都能和家人自然交流，离理想的未来智能助手越来越近了。

很多科幻电影描绘了未来的生活，人工智能成为真正的管家，不再被动接受命令，而是通过用户的个人喜好和定制需求主动提供服务。这个过程的建立是通过自然语言交流来实现的。之所以看起来这么美，正是因为自然交流对人来说学习成本很小。

家庭成员复杂多样，与机器的天然交流也意味着它可以让每个人不加选择地使用最新的技术。语音、唇动唤醒、眼神交流融合的自然交互模式，意味着在技术层面，降低了人们接触前沿技术的门槛。

网购，移动支付，网上乘车，外卖，每个人都离不开的健康码。科技让很多人的生活越来越便利，但也有人因为种种原因无法享受。这不是人的错，也不是技术的错。在变化的过程中，技术需要帮助人们适应变化，而不是与他人对抗，从而产生所谓的& # 34；淘汰& # 34；。

天猫AliGenie 5.0将多模态唤醒落地，其实做了一件看似简单却很伟大的事情:用与人打交道的模式，为更多人提供前沿科技带来的便利，让每个人都可以无差别地享受AI。

天猫精灵是什么

天猫精灵是什么系统(天猫精灵AliGenie 5.0系统体验：唤醒语音助手不再靠喊话)

您可以还会对下面的文章感兴趣

相关文章：