天猫精灵联网提示路由器连接失败(天猫精灵又发新,简单粗暴的数字背后,都有着更深的意味!)



普惠,克制,就像天猫精灵累计销售额突破100万后接受锌财经采访时,小雪在2018年阿里巴巴人工智能实验室春季发布会及随后的采访中反复强调这两个词。

不同的是,曾经有人说要把 从产品中减去,不做视觉和手势识别,不整合所有黑科技。

这意味着,通过XHolder中包含的二维码,在XHolder与天猫精灵之间建立第一次连接 后,可以直接将手机作为屏幕,体验“精灵火眼”带来的视觉能力。换句话说,天猫精灵在不增加硬件设备成本的情况下,具备了视觉识别的能力。



这一次,中国智能音响市场的后来者阿里抢了人人的先机,试图用两三年前被证伪的视觉交互重新定义人机交互方式,用最低的成本颠覆竞争对手的下一代产品。

在此之前,通过狼一样的打法,他们取得了以下成绩:上市200多天销量突破200万台,家电接通4500万台,任务完成[

每一个简单粗暴的数字背后,都有更深的含义。例如,在全球市场,最畅销的智能音箱亚马逊Echo ,用了一年多的时间才达到200万台的销量。结论是,在中国做智能音响可能不是一个伪命题。业内人士默认知道,小米是目前最好的智能家居生态构建者,8500万联网设备,其中近一半是路由器和手环,而天猫精灵4500万联网设备都是家用电器...



在双11以粗价拉动消费,倒逼供应链向前运行之后,类似AliGenie2.0的系统升级和同时发布的天猫精灵cookie版、天猫魔屏S1和搭载AliGenie2.0系统的天猫路由器,将会给产业链带来又一次冲击。

“这是一家懂业务,依靠自身强大能力突破资源市场的科技公司的降维打击。”发布会结束后,有同行这样评价。

以下是发布会后锌财经做的进一步采访。



阿里巴巴人工智能实验室主任|浅雪

问: 一下子公布三款产品背后的逻辑是什么?

答:三款产品在某种程度上是相互关联的:天猫精灵cookie是输入设备,天猫路由器是链接设备,天猫魔屏是输出设备,这恰恰是人机交互中的三个关键点。

也就是说,我们把语音交互、视觉交互、机器动作结合在一起,推动家庭智能网络的落地,而不是全品类。

问:不是所有类别都乱?具体来说,边界在哪里?

答:我不想给自己设限。

本质上,我们关注的是整个系统,而不是硬件的边界。这两种思维方式截然不同。硬件可以以多种方式变形。比如天猫精灵火眼,完全可以换成另一个样子,但是这个系统是唯一不变的东西。



问:为什么不直接推出屏幕版本的智能音箱?

答:我理解的人工智能,第一是计算量,第二是认知能力。简单的堆叠硬件(加个屏幕)是很简单的事情,但是只有没有认知能力的屏幕才是伪人工智能。

如果是其他厂商做的话,可能会用非常好的摄像头、传感器、屏幕来降低硬件上的挑战和难度。但我们强调的是惠普技术。我们要做的是在不增加硬件设备成本的情况下,让天猫精灵具备视觉识别能力。

问:智能音箱市场的末日会是什么?

答:智能音箱市场正处于起步阶段,但“百盒大战”不会持续太久。

未来的竞争将是产品、场景、生态三个维度。产品体验是核心,既包括产品本身的体验,也包括系统的能力。大部分没有技术投入和生态建设的产品很快就会死掉,最终可能会留下两三个产品。



阿里巴巴人工智能实验室产品总监|发布空

问:很多硬件厂商做的都是软件套件。真的这么简单吗?

答:这些厂家不太负责。就我个人而言,先尝试和别人合作,然后自己做系统和硬件。可以说,开发这款产品花了三年青春。如果只做系统,不完全走产业链,可能真的发现不了软硬件适配的问题。只有撸起袖子,弄脏了手,才知道还有多少坑要走。

我来提个小观点:为了天猫精灵最好的音效,我们在深圳花了大概七天时间,其中两天是24小时通宵,就是为了调麦克风噪音和灵敏度。出来后基本上就是一个没人理我的状态。



问:天猫精灵火眼诞生的背后有哪些故事?

答:首先,你为什么想做这件事?火眼系统诞生的时间比天猫精灵的语音系统还要长。我们首先推出了更成熟的语音系统,但在这个过程中并没有放弃对视觉的思考。包括去年,我们已经做了一个预测,未来的机器交互一定是五官能的。未来几年我们会往这个方向探索,只是说技术能不能有合适的场景让用户使用,如果不能,我们就先憋着。

其次,在做的过程中,对于要不要带屏幕,内部争议很大。最后,我们选择使用XHolder来做这个尝试。与现有产品兼容其实是最难的,这比完全从零开始开模难多了。起初,我们配备了一个旋转镜,可以将桌面上的任何东西投影到相机中。在我们不知道开了多少次模具之后,我们选择了脱镜。当时技术人员就炸了,说不行。最后他们被迫打磨了不知多少次才成功。

问: 视觉能力需要大量的真实场景图像数据。现在,阿里有足够的培训资料吗?

答:我们的视觉识别分为两种,一种是2D识别,一种是3D识别。现场的药箱、书籍、卡片多为2D,这一块的影像资料以众包为主,数据非常多。

至于3D识别,目前还没有解决大规模商用的技术问题,整个行业现在都缺乏3D图像素材。



阿里巴巴人工智能实验室北京中心首席科学家|聂在庆

问:天猫精灵相比其他智能音响系统有哪些技术优势?

答:例如,有一种东西叫做情境意识。我们会知道大部分用户在做这个的时候还会做什么,然后主动去做一些动作。比如你问天气,如果你知道要下雨,我可能会提醒你别忘了带伞。

此外,还有主动学习的能力。自然界的巨大困难来自于它的多样性,一个意思可能有无数种表达方式。那么,如何主动挖掘开发者与大数据的交互,完善所有的表达方式,让机器能够理解呢?

这是我们的技术优势。



问:说到语音识别,天猫精灵有什么能力?

答:我把对话分成四类。

第一,任务完成类型。如果用户希望天猫精灵做到这一点,就必须做到。

二、知识问答型。用户有问题要问猫精灵,我们就要用我们知道的所有知识图谱来回答用户的问题。这种情况下,不需要重复唤醒天猫精灵的动作。

第三,智能聊天。用户脑子里没有任务让我们完成,他也没有问题,只是想和天猫精灵聊天打发时间。

第四,闲聊。一句话,不管用户是远方的,还是有口音的,都要抓住。

现在,四种类型我们都有了,包括天猫精灵第一次醒来后可以在2.5秒左右和你连续通话。要看什么时候放空。

问:视觉与语音连接最大的技术难点是什么?

答:首先,视觉效果和语音的同步性要求极高的实时性。

其次,视觉需要理解语音返回的结果,包括意图、情感等。,并且逻辑处理复杂。利用纯语音技术,终端通常只需要执行音频资源的回放控制。

天猫精灵联网

另外还有很多东西,比如声纹和人脸如何互补或者很好的结合,如何识别不同的物体,在不同的距离、不同的角度、不同的光线条件下都可以成功识别...



文章∣·石齐

编辑玲鱼

摄影/黄硕

手绘灵鱼

本文版权归锌金融所有。

部分图片来自网络。

您可以还会对下面的文章感兴趣

使用微信扫描二维码后

点击右上角发送给好友