亚马逊的 Fire Phone 是一款什么样的智能机(fire phone的意思)

邹:

到目前为止,Fire Phone是唯一能满足我有限的“智能”想象力的智能手机。(多张图)

在这里,以我有限的知识,对萤火虫识别功能进行描述:

1.Firefly可以识别的项目



A.文本识别器:一般指图像文本识别器,不同于OCR(光学字符识别器),类似于名片识别、照片翻译等功能。最终的问题是谷歌新的街景图像识别算法可以击败大多数验证码。



B.音频识别器:音频识别,如歌曲识别(Shazam,这一领域的先驱,使用户能够在任何地方通过任何曲目识别歌曲),电视节目识别等。



C.图像识别器:图像识别,主要基于基于内容的图像检索,最近类似于近似重复图像检测。只要是数据库中的样本图片,只要对查询图片进行重采样或编辑,总能找到原来的样本图片,给人一种能识别上亿商品的样子。说白了就是一对一的匹配,不是广义的图像识别。



这三项与小在KDD2012开幕式上提到的九个计算机问题中的前三个OCR、语音识别、图像搜索(我们希望您解决的九个真正的难题[摘要,幻灯片:pdf])【4】。虽然有一些不同,但大体都是这个意思。但我们已经意识到了这一点,这意味着很明显,我们肯定可以用它赚钱。小理子,你在忙什么?忙着跟ng炫耀感情?

文本识别和音频识别是相对清晰的对象,而萧声对这两块知识有限。接下来我只说图像识别。这里的战斗更加丰富多彩。相机作为移动设备的入口之一,早已成为兵家必争之地。

2.摄像机后面的头

烧不起器材的穷鹤,往往会用“摄影不在于相机,而在于相机背后的脑袋”来解毒。在这里,我为叶蓓喝一句,“萤火虫是相机后面的脑袋”,还是比像素好。你真的很低!

从相机拍摄的图像来看,FireFly是这样做的:

二维码/条形码识别;

电话/电子邮件/网站标识;

书籍/CD/DVD/游戏封面、电影海报识别;

艺术品鉴定;

商品标识;



听起来也是这样。企鹅的微信和G的护目镜功能差不多,但是差别巨大!让我们来谈谈叶蓓为这件事付出了多少努力。你知道吗:

2009年,A9收购了亚马逊的子公司Snaptell[1]。Snaptell的主要业务是手机图像检索,即通过手机摄像头拍摄的图像搜索相关信息。官方介绍他们的算法非常准确,可以处理遮挡、光照不均、扭曲、透视、缩放等。总之就是优秀。他们的算法被称为“高度准确和稳健”

图像匹配算法:累积符号梯度

(ASG).创始人之一的拉吉夫·莫特万(Rajeev Motwan)曾在斯坦福大学执教谷歌创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)[2]。

亚马逊Flow app发布于2011年11月,是一款增强现实购物iPhone app。它使用条形码和图像识别技术,让购物者直接在摄像头视图中获取信息。流动可以识别的书籍、DVD、CD、视频游戏和其他包装好的东西,例如一盒饼干——无论是通过扫描产品的图像还是条形码,它都是通过识别媒体产品的封面、徽标、艺术品和其他一些独特的视觉特征来工作的。由Flow Amazon的子公司A9运营,A9是亚马逊旗下的搜索和广告部门[3]。

嗯,事情就是这样发生的。贝先生辛苦了。还有哪些骚年还在流浪?让我们战斗吧。

3.如何鉴别?

大会发布的视频中列举了一些专业术语,但多用于图像预处理,并不能体现图像识别的工作原理:





自适应局部对比度增强

自适应降噪

眩光检测

阴影消除

删除下划线

两相MSER扫描

方向标准化

多帧组合

多个OCR引擎

页面布局分析

截断滤波

多帧超分辨率

置信度过滤

混合双通道扫描

自适应缩放

自动裁剪

所以小生无法想象它真正的工作原理,也不容易直白的描述这个过程。这里有一个参考:

移动视觉搜索:

http://www.stanford.edu/~dmchen/mvs.html

http://www . slide share . net/foerderverein/mobile-visual-search

4.场景购买:所见即所得。

想象一下,用手机拍照就能到达相应的商品购买页面。目前常用的手段是条形码和二维码。直接拍照购买的物品仍然仅限于书籍、光盘、电影等。要扩展到各类产品,需要海量数据支持。

微信已经完成了第一步,第二步,相信其注资JD.COM后会有所动作;百度有相关技术,但缺乏完善的电商数据支撑,变现也不是那么直接。百度读图只是一个没那么必要的工具;g的家庭情况也差不多,护目镜成了娱乐工具;阿里有先天优势,其定义的相机入口契合了一些问题,但成长太慢;所以,亚马逊下一盘大棋,有能力打好。

-

firephone

陆朝阳:

简单看了一下亚马逊亮相Firefly technology上的视频,亚马逊Fire Phone的识别并不是通用的方案,而是基于视觉和声音信息的产品识别,方便购买。视频屏幕中基本上有几种观看方式:

1.条码扫描,Firefly配了一个红外LED,基本都是靠这个传感器辅助。

2.二维码扫描,基本功能。

3.商品的图像识别。既然亚马逊已经宣布支持上百万的产品,那就应该是现有产品的话袋了。因为发布的产品包装类型相对固定,而且肯定要入库并在网上拍照,所以建立数据库的过程比google图片搜索的难度要小很多。实现识别可能有两种方式:

A) OCR用于提取字符,提取商品名称或其他字符信息作为关键词,然后进入训练好的图像数据库进行匹配。好的训练特征信息应该在云端。考虑到上传数据的大小,大部分情况下应该是这样的(至少视频所展示的可以这样做)。

b)如果没有文字,直接根据特征在图像数据库中进行匹配。

4.声音信息的搜索应该类似于视觉。但是个人不做信号研究,我就不废话了。

和OCR差不多的时候还是很实用的,但是这个功能的主要原因应该是产品识别过程中的夹带,看起来比很多第三方应用要好得多。

至于一个通用的视觉识别方案,可能会通过亚马逊发布的SDK来实现。但总的来说,对于机器视觉的从业者来说,基于openCV的移动版几乎可以实现这些功能。对于粗放的android平台开发来说,这款手机在硬件上既没有视觉处理器的加速,也没有更多的传感器,所以不一定比其他平台优越。

至于通用计算机视觉更好的手机解决方案,还是关注google project Tango吧。业内人士如何看待谷歌Tango手机样机?: )

您可以还会对下面的文章感兴趣

使用微信扫描二维码后

点击右上角发送给好友