Qualcomm博客

基于机器学习的计算机视觉将改变我们看待世界的方式

人类用眼睛和大脑来观察这个世界,这是我们从视觉上感知世界的方式。 计算机视觉的目标之一,是通过机器以类似的方式来“观察”和处理图像,这也是人工智能的关键能力。 但真正令人兴奋的,还在于计算机视觉如何利用这些图像。 计算机可以通过多种渠道“看到”我们无法感知到的世界。 简言之,机器拥有比我们更强大的视觉能力。 正是得益于超强的视觉能力,计算机视觉将对我们的生活产生深远的影响。 当然,我们先要对计算机进行训练,收集足够的数据,并了解计算机究竟如何观察这个世界。

在这个关于人工智能的系列文章中(分两部分),我们将探讨人工智能模型的现状,并回顾一下Qualcomm为推进计算机视觉所做的努力。

 

人工智能的光鲜一面

当今人们对计算机视觉的认识,多数只停留在“有趣”的层面。大家都见过增强现实眼镜的演示视频吧?它们能以极其震撼的视觉效果令人发出赞叹,比如投射一条鲨鱼在你的客厅里游荡或者在你面前表演“穿墙术”。 你可能觉得这些视觉效果已经很酷了,但计算机视觉的能耐远远不止这些。

前阵子有一个叫“不是热狗”(Not Hotdog)的应用,这是HBO《硅谷》系列电视剧的科技世界中衍生出来的一个梗。 《硅谷》第四季讲述的是科技创业公司中一群人的故事(如果你还没有看过这节目,我强烈推荐),他们打造了一个人工智能应用,定位为“食物识别器”。然而在测试中,该应用只能识别热狗,其他的食物都被简单粗暴地鉴定为“不是热狗”。节目播出后,制作方还真的开发了一款这样的应用,当然只是为了搞笑。

你可能会说,这个应用满足了巨大的人道主义需求:对于那些缺乏分辩能力的人而言,现在他们能够判断一个东西是不是热狗了。 但老实讲,即使是最不懂技术的人也不会觉得这个应用有多厉害。 这个应用场景说明了,构建一个真正实用的分类器绝非易事,正应了那句话“理想很丰满,现实很骨感”。

这种复杂性不仅存在于电视剧里。 一篇发表在Medium上的文章介绍说,“不是热狗”应用的创作者表示,尽管他只花了一个周末,用一台配备一颗GPU的笔记本电脑就完成应用的开发,但却花了大量时间去打磨产品的用户界面。 他们花了数周时间来改善应用的整体准确性,并用一整个周末的时间来针对iOS和Android用户体验进行优化。

通过机器学习来实现对象识别的计算机视觉,本质上是训练模型以便对图像中的对象进行识别和分类,实现起来并不简单。它需要成千上万的图像作为训练数据,开发人员也需要花费大量时间、精力和耐心去训练模型。 “不是热狗”应用表明,虽然计算机视觉技术具有巨大的潜力,但充分的训练数据对于实现这一目标至关重要。

人工智能的准确率

 

就像一个正在学习香蕉和方块之间区别的小孩子一样,经过大量数据训练的分类器仍然会犯错误。我们来回顾一下2016年社交媒体的一个现象级事件:谜米机器人 Karen Zack(Twitter账号@teenybiscuit)发布了一系列有关动物与食物之间区别的推文,用配图的方式提出很多在我们看来很蠢的问题,比如“这是吉娃娃还是松饼?”、“这是小狗还是百吉饼?”、“这是鹦鹉还是鳄梨酱?” 等等。你明白我要说什么了吧?

当然,辨别不同物体是图像分类器的基本能力。我们来看人工智能技术研发公司Clarifai的分类器如何识别图像。它取得了令人印象深刻的准确率:正确区分吉娃娃和松饼的准确率高达95.8%。 但是,在识别图像中其他种类物品或其他内容的测试时它的表现却差远了。 在一个案例中,该模型未能识别出鸭子,甚至将鸭子周围的水域识别为汽车!

同样,测试人员向微软的CaptionBot AI 展示张牙舞爪的虫子图片时,它竟然将它识别为一只狗。 分类器并不确定物体的种类,所以表示对结果并不自信。

这些分类器到底哪里出了问题? 为什么一个分类器能够准确地将吉娃娃与松饼区分开来,而另一些则无法准确地识别鸭子或虫子分类?在某个层面上,我们可以把它归结为数据量的问题。 分类器拥有的训练数据越多,识别的准确率就越高。换句话说,缺乏足够的训练数据会削弱分类器的识别能力。所以,如果我们给这些分类器提供更多的鸭子和虫子图片,理论上它们应该能够更好地正确识别图像。

我们需要承认一个显而易见的重要事实:计算机视觉和人类视觉不是一回事。 有时,我们根本不知道为什么,同样一张图片,机器“看到”的东西和我们看到的却截然不同。 这里存在挑战。

Qualcomm一直在努力改善我们的人工智能图像分类能力。在2015年,我们在ImageNet图像识别挑战中拔得头筹,该比赛重点测试了人工智能的对象定位、对象检测和场景分类等能力。

我们将继续研究计算机视觉在自动驾驶虚拟现实、增强现实和物联网等各种领域的最新应用。 最近,我们推出了Qualcomm 驾驶数据平台(Drive Data Platform),展示了越来越多的边缘分析(Edge Analytics)能力,推动了自动驾驶技术向前发展。

敬请期待该系列的第2部分,我们将讨论计算机如何看待世界,并探索计算机视觉的未来及其更实际的应用。

关注微博或扫描下方二维码关注微信公众号(ID:Qualcomm-China),了解更多Qualcomm资讯。

 

Opinions expressed in the content posted here are the personal opinions of the original authors, and do not necessarily reflect those of Qualcomm Incorporated or its subsidiaries ("Qualcomm"). The content is provided for informational purposes only and is not meant to be an endorsement or representation by Qualcomm or any other party. This site may also provide links or references to non-Qualcomm sites and resources. Qualcomm makes no representations, warranties, or other commitments whatsoever about any non-Qualcomm sites or third-party resources that may be referenced, accessible from, or linked to this site.