Qualcomm博客

基于机器学习的计算机视觉将改变我们看待世界的方式

人类用眼睛和大脑来观察这个世界,这是我们从视觉上感知世界的方式。 计算机视觉的目标之一,是通过机器以类似的方式来“观察”和处理图像,这也是人工智能的关键能力。 但真正令人兴奋的,还在于计算机视觉如何利用这些图像。 计算机可以通过多种渠道“看到”我们无法感知到的世界。 简言之,机器拥有比我们更强大的视觉能力。 正是得益于超强的视觉能力,计算机视觉将对我们的生活产生深远的影响。 当然,我们先要对计算机进行训练,收集足够的数据,并了解计算机究竟如何观察这个世界。

在这个关于人工智能的系列文章中(分两部分),我们将探讨人工智能模型的现状,并回顾一下Qualcomm为推进计算机视觉所做的努力。

 

人工智能的光鲜一面

当今人们对计算机视觉的认识,多数只停留在“有趣”的层面。大家都见过增强现实眼镜的演示视频吧?它们能以极其震撼的视觉效果令人发出赞叹,比如投射一条鲨鱼在你的客厅里游荡或者在你面前表演“穿墙术”。 你可能觉得这些视觉效果已经很酷了,但计算机视觉的能耐远远不止这些。

前阵子有一个叫“不是热狗”(Not Hotdog)的应用,这是HBO《硅谷》系列电视剧的科技世界中衍生出来的一个梗。 《硅谷》第四季讲述的是科技创业公司中一群人的故事(如果你还没有看过这节目,我强烈推荐),他们打造了一个人工智能应用,定位为“食物识别器”。然而在测试中,该应用只能识别热狗,其他的食物都被简单粗暴地鉴定为“不是热狗”。节目播出后,制作方还真的开发了一款这样的应用,当然只是为了搞笑。

你可能会说,这个应用满足了巨大的人道主义需求:对于那些缺乏分辩能力的人而言,现在他们能够判断一个东西是不是热狗了。 但老实讲,即使是最不懂技术的人也不会觉得这个应用有多厉害。 这个应用场景说明了,构建一个真正实用的分类器绝非易事,正应了那句话“理想很丰满,现实很骨感”。

这种复杂性不仅存在于电视剧里。 一篇发表在Medium上的文章介绍说,“不是热狗”应用的创作者表示,尽管他只花了一个周末,用一台配备一颗GPU的笔记本电脑就完成应用的开发,但却花了大量时间去打磨产品的用户界面。 他们花了数周时间来改善应用的整体准确性,并用一整个周末的时间来针对iOS和Android用户体验进行优化。

通过机器学习来实现对象识别的计算机视觉,本质上是训练模型以便对图像中的对象进行识别和分类,实现起来并不简单。它需要成千上万的图像作为训练数据,开发人员也需要花费大量时间、精力和耐心去训练模型。 “不是热狗”应用表明,虽然计算机视觉技术具有巨大的潜力,但充分的训练数据对于实现这一目标至关重要。

人工智能的准确率

 

就像一个正在学习香蕉和方块之间区别的小孩子一样,经过大量数据训练的分类器仍然会犯错误。我们来回顾一下2016年社交媒体的一个现象级事件:谜米机器人 Karen Zack(Twitter账号@teenybiscuit)发布了一系列有关动物与食物之间区别的推文,用配图的方式提出很多在我们看来很蠢的问题,比如“这是吉娃娃还是松饼?”、“这是小狗还是百吉饼?”、“这是鹦鹉还是鳄梨酱?” 等等。你明白我要说什么了吧?

当然,辨别不同物体是图像分类器的基本能力。我们来看人工智能技术研发公司Clarifai的分类器如何识别图像。它取得了令人印象深刻的准确率:正确区分吉娃娃和松饼的准确率高达95.8%。 但是,在识别图像中其他种类物品或其他内容的测试时它的表现却差远了。 在一个案例中,该模型未能识别出鸭子,甚至将鸭子周围的水域识别为汽车!

同样,测试人员向微软的CaptionBot AI 展示张牙舞爪的虫子图片时,它竟然将它识别为一只狗。 分类器并不确定物体的种类,所以表示对结果并不自信。

这些分类器到底哪里出了问题? 为什么一个分类器能够准确地将吉娃娃与松饼区分开来,而另一些则无法准确地识别鸭子或虫子分类?在某个层面上,我们可以把它归结为数据量的问题。 分类器拥有的训练数据越多,识别的准确率就越高。换句话说,缺乏足够的训练数据会削弱分类器的识别能力。所以,如果我们给这些分类器提供更多的鸭子和虫子图片,理论上它们应该能够更好地正确识别图像。

我们需要承认一个显而易见的重要事实:计算机视觉和人类视觉不是一回事。 有时,我们根本不知道为什么,同样一张图片,机器“看到”的东西和我们看到的却截然不同。 这里存在挑战。

Qualcomm一直在努力改善我们的人工智能图像分类能力。在2015年,我们在ImageNet图像识别挑战中拔得头筹,该比赛重点测试了人工智能的对象定位、对象检测和场景分类等能力。

我们将继续研究计算机视觉在自动驾驶虚拟现实、增强现实和物联网等各种领域的最新应用。 最近,我们推出了Qualcomm 驾驶数据平台(Drive Data Platform),展示了越来越多的边缘分析(Edge Analytics)能力,推动了自动驾驶技术向前发展。

敬请期待该系列的第2部分,我们将讨论计算机如何看待世界,并探索计算机视觉的未来及其更实际的应用。

关注微博或扫描下方二维码关注微信公众号(ID:Qualcomm-China),了解更多Qualcomm资讯。