基于Qualcomm AI引擎,提高终端侧AI运行速度
2019年9月12日
Qualcomm products mentioned within this post are offered by Qualcomm Technologies, Inc. and/or its subsidiaries.
想象一下,如果能够以每秒7万亿次(7 teraOPS)的运算速度在移动终端上运行机器学习模型,结果会怎样?
这确实可以让你在机器人、边缘计算、联网摄像头和始终在线的应用程序中拥有更多的发展空间。在图像分类、目标检测、人脸识别和语音识别等用例中,硬件加速可使神经网络的执行速度提高几个数量级。这为直播视频增强和游戏中人体快速跟踪等全新实时用例铺平了道路,否则这些用例都无法实现。
如果还能够以极低的功耗完成所有的计算,并且不占用中央处理器(CPU)和图形处理器(GPU),那就再好不过了。
全新高通骁龙™855移动平台,内置的Qualcomm AI引擎配备了专用硬件和软件,旨在加速终端侧AI运行。你可以直接在Qualcomm AI引擎上运行推理工作负载(inference workloads)。通过Qualcomm AI神经处理引擎(NPE)软件开发包(SDK),即我们用于执行深度神经网络的软件加速运行环境,你可以对Qualcomm AI引擎进行编程。同时,该引擎和SDK的结合使骁龙855的AI处理实现每秒7万亿次(7 teraOPS)的运算能力,从而显著提高终端侧AI应用的运行速度。
加速的程度如何?
在本视频中,我们将向你展示一个专为内部开发而创建的参考基准测试应用,为你展示通过骁龙855移动平台实现的加速程度。
在云端还是在终端上进行推理(inference)?
很多开发人员正在围绕图像分类、目标检测和人脸识别等功能,编写移动和物联网应用。而在几年前,他们必须在云端进行训练和推理。但是,随着移动处理器性能的提高,开发人员开始将训练与推理分开。在云端训练机器学习模型之后,再将工作负载转移至移动设备。
为什么要在终端上运行机器学习模型,而不是在云端进行?一方面,大家不希望云端往返之间出现时延。另一方面,你可以将用户数据保存在终端上——这对于隐私保护来说是一个优势。而且,你也不希望应用受制于网络连接。简而言之,你可以在新的行业引入机器学习,并向用户提供更好、更丰富的移动体验。
但是,终端侧处理对运算能力的要求较高。否则,终端将成为难以突破的瓶颈。如上面的视频所显示,如果终端在AI模式下从摄像机中处理图像需要1/2秒或1/3秒,那么其在实时应用中的表现不会很好。
终端上的AI处理能力
这就是为什么我们在骁龙855中加入Qualcomm AI引擎的原因——该引擎在机器学习模型方面具有出色的表现。在Qualcomm Hexagon向量扩展内核(HVX)和Hexagon张量加速器(HTA)的加持下,该引擎具备较高的矩阵乘法能力。由于具备足够的终端侧处理能力、能够在Inception-v3神经网络上每秒运行超过140次推理,你的应用可以在短短几毫秒内对数十个对象进行分类或检测,而且非常可靠。
在下一个视频中,你将看到我们专为内部开发而创建的参考基准测试应用,其展示了对Qualcomm AI引擎同时针对多个对象进行分类的推理过程。现在起,你便能开始思考如何利用这种AI技术来变革行业,丰富机器人、物联网、虚拟现实/增强现实(VR/AR)和联网汽车应用等领域的应用。
机遇就在此刻
Qualcomm神经处理引擎(NPE)软件开发包(SDK)与Qualcomm AI引擎的这一绝佳组合,是通过移动AI带来全新用户体验的最新举措。
想要在专用硬件上运行机器学习模型,以获得高性能和低功耗的竞争优势?现在就下载Qualcomm AI神经处理引擎(NPE)软件开发包(SDK)、在搭载骁龙855的商业终端上进行测试。
Qualcomm骁龙、Qualcomm AI引擎、Qualcomm神经处理引擎(NPE)软件开发包(SDK)和Qualcomm Hexagon等,均为Qualcomm Technologies, Inc.和/或其子公司的产品。
关注微博或扫描下方二维码关注微信公众号(ID:Qualcomm_China),了解更多 Qualcomm 资讯。