无论是对谷歌、英伟达,还是高通、联发科而言,今天的AI芯片和AI算力已经成为了CPU和GPU之后的“第三大计算版图”,评测AI算力的意义是毫无疑问的。然而另一方面,AI面向的并不是单一的计算任务,而是若干种类计算任务、计算架构的集合,这也让测试AI性能变得史无前例的棘手。
在AI没有通用接口的前提下,各家SoC厂商可能会选择各自的兼容格式,不同的编程接口,以及不同的计算框架。甚至对于AI加速单元到底要为哪些AI任务加速,各家厂商的选择都是不同的。
如何构建相对公允的AI评测方案?
手机芯片领域的AI算力评测,是一项争议和复杂度远超想象的工程。今天为数不少的AI评测报告,或许都欠缺一抹严肃与逻辑自洽能力。
在这种情况下,如何将评测项目快速上马?最简单粗暴的逻辑,就是找一个大家都能做的来测一下。
都想当“江湖百晓生”:风起云涌的AI芯片评测
不同于CPU和GPU,AI算力不是在加速某一种恒定的运算任务,而是对千奇百怪的任务构建加速体系。
而就今天情况来看,BT页游私服,至少我们可以预测到未来公允的AI评测方案的几个主要趋势:
讨论了手机AI芯片评测中的种种不公平,那么是不是有某种方式可以构建相对公允的AI评测机制呢?
更深层次的问题在于,折中主义方案其实是妥协于今天已经比较完善、容易得出分数对比的AI模型,比如图像分类等等。然而问题来了,端侧AI必然是不断发展的,用户对AI算法的复杂度也在日益提升。当AI算力和应用不断发展,用户不会只满足于拍照识图这种极简单,并不需要强劲算力的AI应用。然而对复杂算法的加速,也因为标准难以统一被今天的AI评测屏蔽了。
4、从应用端的体验来评测AI算力。AI任务的最终目的是应用,那么从应用体验角度,通过完整的AI应用来测试加速效果,构建围绕用户的核心坐标系来反向测评硬件算力,也是一个可以探索的方案。让AI评测回到以用户为重心,显然比折中主义方案更加靠谱。
这有点像华山网页游戏私服中,强行要求东邪西毒南帝北丐分门别类进行比试。主办方一琢磨,北丐会降龙十八掌,东邪会落英神掌,那公平起见你们就比掌法好了。然而北丐的掌法是看家本领,东邪的掌法只是十大神功之一,弹指神通玉箫剑法之类的,都被主办方强行禁止了。
今天AI评测最大的问题,在于每家芯片厂商最开始做AI专项加速的时候,对这门复杂技术有着不同的理解。摸索期过去,当各自作品“登上舞台”,评测机构可能会有点傻眼:这谁跟谁都不一样,可怎么测啊……
目前,移动和电信都在组织自己的手机AI芯片评测报告。鲁大师很早就推出过一个AI跑分规则,引发了很多争议,而它的竞品安兔兔也在酝酿AI领域的评测。在国外,苏黎世理工ETH也发布了SoC的AI性能评测方案AI Benchmark。
这背后的根本原因在于,AI加速并不是一个通用计算能力,而是面向不同任务、不同网络模型给出的差异化提速效果。甚至每款芯片能够覆盖的AI加速任务种类都有极大不同。举个例子,短跑选手之间可以比赛排名,田径队和体操队碰上了怎么比呢?
然而如果有朋友看过不同的端测AI评测报告,可能会发现这样一个问题:各家评测结果出入很大,经常陷入“公说公有理”的状态。
这里引申出的一个问题就是,抛开精度谈速率,其实是一种不靠谱的算力比较。这就像答题答得快并不意味着成绩好。更快的识图速度如果建立高错误率的基础上,或者只能固定数据集快速识别,拿到现实生活中就识错,那显然也并不意味着AI算力足够强大。
总而言之,AI的任务是“经世致用”,是让用户感觉到设备变得不同——而不是主动阉割各种能力之后的跑分与评测。
AI的本质是“经世致用”:评测之外,更应该关注体验赛场
对硬件处理能力的评测,想必今天大家都已经不陌生。“一言不合就跑分”据说是科技行业的惯例;而普通人买手机买电脑,也要先了解一下CPU多少分、GPU处理能力达到多少分之类的数据。
让我们今天“打破砂锅问到底”,来看看AI评测“到底是怎么测的”。
中国人是最了解考试这门学问的。今天很多给AI设计的考试,都还处在未经雕琢的原始阶段,颇有点让AI写八股文的影子。
这套逻辑虽然够快,但首先没有看到各家产品的独特性,也没有看到未来大负载的复杂AI任务必将成为主流这一核心趋势。
1、着眼于高精准(High Quality)的AI模型加速,而不是目前简单易用的AI方案。从CPU、GPU的逻辑来看,复杂任务一定是评测算力的最高标准。比如今天我们在评测GPU时,都知道开一个画质特别好的游戏作为标准。没有人会用90年代的游戏来评测今天的GPU,这一点在AI评测上同样适用。
鲁大师的AI跑分之所以饱受质疑,原因就在于它只用了一个AI识图的任务来测试不同的手机,然而AI识图只是众多应用中很小的一部分。甚至数据集和算法的不同,也会让AI识图这件事产生相差悬殊的结果。这种单一任务决定分数高低的测试方法,有点像一张试卷只有一道选择题——显然是无法做到公允的。
那么AI评测这个陌生的东西,需要面对的技术规则挑战可想而知。然而今天我们在手机芯片等领域,正在不断看到越来越多的AI评测规则、评测报告出炉。结论往往混乱不堪,吃瓜群众也搞不清楚这里的门道到底在哪。
这或许可以看作AI和经典计算在本质上的区别。AI的本质目标是带来体验差异化。让消费者可以获得有温度、有感知、千人千面的终端体验。换句话说,AI在手机中的归宿,不是数据化表现,而是算力经历产品化之后带给消费者的综合体验。
而在手机芯片领域,这两年随着麒麟970开始搭载独立的NPU处理单元,之后苹果在A11中开始跟进,在A12中搭载了具备相当算力的AI加速模块;今年骁龙855也采取了专用加速模块的架构,联发科也讲起了AI故事,手机芯片基本已经在AI方向上达成了共识。那么如何来评价每一家的AI加速能力,自然成为了新的迫切需求。
然而这里首先暴露出的一个问题就是,折中主义方案下依然可能带来不公平。因为很多芯片产品真正擅长,能给消费者带来体验改进的算法加速,可能是对方芯片模块中所不具备的能力,结果却被评测方主动屏蔽了。
这条AI体验的赛道中,今天来看有三个要素构成了竞争力的核心:
由于骁龙芯片和麒麟芯片对于AI加速的理解有很大区别,两款芯片加速的AI任务也有很大不同。于是在移动端的AI评测中,其逻辑是寻找两款芯片都能做的AI任务,找到几个典型算法和典型场景,然后进行评测对比;评测标准是,在固定时间内,谁能完成更多的突破分类、图片分割等运算任务,则谁更强。
“比武”也要讲逻辑:不全面AI评测的隐忧
当然了,到底如何构建一个评测方案,将未来趋势、用户体验等维度完整纳入AI算力的测试范畴,是一项任重道远的工作。而同时我们也应该注意到,在AI芯片领域,绝不应该构建一个“算力跑分为王”的机制,毕竟消费者是否体验和热爱AI,才是最好的衡量标准。
不全面的折中方案,其实恰好意味着不公平。然而这也是在仓促起事的AI评测中难以避免的。
要知道,即使CPU评测这件在今天看起来并没有难度的事,也是从90年代就开始启动,由无数公司与产业组织共同努力,才最终完成了行业标准确立。
在服务器AI芯片领域,很多组织和机构都在酝酿算力评测方案。国内的中国人工智能产业发展联盟(AIIA)已经多次组织学界与产业界研讨AI算力评测方案,并已有相关讨论稿。而在海外,谷歌、英伟达等AI巨头也在酝酿AI算力评测的相关章程,希望建立国际范围内通行的AI芯片测试标准。