谷歌全新推出的LiteRT加速器为骁龙平台安卓设备的AI工作负载注入强劲动力
来源: InfoQ 话题 - 大前端
谷歌为LiteRT引入了一个名为Qualcomm AI Engine Direct(QNN)的全新加速器,旨在增强搭载骁龙8系列SoC的高通安卓设备的设备端AI性能。这个加速器带来了显著的性能提升,与CPU执行相比速度提升了高达100倍,与GPU相比也提升了10倍。
尽管现代安卓设备普遍配备了GPU硬件,但谷歌软件工程师Lu Wang、Wiyi Wanf和Andrew Wang表示,完全依赖它们来执行AI任务可能会产生性能瓶颈。例如,他们指出,“在设备上运行一个计算密集型的文本到图像生成模型,并同时处理实时摄像头输入的基于ML的分割”,即使高端移动GPU也可能不堪重负。这可能导致用户体验卡顿和画面丢帧。
不过,许多移动设备现在包括了神经处理单元(NPU),与GPU相比,这些定制设计的AI加速器可以显著加速AI工作负载,并降低功耗。
QNN是谷歌与高通紧密合作开发的,旨在替代之前的TFLite QNN delegate。它广泛集成了各种SoC编译器和运行时,并通过简化的API暴露它们,为开发人员提供了一个简化的统一工作流。它支持90个LiteRT操作,目标是实现全模型委托,这是实现最佳性能的关键因素。QNN还包括专门的内核和优化,进一步增强了Gemma和FastLVM等LLM的性能。
谷歌在72个ML模型上对QNN进行了基准测试,其中64个成功实现了全NPU委托。结果显示,其性能与CPU执行相比提升了高达100倍,与GPU相比提升了10倍。
在高通最新的旗舰SoC骁龙8 Elite Gen 5上,性能提升显著:在NPU上有超过56个模型运行时间少于5ms,而在CPU上只有13个模型能做到这一点。这解锁了一系列之前无法实现的实时AI体验。

谷歌工程师还开发了一个概念应用,使用了苹果FastVLM-0.5B视觉编码模型的优化版本。该应用几乎可以即时解释摄像头的实时场景。在骁龙8 Elite Gen 5 NPU上,该模型在1024×1024图像上实现了令人印象深刻的首次令牌时间(TTFT)(仅为0.12秒),预填充速度超过11,000个令牌/秒,解码速度超过100个令牌/秒。苹果的模型通过int8权重量化和int16激活量化进行了优化。根据谷歌工程师的说法,这是解锁NPU最强大的高速int16内核的关键。
QNN目前仅支持有限的安卓硬件子集,主要是搭载骁龙8和骁龙8+ SoC的设备。感兴趣的话,可查阅NPU加速指南并从GitHub下载LiteRT。
原文链接:
https://www.infoq.com/news/2025/11/litert-snapdragon-accelerator/