谷歌全新推出的LiteRT加速器为骁龙平台安卓设备的AI工作负载注入强劲动力

谷歌为LiteRT引入了一个名为Qualcomm AI Engine Direct（QNN）的全新加速器，旨在增强搭载骁龙8系列SoC的高通安卓设备的设备端AI性能。这个加速器带来了显著的性能提升，与CPU执行相比速度提升了高达100倍，与GPU相比也提升了10倍。

尽管现代安卓设备普遍配备了GPU硬件，但谷歌软件工程师Lu Wang、Wiyi Wanf和Andrew Wang表示，完全依赖它们来执行AI任务可能会产生性能瓶颈。例如，他们指出，“在设备上运行一个计算密集型的文本到图像生成模型，并同时处理实时摄像头输入的基于ML的分割”，即使高端移动GPU也可能不堪重负。这可能导致用户体验卡顿和画面丢帧。

不过，许多移动设备现在包括了神经处理单元（NPU），与GPU相比，这些定制设计的AI加速器可以显著加速AI工作负载，并降低功耗。

QNN是谷歌与高通紧密合作开发的，旨在替代之前的TFLite QNN delegate。它广泛集成了各种SoC编译器和运行时，并通过简化的API暴露它们，为开发人员提供了一个简化的统一工作流。它支持90个LiteRT操作，目标是实现全模型委托，这是实现最佳性能的关键因素。QNN还包括专门的内核和优化，进一步增强了Gemma和FastLVM等LLM的性能。

谷歌在72个ML模型上对QNN进行了基准测试，其中64个成功实现了全NPU委托。结果显示，其性能与CPU执行相比提升了高达100倍，与GPU相比提升了10倍。

在高通最新的旗舰SoC骁龙8 Elite Gen 5上，性能提升显著：在NPU上有超过56个模型运行时间少于5ms，而在CPU上只有13个模型能做到这一点。这解锁了一系列之前无法实现的实时AI体验。

谷歌工程师还开发了一个概念应用，使用了苹果FastVLM-0.5B视觉编码模型的优化版本。该应用几乎可以即时解释摄像头的实时场景。在骁龙8 Elite Gen 5 NPU上，该模型在1024×1024图像上实现了令人印象深刻的首次令牌时间（TTFT）（仅为0.12秒），预填充速度超过11,000个令牌/秒，解码速度超过100个令牌/秒。苹果的模型通过int8权重量化和int16激活量化进行了优化。根据谷歌工程师的说法，这是解锁NPU最强大的高速int16内核的关键。

QNN目前仅支持有限的安卓硬件子集，主要是搭载骁龙8和骁龙8+ SoC的设备。感兴趣的话，可查阅NPU加速指南并从GitHub下载LiteRT。

原文链接：

https://www.infoq.com/news/2025/11/litert-snapdragon-accelerator/