置顶按钮
文章封面

【解析AI快讯】移动设备运行大型模型速度提升4-5倍:微软亚洲研究院推出开源创新技术T-MAC,仅需CPU即可支持

【原文大意】


来源:网上搜集

微软亚洲研究院开发了一种名为T-MAC的新技术,旨在优化大语言模型在端侧设备的部署,特别是在手机、PC和树莓派等资源受限的设备上。T-MAC技术通过采用基于查找表(LUT)的计算范式,支持混合精度矩阵乘法,无需反量化操作,从而提高了推理性能并减少了资源消耗。与传统的模型量化方法相比,T-MAC不仅提高了效率,还使得模型更加统一和可扩展。此外,T-MAC不依赖于专用的硬件加速器如NPU或GPU,仅利用CPU即可部署模型,甚至在某些情况下,其推理速度可以超过专用加速器。T-MAC的关键创新在于其计算范式,通过直接支持低比特计算,显著减少了乘法和加法操作的数量,从而在性能上取得了显著提升。该技术已在配备最新高通Snapdragon X Elite芯片组的Surface AI PC上进行了实验,显示出卓越的性能,甚至超过了NPU的性能。T-MAC现已开源,相关论文已在arXiv公开。


【分析结果】


分析角度一:技术创新与性能提升

技术创新点: - T-MAC技术:微软亚洲研究院提出的T-MAC技术,通过基于查找表(LUT)的计算范式,直接支持混合精度矩阵乘法,无需反量化操作。 - 计算范式转变:T-MAC放弃了传统的乘累加(MAC)计算范式,采用基于查找表的计算方式,显著减少了乘法和加法操作的数量。

性能提升表现: - 速度提升:在Surface AI PC上,T-MAC使得3B BitNet-b1.58模型的生成速率达到每秒48个token,2bit 7B llama模型的生成速率达到每秒30个token,4bit 7B llama模型的生成速率达到每秒20个token。 - 超越专用加速器:在某些情况下,T-MAC的推理速度甚至超过了专用加速器NPU。例如,使用CPU在T-MAC的助力下,仅使用两核便能达到每秒12.6个token,最高甚至可以飙升至每秒22个token。

分析角度二:资源效率与能耗优化

资源效率提升: - 减少资源消耗:T-MAC技术不仅提高了推理性能,还显著减少了资源消耗,使得模型更加统一和可扩展,尤其适合在资源受限的端侧设备部署。 - 功耗优势:达到相同的生成速率,T-MAC所需的核心数仅为原始llama.cpp的1/4至1/6,降低能耗的同时也为其他应用留下计算资源。

能耗优化表现: - 线性性能提升:T-MAC的计算性能会随着比特数的降低而线性提高,这一现象在基于反量化去实现的GPU和NPU中是难以观察到的。 - 低比特优势:在2比特下,T-MAC能够实现单核每秒10个token,四核每秒28个token,大大超越了NPU的性能。

分析角度三:应用场景与市场影响

应用场景扩展: - 端侧设备部署:T-MAC技术特别适合在手机、PC、树莓派等端侧设备上部署大语言模型,解决了存储和计算问题。 - 不依赖专用硬件:T-MAC不依赖于专用的硬件加速器NPU或GPU,能够仅利用CPU部署模型,降低了部署成本和门槛。

市场影响预测: - 推动AI普及:T-MAC技术的开源和高效性能,有望推动AI技术在更多设备上的普及,尤其是在资源受限的端侧设备上。 - 行业变革:该技术的出现可能会改变AI模型部署的格局,使得更多开发者和小型企业能够利用有限的资源实现高效的AI应用。

总结: T-MAC技术的提出,不仅在技术上实现了重大突破,提高了模型推理的性能和资源效率,而且在应用场景和市场影响方面也具有广泛的前景。随着该技术的开源和进一步优化,预计将在AI领域产生深远的影响。

------本页内容已结束,喜欢请分享------

感谢您的来访,获取更多精彩文章请收藏本站。

获取更多精彩文章请收藏本站。
背景封面
站长QQ图像