
【解析AI快讯】移动设备运行大型模型速度提升4-5倍:微软亚洲研究院推出开源创新技术T-MAC,仅需CPU即可支持
【原文大意】
来源:网上搜集
微软亚洲研究院开发了一种名为T-MAC的新技术,旨在优化大语言模型在端侧设备的部署,特别是在手机、PC和树莓派等资源受限的设备上。T-MAC技术通过采用基于查找表(LUT)的计算范式,支持混合精度矩阵乘法,无需反量化操作,从而提高了推理性能并减少了资源消耗。与传统的模型量化方法相比,T-MAC不仅提高了效率,还使得模型更加统一和可扩展。此外,T-MAC不依赖于专用的硬件加速器如NPU或GPU,仅利用CPU即可部署模型,甚至在某些情况下,其推理速度可以超过专用加速器。T-MAC的关键创新在于其计算范式,通过直接支持低比特计算,显著减少了乘法和加法操作的数量,从而在性能上取得了显著提升。该技术已在配备最新高通Snapdragon X Elite芯片组的Surface AI PC上进行了实验,显示出卓越的性能,甚至超过了NPU的性能。T-MAC现已开源,相关论文已在arXiv公开。
【分析结果】
分析角度一:技术创新与性能提升
技术创新点: - T-MAC技术:微软亚洲研究院提出的T-MAC技术,通过基于查找表(LUT)的计算范式,直接支持混合精度矩阵乘法,无需反量化操作。 - 计算范式转变:T-MAC放弃了传统的乘累加(MAC)计算范式,采用基于查找表的计算方式,显著减少了乘法和加法操作的数量。
性能提升表现: - 速度提升:在Surface AI PC上,T-MAC使得3B BitNet-b1.58模型的生成速率达到每秒48个token,2bit 7B llama模型的生成速率达到每秒30个token,4bit 7B llama模型的生成速率达到每秒20个token。 - 超越专用加速器:在某些情况下,T-MAC的推理速度甚至超过了专用加速器NPU。例如,使用CPU在T-MAC的助力下,仅使用两核便能达到每秒12.6个token,最高甚至可以飙升至每秒22个token。
分析角度二:资源效率与能耗优化
资源效率提升: - 减少资源消耗:T-MAC技术不仅提高了推理性能,还显著减少了资源消耗,使得模型更加统一和可扩展,尤其适合在资源受限的端侧设备部署。 - 功耗优势:达到相同的生成速率,T-MAC所需的核心数仅为原始llama.cpp的1/4至1/6,降低能耗的同时也为其他应用留下计算资源。
能耗优化表现: - 线性性能提升:T-MAC的计算性能会随着比特数的降低而线性提高,这一现象在基于反量化去实现的GPU和NPU中是难以观察到的。 - 低比特优势:在2比特下,T-MAC能够实现单核每秒10个token,四核每秒28个token,大大超越了NPU的性能。
分析角度三:应用场景与市场影响
应用场景扩展: - 端侧设备部署:T-MAC技术特别适合在手机、PC、树莓派等端侧设备上部署大语言模型,解决了存储和计算问题。 - 不依赖专用硬件:T-MAC不依赖于专用的硬件加速器NPU或GPU,能够仅利用CPU部署模型,降低了部署成本和门槛。
市场影响预测: - 推动AI普及:T-MAC技术的开源和高效性能,有望推动AI技术在更多设备上的普及,尤其是在资源受限的端侧设备上。 - 行业变革:该技术的出现可能会改变AI模型部署的格局,使得更多开发者和小型企业能够利用有限的资源实现高效的AI应用。
总结: T-MAC技术的提出,不仅在技术上实现了重大突破,提高了模型推理的性能和资源效率,而且在应用场景和市场影响方面也具有广泛的前景。随着该技术的开源和进一步优化,预计将在AI领域产生深远的影响。
------本页内容已结束,喜欢请分享------
感谢您的来访,获取更多精彩文章请收藏本站。


-
TOP1
【解析快讯】行走速度提升30%,特斯拉二代人形机器人Optimus亮相WAIC
-
TOP2
【解析快讯】三星电子盈利表现超越市场预期,人工智能风潮助力半导体业务蓬勃发展
-
TOP3
【解析快讯】阿里巴巴发布国内首款专为孤独症儿童设计的AI绘本创作工具
-
TOP4
【解析快讯】三夫户外:拟打造人工智能智慧露营基地
-
TOP5
【解析快讯】国泰君安宣布,其子公司计划参与组建上海三大前沿产业母基金,包括集成电路产业母基金和人工智能产业母基金。
-
TOP6
【解析快讯】吴欣鸿在美图公司强调:AI工作流程正逐渐成为推动生产力革新的关键动力。
-
TOP7
【解析快讯】上海计划至2027年,培育并吸引至少10家在低空经济领域具有领导地位的研发与制造企业进驻。
-
TOP8
【解析快讯】上海初批“自动驾驶”出租车即将投入运营
-
TOP9
【解析快讯】天文学领域不适宜采用通用人工智能——“慧眼”卫星首席科学家张双南的观点
-
TOP10
【解析快讯】在WAIC2024的落幕典礼中,上海市成功签署了多个人工智能领域的关键项目协议。