【解析AI快讯】移动设备运行大型模型速度提升4-5倍：微软亚洲研究院推出开源创新技术T-MAC，仅需CPU即可支持

【解析AI快讯】移动设备运行大型模型速度提升4-5倍：微软亚洲研究院推出开源创新技术T-MAC，仅需CPU即可支持

【原文大意】

来源：网上搜集

微软亚洲研究院开发了一种名为T-MAC的新技术，旨在优化大语言模型在端侧设备的部署，特别是在手机、PC和树莓派等资源受限的设备上。T-MAC技术通过采用基于查找表（LUT）的计算范式，支持混合精度矩阵乘法，无需反量化操作，从而提高了推理性能并减少了资源消耗。与传统的模型量化方法相比，T-MAC不仅提高了效率，还使得模型更加统一和可扩展。此外，T-MAC不依赖于专用的硬件加速器如NPU或GPU，仅利用CPU即可部署模型，甚至在某些情况下，其推理速度可以超过专用加速器。T-MAC的关键创新在于其计算范式，通过直接支持低比特计算，显著减少了乘法和加法操作的数量，从而在性能上取得了显著提升。该技术已在配备最新高通Snapdragon X Elite芯片组的Surface AI PC上进行了实验，显示出卓越的性能，甚至超过了NPU的性能。T-MAC现已开源，相关论文已在arXiv公开。

【分析结果】

分析角度一：技术创新与性能提升

技术创新点： - T-MAC技术：微软亚洲研究院提出的T-MAC技术，通过基于查找表（LUT）的计算范式，直接支持混合精度矩阵乘法，无需反量化操作。 - 计算范式转变：T-MAC放弃了传统的乘累加（MAC）计算范式，采用基于查找表的计算方式，显著减少了乘法和加法操作的数量。

性能提升表现： - 速度提升：在Surface AI PC上，T-MAC使得3B BitNet-b1.58模型的生成速率达到每秒48个token，2bit 7B llama模型的生成速率达到每秒30个token，4bit 7B llama模型的生成速率达到每秒20个token。 - 超越专用加速器：在某些情况下，T-MAC的推理速度甚至超过了专用加速器NPU。例如，使用CPU在T-MAC的助力下，仅使用两核便能达到每秒12.6个token，最高甚至可以飙升至每秒22个token。

分析角度二：资源效率与能耗优化

资源效率提升： - 减少资源消耗：T-MAC技术不仅提高了推理性能，还显著减少了资源消耗，使得模型更加统一和可扩展，尤其适合在资源受限的端侧设备部署。 - 功耗优势：达到相同的生成速率，T-MAC所需的核心数仅为原始llama.cpp的1/4至1/6，降低能耗的同时也为其他应用留下计算资源。

能耗优化表现： - 线性性能提升：T-MAC的计算性能会随着比特数的降低而线性提高，这一现象在基于反量化去实现的GPU和NPU中是难以观察到的。 - 低比特优势：在2比特下，T-MAC能够实现单核每秒10个token，四核每秒28个token，大大超越了NPU的性能。

分析角度三：应用场景与市场影响

应用场景扩展： - 端侧设备部署：T-MAC技术特别适合在手机、PC、树莓派等端侧设备上部署大语言模型，解决了存储和计算问题。 - 不依赖专用硬件：T-MAC不依赖于专用的硬件加速器NPU或GPU，能够仅利用CPU部署模型，降低了部署成本和门槛。

市场影响预测： - 推动AI普及：T-MAC技术的开源和高效性能，有望推动AI技术在更多设备上的普及，尤其是在资源受限的端侧设备上。 - 行业变革：该技术的出现可能会改变AI模型部署的格局，使得更多开发者和小型企业能够利用有限的资源实现高效的AI应用。

总结： T-MAC技术的提出，不仅在技术上实现了重大突破，提高了模型推理的性能和资源效率，而且在应用场景和市场影响方面也具有广泛的前景。随着该技术的开源和进一步优化，预计将在AI领域产生深远的影响。

------本页内容已结束，喜欢请分享------

感谢您的来访，获取更多精彩文章请收藏本站。