Meta新推Llama 3.2量化版，1B/3B模型功耗再降低！-科技前沿-媒体界

meta公司近日宣布，继9月推出Llama 3.2的1B与3B模型后，他们于10月24日发布了这两个模型的量化版本。通过量化，模型大小平均缩减了56%，RAM使用量降低了41%，并且模型运行速度提升了2至4倍，功耗也有所下降，这使得模型更易于部署在移动设备上。

meta采用了两种量化方法：量化感知训练（QAT）和后训练量化（SpinQuant）。前者注重模型的准确性，后者则强调模型的可移植性。

针对Llama 3.2的1B和3B模型，meta分别推出了两款量化版本。这些量化模型相较于非量化的Llama BF16模型，速度更快，RAM占用更少，功耗更低，同时保持了与Llama BF16版本相近的精度。

尽管量化后的模型支持的Token上下文有所减少，但meta的测试显示，量化版本的基准测试结果与原版相差无几。

meta已在一加12、三星S24+/S22及苹果iOS设备等移动平台上测试了这些量化模型，并计划未来通过神经处理单元（NPU）进一步提升模型性能。