Meta发布Llama 3.2 1B/3B模子的量化版
继于本年9月开源Llama 3.2的1B与3B模子之后,Meta周四(10/24)发布了1B与3B模子的量化版,让模子大小平均减少了56%,内存使用量平均减少了41%,模子速率提高了2-4倍,还能镌汰功耗,以让这些模子八成部署到更多的挪动配置上。
Meta泄露,他们使用量化感知测验(Quantization-Aware Training,QAT)与后测验量化(SpinQuant)两种顺序来量化这两个模子。前者使用LoRA更始器,于测验经过中即辩论量化的影响,戒备的是模子的准确性,后者则是在模子完成测验后再进行量化,强调模子的可移植性。
非论是Llama 3.2的1B或3B模子皆各自有两个量化版块,因此共计有4个量化模子,区分是Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant,以及Llama 3.2 3B QLoRA与Llama 3.2 3B SpinQuant。
Meta指出,这些量化的模子比非量化(Llama BF16)模子快得多,占用更少的内存,使用更低的功耗,同期还保执与Llama BF16版块果然调换的精度。
量化后的Llama 3.2 1B/3B模子尽管只补助8,000个Token的头绪(本来补助12.8万个Token),但Meta的评测却发现,非论是Llama QLoRA或Llama SpinQuant等量化版块的各项基准测试,皆与原来的Llama BF16版块相去不远。
Meta是与合营伙伴共同开采了量化模子,并将这些模子提供给搭载Arm CPU的高通与联发科的系统单芯片。除了CPU除外,Meta也权术通过神经处理单位(NPU)来擢升这些量化模子的性能,其合营伙伴照旧于开源的挪动配置推论贬责决策ExecuTorch上集成了可欺诈NPU的基础组件,也正死力于NPU扩充这些量化模子。
迄今Meta已于Android OnePlus 12、三星S24+/S22及iOS配置上测试过这些量化模子,细目它们皆可达到额外的准确性。
热点资讯
- 奥克斯与好意思的中央空
- 2024年10月21日世界主要批发
- 法治热门速览|微信又添
- 英特尔1.8纳米芯片委用联
- 三季报点评:富国价值增
- *ST贤丰(002141)2024年三季
- 冬日必备神器来啦!云裳
- 光大期货动力化工类日报
- 股票行情快报:太平洋(
- 股票行情快报:亚华电子