旅游指南网

咨询热线

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

当前位置:旅游指南网 > 景点推荐 >

Meta发布Llama 3.2 1B/3B模子的量化版

文章出处:未知 人气:82发表时间:2024-11-03

继于本年9月开源Llama 3.2的1B与3B模子之后,Meta周四(10/24)发布了1B与3B模子的量化版,让模子大小平均减少了56%,内存使用量平均减少了41%,模子速率提高了2-4倍,还能镌汰功耗,以让这些模子八成部署到更多的挪动配置上。

Meta泄露,他们使用量化感知测验(Quantization-Aware Training,QAT)与后测验量化(SpinQuant)两种顺序来量化这两个模子。前者使用LoRA更始器,于测验经过中即辩论量化的影响,戒备的是模子的准确性,后者则是在模子完成测验后再进行量化,强调模子的可移植性。

非论是Llama 3.2的1B或3B模子皆各自有两个量化版块,因此共计有4个量化模子,区分是Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant,以及Llama 3.2 3B QLoRA与Llama 3.2 3B SpinQuant。

Meta指出,这些量化的模子比非量化(Llama BF16)模子快得多,占用更少的内存,使用更低的功耗,同期还保执与Llama BF16版块果然调换的精度。

量化后的Llama 3.2 1B/3B模子尽管只补助8,000个Token的头绪(本来补助12.8万个Token),但Meta的评测却发现,非论是Llama QLoRA或Llama SpinQuant等量化版块的各项基准测试,皆与原来的Llama BF16版块相去不远。

Meta是与合营伙伴共同开采了量化模子,并将这些模子提供给搭载Arm CPU的高通与联发科的系统单芯片。除了CPU除外,Meta也权术通过神经处理单位(NPU)来擢升这些量化模子的性能,其合营伙伴照旧于开源的挪动配置推论贬责决策ExecuTorch上集成了可欺诈NPU的基础组件,也正死力于NPU扩充这些量化模子。

迄今Meta已于Android OnePlus 12、三星S24+/S22及iOS配置上测试过这些量化模子,细目它们皆可达到额外的准确性。