Meta发布Llama 3.2 1B/3B模子的量化版

文章出处：未知人气：82发表时间：2024-11-03

继于本年9月开源Llama 3.2的1B与3B模子之后，Meta周四（10/24）发布了1B与3B模子的量化版，让模子大小平均减少了56%，内存使用量平均减少了41%，模子速率提高了2-4倍，还能镌汰功耗，以让这些模子八成部署到更多的挪动配置上。

Meta泄露，他们使用量化感知测验（Quantization-Aware Training，QAT）与后测验量化（SpinQuant）两种顺序来量化这两个模子。前者使用LoRA更始器，于测验经过中即辩论量化的影响，戒备的是模子的准确性，后者则是在模子完成测验后再进行量化，强调模子的可移植性。

非论是Llama 3.2的1B或3B模子皆各自有两个量化版块，因此共计有4个量化模子，区分是Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant，以及Llama 3.2 3B QLoRA与Llama 3.2 3B SpinQuant。

Meta指出，这些量化的模子比非量化（Llama BF16）模子快得多，占用更少的内存，使用更低的功耗，同期还保执与Llama BF16版块果然调换的精度。

量化后的Llama 3.2 1B/3B模子尽管只补助8,000个Token的头绪（本来补助12.8万个Token），但Meta的评测却发现，非论是Llama QLoRA或Llama SpinQuant等量化版块的各项基准测试，皆与原来的Llama BF16版块相去不远。

Meta是与合营伙伴共同开采了量化模子，并将这些模子提供给搭载Arm CPU的高通与联发科的系统单芯片。除了CPU除外，Meta也权术通过神经处理单位（NPU）来擢升这些量化模子的性能，其合营伙伴照旧于开源的挪动配置推论贬责决策ExecuTorch上集成了可欺诈NPU的基础组件，也正死力于NPU扩充这些量化模子。

迄今Meta已于Android OnePlus 12、三星S24+/S22及iOS配置上测试过这些量化模子，细目它们皆可达到额外的准确性。

下一篇：英特尔1.8纳米芯片委用联念念，安全风云未平，尽然与老敌手配合了上一篇：上海宽娱数码科技当作被告/被上诉东说念主的1起波及著述权权属、侵权纠纷的诉讼将于2024年11月25日开庭

旅游指南网

让建站和SEO变得简单

Meta发布Llama 3.2 1B/3B模子的量化版

推荐产品

热点资讯

推荐资讯