欢迎大家来到IT世界,在知识的湖畔探索吧!

欢迎大家来到IT世界,在知识的湖畔探索吧!
的开源大模型。

图注:这张图表明,在同等内存占用下,BitNet b1.58 2B模型取得了更高的性能分数,比当前主流开源模型更高效
01 BitNet b1.58 2B4T 到底是什么?
这是世界首个原生1-bit、20亿参数、性能媲美全精度的开源大模型。
于是,极致量化被推上风口——1-bit(极端比特化,只允许权重取-1、0、+1)。

02 架构和训练怎么炼成的?
- 预训练用两阶段学习率+权重衰减,先大步快走,再精细收敛。
- 数据集涵盖超大规模网页、代码、数学合成数据,两阶段分别喂不同质量的数据。
- SFT(监督微调)和 DPO(直接偏好优化)全都用上,还专门调大了学习率和轮数,让1-bit模型也能吃透任务。
3.推理实现
为了让1.58-bit和8-bit混合矩阵乘法在GPU/CPU上都能跑起来,团队还专门造了 CUDA kernel 和 C++ 库,模型权重直接高效打包,能在普通笔电、服务器、边缘设备都无压力上线。
03 性能表现:效率+能力双丰收
-
内存占用:0.4GB(非embedding部分),是同级全精度模型的1/4甚至更低。
-
推理延迟:29ms/Token(CPU上),比LLaMA 1B等快出一大截。
-
能耗:仅0.028J/Token,低到离谱。
-
综合能力:平均分 54.19,逼近 Qwen2.5-1.5B(55.23),大幅超越 MiniCPM、Gemma、LLaMA 等同级模型。
-
单项指标:在 ARC-Challenge、GSM8K、CommonsenseQA 等关键任务上还反超大部分对手。

-
如何实现更大规模扩展(7B、13B)?
-
怎样支持更长上下文,挑战大段落、复杂推理任务?
-
多语言、多模态集成,让1-bit模型也能“看图说话”
-
软硬件协同,期待新一代AI芯片为低比特模型量身定做
-
理论层面,1-bit训练为啥能这么有效?还有哪些魔法值得挖掘?
技术报告:https://arxiv.org/abs/2504.12285


免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/137806.html