microsoft/BitNet 微软开源的 1-bit 大模型推理框架

BitNet是微软开源的极低比特大模型推理框架，专为CPU本地推理和极限压缩（低比特量化）设计，支持1bit/1.58bit量化模型的高效低功耗推理，兼容BitNet、Llama3-8B-1.58、Falcon3等主流模型，无需GPU即可在本地或边缘设备上运行大模型任务。项目采用MIT开源许可协议，提供C++与Python接口，拥有活跃社区和持续更新，适合嵌入式、移动端和边缘AI应用场景。

官网：https://bitnet-demo.azurewebsites.net/
源码：https://github.com/microsoft/BitNet

模型详细信息

架构：基于 Transformer，通过BitLinear层进行修改（BitNet 框架）。
- 使用旋转位置嵌入（RoPE）。
- 在 FFN 层中使用平方 ReLU (ReLU²) 激活。
- 采用subln规范化。
- 线性或规范化层中没有偏差项。
量化：原生 1.58 位权重和 8 位激活（W1.58A8）。
- 在前向传递过程中，使用绝对均值量化将权重量化为三元值{-1, 0, +1}。
- 使用 absmax 量化（每个令牌）将激活量化为 8 位整数。
- 至关重要的是，该模型是使用这种量化方案从头开始训练的，而不是训练后量化的。
参数： ~20亿
训练代币： 4万亿
上下文长度：最大序列长度为4096 个标记。
- 建议：为了在需要非常长上下文的任务（超出预训练长度或专门的长推理任务）上获得最佳性能，我们建议在最终微调阶段之前执行中间长序列自适应/训练。
训练阶段：
1. 预训练：使用两阶段学习率和权重衰减计划对公共文本/代码和合成数学数据进行大规模训练。
2. 监督微调（SFT）：使用总和损失聚合和特定的超参数调整对指令跟踪和对话数据集进行微调。
3. 直接偏好优化（DPO）：使用偏好对与人类偏好保持一致。
标记器： LLaMA 3 标记器（词汇大小：128,256）。