Reading Notes: Qwen Technical Report
date
May 8, 2025
slug
qwen1-report
status
Published
tags
NLP
summary
type
Post
TL; DR
- 介绍了一个新的模型族 Qwen, 包括 base 模型,chat 模型,以及代码和数学的专门模型,还有多模态模型。
- 模型架构和 llama 类似,做了一些局部的改进优化:长度外推,改进的 attention 机制。
- 介绍了预训练, alignment,以及代码和数学专长模型训练的细节。
- 在 benchmark 上取得了开源模型 SOTA.
Model Architecture
使用的架构大致和 LLaMA 类似:
- 使用 RoPE 位置编码
- SwiGLU 替换普通 MLP
- pre-norm & RMS Norm
一些改进的地方:
- 针对长文本的优化:
- dynamic NTK-aware interpolation
- LogN Scaling Attention
- Sliding Window Attention
Pretraining
Data
没有说详细的数据来源和数据配比,总体思路和 LLaMA 差不多,但是包含了中英双语的数据。
Data Pipeline
- 对于 web 数据,从 html 里面提取文本,并且根据语言分类。
- 数据去重,包含了 exact match 以及基于 LSH 和 MinHash 的模糊去重。
- 利用规则和模型来过滤不良内容。
- 对高质量来源的数据做了上采样。
- 在预训练数据中加入了高质量的指令数据。
- 数字被切分位数字位。
- 总共大约 3T tokens.
Training
- 上下文长度 2048
- 优化器 AdamW, beta1 = 0.9, beta2 = 0.95, 余弦学习率调度器,最小到最大学习率的 10%
- bfloat16 混合精度训练
- 参数设置看起来和 LLaMA 差不多。
Alignment
在指令数据上 SFT;用 PPO 做 RLHF.
Code-Qwen / Math-Qwen
- 对于 code-qwen, 预训练之后再继续在 code 数据 CPT, 然后做 sft 的到 code 的 chat model
- 对于 math-qwen,在 math 相关指令数据上 sft.