Reading Notes on NLP Papers
date
Nov 17, 2024
slug
nlp-papers
status
Published
tags
NLP
summary
type
Post
Foundation Models
Positional Encoding
- Self-Attention with Relative Position Representation
- 使用相对位置编码,建模 token 之间的相对位置信息。
- 原来的 变成 ,其中 编码了 i 和 j 之间的相对位置信息。
- 原来的 变成
- 而 ,,
- 可以学习两个矩阵 和 来得到相对位置编码
- 直观理解:相对位置编码表示了一种非对称的二元关系,当 query i 和 key j 的时候,在使用 key 和 value 时加上其相对 query 的相对位置编码。
- RoFormer: Enhanced Transformer with Rotary Position Embedding
- 通过对 query / key 输入向量分为 d / 2 组 2 维向量逐个做旋转来表示位置信息,RoPE 具有 long term decay 的性质。
Normalization
- Layer Normalization
- 在 layer 内用 neuron-wise 的 mean 和 std 做 normalization,控制激活值的 scale
- 相比于 batchnorm 适合序列数据的任务。
- Root Mean Square Layer Normalization
- 简化的高效版 Layer Norm: ,其中
- On Layer Normalization in the Transformer Architecture
- Pre-Layer Norm (在注意力之前)相对于 Post-Layer Norm 更有利于训练,使得 Learning Rate Warmup 不再必要。
Instruction Fine-tuing
- The Flan Collection: Designing Data and Methods for Effective Instruction Tuning(Shayne Longpre et.al, Google Research)
- 从 Flan 2022 Collection 中总结的几个有效的 tricks: 混合 zero-shot, few-shots 和 CoT 的数据;增加任务的数量;输入输出反转;平衡不同任务的数据。
- Self-Instruct: Aligning Language Models with Self-Generated Instructions (Yizhong Wang et.al, University of Washington)
- 迭代地使用 llm 生成指令微调数据:从一组 seed tasks (175 个)以及对应的 instruction,input,output 开始,使用外部的 llm 生成新的 task 的 instructions,input 和 output,之后应用启发式规则去除低质量和重复的数据(比如相似度大于阈值的去掉,长度在某范围之外的去掉,包含某些关键词的去掉等),将过滤之后的新指令数据加入池子进行下一轮迭代,直到达到设定的停止条件(比如指令数据数量足够)
- alpaca 使用了类似的方法生成数据,但是在生成新指令的时候在提示里面直接指出了要求;并且在 alpaca 中丢弃了分类任务和非分类任务的区别,简化了一点流程。