Papers Reading about NLP

Created2022-09-17|Updated2025-07-20|Reading Notes

|Word count:1.1k|Reading time:3min|Post View:|Comments:

阅读大纲

NLP	Adaptive input & DLCL	23-03-23
NLP: Language Model	HELM	23-02-06
	InstructGPT, Anthropic_LLM	23-03-12
	Visual ChatGPT	23-03-17
NLP: Retrieval	Neural Corpus Indexer	22-12-21
NLP: Audio	Whisper	22-11-17

NLP

Learning Deep Transformer Models for Machine Translation

【ACL2019】 ArXiv Code
简介：原始的Transformer的encoder层>12时很难训练。针对机器翻译任务，本文加入两个技巧（pre-LN和动态线性结合残差连接）训练更深层的Transformer，使模型参数更少训练更快
关键技术：
1. 相较于原始Transformer的Post-norm，使用Pre-norm可以减少梯度反传计算量，训练更高效
2. 使用动态线性结合层（DLCL）代替传统的残差连接，用可学习的权值计算历史记忆的连接
  - 更早的层连接更稠密，层深越深连接变得稀疏
  - 距离输出层最近的连接权值越高
  - 不同层的权值动态变化
思考：不一定专注模型创新，把小的tricks灵活修改做足实验也是好work

Adaptive Input Representations for Neural Language Modeling

FAIR【ICLR2019】 ArXiv Code
相关Paper:《Efficient softmax approximation for GPUs》FAIR【ICML2017】Arxiv Code
简介：在自适应softmax基础上，提出了神经网络语言模型的自适应输入表示，使得网络参数更少且训练更快
关键技术：如果输出层使用与自适应输入表示相同参数(V, k, d)的自适应softmax，可以通过参数共享进一步减少参数，还可以共享减少容量的线性变化参数
参考：Adaptive Softmax; Adaptive Input

NLP - Language Model

Holistic Evaluation of Language Models

ArXiv
简介：全面的语言模型评测，针对现有语言模型的评测内容包括：核心场景、通用评价标准、针对性评估、模型、适用性等（要有钱有人力有人脉）
关键技术：
1. 先对语言模型分类，补充标准语言模型对各类模型的评价（准确率、校准、鲁棒性、公平性、偏见、有毒性、效率）
2. 实验发现：InstructGPT davinci v2(175B*)综合表现最好；未开源的模型效果比开源模型效果好得多；所有模型对Prompting有很大的敏感性；模型越大效果越好
Limitation：场景、评价标准、适用性不全等
参考：沐神论文精读

Training language models to follow instructions with human feedback

ArXiv
参考：沐神论文精读

Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

ArXiv
参考：沐神论文精读

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

Microsoft ArXiv
简介：联合不同的视觉基础模型（VFM）使得ChatGPT可以处理复杂的视觉任务
关键技术：
1. 包含22个不同VFMs的Prompt Manager使得ChatGPT更好的交互和结合处理图像任务
2. 复杂的Zero-shot实验验证了模型的优越性
Limitation：依赖ChatGPT和VFMs的结合；需要大量大的Prompt工程；实时性不好；限制于ChatGPT的token的长度；安全和隐私

NLP - Retrieval

A Neural Corpus Indexer for Document Retrieval

【NeurlIPS2022】ArXiv
简介：基于Transformer的sequence-to-sequence架构，给定qurey生成相关文档id
关键技术：
1. 和DSI一样，是端到端的文档检索模型
2. prefix-aware weight-adaptive (PAWA) 解码器生成文档id
3. 基于对比学习的一致性正则损失
Limitation：模型过大不利于部署；检索速度有待提高；model-based难以进行新文档更新
参考：沐神论文精读

NLP - Audio

Robust Speech Recognition via Large-ScaleWeak Supervision

OpenAI Arxiv
简介：基于Transformer通过大尺度弱监督学习自动语音识别（ASR，Automatic Speech Recognition）模型，模型可以不微调直接进行zero-shot迁移。
关键技术：
1. 数据预处理：从网络上收集了68万小时的多语言（98 种语言）和多任务（multitask）监督数据对Whisper进行了训练。预处理使用了三种自动过滤方法：检测并删除机器生成的转录；使用语音检测器确保语言和转录匹配；识别并删除低质量数据。
2. 模型：基于encoder-decoder的Transformer架构，其中解码器通过训练不同特殊的token识别单个任务，以此实现多任务统一训练。
Limitation：由于使用现成的Transfomer架构并没有进行过多改进，会出现错误结果。可以对现有模型的解码策略、微调、正则化、数据增强、数据多样性、增加预训练等进行改进。
参考：沐神论文精读知乎

Author: 贪钱算法还我头发

Link: https://xfliu1998.github.io/2022/09/17/Papers-Reading-about-NLP/

Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.

Machine Learning Deep Learning NLP

Related Articles

LLM —— Tokenize

LLM —— Position Embedding

LLM —— Parameter Calculation

LLM —— KV Cache

Comment

Local search