Papers Reading about LLM
阅读大纲
Filed | Paper | Date |
---|---|---|
Dataset | Img-Diff | 24-08-16 |
Agent | The AI Scientist | 24-09-03 |
Dataset
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models
- ArXiv Code
- 简介:MLLMs的两个关键研究点:模型结构和数据质量。本文提出Img-Diff数据集,利用新数据集对MLLMs微调后效果更好。
- 关键技术:
- Prompt-to-Prompt的方式使用图像对和Stable-Diffusion-XL生成object replacement相似图像对,采用多个过滤模块提高数据质量
- Difference Area Generator提取包含不同目标的bounding box
- Difference Captions Generator生成不同区域的文字描述
Agent
The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery
- Sakana AI ArXiv Code
- 简介:使用LLM提出第一个全自动科学发现:The AI Scientist,可以端到端生成研究ideas、写代码、开展实验、可视化结果、写论文、模拟评估。在三个研究方向diffusion modeling、transformer-based language modeling和learning dynamics上展开,生成的论文可以达到顶会WR水平。
- 关键技术:
- Idea生成:使用LLM和多轮COT+self-reflection提升idea生成和实验计划,使用Semantic Scholar API过滤相似ideas。
- 实验迭代:使用代码助手Aider开展实验收集结果
- 写Paper:提示会议模版、论文结构框架,不包括引用。然后用Semantic Scholar API找相关工作并提示给Aider生成参考文献,最后修正生成最终latex
- 论文review:利用NeurIPS review guidelines设计一个基于GPT-4o的agent
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
Comment