阅读大纲

Filed Paper Date
Dataset Img-Diff 24-08-16
Agent The AI Scientist 24-09-03

Dataset

Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models

  • ArXiv Code
  • 简介:MLLMs的两个关键研究点:模型结构和数据质量。本文提出Img-Diff数据集,利用新数据集对MLLMs微调后效果更好。
  • 关键技术:
    1. Prompt-to-Prompt的方式使用图像对和Stable-Diffusion-XL生成object replacement相似图像对,采用多个过滤模块提高数据质量
    2. Difference Area Generator提取包含不同目标的bounding box
    3. Difference Captions Generator生成不同区域的文字描述


Agent

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

  • Sakana AI ArXiv Code
  • 简介:使用LLM提出第一个全自动科学发现:The AI Scientist,可以端到端生成研究ideas、写代码、开展实验、可视化结果、写论文、模拟评估。在三个研究方向diffusion modeling、transformer-based language modeling和learning dynamics上展开,生成的论文可以达到顶会WR水平。
  • 关键技术:
    1. Idea生成:使用LLM和多轮COT+self-reflection提升idea生成和实验计划,使用Semantic Scholar API过滤相似ideas。
    2. 实验迭代:使用代码助手Aider开展实验收集结果
    3. 写Paper:提示会议模版、论文结构框架,不包括引用。然后用Semantic Scholar API找相关工作并提示给Aider生成参考文献,最后修正生成最终latex
    4. 论文review:利用NeurIPS review guidelines设计一个基于GPT-4o的agent