让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性、增强多模态模型理解图表和文档的能力

今天最值得跟进的方向

今天的高分论文主要指向:让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性、增强多模态模型理解图表和文档的能力。建议先看每篇的原文链接、摘要、评测设置和代码/数据是否可用,再决定是否深入复现。

重点论文:题目、看点与核验线索

1. 让 Agent 更可靠地调用工具和复用技能

Self Evolving Agents for Tool Use Skills (Alice Chen, Bob Smith) 2606.00001 PDF

让 Agent 更可靠地调用工具和复用技能。摘要显示:Agents learn reusable tool use skills through iterative self improvement, unit tests, execution feedback, and evaluation. 重点核验:任务设置是否真实,是否有代码或数据,评测是否覆盖复杂场景,结论是否能迁移到实际系统。

2. 提升 RAG 检索和知识库问答可靠性

RAG Evaluation under Noisy Retrieval (Dan Wang) 2606.00003 PDF

提升 RAG 检索和知识库问答可靠性。摘要显示:A benchmark studies retrieval augmented generation reliability under noisy evidence, missing citations, and adversarial documents. 重点核验:任务设置是否真实,是否有代码或数据,评测是否覆盖复杂场景,结论是否能迁移到实际系统。

3. 增强多模态模型理解图表和文档的能力

Multimodal Safety Evaluation for Vision Language Models (Eva Green) 2606.00004 PDF

增强多模态模型理解图表和文档的能力。摘要显示:A safety evaluation suite measures multimodal models across risky visual prompts, jailbreak attempts, and alignment failures. 重点核验:任务设置是否真实,是否有代码或数据,评测是否覆盖复杂场景,结论是否能迁移到实际系统。

4. 提升模型推理、规划和验证能力

Efficient Long Context Inference with Cache Compression (Carol Li) 2606.00002 PDF

提升模型推理、规划和验证能力。摘要显示:A systems method reduces memory and latency during long context model inference while preserving code reasoning accuracy. 重点核验:任务设置是否真实,是否有代码或数据,评测是否覆盖复杂场景,结论是否能迁移到实际系统。

5. 提升代码生成、执行反馈和自动修复能力

Code Model Repair with Execution Feedback (Frank Moore) 2606.00005 PDF

提升代码生成、执行反馈和自动修复能力。摘要显示:Code models improve patch generation through execution feedback loops, repository tests, and API-aware repair. 重点核验:任务设置是否真实,是否有代码或数据,评测是否覆盖复杂场景,结论是否能迁移到实际系统。

6. 改进训练数据筛选、合成和去重流程

Synthetic Data Curation for Post Training (Henry Liu) 2606.00007 PDF

改进训练数据筛选、合成和去重流程。摘要显示:A data pipeline selects synthetic instruction data for fine-tuning and post-training with quality filters. 重点核验:任务设置是否真实,是否有代码或数据,评测是否覆盖复杂场景,结论是否能迁移到实际系统。

其他值得关注

阅读边界