2026-06-06 每日简报

让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性、增强多模态模型理解图表和文档的能力

今天最值得跟进的方向

今天的高分论文主要指向：让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性、增强多模态模型理解图表和文档的能力。建议先看每篇的原文链接、摘要、评测设置和代码/数据是否可用，再决定是否深入复现。

重点论文：题目、看点与核验线索

1. 让 Agent 更可靠地调用工具和复用技能

Self Evolving Agents for Tool Use Skills (Alice Chen, Bob Smith) 2606.00001 PDF

让 Agent 更可靠地调用工具和复用技能。摘要显示：Agents learn reusable tool use skills through iterative self improvement, unit tests, execution feedback, and evaluation. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

2. 提升 RAG 检索和知识库问答可靠性

RAG Evaluation under Noisy Retrieval (Dan Wang) 2606.00003 PDF

提升 RAG 检索和知识库问答可靠性。摘要显示：A benchmark studies retrieval augmented generation reliability under noisy evidence, missing citations, and adversarial documents. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

3. 增强多模态模型理解图表和文档的能力

Multimodal Safety Evaluation for Vision Language Models (Eva Green) 2606.00004 PDF

增强多模态模型理解图表和文档的能力。摘要显示：A safety evaluation suite measures multimodal models across risky visual prompts, jailbreak attempts, and alignment failures. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

4. 提升模型推理、规划和验证能力

Efficient Long Context Inference with Cache Compression (Carol Li) 2606.00002 PDF

提升模型推理、规划和验证能力。摘要显示：A systems method reduces memory and latency during long context model inference while preserving code reasoning accuracy. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

5. 提升代码生成、执行反馈和自动修复能力

Code Model Repair with Execution Feedback (Frank Moore) 2606.00005 PDF

提升代码生成、执行反馈和自动修复能力。摘要显示：Code models improve patch generation through execution feedback loops, repository tests, and API-aware repair. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

6. 改进训练数据筛选、合成和去重流程

Synthetic Data Curation for Post Training (Henry Liu) 2606.00007 PDF

改进训练数据筛选、合成和去重流程。摘要显示：A data pipeline selects synthetic instruction data for fine-tuning and post-training with quality filters. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

其他值得关注

Red Teaming Open Source LLM Guardrails：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。
Preference Optimization for Safer Tool Agents：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
Database Native Retrieval for Enterprise RAG：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
Agentic 3D Modeling through Code Execution：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
Low Rank Adapters as Model Memory Probes：关注训练与后训练中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
Robotics Policies with Memory Grounded Planning：关注机器人与具身智能中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
Mechanistic Attribution for Factual Editing：关注可解释性中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
Chart Understanding for Vision Language Models：关注多模态模型中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
Video Diffusion Models Need Temporal Tests：关注视频生成中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
Serving Quantized Models with Adaptive Batching：关注推理成本、延迟、吞吐和部署约束，适合跟进系统优化。
Training Data Deduplication for Foundation Models：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
Open Speech Agent Benchmark：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。

阅读边界

自动排序会偏向有社区信号、代码信号和工程关键词的论文。
简报默认基于标题、摘要和公开元数据，不替代全文精读。
外部 API 限流或不可用时，相关信号会降级为空并在内部记录中保留说明。