AI 研究简报

让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性、增强多模态模型理解图表和文档的能力

Sat, 06 Jun 2026 00:00:00 +0000

# 让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性、增强多模态模型理解图表和文档的能力 ## 今天最值得跟进的方向今天的高分论文主要指向：让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性、增强多模态模型理解图表和文档的能力。建议先看每篇的原文链接、摘要、评测设置和代码/数据是否可用，再决定是否深入复现。 ## 重点论文：题目、看点与核验线索 ### 1. 让 Agent 更可靠地调用工具和复用技能

Self Evolving Agents for Tool Use Skills (Alice Chen, Bob Smith) 2606.00001 PDF

让 Agent 更可靠地调用工具和复用技能。摘要显示：Agents learn reusable tool use skills through iterative self improvement, unit tests, execution feedback, and evaluation. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ### 2. 提升 RAG 检索和知识库问答可靠性

RAG Evaluation under Noisy Retrieval (Dan Wang) 2606.00003 PDF

提升 RAG 检索和知识库问答可靠性。摘要显示：A benchmark studies retrieval augmented generation reliability under noisy evidence, missing citations, and adversarial documents. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ### 3. 增强多模态模型理解图表和文档的能力

Multimodal Safety Evaluation for Vision Language Models (Eva Green) 2606.00004 PDF

增强多模态模型理解图表和文档的能力。摘要显示：A safety evaluation suite measures multimodal models across risky visual prompts, jailbreak attempts, and alignment failures. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ### 4. 提升模型推理、规划和验证能力

Efficient Long Context Inference with Cache Compression (Carol Li) 2606.00002 PDF

提升模型推理、规划和验证能力。摘要显示：A systems method reduces memory and latency during long context model inference while preserving code reasoning accuracy. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ### 5. 提升代码生成、执行反馈和自动修复能力

Code Model Repair with Execution Feedback (Frank Moore) 2606.00005 PDF

提升代码生成、执行反馈和自动修复能力。摘要显示：Code models improve patch generation through execution feedback loops, repository tests, and API-aware repair. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ### 6. 改进训练数据筛选、合成和去重流程

Synthetic Data Curation for Post Training (Henry Liu) 2606.00007 PDF

改进训练数据筛选、合成和去重流程。摘要显示：A data pipeline selects synthetic instruction data for fine-tuning and post-training with quality filters. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ## 其他值得关注 - [Red Teaming Open Source LLM Guardrails](https://arxiv.org/abs/2606.00017)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。 - [Preference Optimization for Safer Tool Agents](https://arxiv.org/abs/2606.00012)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [Database Native Retrieval for Enterprise RAG](https://arxiv.org/abs/2606.00013)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。 - [Agentic 3D Modeling through Code Execution](https://arxiv.org/abs/2606.00015)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [Low Rank Adapters as Model Memory Probes](https://arxiv.org/abs/2606.00018)：关注训练与后训练中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。 - [Robotics Policies with Memory Grounded Planning](https://arxiv.org/abs/2606.00006)：关注机器人与具身智能中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。 - [Mechanistic Attribution for Factual Editing](https://arxiv.org/abs/2606.00008)：关注可解释性中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。 - [Chart Understanding for Vision Language Models](https://arxiv.org/abs/2606.00014)：关注多模态模型中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。 - [Video Diffusion Models Need Temporal Tests](https://arxiv.org/abs/2606.00010)：关注视频生成中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。 - [Serving Quantized Models with Adaptive Batching](https://arxiv.org/abs/2606.00011)：关注推理成本、延迟、吞吐和部署约束，适合跟进系统优化。 - [Training Data Deduplication for Foundation Models](https://arxiv.org/abs/2606.00016)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [Open Speech Agent Benchmark](https://arxiv.org/abs/2606.00009)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 ## 阅读边界 - 自动排序会偏向有社区信号、代码信号和工程关键词的论文。 - 简报默认基于标题、摘要和公开元数据，不替代全文精读。 - 外部 API 限流或不可用时，相关信号会降级为空并在内部记录中保留说明。

增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性

Fri, 05 Jun 2026 00:00:00 +0000

# 增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性 ## 今天最值得跟进的方向今天的高分论文主要指向：增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性。建议先看每篇的原文链接、摘要、评测设置和代码/数据是否可用，再决定是否深入复现。 ## 重点论文：题目、看点与核验线索 ### 1. 增强多模态模型理解图表和文档的能力

KODA: Contrastive Representation Comparison and Alignment for Vision-Language Foundation Models (Youqi Wu, Mohammad Jalali, Farzan Farnia) 2606.04180 PDF

增强多模态模型理解图表和文档的能力。摘要显示：Vision-language foundation models such as CLIP and SigLIP provide widely used representations for multimodal learning systems. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ### 2. 让 Agent 更可靠地调用工具和复用技能

The Impact of Configuring Agentic AI Coding Tools on Build-vs-Buy Decisions: A Study Protocol (Jai Lal Lulla, Matthias Galster, Jie M. Zhang, Sebastian Baltes, Christoph Treude) 2606.03907 PDF

让 Agent 更可靠地调用工具和复用技能。摘要显示：Agentic AI coding tools write code with increasing autonomy and in doing so decide when to import a library and when to implement functionality from scratch. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ### 3. 提升 RAG 检索和知识库问答可靠性

Automating Information Extraction and Retrieval for Industrial Spare Parts Pooling (Dyuman Bulloni, Rocco Felici, Oliver Avram, Anna Valente) 2606.03367 PDF

提升 RAG 检索和知识库问答可靠性。摘要显示：Maintenance organizations in manufacturing try to avoid downtime and unnecessary purchasing by reusing existing assets, but the main obstacle is not a lack of parts but a lack of actionable visibility across sites and partners. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ### 4. 提升 RAG 检索和知识库问答可靠性

Stationarity-Aware Retrieval-Augmented Time Series Forecasting (Shiqiao Zhou, Holger Schöner, Zipeng Wu, Edouard Fouché, IAG Wilson, Shuo Wang) 2606.04135 PDF

提升 RAG 检索和知识库问答可靠性。摘要显示：Time series forecasting relies on historical patterns, but real-world series often exhibit non-stationarity and regime shifts that challenge fully parametric forecasters. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ### 5. 让 Agent 更可靠地调用工具和复用技能

Entropy Gate: Entropy Quenching for Near-Lossless Token Compression in LLM Pipelines (Justice Owusu Agyemang, Jerry John Kponyo, Kwame Opuni-Boachie Obour Agyekum, Francisca Adoma Acheampong, Kwame Agyeman-Prempeh Agyekum, James Dzisi Gadze) 2606.03739 PDF

让 Agent 更可靠地调用工具和复用技能。摘要显示：LLM pipelines waste substantial token budgets on low-information content: repeated context, verbose responses, and redundant boilerplate. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ## 其他值得关注 - [VLESA: Vision-Language Embodied Safety Agent for Human Activity Monitoring](https://arxiv.org/abs/2606.03954)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。 - [MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&A](https://arxiv.org/abs/2606.04231)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。 - [MimeLens: Position-Agnostic Content-Type Detection for Binary Fragments](https://arxiv.org/abs/2606.04171)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。 - [When Autoregressive Consistency Hurts Safety Alignment](https://arxiv.org/abs/2606.04168)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。 - [End-to-End Text Line Detection and Ordering](https://arxiv.org/abs/2606.04166)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。 - [Expert-Aware Refusal Steering](https://arxiv.org/abs/2606.04160)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。 - [HighTide: An Agent-Curated Open-Source VLSI Benchmark Suite](https://arxiv.org/abs/2606.04126)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [UltraEP: Unleash MoE Training and Inference on Rack-Scale Nodes with Near-Optimal Load Balancing](https://arxiv.org/abs/2606.04101)：关注推理成本、延迟、吞吐和部署约束，适合跟进系统优化。 - [MAOAM: Unified Object and Material Selection with Vision-Language Models](https://arxiv.org/abs/2606.04880)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。 - [Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill](https://arxiv.org/abs/2606.03980)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning](https://arxiv.org/abs/2606.03965)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [AgenticRL: Self-Refining Agentic Reinforcement Learning for Vision-Conditioned UAV Navigation](https://arxiv.org/abs/2606.03963)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [SEAOTTER: Sensor Embedded Autoencoding with One-Time Transcode for Efficient Reconstruction](https://arxiv.org/abs/2606.03940)：关注多模态模型中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。 - [Visual Instruction Tuning Aligns Modalities through Abstraction](https://arxiv.org/abs/2606.03871)：关注训练与后训练中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。 - [Leveraging BART to Assess CS1 C++ Programming Assignments using Rubric-based Criteria](https://arxiv.org/abs/2606.03814)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。 ## 阅读边界 - 自动排序会偏向有社区信号、代码信号和工程关键词的论文。 - 简报默认基于标题、摘要和公开元数据，不替代全文精读。 - 外部 API 限流或不可用时，相关信号会降级为空并在内部记录中保留说明。

增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性

Wed, 03 Jun 2026 00:00:00 +0000

KODA: Contrastive Representation Comparison and Alignment for Vision-Language Foundation Models (Youqi Wu, Mohammad Jalali, Farzan Farnia) 2606.04180 PDF

The Impact of Configuring Agentic AI Coding Tools on Build-vs-Buy Decisions: A Study Protocol (Jai Lal Lulla, Matthias Galster, Jie M. Zhang, Sebastian Baltes, Christoph Treude) 2606.03907 PDF

Automating Information Extraction and Retrieval for Industrial Spare Parts Pooling (Dyuman Bulloni, Rocco Felici, Oliver Avram, Anna Valente) 2606.03367 PDF

Stationarity-Aware Retrieval-Augmented Time Series Forecasting (Shiqiao Zhou, Holger Schöner, Zipeng Wu, Edouard Fouché, IAG Wilson, Shuo Wang) 2606.04135 PDF

增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性

Tue, 02 Jun 2026 00:00:00 +0000

KODA: Contrastive Representation Comparison and Alignment for Vision-Language Foundation Models (Youqi Wu, Mohammad Jalali, Farzan Farnia) 2606.04180 PDF

The Impact of Configuring Agentic AI Coding Tools on Build-vs-Buy Decisions: A Study Protocol (Jai Lal Lulla, Matthias Galster, Jie M. Zhang, Sebastian Baltes, Christoph Treude) 2606.03907 PDF

Automating Information Extraction and Retrieval for Industrial Spare Parts Pooling (Dyuman Bulloni, Rocco Felici, Oliver Avram, Anna Valente) 2606.03367 PDF

Stationarity-Aware Retrieval-Augmented Time Series Forecasting (Shiqiao Zhou, Holger Schöner, Zipeng Wu, Edouard Fouché, IAG Wilson, Shuo Wang) 2606.04135 PDF

让 Agent 更可靠地调用工具和复用技能、识别并缓解模型安全、越狱和对齐风险

Mon, 01 Jun 2026 00:00:00 +0000

# 让 Agent 更可靠地调用工具和复用技能、识别并缓解模型安全、越狱和对齐风险 ## 今天最值得跟进的方向今天的高分论文主要指向：让 Agent 更可靠地调用工具和复用技能、让 Agent 更可靠地调用工具和复用技能、识别并缓解模型安全、越狱和对齐风险。建议先看每篇的原文链接、摘要、评测设置和代码/数据是否可用，再决定是否深入复现。 ## 重点论文：题目、看点与核验线索 ### 1. 让 Agent 更可靠地调用工具和复用技能

Cosmos 3: Omnimodal World Models for Physical AI (Aditi, Niket Agarwal, Arslan Ali, Jon Allen, Martin Antolini, Adeline Aubame, et al.) 2606.02800 PDF

让 Agent 更可靠地调用工具和复用技能。摘要显示：We introduce Cosmos 3, a family of omnimodal world models designed to jointly process and generate language, image, video, audio, and action sequences within a unified mixture-of-transformers architecture. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ### 2. 让 Agent 更可靠地调用工具和复用技能

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models (Simone Caldarella, Davide Talon, Rahaf Aljundi, Elisa Ricci, Massimiliano Mancini) 2606.02835 PDF

让 Agent 更可靠地调用工具和复用技能。摘要显示：Large Reasoning Models (LRMs) improve performance by generating explicit intermediate reasoning traces through increased test-time compute, yet the assumption that longer reasoning is consistently beneficial remains under-examined. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ### 3. 识别并缓解模型安全、越狱和对齐风险

Breaking the Information Silo: Semantic Personas for Cross-Domain Recommendation (Jonathan Mayo, Moshe Unger, Konstantin Bauman) 2606.01783 PDF

识别并缓解模型安全、越狱和对齐风险。摘要显示：Digital platforms increasingly operate as isolated information silos, limiting their ability to construct comprehensive user representations across domains. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ### 4. 让 Agent 更可靠地调用工具和复用技能

KForge: LLM-Driven Cross-Platform Kernel Generation for AI Accelerators (Taras Sereda, Burak Bartan, Ankita Nayak, Tom St. John, Natalie Serrino, Zain Asgar) 2606.02963 PDF

让 Agent 更可靠地调用工具和复用技能。摘要显示：Production inference increasingly targets a heterogeneous mix of accelerators. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ### 5. 提升代码生成、执行反馈和自动修复能力

EntangleCodec: A Unified Discrete Audio Tokenizer via Semantic-Acoustic Entanglement (Hui Li, Yangfan Gao, Junlin Shang, Changhao Jiang, Tao Gui, Qi Zhang, et al.) 2606.02739 PDF

提升代码生成、执行反馈和自动修复能力。摘要显示：Audio tokenizers serve as the discrete interface between continuous audio and Audio Language Models (ALMs), but existing tokenizers often struggle to support both understanding and generation. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。 ## 其他值得关注 - [Large AI Models in Dental Healthcare: From General-Purpose Systems to Domain-Specific Foundation Models](https://arxiv.org/abs/2606.02914)：关注任务设置、指标和失效案例，适合补充模型评测与回归测试。 - [GloResNet: A lightweight 3D CNN with global topological features for preterm brain injury prediction](https://arxiv.org/abs/2606.02498)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [MASER: Modality-Adaptive Specialist Routing for Embodied 3D Spatial Intelligence](https://arxiv.org/abs/2606.02463)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations](https://arxiv.org/abs/2606.02240)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents](https://arxiv.org/abs/2606.02031)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [What Benchmarks Don't Measure: The Case for Evaluating Abstention Competence in Autonomous Agents](https://arxiv.org/abs/2606.02965)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [ATLAS: A Large-Scale Evaluation Benchmark for Adversarial LiDAR Perception](https://arxiv.org/abs/2606.02924)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。 - [Tiny Collaborative Inference for Occlusion-Robust Object Detection](https://arxiv.org/abs/2606.02894)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。 - [Do Transformers Need Three Projections? Systematic Study of QKV Variants](https://arxiv.org/abs/2606.04032)：关注推理成本、延迟、吞吐和部署约束，适合跟进系统优化。 - [Pathway-Structured Privileged Distillation for Deployable Computational Pathology](https://arxiv.org/abs/2606.02877)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。 - [RRISE: Robust Radius Inference via a Surrogate Estimator](https://arxiv.org/abs/2606.02876)：关注任务设置、指标和失效案例，适合补充模型评测与回归测试。 - [Toward a Modular Architecture for Embedded AI Agent Systems at the Edge](https://arxiv.org/abs/2606.02862)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [Which Defense Closes Which Threat? Attributing OWASP-LLM-Top-10 Coverage and Its Brittleness Under Paraphrasing](https://arxiv.org/abs/2606.02822)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。 - [Traj-Evolve: A Self-Evolving Multi-Agent System for Patient Trajectory Modeling in Lung Cancer Early Detection](https://arxiv.org/abs/2606.02812)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 - [Acceptance-Test-Driven Evaluation Protocols for Business-Centric LLM Systems](https://arxiv.org/abs/2606.02755)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。 ## 阅读边界 - 自动排序会偏向有社区信号、代码信号和工程关键词的论文。 - 简报默认基于标题、摘要和公开元数据，不替代全文精读。 - 外部 API 限流或不可用时，相关信号会降级为空并在内部记录中保留说明。