<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"><channel><title>AI 研究简报</title><link>https://aici.ccwu.cc/zh/</link><description>自动采集、排序并生成轻量中英双语 AI 论文简报。</description><item><title>让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性、增强多模态模型理解图表和文档的能力</title><link>https://aici.ccwu.cc/zh/daily/2026-06-06-self-evolving-agents-for-tool-use-skills/</link><guid>https://aici.ccwu.cc/zh/daily/2026-06-06-self-evolving-agents-for-tool-use-skills/</guid><description>今天主要跟进：让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性、增强多模态模型理解图表和文档的能力。</description><pubDate>Sat, 06 Jun 2026 00:00:00 +0000</pubDate><language>zh</language><content>
# 让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性、增强多模态模型理解图表和文档的能力

## 今天最值得跟进的方向

今天的高分论文主要指向：让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性、增强多模态模型理解图表和文档的能力。建议先看每篇的原文链接、摘要、评测设置和代码/数据是否可用，再决定是否深入复现。

## 重点论文：题目、看点与核验线索

### 1. 让 Agent 更可靠地调用工具和复用技能

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Self Evolving Agents for Tool Use Skills (Alice Chen, Bob Smith)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.00001"&gt;2606.00001&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.00001"&gt;PDF&lt;/a&gt;&lt;/p&gt;

让 Agent 更可靠地调用工具和复用技能。摘要显示：Agents learn reusable tool use skills through iterative self improvement, unit tests, execution feedback, and evaluation. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 2. 提升 RAG 检索和知识库问答可靠性

&lt;p class="paper-meta-line"&gt;&lt;span&gt;RAG Evaluation under Noisy Retrieval (Dan Wang)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.00003"&gt;2606.00003&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.00003"&gt;PDF&lt;/a&gt;&lt;/p&gt;

提升 RAG 检索和知识库问答可靠性。摘要显示：A benchmark studies retrieval augmented generation reliability under noisy evidence, missing citations, and adversarial documents. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 3. 增强多模态模型理解图表和文档的能力

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Multimodal Safety Evaluation for Vision Language Models (Eva Green)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.00004"&gt;2606.00004&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.00004"&gt;PDF&lt;/a&gt;&lt;/p&gt;

增强多模态模型理解图表和文档的能力。摘要显示：A safety evaluation suite measures multimodal models across risky visual prompts, jailbreak attempts, and alignment failures. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 4. 提升模型推理、规划和验证能力

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Efficient Long Context Inference with Cache Compression (Carol Li)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.00002"&gt;2606.00002&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.00002"&gt;PDF&lt;/a&gt;&lt;/p&gt;

提升模型推理、规划和验证能力。摘要显示：A systems method reduces memory and latency during long context model inference while preserving code reasoning accuracy. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 5. 提升代码生成、执行反馈和自动修复能力

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Code Model Repair with Execution Feedback (Frank Moore)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.00005"&gt;2606.00005&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.00005"&gt;PDF&lt;/a&gt;&lt;/p&gt;

提升代码生成、执行反馈和自动修复能力。摘要显示：Code models improve patch generation through execution feedback loops, repository tests, and API-aware repair. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 6. 改进训练数据筛选、合成和去重流程

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Synthetic Data Curation for Post Training (Henry Liu)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.00007"&gt;2606.00007&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.00007"&gt;PDF&lt;/a&gt;&lt;/p&gt;

改进训练数据筛选、合成和去重流程。摘要显示：A data pipeline selects synthetic instruction data for fine-tuning and post-training with quality filters. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

## 其他值得关注
- [Red Teaming Open Source LLM Guardrails](https://arxiv.org/abs/2606.00017)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。
- [Preference Optimization for Safer Tool Agents](https://arxiv.org/abs/2606.00012)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [Database Native Retrieval for Enterprise RAG](https://arxiv.org/abs/2606.00013)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [Agentic 3D Modeling through Code Execution](https://arxiv.org/abs/2606.00015)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [Low Rank Adapters as Model Memory Probes](https://arxiv.org/abs/2606.00018)：关注训练与后训练中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
- [Robotics Policies with Memory Grounded Planning](https://arxiv.org/abs/2606.00006)：关注机器人与具身智能中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
- [Mechanistic Attribution for Factual Editing](https://arxiv.org/abs/2606.00008)：关注可解释性中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
- [Chart Understanding for Vision Language Models](https://arxiv.org/abs/2606.00014)：关注多模态模型中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
- [Video Diffusion Models Need Temporal Tests](https://arxiv.org/abs/2606.00010)：关注视频生成中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
- [Serving Quantized Models with Adaptive Batching](https://arxiv.org/abs/2606.00011)：关注推理成本、延迟、吞吐和部署约束，适合跟进系统优化。
- [Training Data Deduplication for Foundation Models](https://arxiv.org/abs/2606.00016)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [Open Speech Agent Benchmark](https://arxiv.org/abs/2606.00009)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。

## 阅读边界
- 自动排序会偏向有社区信号、代码信号和工程关键词的论文。
- 简报默认基于标题、摘要和公开元数据，不替代全文精读。
- 外部 API 限流或不可用时，相关信号会降级为空并在内部记录中保留说明。
</content></item><item><title>增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性</title><link>https://aici.ccwu.cc/zh/daily/2026-06-05-koda-contrastive-representation-comparison-and-alignment-for/</link><guid>https://aici.ccwu.cc/zh/daily/2026-06-05-koda-contrastive-representation-comparison-and-alignment-for/</guid><description>今天主要跟进：增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性。</description><pubDate>Fri, 05 Jun 2026 00:00:00 +0000</pubDate><language>zh</language><content>
# 增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性

## 今天最值得跟进的方向

今天的高分论文主要指向：增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性。建议先看每篇的原文链接、摘要、评测设置和代码/数据是否可用，再决定是否深入复现。

## 重点论文：题目、看点与核验线索

### 1. 增强多模态模型理解图表和文档的能力

&lt;p class="paper-meta-line"&gt;&lt;span&gt;KODA: Contrastive Representation Comparison and Alignment for Vision-Language Foundation Models (Youqi Wu, Mohammad Jalali, Farzan Farnia)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.04180"&gt;2606.04180&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.04180"&gt;PDF&lt;/a&gt;&lt;/p&gt;

增强多模态模型理解图表和文档的能力。摘要显示：Vision-language foundation models such as CLIP and SigLIP provide widely used representations for multimodal learning systems. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 2. 让 Agent 更可靠地调用工具和复用技能

&lt;p class="paper-meta-line"&gt;&lt;span&gt;The Impact of Configuring Agentic AI Coding Tools on Build-vs-Buy Decisions: A Study Protocol (Jai Lal Lulla, Matthias Galster, Jie M. Zhang, Sebastian Baltes, Christoph Treude)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.03907"&gt;2606.03907&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.03907"&gt;PDF&lt;/a&gt;&lt;/p&gt;

让 Agent 更可靠地调用工具和复用技能。摘要显示：Agentic AI coding tools write code with increasing autonomy and in doing so decide when to import a library and when to implement functionality from scratch. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 3. 提升 RAG 检索和知识库问答可靠性

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Automating Information Extraction and Retrieval for Industrial Spare Parts Pooling (Dyuman Bulloni, Rocco Felici, Oliver Avram, Anna Valente)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.03367"&gt;2606.03367&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.03367"&gt;PDF&lt;/a&gt;&lt;/p&gt;

提升 RAG 检索和知识库问答可靠性。摘要显示：Maintenance organizations in manufacturing try to avoid downtime and unnecessary purchasing by reusing existing assets, but the main obstacle is not a lack of parts but a lack of actionable visibility across sites and partners. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 4. 提升 RAG 检索和知识库问答可靠性

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Stationarity-Aware Retrieval-Augmented Time Series Forecasting (Shiqiao Zhou, Holger Schöner, Zipeng Wu, Edouard Fouché, IAG Wilson, Shuo Wang)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.04135"&gt;2606.04135&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.04135"&gt;PDF&lt;/a&gt;&lt;/p&gt;

提升 RAG 检索和知识库问答可靠性。摘要显示：Time series forecasting relies on historical patterns, but real-world series often exhibit non-stationarity and regime shifts that challenge fully parametric forecasters. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 5. 让 Agent 更可靠地调用工具和复用技能

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Entropy Gate: Entropy Quenching for Near-Lossless Token Compression in LLM Pipelines (Justice Owusu Agyemang, Jerry John Kponyo, Kwame Opuni-Boachie Obour Agyekum, Francisca Adoma Acheampong, Kwame Agyeman-Prempeh Agyekum, James Dzisi Gadze)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.03739"&gt;2606.03739&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.03739"&gt;PDF&lt;/a&gt;&lt;/p&gt;

让 Agent 更可靠地调用工具和复用技能。摘要显示：LLM pipelines waste substantial token budgets on low-information content: repeated context, verbose responses, and redundant boilerplate. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

## 其他值得关注
- [VLESA: Vision-Language Embodied Safety Agent for Human Activity Monitoring](https://arxiv.org/abs/2606.03954)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。
- [MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&amp;A](https://arxiv.org/abs/2606.04231)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [MimeLens: Position-Agnostic Content-Type Detection for Binary Fragments](https://arxiv.org/abs/2606.04171)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [When Autoregressive Consistency Hurts Safety Alignment](https://arxiv.org/abs/2606.04168)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。
- [End-to-End Text Line Detection and Ordering](https://arxiv.org/abs/2606.04166)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [Expert-Aware Refusal Steering](https://arxiv.org/abs/2606.04160)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。
- [HighTide: An Agent-Curated Open-Source VLSI Benchmark Suite](https://arxiv.org/abs/2606.04126)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [UltraEP: Unleash MoE Training and Inference on Rack-Scale Nodes with Near-Optimal Load Balancing](https://arxiv.org/abs/2606.04101)：关注推理成本、延迟、吞吐和部署约束，适合跟进系统优化。
- [MAOAM: Unified Object and Material Selection with Vision-Language Models](https://arxiv.org/abs/2606.04880)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill](https://arxiv.org/abs/2606.03980)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning](https://arxiv.org/abs/2606.03965)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [AgenticRL: Self-Refining Agentic Reinforcement Learning for Vision-Conditioned UAV Navigation](https://arxiv.org/abs/2606.03963)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [SEAOTTER: Sensor Embedded Autoencoding with One-Time Transcode for Efficient Reconstruction](https://arxiv.org/abs/2606.03940)：关注多模态模型中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
- [Visual Instruction Tuning Aligns Modalities through Abstraction](https://arxiv.org/abs/2606.03871)：关注训练与后训练中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
- [Leveraging BART to Assess CS1 C++ Programming Assignments using Rubric-based Criteria](https://arxiv.org/abs/2606.03814)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。

## 阅读边界
- 自动排序会偏向有社区信号、代码信号和工程关键词的论文。
- 简报默认基于标题、摘要和公开元数据，不替代全文精读。
- 外部 API 限流或不可用时，相关信号会降级为空并在内部记录中保留说明。
</content></item><item><title>增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性</title><link>https://aici.ccwu.cc/zh/daily/2026-06-03-koda-contrastive-representation-comparison-and-alignment-for/</link><guid>https://aici.ccwu.cc/zh/daily/2026-06-03-koda-contrastive-representation-comparison-and-alignment-for/</guid><description>今天主要跟进：增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性。</description><pubDate>Wed, 03 Jun 2026 00:00:00 +0000</pubDate><language>zh</language><content>
# 增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性

## 今天最值得跟进的方向

今天的高分论文主要指向：增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性。建议先看每篇的原文链接、摘要、评测设置和代码/数据是否可用，再决定是否深入复现。

## 重点论文：题目、看点与核验线索

### 1. 增强多模态模型理解图表和文档的能力

&lt;p class="paper-meta-line"&gt;&lt;span&gt;KODA: Contrastive Representation Comparison and Alignment for Vision-Language Foundation Models (Youqi Wu, Mohammad Jalali, Farzan Farnia)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.04180"&gt;2606.04180&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.04180"&gt;PDF&lt;/a&gt;&lt;/p&gt;

增强多模态模型理解图表和文档的能力。摘要显示：Vision-language foundation models such as CLIP and SigLIP provide widely used representations for multimodal learning systems. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 2. 让 Agent 更可靠地调用工具和复用技能

&lt;p class="paper-meta-line"&gt;&lt;span&gt;The Impact of Configuring Agentic AI Coding Tools on Build-vs-Buy Decisions: A Study Protocol (Jai Lal Lulla, Matthias Galster, Jie M. Zhang, Sebastian Baltes, Christoph Treude)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.03907"&gt;2606.03907&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.03907"&gt;PDF&lt;/a&gt;&lt;/p&gt;

让 Agent 更可靠地调用工具和复用技能。摘要显示：Agentic AI coding tools write code with increasing autonomy and in doing so decide when to import a library and when to implement functionality from scratch. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 3. 提升 RAG 检索和知识库问答可靠性

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Automating Information Extraction and Retrieval for Industrial Spare Parts Pooling (Dyuman Bulloni, Rocco Felici, Oliver Avram, Anna Valente)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.03367"&gt;2606.03367&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.03367"&gt;PDF&lt;/a&gt;&lt;/p&gt;

提升 RAG 检索和知识库问答可靠性。摘要显示：Maintenance organizations in manufacturing try to avoid downtime and unnecessary purchasing by reusing existing assets, but the main obstacle is not a lack of parts but a lack of actionable visibility across sites and partners. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 4. 提升 RAG 检索和知识库问答可靠性

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Stationarity-Aware Retrieval-Augmented Time Series Forecasting (Shiqiao Zhou, Holger Schöner, Zipeng Wu, Edouard Fouché, IAG Wilson, Shuo Wang)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.04135"&gt;2606.04135&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.04135"&gt;PDF&lt;/a&gt;&lt;/p&gt;

提升 RAG 检索和知识库问答可靠性。摘要显示：Time series forecasting relies on historical patterns, but real-world series often exhibit non-stationarity and regime shifts that challenge fully parametric forecasters. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 5. 让 Agent 更可靠地调用工具和复用技能

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Entropy Gate: Entropy Quenching for Near-Lossless Token Compression in LLM Pipelines (Justice Owusu Agyemang, Jerry John Kponyo, Kwame Opuni-Boachie Obour Agyekum, Francisca Adoma Acheampong, Kwame Agyeman-Prempeh Agyekum, James Dzisi Gadze)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.03739"&gt;2606.03739&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.03739"&gt;PDF&lt;/a&gt;&lt;/p&gt;

让 Agent 更可靠地调用工具和复用技能。摘要显示：LLM pipelines waste substantial token budgets on low-information content: repeated context, verbose responses, and redundant boilerplate. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

## 其他值得关注
- [VLESA: Vision-Language Embodied Safety Agent for Human Activity Monitoring](https://arxiv.org/abs/2606.03954)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。
- [MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&amp;A](https://arxiv.org/abs/2606.04231)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [MimeLens: Position-Agnostic Content-Type Detection for Binary Fragments](https://arxiv.org/abs/2606.04171)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [When Autoregressive Consistency Hurts Safety Alignment](https://arxiv.org/abs/2606.04168)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。
- [End-to-End Text Line Detection and Ordering](https://arxiv.org/abs/2606.04166)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [Expert-Aware Refusal Steering](https://arxiv.org/abs/2606.04160)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。
- [HighTide: An Agent-Curated Open-Source VLSI Benchmark Suite](https://arxiv.org/abs/2606.04126)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [UltraEP: Unleash MoE Training and Inference on Rack-Scale Nodes with Near-Optimal Load Balancing](https://arxiv.org/abs/2606.04101)：关注推理成本、延迟、吞吐和部署约束，适合跟进系统优化。
- [MAOAM: Unified Object and Material Selection with Vision-Language Models](https://arxiv.org/abs/2606.04880)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill](https://arxiv.org/abs/2606.03980)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning](https://arxiv.org/abs/2606.03965)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [AgenticRL: Self-Refining Agentic Reinforcement Learning for Vision-Conditioned UAV Navigation](https://arxiv.org/abs/2606.03963)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [SEAOTTER: Sensor Embedded Autoencoding with One-Time Transcode for Efficient Reconstruction](https://arxiv.org/abs/2606.03940)：关注多模态模型中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
- [Visual Instruction Tuning Aligns Modalities through Abstraction](https://arxiv.org/abs/2606.03871)：关注训练与后训练中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
- [Leveraging BART to Assess CS1 C++ Programming Assignments using Rubric-based Criteria](https://arxiv.org/abs/2606.03814)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。

## 阅读边界
- 自动排序会偏向有社区信号、代码信号和工程关键词的论文。
- 简报默认基于标题、摘要和公开元数据，不替代全文精读。
- 外部 API 限流或不可用时，相关信号会降级为空并在内部记录中保留说明。
</content></item><item><title>增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性</title><link>https://aici.ccwu.cc/zh/daily/2026-06-02-koda-contrastive-representation-comparison-and-alignment-for/</link><guid>https://aici.ccwu.cc/zh/daily/2026-06-02-koda-contrastive-representation-comparison-and-alignment-for/</guid><description>今天主要跟进：增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性。</description><pubDate>Tue, 02 Jun 2026 00:00:00 +0000</pubDate><language>zh</language><content>
# 增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性

## 今天最值得跟进的方向

今天的高分论文主要指向：增强多模态模型理解图表和文档的能力、让 Agent 更可靠地调用工具和复用技能、提升 RAG 检索和知识库问答可靠性。建议先看每篇的原文链接、摘要、评测设置和代码/数据是否可用，再决定是否深入复现。

## 重点论文：题目、看点与核验线索

### 1. 增强多模态模型理解图表和文档的能力

&lt;p class="paper-meta-line"&gt;&lt;span&gt;KODA: Contrastive Representation Comparison and Alignment for Vision-Language Foundation Models (Youqi Wu, Mohammad Jalali, Farzan Farnia)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.04180"&gt;2606.04180&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.04180"&gt;PDF&lt;/a&gt;&lt;/p&gt;

增强多模态模型理解图表和文档的能力。摘要显示：Vision-language foundation models such as CLIP and SigLIP provide widely used representations for multimodal learning systems. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 2. 让 Agent 更可靠地调用工具和复用技能

&lt;p class="paper-meta-line"&gt;&lt;span&gt;The Impact of Configuring Agentic AI Coding Tools on Build-vs-Buy Decisions: A Study Protocol (Jai Lal Lulla, Matthias Galster, Jie M. Zhang, Sebastian Baltes, Christoph Treude)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.03907"&gt;2606.03907&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.03907"&gt;PDF&lt;/a&gt;&lt;/p&gt;

让 Agent 更可靠地调用工具和复用技能。摘要显示：Agentic AI coding tools write code with increasing autonomy and in doing so decide when to import a library and when to implement functionality from scratch. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 3. 提升 RAG 检索和知识库问答可靠性

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Automating Information Extraction and Retrieval for Industrial Spare Parts Pooling (Dyuman Bulloni, Rocco Felici, Oliver Avram, Anna Valente)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.03367"&gt;2606.03367&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.03367"&gt;PDF&lt;/a&gt;&lt;/p&gt;

提升 RAG 检索和知识库问答可靠性。摘要显示：Maintenance organizations in manufacturing try to avoid downtime and unnecessary purchasing by reusing existing assets, but the main obstacle is not a lack of parts but a lack of actionable visibility across sites and partners. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 4. 提升 RAG 检索和知识库问答可靠性

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Stationarity-Aware Retrieval-Augmented Time Series Forecasting (Shiqiao Zhou, Holger Schöner, Zipeng Wu, Edouard Fouché, IAG Wilson, Shuo Wang)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.04135"&gt;2606.04135&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.04135"&gt;PDF&lt;/a&gt;&lt;/p&gt;

提升 RAG 检索和知识库问答可靠性。摘要显示：Time series forecasting relies on historical patterns, but real-world series often exhibit non-stationarity and regime shifts that challenge fully parametric forecasters. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 5. 让 Agent 更可靠地调用工具和复用技能

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Entropy Gate: Entropy Quenching for Near-Lossless Token Compression in LLM Pipelines (Justice Owusu Agyemang, Jerry John Kponyo, Kwame Opuni-Boachie Obour Agyekum, Francisca Adoma Acheampong, Kwame Agyeman-Prempeh Agyekum, James Dzisi Gadze)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.03739"&gt;2606.03739&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.03739"&gt;PDF&lt;/a&gt;&lt;/p&gt;

让 Agent 更可靠地调用工具和复用技能。摘要显示：LLM pipelines waste substantial token budgets on low-information content: repeated context, verbose responses, and redundant boilerplate. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

## 其他值得关注
- [VLESA: Vision-Language Embodied Safety Agent for Human Activity Monitoring](https://arxiv.org/abs/2606.03954)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。
- [MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&amp;A](https://arxiv.org/abs/2606.04231)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [MimeLens: Position-Agnostic Content-Type Detection for Binary Fragments](https://arxiv.org/abs/2606.04171)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [When Autoregressive Consistency Hurts Safety Alignment](https://arxiv.org/abs/2606.04168)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。
- [End-to-End Text Line Detection and Ordering](https://arxiv.org/abs/2606.04166)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [Expert-Aware Refusal Steering](https://arxiv.org/abs/2606.04160)：关注模型安全、护栏路由、风险分类或治理评测，适合跟进安全评测与治理工具链。
- [HighTide: An Agent-Curated Open-Source VLSI Benchmark Suite](https://arxiv.org/abs/2606.04126)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [UltraEP: Unleash MoE Training and Inference on Rack-Scale Nodes with Near-Optimal Load Balancing](https://arxiv.org/abs/2606.04101)：关注推理成本、延迟、吞吐和部署约束，适合跟进系统优化。
- [MAOAM: Unified Object and Material Selection with Vision-Language Models](https://arxiv.org/abs/2606.04880)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill](https://arxiv.org/abs/2606.03980)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning](https://arxiv.org/abs/2606.03965)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [AgenticRL: Self-Refining Agentic Reinforcement Learning for Vision-Conditioned UAV Navigation](https://arxiv.org/abs/2606.03963)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [SEAOTTER: Sensor Embedded Autoencoding with One-Time Transcode for Efficient Reconstruction](https://arxiv.org/abs/2606.03940)：关注多模态模型中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
- [Visual Instruction Tuning Aligns Modalities through Abstraction](https://arxiv.org/abs/2606.03871)：关注训练与后训练中的新任务、数据或系统线索，适合快速判断是否值得阅读全文。
- [Leveraging BART to Assess CS1 C++ Programming Assignments using Rubric-based Criteria](https://arxiv.org/abs/2606.03814)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。

## 阅读边界
- 自动排序会偏向有社区信号、代码信号和工程关键词的论文。
- 简报默认基于标题、摘要和公开元数据，不替代全文精读。
- 外部 API 限流或不可用时，相关信号会降级为空并在内部记录中保留说明。
</content></item><item><title>让 Agent 更可靠地调用工具和复用技能、识别并缓解模型安全、越狱和对齐风险</title><link>https://aici.ccwu.cc/zh/daily/2026-06-01-cosmos-3-omnimodal-world-models-for-physical/</link><guid>https://aici.ccwu.cc/zh/daily/2026-06-01-cosmos-3-omnimodal-world-models-for-physical/</guid><description>今天主要跟进：让 Agent 更可靠地调用工具和复用技能、让 Agent 更可靠地调用工具和复用技能、识别并缓解模型安全、越狱和对齐风险。</description><pubDate>Mon, 01 Jun 2026 00:00:00 +0000</pubDate><language>zh</language><content>
# 让 Agent 更可靠地调用工具和复用技能、识别并缓解模型安全、越狱和对齐风险

## 今天最值得跟进的方向

今天的高分论文主要指向：让 Agent 更可靠地调用工具和复用技能、让 Agent 更可靠地调用工具和复用技能、识别并缓解模型安全、越狱和对齐风险。建议先看每篇的原文链接、摘要、评测设置和代码/数据是否可用，再决定是否深入复现。

## 重点论文：题目、看点与核验线索

### 1. 让 Agent 更可靠地调用工具和复用技能

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Cosmos 3: Omnimodal World Models for Physical AI (Aditi, Niket Agarwal, Arslan Ali, Jon Allen, Martin Antolini, Adeline Aubame, et al.)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.02800"&gt;2606.02800&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.02800"&gt;PDF&lt;/a&gt;&lt;/p&gt;

让 Agent 更可靠地调用工具和复用技能。摘要显示：We introduce Cosmos 3, a family of omnimodal world models designed to jointly process and generate language, image, video, audio, and action sequences within a unified mixture-of-transformers architecture. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 2. 让 Agent 更可靠地调用工具和复用技能

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models (Simone Caldarella, Davide Talon, Rahaf Aljundi, Elisa Ricci, Massimiliano Mancini)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.02835"&gt;2606.02835&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.02835"&gt;PDF&lt;/a&gt;&lt;/p&gt;

让 Agent 更可靠地调用工具和复用技能。摘要显示：Large Reasoning Models (LRMs) improve performance by generating explicit intermediate reasoning traces through increased test-time compute, yet the assumption that longer reasoning is consistently beneficial remains under-examined. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 3. 识别并缓解模型安全、越狱和对齐风险

&lt;p class="paper-meta-line"&gt;&lt;span&gt;Breaking the Information Silo: Semantic Personas for Cross-Domain Recommendation (Jonathan Mayo, Moshe Unger, Konstantin Bauman)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.01783"&gt;2606.01783&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.01783"&gt;PDF&lt;/a&gt;&lt;/p&gt;

识别并缓解模型安全、越狱和对齐风险。摘要显示：Digital platforms increasingly operate as isolated information silos, limiting their ability to construct comprehensive user representations across domains. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 4. 让 Agent 更可靠地调用工具和复用技能

&lt;p class="paper-meta-line"&gt;&lt;span&gt;KForge: LLM-Driven Cross-Platform Kernel Generation for AI Accelerators (Taras Sereda, Burak Bartan, Ankita Nayak, Tom St. John, Natalie Serrino, Zain Asgar)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.02963"&gt;2606.02963&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.02963"&gt;PDF&lt;/a&gt;&lt;/p&gt;

让 Agent 更可靠地调用工具和复用技能。摘要显示：Production inference increasingly targets a heterogeneous mix of accelerators. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

### 5. 提升代码生成、执行反馈和自动修复能力

&lt;p class="paper-meta-line"&gt;&lt;span&gt;EntangleCodec: A Unified Discrete Audio Tokenizer via Semantic-Acoustic Entanglement (Hui Li, Yangfan Gao, Junlin Shang, Changhao Jiang, Tao Gui, Qi Zhang, et al.)&lt;/span&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/abs/2606.02739"&gt;2606.02739&lt;/a&gt; &lt;a class="paper-meta-link" href="https://arxiv.org/pdf/2606.02739"&gt;PDF&lt;/a&gt;&lt;/p&gt;

提升代码生成、执行反馈和自动修复能力。摘要显示：Audio tokenizers serve as the discrete interface between continuous audio and Audio Language Models (ALMs), but existing tokenizers often struggle to support both understanding and generation. 重点核验：任务设置是否真实，是否有代码或数据，评测是否覆盖复杂场景，结论是否能迁移到实际系统。

## 其他值得关注
- [Large AI Models in Dental Healthcare: From General-Purpose Systems to Domain-Specific Foundation Models](https://arxiv.org/abs/2606.02914)：关注任务设置、指标和失效案例，适合补充模型评测与回归测试。
- [GloResNet: A lightweight 3D CNN with global topological features for preterm brain injury prediction](https://arxiv.org/abs/2606.02498)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [MASER: Modality-Adaptive Specialist Routing for Embodied 3D Spatial Intelligence](https://arxiv.org/abs/2606.02463)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations](https://arxiv.org/abs/2606.02240)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents](https://arxiv.org/abs/2606.02031)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [What Benchmarks Don't Measure: The Case for Evaluating Abstention Competence in Autonomous Agents](https://arxiv.org/abs/2606.02965)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [ATLAS: A Large-Scale Evaluation Benchmark for Adversarial LiDAR Perception](https://arxiv.org/abs/2606.02924)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [Tiny Collaborative Inference for Occlusion-Robust Object Detection](https://arxiv.org/abs/2606.02894)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [Do Transformers Need Three Projections? Systematic Study of QKV Variants](https://arxiv.org/abs/2606.04032)：关注推理成本、延迟、吞吐和部署约束，适合跟进系统优化。
- [Pathway-Structured Privileged Distillation for Deployable Computational Pathology](https://arxiv.org/abs/2606.02877)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [RRISE: Robust Radius Inference via a Surrogate Estimator](https://arxiv.org/abs/2606.02876)：关注任务设置、指标和失效案例，适合补充模型评测与回归测试。
- [Toward a Modular Architecture for Embedded AI Agent Systems at the Edge](https://arxiv.org/abs/2606.02862)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [Which Defense Closes Which Threat? Attributing OWASP-LLM-Top-10 Coverage and Its Brittleness Under Paraphrasing](https://arxiv.org/abs/2606.02822)：关注检索、知识库问答与证据可靠性，适合跟进 RAG 评测和企业知识系统。
- [Traj-Evolve: A Self-Evolving Multi-Agent System for Patient Trajectory Modeling in Lung Cancer Early Detection](https://arxiv.org/abs/2606.02812)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。
- [Acceptance-Test-Driven Evaluation Protocols for Business-Centric LLM Systems](https://arxiv.org/abs/2606.02755)：关注工具调用、执行反馈和可复用能力，适合跟进 Agent 工作流和工程可靠性。

## 阅读边界
- 自动排序会偏向有社区信号、代码信号和工程关键词的论文。
- 简报默认基于标题、摘要和公开元数据，不替代全文精读。
- 外部 API 限流或不可用时，相关信号会降级为空并在内部记录中保留说明。
</content></item></channel></rss>
