方法

这个站点复现的是一种可验证的信息流水线:从论文源头采集大规模候选池,使用多信号规则引擎做排序,再生成轻量的每日中英双语简报。

采集范围

默认采集 arXiv 的 cs.AI、cs.CL、cs.LG、cs.CV、cs.MA、cs.IR、cs.RO、cs.SD、cs.MM、cs.HC、cs.SE、cs.DC、stat.ML、eess.AS 等 AI 相关分类。生产模式可通过配置调整分类和每类抓取数量。

排序信号

发布节奏

生产流水线按北京时间/台北时间计算发布日期,并根据配置抓取目标日期或最近可用日期的 arXiv 论文。没有外部密钥时,生产流水线使用 arXiv 元数据继续运行;mock-run 只用于固定演示数据和离线验收。

透明性

前端只展示轻量简报;机器可读明细、运行报告和 QA 结果保留在数据目录,便于排查抓取规模、分页、去重和降级情况。

局限

简报默认基于标题、摘要和公开元数据生成,不替代全文精读;arXiv 预印本不得被写成已验证结论或顶会接收事实。