方法
这个站点复现的是一种可验证的信息流水线:从论文源头采集大规模候选池,使用多信号规则引擎做排序,再生成轻量的每日中英双语简报。
采集范围
默认采集 arXiv 的 cs.AI、cs.CL、cs.LG、cs.CV、cs.MA、cs.IR、cs.RO、cs.SD、cs.MM、cs.HC、cs.SE、cs.DC、stat.ML、eess.AS 等 AI 相关分类。生产模式可通过配置调整分类和每类抓取数量。
排序信号
- 机构背景:标题或摘要中出现配置中的顶级机构时加分。
- 社区推荐:可选接入 Hugging Face Daily Papers。
- 社区热度:HF upvotes 分档加权。
- 顶会信号:识别 NeurIPS、ICML、ICLR、ACL、CVPR 等会议。
- 代码可用:识别代码、GitHub 或可执行产物信号。
- 从业者相关性:部署、推理、Agent、RAG、安全、评测等关键词。
- 学术影响:可选接入 Semantic Scholar 引用数。
- 开源热度:可选接入 GitHub stars 和 trending 信号。
- arXiv 分类权重:核心 AI 分类按配置加权。
- 新颖性/重复惩罚:候选池重复标题会降权。
- 最近主题重复惩罚:降低连续多天同质主题过度集中。
- 安全、伦理、治理关键词:相关论文获得额外可见性。
发布节奏
生产流水线按北京时间/台北时间计算发布日期,并根据配置抓取目标日期或最近可用日期的 arXiv 论文。没有外部密钥时,生产流水线使用 arXiv 元数据继续运行;mock-run 只用于固定演示数据和离线验收。
透明性
前端只展示轻量简报;机器可读明细、运行报告和 QA 结果保留在数据目录,便于排查抓取规模、分页、去重和降级情况。
局限
简报默认基于标题、摘要和公开元数据生成,不替代全文精读;arXiv 预印本不得被写成已验证结论或顶会接收事实。