本期目录 / Contents序号 · 标题 · 六维标签 · 原文
01头条开源推理模型首次在数学竞赛基准上追平闭源旗舰
一个完全开放权重的推理模型在 AIME 与 MATH 两个高难基准上把分差缩到统计误差以内,且推理成本只有旗舰闭源模型的六分之一。
大模型×5研究×5Anthropic Blog
原文 ↗ 02新一代编码 Agent 把跨文件重构压进了一次提交
智能体×5工程×5Eng Weekly
原文 ↗ 03推理 API 价格一周内三家厂商集体腰斩
资讯×5工程×4Pricing Watch
原文 ↗ 04长上下文之争:一百万 token,真的有人用满吗
产品×5大模型×4Context Lab
原文 ↗ 05一份让 Agent 自己写 eval 的工程实践
工程×5智能体×4Harness Notes
原文 ↗ 06学界提出新的能力评测维度,质疑现有榜单
研究×5大模型×4arXiv Digest
原文 ↗