每日 · 全球 AI 资讯AI点评第142期 · 2026 年6月4日 · 周四

拖动自测

你是哪一类 AI 人?

拖动六个顶点,实时生成你的品味画像 —— 看看自己被分到哪个编辑部席位。

大模型MODEL智能体AGENT工程HARNESS产品PRODUCT研究RESEARCH资讯NEWS333333拖动我
你的品味今日内容
每日 · 全球顶尖 AI 资讯

把你的品味,
调成一份日报。

你的编辑部席位
资深 · 智能体观察室主笔

你盯着模型的能力怎样长出自主行动力。

大模型×3智能体×3
已有 2418 人订阅· 一天一版 · 全球资讯 · 免费订阅

本期头版

2026-06-04 · 第 142 期 · 共 6
本期目录 / Contents序号 · 标题 · 六维标签 · 原文
01
头条
开源推理模型首次在数学竞赛基准上追平闭源旗舰

一个完全开放权重的推理模型在 AIME 与 MATH 两个高难基准上把分差缩到统计误差以内,且推理成本只有旗舰闭源模型的六分之一。

不是又一个跑分,是"能不能自己部署一台来用"这件事第一次成立。
大模型×5研究×5Anthropic Blog
原文 ↗
02
新一代编码 Agent 把跨文件重构压进了一次提交
从"帮你写一段"到"替你交一版",中间隔着的就是这条任务链。
智能体×5工程×5Eng Weekly
原文 ↗
03
推理 API 价格一周内三家厂商集体腰斩
便宜不是新闻,便宜到敢往产品里默认开着,才是。
资讯×5工程×4Pricing Watch
原文 ↗
04
长上下文之争:一百万 token,真的有人用满吗
上限是给机器留的,不是给人。
产品×5大模型×4Context Lab
原文 ↗
05
一份让 Agent 自己写 eval 的工程实践
让它自己出考卷之前,先想清楚谁来判卷。
工程×5智能体×4Harness Notes
原文 ↗
06
学界提出新的能力评测维度,质疑现有榜单
把模型拍成一个数,本来就是为了好排名,不是为了说真话。
研究×5大模型×4arXiv Digest
原文 ↗