AI 每日简报 AI Daily Digest

Karpathy 确认加入 Anthropic 任技术员工（MTS）

AI 领域知名人物 Andrej Karpathy 的新头衔为 Member of Technical Staff，去向尘埃落定。

★★★★☆ Karpathy 的技术判断力预示 Anthropic 在 Agent 和系统方向将有重要动作。

阿里千问 3.7 编程能力跻身全球第二

编程权威榜单显示，千问 3.7 仅次于 Claude，阿里成为全球第二大编程模型厂商。

★★★★☆ 国产模型在编程领域进入第一梯队，开发者多了一个高性价比选择。

国产 Agent 模型闯入全球第一梯队

某国产 Agent 模型深度适配 OpenClaw、Claude Code 等主流框架，限时免费开放。

★★★★☆ Agent 赛道国产化加速，开发者可低成本接入前沿 Agent 能力。

教皇发布 AI 通谕，Anthropic 受邀出席

教皇 Leo XIV 发布首份 AI 主题通谕《Magnifica Humanitas》，Anthropic 作为硅谷代表受邀参加发布仪式。

★★★★☆ 科技与伦理的对话进入最高层级，AI 治理成为全球共识议题。

Wired

Starlette 包曝出严重漏洞，数百万 AI Agent 受影响

每周下载量 3.25 亿的 Starlette 中发现 "BadHost" 漏洞，可危及大量 AI Agent 安全。

★★★★☆ AI 供应链安全风险凸显，Agent 开发者需立即评估依赖项。

Ars Technica

阶跃星辰获 1.5 亿元投资，年内融资或超 200 亿

米奥会展认购拟赴港 IPO 的阶跃星辰少数股份，国产 AI 独角兽持续吸金。

★★★★☆ 国产 AI 融资热度不减，多模态模型赛道竞争白热化。

36Kr

华为发布 AI DC 数据基础设施全栈方案

面向行业智能化的数据中心基础设施方案，涵盖算力、存储、网络全栈。

★★★★☆ 国产算力基础设施方案成熟度提升，企业智能化部署有了新选择。

📄 重要论文

Language Models Need Sleep

提出类似睡眠的 consolidation 机制，让模型在空闲时通过离线重放将上下文压缩为持久化 fast weights，再清空 KV cache，有效解决长上下文注意力缩放问题。

★★★★★ 开创性的长上下文管理思路，可能改变 Agent 的长期记忆架构设计。

ECHO: Terminal Agents Learn World Models for Free

指出 CLI Agent 的终端输出流（stdout、错误、日志）是未被利用的监督信号，通过利用这些信号训练世界模型，提升 Agent 决策能力。

★★★★★ Agent 训练的新范式，将环境反馈从丢弃物变为训练资产。

Directional Alignment Mitigates Reward Hacking in RL for Language Models

从参数更新几何角度分析 reward hacking，发现 hack 发生时参数更新方向发生显著偏离，提出方向对齐方法抑制该问题。

★★★★★ RLHF/RLVR 中 reward hacking 的几何解释与解决方案，对对齐研究有重要参考价值。

CUA-Gym: Scaling Verifiable Training Environments for Computer-Use Agents

构建可扩展的确定性奖励训练环境，解决 CUA 训练数据稀缺瓶颈，为 RLVR 在计算机使用 Agent 领域铺路。

★★★★★ 填补 Agent 强化学习训练基础设施空白，可复现的基准环境。

Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents

提出 ProAct 架构，让 Agent 在用户空闲时主动分析历史行为、预测未来需求并提前准备，变被动响应为主动服务。

★★★★★ Agent 从"问-答"到"预判-行动"的范式转变，用户体验将大幅提升。

CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test

提出测试时协作自博弈方法，让模型自己生成代码和单元测试并相互验证，无需 ground-truth 单元测试即可实现 TTS 推理。

★★★★★ 无标注数据下的代码生成推理增强方案，降低高质量测试数据依赖。

ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

发现注意力中量化误差的影响高度非均匀，提出选择性混合精度策略，在保持质量的同时实现 4-bit 注意力加速。

★★★★★ 长上下文推理加速新方案，对部署大模型有直接工程价值。

CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models

构建反事实物理一致性基准，测试视频模型是否能正确响应场景变化，揭露模型依赖表面视觉相关性的局限。

★★★★★ 视频世界模型的因果推理能力评估标准，推动视频生成向真正世界模型进化。

🔧 开源项目

Understand-Anything ⭐300

将任何代码库转为可交互的知识图谱，支持搜索、提问，兼容 Claude Code、Codex、Cursor 等主流 Agent。

★★★★☆ Agent 理解代码的"可视化大脑"，显著提升开发者代码审查效率。

Anthropic 官方知识工作插件集 ⭐108

Anthropic 开源面向知识工作者的 Claude Cowork 插件仓库，提供可直接使用的生产力工具。

★★★★★ 官方出品的 Agent 插件生态，知识工作者可直接上手使用。

Anthropic 网络安全技能集 ⭐52

754 个结构化网络安全技能，映射 MITRE ATT&CK、NIST CSF 等 5 大框架，兼容 20+ Agent 平台。

★★★★★ 安全领域 Agent skill 的标准数据集，可直接用于安全自动化。

CodeWhale ⭐28

基于开源模型的编码 Agent，支持本地部署，提供完整的代码生成与执行能力。

★★★★★ 开源模型也能跑 Agent 了，降低对闭源 API 的依赖。

GSAP 官方 AI Skills ⭐28

GreenSock 官方出品的 AI 动画技能包，教 AI 编码 Agent 正确使用 GSAP 动画库。

★★★★★ 专业库官方适配 AI Agent，前端开发者的 Agent 编程体验将大幅提升。

rtk ⭐25

Rust 编写的 CLI 代理，可将常见开发命令的 LLM token 消耗降低 60-90%，单二进制文件，零依赖。

★★★★☆ AI 编程的成本杀手，开发者每天都能省下大量 token 费用。

freeLLM API ⭐26

OpenAI 兼容代理，聚合约 14 个 AI 提供商的免费额度，自动故障切换。

★★★★★ 免费 API 聚合器，个人实验和原型开发几乎零成本。