AI 每日简报 AI Daily Digest

微软 Build 2026 发布 Scout 个人助手、MAI-Thinking-1 推理模型及 Project Solara 操作系统

微软在 Build 大会上推出基于 OpenClaw 的 AI 助手 Scout、旗舰推理模型 MAI-Thinking-1，以及专为 AI Agent 设备设计的 Android 系统 Project Solara。

★★★★★ 微软全面转向 Agent 优先战略，OS 级 Agent 生态正在形成

The Verge

微软发布开源 AI 行为测试框架 ASSET

开发者可通过自然语言描述快速生成 AI 评估测试，无需手动编写测试用例。

★★★★★ 大幅降低 AI Agent 质量保障门槛，推动 Agent 生产化

微软发布 Agent 策略控制规范

允许开发、合规和安全团队在可移植策略文件中定义 Agent 行为规则。

★★★★★ 解决企业 Agent 合规和安全的关键痛点

微软 Surface RTX Spark Dev Box 发布

基于 Nvidia Arm 芯片的迷你 Surface PC，专为本地 AI 开发优化。

★★★★★ Windows 端 AI 开发硬件的 M1 时刻到来

The Verge

Google 推出 AI 深度伪造电话诈骗检测功能

Phone by Google 应用将自动识别伪装成联系人的诈骗电话。

★★★★★ AI 安全防护从被动转向主动，保护数十亿用户

The Verge

Anthropic 秘密提交 IPO 文件，或成为史上最大 IPO

Claude 母公司向 SEC 提交 S-1 文件，紧随 SpaceX 之后。

★★★★☆ AI 独角兽加速资本化，行业格局可能改变

Wired

字节跳动 AI 大将顾全全离职

前字节 AI 负责人离职，引发行业对其下一步去向的广泛猜测。

★★★★☆ 顶尖 AI 人才流动可能预示新的创业或研究方向

36氪

OpenAI 挖走哈佛最年轻正教授苏炜杰

中科大少年班校友、哈佛史上最年轻正教授加入 OpenAI。

★★★★☆ AI 人才争夺战持续升级，顶级学术人才加速流向产业

特朗普签署修订版 AI 行政令，仅要求自愿预发布审查

行业反对后，特朗普签署缩小范围的 AI 监管行政令。

★★★★☆ 美国 AI 监管走向宽松，对全球 AI 发展政策有示范效应

Opal 获 OpenAI 投资，将推出 AI 音频设备

以高端摄像头闻名的 Opal 获得 OpenAI 和三星投资，转向 AI 消费电子。

★★★★☆ OpenAI 从软件向硬件生态延伸，AI 原生硬件赛道升温

Wired

具身智能 8 小时被攻破，安全风险亟待补课

研究人员在短时间内成功攻击具身智能系统，暴露安全短板。

★★★★☆ 具身智能产业化加速，但安全防护严重滞后

36氪

字节开源统一视频编辑框架 Bernini

为 DiT 模型配备理解能力，实现先理解后编辑的 AI 视频编辑。

★★★★☆ AI 视频编辑从像素操作走向语义理解

百度文心发布 PaddleOCR-VL-1.6，文档解析准确率突破 96.33%

刷新文档解析 SOTA，已上线官网支持 API 调用。

★★★★☆ 文档 AI 能力持续提升，企业文档数字化更可靠

清华 AIR 开源 UniLab 机器人训练框架，训练速度提升 10 倍

3 分钟可完成人形机器人训练，Mac 上也能运行。

★★★★☆ 机器人强化学习训练从小时级进入分钟级，大幅降低门槛

📄 重要论文

Unified Neural Scaling Laws（统一神经缩放定律）

提出能同时建模模型参数、数据量、训练步数等多维度缩放行为的统一函数形式。

★★★★★ 为多维度联合优化提供理论指导，替代单一维度缩放定律

Domino：投机解码中解耦因果建模与自回归草稿

将草稿生成中的因果依赖建模与自回归开销解耦，提升推理速度。

★★★★★ 突破投机解码的速度瓶颈，加速 LLM 推理

Linear Ensembles Wash Away Watermarks（线性集成洗掉水印）

理论证明当用户访问多个模型时，平均输出概率分布可恢复无水印分布。

★★★★★ 揭示 AI 文本水印的根本性脆弱，影响内容溯源技术路线

Harness-1：带状态外化 Harness 的搜索 Agent 强化学习

将搜索 Agent 的状态管理从策略中分离，提升强化学习效率。

★★★★★ 为搜索 Agent 训练提供更高效的新范式

Policy and World Modeling Co-Training for Language Agents

在强化学习训练中同时学习世界模型，无需额外模拟器。

★★★★★ 让 Agent 不仅知道做什么，还理解环境如何变化

Agent Skills Should Go Beyond Text: The Case for Visual Skills

论证现有技能学习方法仅存储文本经验是根本性瓶颈，提出视觉技能概念。

★★★★★ 推动 Agent 技能从纯文本向多模态演进

DOT-MoE：可微最优传输用于 MoE 化

将稠密模型转换为稀疏 MoE 的新方法，替代传统启发式聚类。

★★★★★ 提升模型 MoE 化质量和推理效率

🔧 开源项目

nesquena/hermes-webui

Hermes Agent 的 Web 界面，支持手机端使用。

★★★★★ 降低 Hermes Agent 使用门槛

colbymchenry/codegraph

预索引的代码知识图谱，支持 Claude Code、Codex、Gemini 等主流 AI 编程工具。

★★★★★ 减少 token 消耗和工具调用，100% 本地运行

p-e-w/heretic

语言模型的全自动审查移除工具。

★★★★★ 突破模型安全限制的技术方案

revfactory/harness

元技能框架，可自动设计领域特定 Agent 团队并生成所需技能。

★★★★★ Agent 自动编排的元层抽象

heygen-com/hyperframes

写 HTML 渲染视频的 Agent 工具。

★★★★★ Agent 生成视频的新范式

KKKKhazix/khazix-skills

数字生命卡兹克开源的 AI Skills 合集。

★★★★★ 社区驱动的 AI Skill 生态建设

chopratejas/headroom

压缩工具输出、日志和文件，减少 60-95% token 消耗。

★★★★☆ 优化 LLM 输入成本，提升效率

Lum1104/Understand-Anything

将代码转化为交互式知识图谱，支持搜索和问答。

★★★★☆ 代码理解的可视化新方法