AI 每日简报 AI Daily Digest

Meta 的 WhatsApp Business AI 代理全球上线，按 token 收费

Meta 宣布其 WhatsApp Business AI 代理在全球范围内可用，企业将根据 token 使用量付费，标志着 AI 客服商业化进入新阶段。

★★★★★ AI 客服大规模商业化落地，中小企业接入门槛降低

英国监管机构要求 Google 允许出版商退出 AI 搜索

英国竞争与市场管理局（CMA）裁定，Google 必须提供工具让网站出版商选择不被 AI 搜索功能（如 AI Overviews）抓取内容，该选项将在英国测试后全球推广。

★★★★☆ AI 搜索版权博弈升级，内容生态规则重塑

The Verge

Alphabet 创纪录的 850 亿美元融资，为 AI 业务注入强心剂

Alphabet 完成史上最大规模的 850 亿美元股票发行，专门用于支持 Google 的 AI 业务，显示投资者对 AI 领域仍有巨大信心。

★★★★☆ AI 军备竞赛资金弹药充足，行业竞争将更加激烈

Lovable 与 Google Cloud 续签多年合同，使用量提升 5 倍

AI 应用构建平台 Lovable 与 Google Cloud 签署多年期扩展协议，在 Google Cloud 上的业务规模将扩大 5 倍，并扩大对 Anthropic Claude 的访问。

★★★★☆ AI 应用平台基础设施需求爆发，云厂商受益明确

Coralogix 融资 2 亿美元，押注 AI 代理监控赛道

基础设施公司 Coralogix 完成 2 亿美元融资，专注于为 AI 代理提供行为监控、故障排查和运维数据平台。

★★★★☆ AI 代理进入生产环境，运维监控成为新刚需

Nvidia RTX Spark 笔记本芯片发布，AI PC 或迎来转折点

Nvidia 发布 RTX Spark 芯片，有望将“AI PC”从概念变为现实，在笔记本端提供强大的本地 AI 推理能力。

★★★★★ 边缘 AI 推理硬件突破，开发者可部署更复杂的本地模型

Wired

OpenAI 挖走哈佛最年轻正教授、中科大少年班校友

OpenAI 持续增强研究实力，招募了 12 岁上大学的哈佛史上最年轻正教授，以及另一位知名学者苏炜杰。

★★★★☆ 顶级 AI 人才争夺白热化，学术圈向产业流动加速

量子位

Uber 限制员工 AI 支出，预算 4 个月耗尽

Uber 在鼓励员工尽可能使用 AI 后，因预算在 4 个月内超支，不得不设置 AI 使用上限。

★★★☆☆ 企业 AI 成本管控成为新课题，token 经济需要更精细化管理

跨维智能登顶世界模型榜单 WorldArena

跨维智能（Cross-dimensional Intelligence）在 WorldArena 世界模型排行榜上取得第一，展示了在具身智能和世界理解方面的进展。

★★★★☆ 世界模型竞争格局变化，新玩家挑战头部地位

量子位

📄 重要论文

WALL-WM：以事件为单位的 World Action Model 预训练新方法

提出 WALL-WM，将视频-动作学习从固定长度片段优化转向以语义连贯事件为基本单位的视觉-语言-动作预训练，解决了现有世界动作模型的粒度不匹配问题。

★★★★★ 为具身智能和机器人学习提供更自然的预训练范式

OmniOPD：无需教师 logits 的 On-Policy 蒸馏方法

提出 OmniOPD，通过推测验证机制实现无需访问教师模型 logits 的 on-policy 蒸馏，让闭源模型也能作为教师指导小模型训练。

★★★★★ 降低对 GPT-4 等闭源模型 logits 的依赖，知识蒸馏更灵活

KVarN：方差归一化的 KV-Cache 量化方法

提出 KVarN，通过归一化 KV-Cache 量化中的方差，有效缓解推理任务中长序列解码时的误差累积问题。

★★★★★ 提升长上下文推理效率，降低显存瓶颈

AURA：面向机器人策略的恒定显存动作门控记忆

提出 AURA-Mem，一种专为边缘端机器人设计的动作门控记忆架构，在恒定 VRAM 下支持长周期运行，解决了 KV-Cache 不适合机器人场景的问题。

★★★★★ 机器人端侧推理的内存瓶颈突破，推动具身智能落地

Small RL Controller, Large Language Model：RL 引导的自适应采样

将测试时扩展的自适应采样问题建模为马尔可夫决策过程，训练轻量级 RL 控制器动态决定何时停止采样，在提升推理性能的同时降低计算成本。

★★★★★ 更智能的测试时计算分配，降低推理成本

Ultralytics YOLO26：统一的实时端到端视觉模型

发布 YOLO26 系列，在 YOLO 家族基础上实现无需 NMS 的端到端检测、更轻量的检测头、更短的训练周期，并解决小目标正样本分配问题。

★★★★★ 计算机视觉领域最广泛使用的模型家族迎来重大更新

ByG：无配对数据的流匹配图像编辑框架

提出 Bootstrap Your Generator (ByG)，利用基础生成模型的先验知识，无需配对数据即可训练流匹配图像编辑模型，并扩展至视频编辑。

★★★★★ 大幅降低图像/视频编辑模型的训练数据门槛

PaddleOCR-VL-1.6：区域感知优化的文档解析模型

百度发布 PaddleOCR-VL-1.6，通过识别模型不稳定、数据覆盖稀疏的“欠优化区域”，进行针对性数据增强和渐进式后训练，在 0.9B 参数下显著提升文档解析能力。

★★★★★ 小模型文档解析能力提升，对 OCR 和文档处理有直接实用价值

🔧 开源项目

codegraph：预索引代码知识图谱，减少 AI 编码代理的 token 消耗

为 Claude Code、Codex、Gemini 等 AI 编码代理提供预索引的代码知识图谱，可减少 token 消耗和工具调用次数，100% 本地运行。

★★★★★ AI 编码效率提升利器，大幅降低使用成本

oh-my-pi：终端 AI 编码代理

终端 AI 编码代理，支持哈希锚定编辑、优化的工具框架、LSP、Python、浏览器、子代理等特性。

★★★★★ 终端 AI 代理新选择，功能全面且可扩展

headroom：压缩工具输出和日志，减少 60-95% token 消耗

在工具输出、日志、文件和 RAG 片段到达 LLM 之前进行压缩，可减少 60-95% 的 token 消耗，同时保持答案质量。提供库、代理和 MCP 服务器三种使用方式。

★★★★☆ 直接降低 AI 应用 token 成本，实用性强

Understand-Anything：将代码转为交互式知识图谱

将任意代码库转换为可探索、搜索和提问的交互式知识图谱，支持 Claude Code、Codex、Cursor、Copilot、Gemini CLI 等工具。

★★★★☆ 代码理解和文档化新方式，降低项目上手难度

taste-skill：为 AI 注入“好品味”，避免生成千篇一律的内容

一个高自主性的前端工具，阻止 AI 生成无聊、通用、“垃圾”内容，提升 AI 输出的审美和独特性。

★★★★☆ 解决 AI 内容同质化问题，提升输出质量

paseo：从手机、桌面和 CLI 远程编排编码代理

允许用户从手机、桌面或 CLI 远程编排和管理编码代理，实现跨设备 AI 编码工作流。

★★★★★ AI 编码工作流移动化，提升开发灵活性

rtk：CLI 代理，将常见开发命令的 token 消耗减少 60-90%

用 Rust 编写的 CLI 代理，针对常见开发命令可减少 60-90% 的 LLM token 消耗，单二进制文件，零依赖。

★★★★☆ 开发场景下直接降低 AI 使用成本

ppt-master：AI 从任意文档生成原生可编辑 PPTX

AI 从任意文档生成原生 PowerPoint 文件，使用真实形状而非图片，无需设计技能。

★★★★☆ AI 办公自动化，直接生成可编辑的正式文档