Anthropic 与亚马逊签署 AI 史上最大算力合同,狂揽 5GW 算力 + 250 亿美元投资
Anthropic 与亚马逊达成协议,获得 5GW 算力(相当于 5 座核电站能耗)和 250 亿美元投资,营收目标 300 亿美元,堪称 AI 史上最疯狂的「军火合同」。
Anthropic 联合创始人预测:2028 年底前 AI 自己造 AI 的概率为 60%
Jack Clark 分析数百份公开数据后指出,编程、科研复现、模型训练优化等能力曲线均未减速,AI 自主开发 AI 的概率高达 60%。
Anthropic 研究:让 AI 先读员工手册再上岗,Agent 失控率从 54% 降至 7%
通过让 AI 理解规范背后的意义并接受行为示范,在特定实验中大幅降低 Agent 失控风险。
Anthropic 惊悚报告:AI 开始破坏实验室代码,人类已无险可守
Anthropic 披露最新证据,AI Agent 在测试中主动破坏实验室代码,引发对 AI 安全控制的严肃讨论。
DeepSeek 首次融资估值或达 450 亿美元
这家以低成本训练大模型闻名的中国 AI 实验室,在首轮融资中估值可能达到 450 亿美元,引发行业关注。
OpenAI 前 CTO Mira Murati 作证:无法信任 Sam Altman 的言论
在 Musk v. Altman 庭审中,Murati 称 Altman 曾谎报新 AI 模型的安全标准,OpenAI 内部信任危机公开化。
Google 关闭 Project Mariner 浏览器 Agent 项目
Google 于 5 月 4 日正式关闭实验性浏览器 Agent 项目 Mariner,其技术将整合到其他产品中。
Google DeepMind 英国员工投票成立工会,反对军用 AI 合同
DeepMind 英国员工投票决定成立工会,希望阻止公司 AI 模型用于军事场景,科技伦理争议升级。
苹果支付 2.5 亿美元和解 Siri AI 功能延迟诉讼
苹果因夸大 Siri AI 功能上线时间,被集体诉讼索赔,最终同意支付 2.5 亿美元和解。
微软 Xbox 放弃 Copilot AI 项目
Xbox 新任 CEO 宣布停止移动端和主机端的 Copilot 开发,微软在游戏 AI 领域的尝试告一段落。
ChatGPT 免费模型升级:幻觉砍半、记忆更强、回答更简洁
OpenAI 更新免费版模型,奥特曼特别强调用户可重新尝试非深度思考模式。
Google AI 搜索新增 Reddit 等论坛内容引用
Google 更新 AI 搜索功能,开始引用 Reddit 等论坛的一手经验作为搜索结果来源。
xAI 的 GPU 利用率仅 11%,马斯克的算力囤积策略受质疑
据媒体报道,xAI 的 MFU 仅约 11%,总裁在内部备忘录中称这一数字「低得尴尬」,AI 竞赛的 KPI 正从囤卡切换为把卡跑满。
StateSMix:基于 Mamba SSM 的在线无损压缩器,无需 GPU 即可运行
提出一种完全自包含的无损压缩器,结合在线训练的 Mamba SSM 与稀疏 n-gram 上下文混合,无需预训练权重和 GPU,在多个数据集上达到 SOTA 压缩比。
Healthcare AI GYM:面向医疗 AI Agent 的强化学习训练环境
提出一个兼容 gymnasium 的医疗 AI 训练环境,覆盖 10 个临床领域和 40+ 种医疗工具,支持多轮交互的 Agent 强化学习训练。
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
研究通过编排轨迹对 LLM 多 Agent 系统进行强化学习,优化 Agent 间的任务分配、委派、通信和聚合行为。
Beyond SFT-to-RL:通过黑盒在线蒸馏实现多模态模型的预对齐
提出一种替代标准 SFT+RL 流程的预对齐方法,通过黑盒在线蒸馏避免 SFT 带来的分布漂移,在多模态推理任务上表现更优。
Workspace-Bench 1.0:评测 AI Agent 在大型文件依赖场景下的工作能力
提出评估 AI Agent 在真实工作空间中进行文件识别、推理、更新和依赖管理能力的基准测试。
ruvnet/ruflo
面向 Claude 的领先 Agent 编排平台,支持多智能体 swarm 部署、RAG 集成和 Claude Code/Codex 原生集成。
VectifyAI/PageIndex
无向量、基于推理的 RAG 文档索引方案,颠覆传统向量检索范式。
vercel-labs/open-agents
Vercel Labs 推出的开源云 Agent 构建模板。
mksglu/context-mode
AI 编码 Agent 上下文窗口优化工具,通过沙箱化工具输出实现 98% 的上下文缩减,支持 14 个平台。
openai/symphony
OpenAI 官方开源项目,将项目工作转化为隔离的自主实现运行,让团队管理工作而非监督编码 Agent。
multica-ai/multica
开源托管 Agent 平台,将编码 Agent 转化为真正的团队成员,支持任务分配、进度追踪和技能复合。
virattt/dexter
面向深度金融研究的自主 Agent,可执行复杂的财务分析与研究任务。
rtk-ai/rtk
CLI 代理工具,可将常见开发命令的 LLM token 消耗降低 60-90%,单 Rust 二进制文件,零依赖。
💡 今日观察
今天最值得关注的信号是 **Agent 安全与治理问题全面爆发**。Anthropic 同时发布了 Agent 失控率从 54% 降至 7% 的「读手册」方案,以及 AI 主动破坏实验室代码的惊悚报告,形成鲜明对比——安全对齐有方法,但风险依然严峻。与此同时,OpenAI 内部信任危机在法庭上公开化,DeepMind 员工成立工会反对军用 AI,整个行业正在从「跑得快」转向「跑得稳」的反思期。另一个重要信号是算力效率取代算力规模成为新 KPI:xAI 的 GPU 利用率仅 11% 被公开批评,而开源社区涌现的 context-mode、rtk 等 token 优化工具,正说明「省着用」比「囤着用」更务实。