AI 每日简报 AI Daily Digest

Claude Fable 5 拒绝回答基础生物学问题

Anthropic 发布的 Claude Fable 5 号称在生物学等领域能力强大，但实际测试发现该模型拒绝回答高中生级别的基础生物学问题，并将此类查询转交给前代旗舰模型 Opus 处理。

★★★★★ 揭示 Mythos 级模型"能力强大"与"可用性"之间的鸿沟

微软因数据保留问题限制员工使用 Claude Fable 5

微软已限制员工在公司内部使用 Claude Fable 5，原因是 Anthropic 新的数据保留要求引发担忧。不过微软已迅速将 Claude Fable 5 集成到 GitHub Copilot 和 Foundry 产品中面向客户开放。

★★★★★ 大厂对第三方模型数据策略的敏感度标杆

xAI 前工程师因提出 Grok 安全问题被解雇，现已提起诉讼

一位前 xAI 工程师起诉公司和 SpaceX，声称他因在 SpaceX IPO 前夕提出 Grok 的 AI 安全问题而被解雇。

★★★★☆ AI 安全吹哨人机制与公司治理的冲突案例

TechCrunch

谷歌悄悄发布新模型，推理速度暴涨 4 倍

在 Mythos 模型发布的阴影下，谷歌低调推出新模型，采用扩散模型生成文字，推理速度提升 4 倍。

★★★★☆ 扩散模型在文本生成领域的新突破方向

小米实测最快 1T 大模型：吞吐量每秒 1000+ Tokens

小米在通用 GPU 上实现 1T 参数大模型推理，吞吐量超过每秒 1000 Tokens，支持 Vibe Coding 七秒交付。

★★★★☆ 通用 GPU 运行超大模型的高效推理方案

Deezer 推出跨平台 AI 音乐检测工具

Deezer 发布新工具，可扫描 Spotify、Apple Music 等其他流媒体平台的播放列表，识别其中的 AI 生成音乐。

★★★★☆ AI 内容检测从文本/图像扩展到音乐领域

Meshy 发布全球首个 3D AI Agent

3D 创作领域迎来里程碑时刻，Meshy 推出全球首个 3D AI Agent，有望像 ChatGPT 一样降低 3D 创作门槛。

★★★★☆ 3D 内容创作从工具时代迈入 Agent 时代

阿里推出免费 AI 志愿填报 Agent

阿里发布面向 1290 万高考生的志愿填报 Agent，免费使用，前期已通过 40 万 AI 考生进行压力测试。

★★★★☆ AI Agent 在垂直民生场景的大规模落地验证

AI 短剧工具赛道获年度最大单笔融资

AI 短剧创作工具领域完成年度最大单笔融资，资本持续看好 AI 视频生成在短剧方向的应用前景。

★★★★☆ AI 视频生成商业化路径在短剧赛道获资本认可

"AI 重度"企业每月为每位员工花费 7500 美元在 AI 上

根据 Ramp AI Index 数据，最痴迷 AI 的企业每月为每位员工平均花费 7500 美元用于 AI 工具和服务。

★★★☆☆ 企业 AI 投入的真实成本量化参考

TechCrunch

Anthropic CEO Dario Amodei 仅有一名直接下属

Anthropic CEO Dario Amodei 的管理架构极为扁平，他只有一名直接汇报的下属，这在快速增长的大型 AI 公司中极为罕见。

★★★★☆ 极端扁平化管理的 AI 公司组织架构样本

TechCrunch

📄 重要论文

时序技巧可节省高达 14% 的 LLM 训练能耗

荷兰特温特大学研究团队发现，通过巧妙的时序调整，可以在不牺牲模型性能的情况下，将 LLM 训练能耗降低最多 14%。

★★★★★ 即插即用的训练节能方案，无需硬件改动

IEEE Spectrum

通用 Agent 能否自动化数据清洗？

论文提出 Curation-Bench 基准，测试通用编码 Agent 能否自动化执行 AI 训练数据清洗流程，包括数据检查、策略实施、评估和迭代修正。

★★★★★ Agent 自动化数据工程，可能改变数据准备范式

审计现代 LLM 的隐形依赖关系

论文提出 ModSleuth 框架，用于追踪和审计现代 LLM 训练管线中依赖的上游模型生成数据、过滤语料、评判输出等递归依赖关系。

★★★★★ 解决 LLM 供应链透明度的关键工具

ReVision：通过时序视觉冗余缩减扩展计算机使用 Agent

论文提出 ReVision 方法，通过减少计算机使用 Agent 在交互过程中视觉观测的时间冗余，大幅降低 token 成本，使长历史上下文成为可能。

★★★★★ 解决计算机使用 Agent 长上下文 token 成本瓶颈

SparDA：稀疏解耦注意力实现高效长上下文 LLM 推理

论文提出 SparDA 架构，通过引入第四层投影（Forecast）实现稀疏注意力，解决长上下文推理中 KV 缓存和选择步骤的计算瓶颈。

★★★★★ 长上下文推理的架构级优化方案

DRIFT：视觉语言模型的连续输出解码框架

论文提出 DRIFT 框架，通过残差流适配器让预训练视觉语言模型能够解码连续输出，适用于时间定位、机器人控制等需要精确连续值的任务。

★★★★★ VLM 从离散 token 输出扩展到连续值任务

Grammar-Constrained Decoding 可被利用生成恶意代码

论文揭示了一种名为 CodeSpear 的新型越狱攻击，利用语法约束解码（GCD）诱导 LLM 生成恶意代码，指出可靠性技术本身可成为攻击面。

★★★★★ 揭示 GCD 的安全隐患，影响代码生成工具链

LLM 对自己的回答过度自信

研究发现，指令微调后的 LLM 校准性变差，且对话模板会进一步加剧这种过度自信，导致模型对自己的错误回答信心过高。

★★★★★ 揭示对话式 LLM 校准问题的根本原因

次二次方架构比较：xLSTM、Mamba-2 与 Gated DeltaNet

论文系统比较了三种主流次二次方架构在代码模型预训练、知识蒸馏和时间序列预训练上的表现，为架构选型提供参考。

★★★★★ Transformer 替代架构的实证对比指南