OpenAI 发布 GPT-Realtime-2,首个 GPT-5 级推理音频模型
该模型能实时理解并生成带有推理能力的语音,标志着 AI 从“听写”进化到“倾听与思考”。
Google Android Show 发布 AI-first Googlebooks、vibe-coded 小部件等重磅更新
Gemini Intelligence 深度嵌入系统,支持自动填表、Gboard 语音听写和自然语言创建桌面小部件。
OpenAI 推出 Daybreak 安全 AI 项目
基于 Codex Security Agent 自动发现和修复代码漏洞,对标 Anthropic 的 Claude Mythos。
Mira Murati 的 Thinking Machines 公布“交互模型”新方向
让 AI 像人类一样持续感知音频、视频等多模态输入进行协作,而非单次问答。
Sam Altman 庭审证词曝光:Ilya 持有 70 亿美元 OpenAI 股权,Musk 曾想将 OpenAI 交给子女
世纪庭审揭示 OpenAI 内部权力斗争与股权分配细节。
Anthropic 警告投资者警惕二级市场股票交易
声明任何通过二级平台的股票转让均无效,不会在官方账簿上承认。
Google 与 SpaceX 洽谈太空数据中心部署
将 AI 算力送入轨道,利用太空能源和冷却优势,尽管当前成本仍远高于地面。
可灵 AI 被曝剥离快手单独融资,估值 200 亿美元
快手或将拆分出第二家“快手”,可灵独立发展加速商业化。
OpenClaw 低调更新重磅版本,AI Agent 能看屏幕并操作鼠标键盘
新增屏幕感知和 GUI 操作能力,Agent 自动化能力大幅提升。
Anthropic 发布法律服务 AI 工具
帮助律所自动化文档搜索、判例研究、取证准备和文件起草等事务性工作。
InfoLaw: 面向大语言模型的信息缩放定律
提出质量加权混合数据和重复训练下的信息缩放框架,解决标准缩放定律在不同数据配方下无法可靠外推的问题。
一个神经元就足以绕过 LLM 安全对齐
通过定位并操控单个拒绝门控神经元或概念神经元,即可绕过安全机制,横跨 7 个模型和两个模型家族。
ELF: 嵌入式语言流——连续扩散语言模型
证明连续扩散模型只需最小适配即可在语言建模上取得有效结果,挑战了离散 token 的统治地位。
Crosslingual On-Policy Self-Distillation (COPSD) 多语言推理
将模型自身的高资源推理行为迁移到低资源语言,显著提升低资源语言数学推理能力。
Conformal Agent Error Attribution: 多 Agent 系统错误归因框架
基于共形预测理论,为 LLM 多 Agent 系统提供有限样本、分布无关的错误归因保证。
💡 今日观察
今天最值得关注的信号是 **AI 产品形态正在从“问答”向“持续交互”和“环境操控”演进**。OpenAI 的 GPT-Realtime-2 让语音交互具备推理能力,Mira Murati 的 Thinking Machines 提出多模态持续协作范式,OpenClaw 新增屏幕操控能力——三者共同指向同一个方向:AI 不再只是聊天窗口里的助手,而是能看、能听、能操作的“数字同事”。对于开发者而言,这意味着应用架构需要从单次 API 调用转向长时会话管理和环境感知;对于创业者,Agent 操控 GUI 的能力将催生新一代自动化工具和 RPA 替代品。另外,Ilya 持有 70 亿美元 OpenAI 股权和 Anthropic 警告二级市场交易这两条新闻,提醒我们 AI 公司的治理和股权结构正成为不可忽视的风险因素。