OpenAI 翁家翌提出全新推理范式:不更新参数,通过生成 .py 文件实现强化学习
决策只需 AI 手搓一个 Python 文件,过程开源可复现,为 LLM 推理开辟新路径。
谷歌发布「AI联合数学家」,刷新最难数学AI基准SOTA
AI 与数学家协同,牛津教授借助该工具解开群论悬案,标志 AI for Math 迈出关键一步。
百度发布文心 5.1:搜索能力登顶国内,预训练成本仅为业界 6%
搜索、知识、Agent 能力全面提升,成本优势显著。
阶跃最新语音模型位列 Artificial Analysis 评测榜中国第一
中国语音 AI 模型首次登顶国际权威评测。
Anthropic 发布金融行业插件 (financial-services-plugins)
专为金融领域设计的 Claude 能力扩展,GitHub 星数快速攀升。
Nvidia 今年已承诺 400 亿美元 AI 股权投资
持续加码 AI 生态投资,成为行业最大金主之一。
微软内部邮件曝光:曾担心 OpenAI 跑到亚马逊并「说 Azure 坏话」
Musk v. Altman 庭审文件揭示微软与 OpenAI 早期合作中的真实顾虑。
铭凡发布全闪 S5/S7 NAS,联手英特尔推动端侧智能体
搭载英特尔处理器,定位本地智算与 AI 边缘计算。
美图 RoboNeo 全新升级:首创影像创作 Agent Teams
打造「赛博乙方天团」,多 Agent 协作完成影像任务。
EMO: Pre-training Mixture of Experts for Emergent Modularity
提出新型 MoE 预训练方法,实现专家模块的涌现式分工,打破传统 MoE 领域性能退化问题。
StraTA: Strategic Trajectory Abstraction for Agentic RL
引入显式轨迹级策略抽象,解决长程决策中的探索与信用分配难题。
Prescriptive Scaling Laws for Data Constrained Training
在数据受限场景下建模重复训练的超额损失,提出新的缩放法则指导预训练决策。
Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO
发现 GRPO 中序列聚合 vs 令牌聚合的偏差问题,提出平衡聚合方案。
KernelBench-X: Benchmark for Evaluating LLM-Generated GPU Kernels
涵盖 176 个任务、15 个类别,系统评估 LLM 生成 Triton Kernel 的正确性与效率。
💡 今日观察
今天最值得关注的信号是 **Agent 生态正从「概念验证」全面转向「工程化落地」**。OpenAI 翁家翌的 `.py 文件即策略」新范式`、Anthropic 的金融插件、以及多个高星开源 Agent 项目(GenericAgent、AI-Trader),都指向同一个方向:Agent 不再只是聊天机器人,而是可编程、可自进化、可降本的生产力单元。另一个关键趋势是 **数据受限下的训练优化**——Prescriptive Scaling Laws 和 Balanced Aggregation 两篇论文表明,学界和产业界正在全力应对高质量数据枯竭的挑战,这将是未来 12 个月最核心的技术瓶颈之一。