OpenAI 内部重组:Greg Brockman 接管产品战略,ChatGPT 与 Codex 或将合并
OpenAI 联合创始人 Greg Brockman 正式接管产品战略,公司计划将 ChatGPT 与编程产品 Codex 合并,以统一开发者和终端用户体验。
3 人团队 + 100 个 AI 程序员,月耗 130 万美元 token 成本,OpenAI 全额支持
一支小型团队利用 AI 编程 Agent 进行高强度开发,每月 token 开销高达 130 万美元,揭示“token 无限”场景下软件开发的极端可能性。
ArXiv 新规:全权由 AI 撰写的论文作者将被禁发一年
研究论文预印本平台 ArXiv 加强 LLM 使用监管,对滥用 AI 生成内容的作者实施一年封禁,以维护学术诚信。
亚利桑那大学学生嘘声抵制 Eric Schmidt 毕业演讲中的 AI 鼓吹
前 Google CEO Eric Schmidt 在毕业典礼演讲中宣扬 AI 前景时被学生持续嘘声打断,反映年轻一代对 AI 冲击就业市场的焦虑。
苹果新版 Siri 将支持自动删除聊天记录
据 Bloomberg 报道,iOS 27 中更接近聊天机器人的新版 Siri 将加入自动删除聊天历史的功能,苹果希望以隐私保护作为 AI 竞争差异化优势。
OpenAI 持股芯片公司暴涨,成今年最大科技 IPO
Sam Altman 投资的 AI 芯片公司上市后股价飙升,其个人 20 亿美元持股版图曝光,AI 基础设施投资回报率惊人。
宠物健康大模型公司连融两轮,已服务超 200 家宠物医院
AI 驱动的宠物健康诊断公司完成软硬件一体化布局,形成数据回流与模型训练闭环,垂直领域 AI 落地再获验证。
WildTableBench:多模态基础模型的野生表格理解基准
提出首个针对真实世界复杂表格图像的多模态基准,涵盖多样布局与领域,揭示当前模型在视觉结构感知与数值推理上的显著差距。
BEAM:二值专家激活掩码实现 MoE 动态路由
提出无需重新训练的 MoE 加速方法,通过二值掩码选择性激活专家,在保持高性能的同时大幅降低推理延迟。
PreScam:从早期对话预测诈骗演进的基准
首个针对多轮对话式诈骗的预测基准,揭示语言模型能否理解真实诈骗随时间演化的心理操控技术。
Boosting RLVR via Randomly Selected Few-Shot Guidance
提出通过随机选取少量示例引导来提升可验证奖励强化学习的样本效率,解决困难问题中正确 rollout 难以生成的问题。
CurveBench:嵌套 Jordan 曲线的精确拓扑推理基准
引入 756 张嵌套曲线图像,要求模型从视觉输入恢复完整的包含关系树,测试模型的结构化空间推理能力。
scientific-agent-skills(⭐150)
一套即用型 Agent 技能包,覆盖科研、工程、分析、金融和写作场景,可直接集成到 Claude Code 等 Agent 系统中。
agentmemory(⭐128)
基于真实基准测试的 #1 持久化记忆方案,为 AI 编程 Agent 提供跨会话上下文保持能力。
TencentDB-Agent-Memory(⭐85)
腾讯开源的本地长期记忆方案,通过四层渐进式流水线实现零外部 API 依赖的 Agent 记忆管理。
codegraph(⭐155)
预索引的代码知识图谱,专为 Claude Code 优化,减少 token 消耗和工具调用次数,100% 本地运行。
academic-research-skills(⭐218)
用 Claude Code 跑通全套科研流程的开源流水线,覆盖研究→写作→审阅→修订→终稿四个阶段。
zerostack(⭐77)
用 Rust 编写的最小化编程 Agent,极致优化内存占用和性能,适合资源受限环境。
💡 今日观察
今天最值得关注的信号是 **Agent 基础设施的全面爆发**:从记忆管理(agentmemory、TencentDB-Agent-Memory)、代码理解(codegraph)到科研工作流(academic-research-skills、scientific-agent-skills),开源社区正在快速填补 Agent 落地的关键短板。与此同时,ArXiv 的 AI 论文禁令和学生对 AI 的公开抵制提醒我们:技术能力的提升必须与社会接受度同步推进。对于 AI builder 而言,当前的核心策略应是 **优先解决 Agent 的持久化记忆和成本效率问题**——这两者正成为从 Demo 到生产环境的最大瓶颈。