SaaS-Bench 评测出炉:Claude 等大模型全自动办公通过率不足 4%
UniPat AI 发布的真实办公任务评测显示,当前主流大模型在 SaaS 全自动办公场景下完全通过率最高仅 3.8%,AI 自主执行复杂工作流远未成熟。
ClickUp 大规模裁员:数百名员工被数千个 AI Agent 取代
这家成立 9 年的项目管理公司用 AI 代理替代大量人力,预示未来工作模式的剧变。
Windsurf 核心工程师离开 DeepMind,放弃并购激励金
全程参与 AI Coding 产品 Windsurf 的核心成员选择离开,投身新方向,引发对 AI 编程赛道人才走向的关注。
华为具身大脑一号位创业,获亿元级融资
前华为具身智能负责人创业,用认知科学方法重做世界模型,获得大额资本支持。
蚂蚁灵波:VLA 和世界模型都不是终局,要做机器人时代的安卓
蚂蚁灵波沈宇军提出物理世界独有的模型架构,其 LingBot-VA 论文被 RSS 2026 接收。
Waymo 因雨天故障大规模召回 Robotaxi
无人车在雨天表现不佳,Waymo 被迫暂停多城服务并召回车辆。
教宗发布 AI 通谕,警告技术权力集中风险
教宗 Leo XIV 在首份通谕中聚焦 AI 时代的人类尊严,指出 AI 加剧了权力集中和民主侵蚀问题。
AI 安全成为实时博弈:连 Google 也在摸索中前行
AI 安全领域进入过渡期,各方都在实时应对新型攻击手段,包括利用 chatbot 个性进行黑客攻击。
AI 漏洞挖掘进入军备竞赛时代
攻击者利用 AI 加速漏洞利用开发,传统 bug hunting 模式正被颠覆。
Equilibrium Reasoners:通过吸引子学习实现可扩展推理
提出 EqR 框架,将推理建模为学习任务条件化的吸引子动力学,实现测试时计算的可扩展性。
The Illusion of Reasoning:揭露 LLM 推理中的隐性数据污染
提出 Zero-CoT Truncation 方法检测模型通过改写 benchmark 数据伪装推理能力的“隐性污染”。
LatentUMM:统一多模态模型的双重潜在空间对齐
解决多模态模型中理解和生成能力不一致问题,通过显式对齐编码和解码变换来消除语义漂移。
SciAtlas:面向自动化科学研究的超大规模知识图谱
构建支持拓扑推理的学术知识图谱,突破传统关键词/向量检索局限,为 AI 驱动科研提供基础设施。
From Seeing to Thinking:解耦感知与推理提升 VLM 后训练效果
系统研究 VLM 中视觉感知与推理能力的解耦训练,发现当前瓶颈主要在感知而非推理。
Geo-Align:通过度量几何奖励对齐视频生成
提出基于度量几何的奖励函数,解决相机控制视频生成中物理尺度对齐问题。
StepAudio 2.5:统一音频语言基础模型技术报告
在 ASR、TTS、实时口语交互等任务上实现统一建模,性能接近专业系统水平。
anthropics/knowledge-work-plugins ⭐142
Anthropic 官方发布的 Claude Cowork 插件集合,面向知识工作者,覆盖多种工作流。
anthropics/claude-plugins-official ⭐82
Anthropic 官方维护的高质量 Claude Code 插件目录。
mukul975/Anthropic-Cybersecurity-Skills ⭐91
754 个结构化网络安全技能,映射 MITRE ATT&CK、NIST CSF 等 5 个框架,兼容 20+ AI 编程平台。
multica-ai/multica ⭐60
开源托管 Agent 平台,将编程 Agent 转化为可分配任务、追踪进度的真正队友。
manaflow-ai/cmux ⭐73
基于 Ghostty 的 macOS 终端,专为 AI 编程 Agent 设计,支持垂直标签和通知。
Lum1104/Understand-Anything ⭐606
将任意代码转化为可探索、可搜索、可提问的交互式知识图谱,兼容 Claude Code、Codex 等主流 AI 编程工具。
rohitg00/agentmemory ⭐65
基于真实基准测试的 AI 编程 Agent 持久化记忆方案,号称 #1。