硅谷大厂高管集体跳槽Anthropic
多位百亿公司CTO级高管放弃原有职位,前往Anthropic担任工程师,反映一线模型公司的人才虹吸效应加剧。
哈佛研究:AI急诊诊断准确率超过人类医生
最新研究表明,在真实急诊场景中,大语言模型的诊断准确率高于两名人类医生。
苹果误将Claude.md打包进官方App
苹果官方应用意外包含Claude配置文件,暴露其内部使用定制版Claude模型。
DeepSeek V4最大遗憾:Engram架构未落地
DeepSeek V4发布后引发讨论,其备受期待的Engram架构最终未出现在正式版本中。
AI生成内容被奥斯卡拒之门外
美国电影艺术与科学学院宣布,AI生成的演员和剧本将不具备奥斯卡参评资格。
迪士尼乐园全面启用面部识别
迪士尼乐园开始对游客使用面部识别技术,NSA同时测试Anthropic的Mythos模型进行漏洞检测。
Nemotron 3 Nano Omni
NVIDIA发布首个原生支持音频输入的多模态小模型,在文档理解、长音视频理解等任务上取得领先。
计算机使用Agent的步级优化
提出非均匀计算分配策略,在保持性能的同时大幅降低Agent交互成本。
微调后的安全漂移:来自高风险领域的证据
分析100个模型后发现,领域微调会显著削弱基础模型的安全对齐能力。
FlashRT:高效的提示注入与知识破坏红队测试
提出计算和内存高效的LLM红队测试方法,针对长上下文模型的安全威胁。
Claw-Eval-Live:实时演化工作流Agent评测
提出可刷新的实时Agent评测基准,解决传统静态评测与真实需求脱节的问题。
RoundPipe:多消费级GPU高效训练
提出新的流水线并行调度方法,解决权重绑定问题,在消费级GPU上高效微调LLM。
TradingAgents](https://github.com/TauricResearch/TradingAgents)
多智能体LLM金融交易框架,支持复杂交易策略的协作执行。
★★★★★
Agent在金融领域的端到端落地框架
ruflo](https://github.com/ruvnet/ruflo)
Claude原生Agent编排平台,支持多智能体集群、RAG集成和Claude Code/Codex原生对接。
★★★★★
企业级Agent编排基础设施,降低多Agent部署门槛
warp](https://github.com/warpdotdev/warp)
基于终端的Agentic开发环境,将AI能力深度集成到终端工作流。
★★★★★
下一代AI原生开发环境参考实现
free-claude-code](https://github.com/Alishahryar1/free-claude-code)
免费使用Claude Code的终端、VSCode扩展和Discord集成方案。
★★★★☆
降低Claude Code使用门槛,惠及更多开发者
rtk](https://github.com/rtk-ai/rtk)
CLI代理工具,可将常见开发命令的Token消耗降低60-90%,单Rust二进制文件,零依赖。
★★★★☆
显著降低AI开发工具使用成本