<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="podcast.xsl"?>
<rss version="2.0" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>AI 每日简报 · AI Daily Digest</title>
    <link>https://jimmuji.github.io/ai-daily-digest/</link>
    <language>zh-cn</language>
    <description>每天 5 分钟，用耳朵掌握 AI 领域最新动态。全自动采集 · 智能筛选 · 语音播报。</description>
    <itunes:author>AI Daily Digest</itunes:author>
    <itunes:summary>每天 5 分钟，用耳朵掌握 AI 领域最新动态。全自动采集 · 智能筛选 · 语音播报。</itunes:summary>
    <itunes:type>episodic</itunes:type>
    <itunes:explicit>no</itunes:explicit>
    <itunes:category text="Technology"/>
    <itunes:image href="https://jimmuji.github.io/ai-daily-digest/podcast-cover.png"/>
    <image><url>https://jimmuji.github.io/ai-daily-digest/podcast-cover.png</url><title>AI 每日简报</title><link>https://jimmuji.github.io/ai-daily-digest/</link></image>
    <itunes:owner><itunes:name>AI Daily Digest</itunes:name></itunes:owner>
    <item>
      <title>AI 每日简报 · 2026-06-21 周日</title>
      <description>各位听众朋友，早上好！今天是2026年6月21号，欢迎收听AI行业每日播报。今天AI圈可以说是风起云涌，从美国政府直接出手强制下架模型，到顶级科学家跳槽，再到Agent安全危机全面爆发，信息量非常大。我们这就开始今天的节目。
先说一个重磅消息，美国政府以国家安全为由，强制要求Anthropic下架它最新的两个模型Fable 5和Mythos 5。安全研究人员还签署了公开信表示反对。这件事的意义在于，AI监管已经从口头警告进入实质性干预阶段了，所有大模型公司都得重新掂量一下自己的发布策略。
人才流动方面也是大新闻。诺贝尔奖得主、AlphaFold之父John Jumper宣布离开DeepMind，加入Anthropic。这已经是继Gemini联合负责人之后，又一位顶级科学家从Google出走。看来Anthropic在挖人方面确实有一套，Google的人才流失危机正在加剧。
再来看看OpenAI这边，一季度营收57亿美元，同比翻了三倍，但同时也烧了37亿美元，光股权激励就占了23亿。虽然营收增长很快，但盈利模式仍然存疑，价格战可能还会加速行业洗牌。
不过OpenAI也没闲着，推出了一个叫Record &amp; Replay的新功能。你只要在Mac上演示一遍工作流程，Codex就能自动重复执行。这意味着AI Agent从辅助编码正式迈向自主执行工作流，企业自动化的门槛一下子降低了很多。
说到Agent，今天还有一个必须关注的安全问题。Check Point Research发现，Langflow、LangGraph和LangChain这三大主流Agent框架都存在严重漏洞，已经有7000个Langflow服务器遭到攻击。Agent框架的安全漏洞正在成为重大攻击面，所有做Agent开发的团队都需要立即排查。
好消息是，NVIDIA很快推出了一个叫SkillSpector的开源工具，专门用来扫描Agent技能中的漏洞和恶意模式。Google DeepMind也发布了首份系统性的Agent安全控制路线图。安全防御正在从被动转向主动。
其他公司也有不少动作。Perplexity发布了Brain，一个能让Agent自我改进的记忆系统，晚上还能自己学习，提升正确率的同时降低成本。Adobe把AI Agent嵌入到Creative Cloud全系产品里，从内容生成转向生产编排。NVIDIA还推出了SpatialClaw，一个不需要训练就能做3D空间推理的Agent，代码就是行动接口。
论文方面，Cisco开源了FAPO，能自动优化多步LLM管道的提示，在15个基准测试中超越了现有方法。还有一篇论文提出，用第一人称的人类视频来训练具身AI，效果竟然比真实的机器人数据还好，这可能会打破机器人训练的数据瓶颈。
开源社区也很热闹。智谱AI发布了GLM-5.2，753B参数，支持100万token上下文，而且是MIT协议，可以随便用。还有OpenMontage，全球首个开源的Agent视频制作系统，有12条管线、500多个Agent技能。另外，一个叫freellmapi的工具聚合了14家AI提供商的免费API，零成本就能访问多种模型，非常适合个人开发者。
今日观察：今天最值得关注的信号是AI Agent安全危机全面爆发。三大主流框架同时曝出漏洞，NVIDIA和Google DeepMind紧急推出安全工具和框架。与此同时，OpenAI Codex的Record &amp; Replay功能让Agent从辅助工具升级为自主执行者，Perplexity Brain和FAPO则从记忆和提示优化两个方向推动Agent自主化。Agent的安全和自主正成为硬币的两面，谁能先解决Agent安全规模化部署的难题，谁就能赢得下一阶段的竞争。
好，今天的播报就到这里。我们明天见！</description>
      <itunes:summary>各位听众朋友，早上好！今天是2026年6月21号，欢迎收听AI行业每日播报。今天AI圈可以说是风起云涌，从美国政府直接出手强制下架模型，到顶级科学家跳槽，再到Agent安全危机全面爆发，信息量非常大。我们这就开始今天的节目。
先说一个重磅消息，美国政府以国家安全为由，强制要求Anthropic下架它最新的两个模型Fable 5和Mythos 5。安全研究人员还签署了公开信表示反对。这件事的意义在于，AI监管已经从口头警告进入实质性干预阶段了，所有大模型公司都得重新掂量一下自己的发布策略。
人才流动方面也是大新闻。诺贝尔奖得主、AlphaFold之父John Jumper宣布离开DeepMind，加入Anthropic。这已经是继Gemini联合负责人之后，又一位顶级科学家从Google出走。看来Anthropic在挖人方面确实有一套，Google的人才流失危机正在加剧。
再来看看OpenAI这边，一季度营收57亿美元，同比翻了三倍，但同时也烧了37亿美元，光股权激励就占了23亿。虽然营收增长很快，但盈利模式仍然存疑，价格战可能还会加速行业洗牌。
不过OpenAI也没闲着，推出了一个叫Record &amp; Replay的新功能。你只要在Mac上演示一遍工作流程，Codex就能自动重复执行。这意味着AI Agent从辅助编码正式迈向自主执行工作流，企业自动化的门槛一下子降低了很多。
说到Agent，今天还有一个必须关注的安全问题。Check Point Research发现，Langflow、LangGraph和LangChain这三大主流Agent框架都存在严重漏洞，已经有7000个Langflow服务器遭到攻击。Agent框架的安全漏洞正在成为重大攻击面，所有做Agent开发的团队都需要立即排查。
好消息是，NVIDIA很快推出了一个叫SkillSpector的开源工具，专门用来扫描Agent技能中的漏洞和恶意模式。Google DeepMind也发布了首份系统性的Agent安全控制路线图。安全防御正在从被动转向主动。
其他公司也有不少动作。Perplexity发布了Brain，一个能让Agent自我改进的记忆系统，晚上还能自己学习，提升正确率的同时降低成本。Adobe把AI Agent嵌入到Creative Cloud全系产品里，从内容生成转向生产编排。NVIDIA还推出了SpatialClaw，一个不需要训练就能做3D空间推理的Agent，代码就是行动接口。
论文方面，Cisco开源了FAPO，能自动优化多步LLM管道的提示，在15个基准测试中超越了现有方法。还有一篇论文提出，用第一人称的人类视频来训练具身AI，效果竟然比真实的机器人数据还好，这可能会打破机器人训练的数据瓶颈。
开源社区也很热闹。智谱AI发布了GLM-5.2，753B参数，支持100万token上下文，而且是MIT协议，可以随便用。还有OpenMontage，全球首个开源的Agent视频制作系统，有12条管线、500多个Agent技能。另外，一个叫freellmapi的工具聚合了14家AI提供商的免费API，零成本就能访问多种模型，非常适合个人开发者。
今日观察：今天最值得关注的信号是AI Agent安全危机全面爆发。三大主流框架同时曝出漏洞，NVIDIA和Google DeepMind紧急推出安全工具和框架。与此同时，OpenAI Codex的Record &amp; Replay功能让Agent从辅助工具升级为自主执行者，Perplexity Brain和FAPO则从记忆和提示优化两个方向推动Agent自主化。Agent的安全和自主正成为硬币的两面，谁能先解决Agent安全规模化部署的难题，谁就能赢得下一阶段的竞争。
好，今天的播报就到这里。我们明天见！</itunes:summary>
      <enclosure url="https://jimmuji.github.io/ai-daily-digest/audio/2026-06-21.mp3" length="1579104" type="audio/mpeg"/>
      <guid isPermaLink="true">https://jimmuji.github.io/ai-daily-digest/audio/2026-06-21.mp3</guid>
      <pubDate>Sun, 21 Jun 2026 08:00:00 +0800</pubDate>
      <itunes:duration>04:23</itunes:duration>
      <itunes:explicit>no</itunes:explicit>
      <itunes:image href="https://jimmuji.github.io/ai-daily-digest/podcast-cover.png"/>
    </item>
    <item>
      <title>AI 每日简报 · 2026-06-20 周六</title>
      <description>各位听众朋友，大家早上好！今天是2026年6月20号，欢迎收听今天的AI行业播报。今天的看点不少，从出口管制到医疗突破，从人才流动到开源大模型，信息量很足，我们一个个来聊。
先来说说今天最重磅的消息。美国政府以国家安全为由，强制要求Anthropic下线他们最新的两个模型，Fable 5和Mythos 5，理由是这些模型的防护栏可以被绕过。这个禁令一出，安全界炸了锅，因为Anthropic指出，其他公司的模型也有同样的漏洞。这件事的影响可不小，它可能彻底改变全球AI模型的发布和分发格局，甚至引发关于“谁来决定AI是否危险”的激烈争论。这绝对是未来AI全球治理的一个分水岭事件。
另一边，OpenAI也没闲着。他们宣布GPT-5.5 Instant在医疗健康领域的表现，在准确性、清晰度和完整性上已经超越了医生写的回答，健康相关错误率下降了71%。他们还发布了一个叫LifeSciBench的生命科学基准，用来评估AI在真实科研中的能力。不过，目前最好的模型也只通过了36%的测试，说明这个领域的挑战还非常大。
人才流动方面，也是大新闻不断。AlphaFold的核心开发者、诺贝尔化学奖得主John Jumper，在Google DeepMind干了快九年之后，跳槽去了Anthropic。与此同时，OpenAI在IPO前夕，从Google DeepMind挖来了Transformer的共同发明人Noam Shazeer，还聘用了一位前特朗普政府的AI政策官员。这波操作，信号非常强烈，顶级人才的流向直接反映了AI竞争格局的变化。
说到开源，今天有个里程碑式的消息。Z.ai发布了GLM-5.2，这是一个753B参数的MoE模型，但激活参数只有40B，支持百万token的上下文。关键是，它用的是MIT许可证，意味着完全开源，而且在多个基准上已经超越了GPT-5.5。这是开源模型第一次在综合能力上全面超越同级闭源模型，AI经济的天平正在向开源倾斜。
不过，开源和安全问题往往相伴而生。今天还有一个让人捏把汗的消息，Check Point Research发现，Langflow、LangGraph和LangChain这些AI agent框架存在严重安全漏洞，已经有超过7000台服务器遭到攻击。这个漏洞可以让攻击者远程执行代码，影响非常广泛。安全性，正在成为AI agent落地生产的首要障碍。
其他值得关注的消息还有，挪威宣布从8月底开始，小学1到7年级禁止使用生成式AI工具，中学只能在监督下使用。这是全球AI教育监管收紧的一个信号。另外，Snap因为成本原因，把AI视频团队剥离成了独立公司Dotmo。而AI推理初创公司Baseten，据说在上一轮融资几个月后，又要再筹15亿美元，估值达到130亿美元。看来，AI推理这个“淘金热”还在持续升温。
最后，我们进入今天的“今日观察”。今天最值得关注的信号有三点：第一，美国对Anthropic的出口管制，很可能成为AI全球治理的分水岭；第二，GLM-5.2的开源，标志着开源模型首次在综合能力上全面超越闭源模型；第三，LangGraph等框架的安全漏洞，暴露了AI agent在生产部署中的系统性风险。整体来看，AI产业正在从“能力竞赛”转向“安全与成本竞赛”。
好了，今天的播报就到这里。感谢收听，我们明天见！</description>
      <itunes:summary>各位听众朋友，大家早上好！今天是2026年6月20号，欢迎收听今天的AI行业播报。今天的看点不少，从出口管制到医疗突破，从人才流动到开源大模型，信息量很足，我们一个个来聊。
先来说说今天最重磅的消息。美国政府以国家安全为由，强制要求Anthropic下线他们最新的两个模型，Fable 5和Mythos 5，理由是这些模型的防护栏可以被绕过。这个禁令一出，安全界炸了锅，因为Anthropic指出，其他公司的模型也有同样的漏洞。这件事的影响可不小，它可能彻底改变全球AI模型的发布和分发格局，甚至引发关于“谁来决定AI是否危险”的激烈争论。这绝对是未来AI全球治理的一个分水岭事件。
另一边，OpenAI也没闲着。他们宣布GPT-5.5 Instant在医疗健康领域的表现，在准确性、清晰度和完整性上已经超越了医生写的回答，健康相关错误率下降了71%。他们还发布了一个叫LifeSciBench的生命科学基准，用来评估AI在真实科研中的能力。不过，目前最好的模型也只通过了36%的测试，说明这个领域的挑战还非常大。
人才流动方面，也是大新闻不断。AlphaFold的核心开发者、诺贝尔化学奖得主John Jumper，在Google DeepMind干了快九年之后，跳槽去了Anthropic。与此同时，OpenAI在IPO前夕，从Google DeepMind挖来了Transformer的共同发明人Noam Shazeer，还聘用了一位前特朗普政府的AI政策官员。这波操作，信号非常强烈，顶级人才的流向直接反映了AI竞争格局的变化。
说到开源，今天有个里程碑式的消息。Z.ai发布了GLM-5.2，这是一个753B参数的MoE模型，但激活参数只有40B，支持百万token的上下文。关键是，它用的是MIT许可证，意味着完全开源，而且在多个基准上已经超越了GPT-5.5。这是开源模型第一次在综合能力上全面超越同级闭源模型，AI经济的天平正在向开源倾斜。
不过，开源和安全问题往往相伴而生。今天还有一个让人捏把汗的消息，Check Point Research发现，Langflow、LangGraph和LangChain这些AI agent框架存在严重安全漏洞，已经有超过7000台服务器遭到攻击。这个漏洞可以让攻击者远程执行代码，影响非常广泛。安全性，正在成为AI agent落地生产的首要障碍。
其他值得关注的消息还有，挪威宣布从8月底开始，小学1到7年级禁止使用生成式AI工具，中学只能在监督下使用。这是全球AI教育监管收紧的一个信号。另外，Snap因为成本原因，把AI视频团队剥离成了独立公司Dotmo。而AI推理初创公司Baseten，据说在上一轮融资几个月后，又要再筹15亿美元，估值达到130亿美元。看来，AI推理这个“淘金热”还在持续升温。
最后，我们进入今天的“今日观察”。今天最值得关注的信号有三点：第一，美国对Anthropic的出口管制，很可能成为AI全球治理的分水岭；第二，GLM-5.2的开源，标志着开源模型首次在综合能力上全面超越闭源模型；第三，LangGraph等框架的安全漏洞，暴露了AI agent在生产部署中的系统性风险。整体来看，AI产业正在从“能力竞赛”转向“安全与成本竞赛”。
好了，今天的播报就到这里。感谢收听，我们明天见！</itunes:summary>
      <enclosure url="https://jimmuji.github.io/ai-daily-digest/audio/2026-06-20.mp3" length="1450512" type="audio/mpeg"/>
      <guid isPermaLink="true">https://jimmuji.github.io/ai-daily-digest/audio/2026-06-20.mp3</guid>
      <pubDate>Sat, 20 Jun 2026 08:00:00 +0800</pubDate>
      <itunes:duration>04:01</itunes:duration>
      <itunes:explicit>no</itunes:explicit>
      <itunes:image href="https://jimmuji.github.io/ai-daily-digest/podcast-cover.png"/>
    </item>
    <item>
      <title>AI 每日简报 · 2026-06-19 周五</title>
      <description>各位听众朋友，早上好！今天是2026年6月19号，欢迎收听今天的AI行业播报。今天AI圈可以说是风起云涌，从模型下架到人才跳槽，从开源大模型到Agent安全框架，看点非常多。我们这就开始。
先说一个重磅消息，Anthropic刚刚发布的Claude Fable 5模型，居然被美国政府紧急要求下架了。原因是特朗普政府以出口管制为由，认为模型涉及韩国SK电讯的所谓“中国关联”。这事儿一出，立刻引发了关于AI监管边界的广泛讨论。要知道，这种级别的模型被强制下架，可是头一回，它给全球的AI公司敲响了警钟——以后部署模型，可能还得考虑地缘政治风险。
另一边，OpenAI的日子也不太好过。一份泄露的财务文件显示，他们第一季度就烧掉了250亿美元。没错，是250亿，单位是美元。这个数字让人不得不质疑，大模型公司这种烧钱模式到底能不能持续。与此同时，OpenAI也在积极布局新方向。他们推出了GPT-5.5 Instant，专门升级了医疗能力，在健康问答的准确性、清晰度和完整性上，居然超越了医生写的答案，错误率下降了71%。这可是AI医疗应用的一个里程碑。
说到人才流动，今天又有一个大新闻。Google Gemini的联合负责人Noam Shazeer，这位Transformer论文的合著者，在重返Google两年后，居然跳槽去了OpenAI。这可是继Karpathy跳槽Anthropic之后的又一次顶级AI人才大挪移。看来OpenAI在为IPO做准备，不断从竞争对手那里挖人。
不过，也有人对AI行业的狂热泼冷水。Yann LeCun就公开警告，说OpenAI和Anthropic这些AI实验室，运营成本下降得不够快，太依赖投资者补贴，正面临“大泡沫破裂”的风险。有意思的是，LeCun自己创立的AMI Labs刚刚融了10亿美元。这算不算一边警告别人，一边自己也在融资呢？
在安全方面，Google DeepMind发布了一份AI控制路线图，把自家的AI Agent都当成了潜在内部威胁来对待，甚至比喻成拿着办公室钥匙的“流氓员工”。他们还警告说，全球安全标准的窗口正在关闭。这是第一个系统性的Agent安全框架，对未来的Agent部署非常有指导意义。与此同时，OpenAI也提出了一个叫“部署模拟”的方法，在发布前通过回放历史对话和模拟工具调用，来评估候选模型的风险。看来，Agent安全已经从理论走向了实践。
再来看开源模型这边，今天也有不少亮点。智谱AI发布了GLM-5.2，这是一个拥有7530亿参数的MoE模型，但激活参数只有400亿，而且完全用MIT许可证开源。这意味着，你可以随便商用、随便微调，没有任何限制。它目前是开源纯文本模型里最强的，支持100万token的上下文，在创意写作基准上表现最佳。
还有一个让人惊讶的开源小模型，来自新浪微博团队的VibeThinker-3B。只有30亿参数，但在推理性能上居然能匹配甚至超越Google、OpenAI、Anthropic这些公司的千亿级大模型。这引发了关于基准测试的争议，但也证明了，并不是参数越大越好，小模型也能有大智慧。
另外，MiniMax发布了一种稀疏注意力机制，在100万token的上下文下，注意力计算量减少了28.4倍。这对长上下文推理的加速非常有价值。还有Netflix开源了一个token优化工具，砍掉了90%的冗余词元，内部已经省下了70万美元。这些工具都在帮大家降低AI的运营成本。
在Agent框架方面，Vercel开源了Eve，一个Apache-2.0的Agent框架，每个Agent就是一个目录，内置了持久执行、沙箱、审批等功能，让Agent开发更标准化。还有一个叫Ponytail的开源工具，让AI Agent像“最懒的资深工程师”一样思考，减少不必要的代码生成，节省token。
最后，今天还有一个值得关注的开源项目，OpenMontage，号称是世界上首个开源的Agent视频制作系统。它包含12条流水线、52个工具、500多个Agent技能，能把AI编码助手变成一个完整的视频制作工作室。这可能会颠覆传统的视频制作方式。
今日观察：今天最值得关注的信号，是AI Agent的安全与治理已经成为行业焦点。Google DeepMind、OpenAI、Anthropic三家公司的动作，都指向同</description>
      <itunes:summary>各位听众朋友，早上好！今天是2026年6月19号，欢迎收听今天的AI行业播报。今天AI圈可以说是风起云涌，从模型下架到人才跳槽，从开源大模型到Agent安全框架，看点非常多。我们这就开始。
先说一个重磅消息，Anthropic刚刚发布的Claude Fable 5模型，居然被美国政府紧急要求下架了。原因是特朗普政府以出口管制为由，认为模型涉及韩国SK电讯的所谓“中国关联”。这事儿一出，立刻引发了关于AI监管边界的广泛讨论。要知道，这种级别的模型被强制下架，可是头一回，它给全球的AI公司敲响了警钟——以后部署模型，可能还得考虑地缘政治风险。
另一边，OpenAI的日子也不太好过。一份泄露的财务文件显示，他们第一季度就烧掉了250亿美元。没错，是250亿，单位是美元。这个数字让人不得不质疑，大模型公司这种烧钱模式到底能不能持续。与此同时，OpenAI也在积极布局新方向。他们推出了GPT-5.5 Instant，专门升级了医疗能力，在健康问答的准确性、清晰度和完整性上，居然超越了医生写的答案，错误率下降了71%。这可是AI医疗应用的一个里程碑。
说到人才流动，今天又有一个大新闻。Google Gemini的联合负责人Noam Shazeer，这位Transformer论文的合著者，在重返Google两年后，居然跳槽去了OpenAI。这可是继Karpathy跳槽Anthropic之后的又一次顶级AI人才大挪移。看来OpenAI在为IPO做准备，不断从竞争对手那里挖人。
不过，也有人对AI行业的狂热泼冷水。Yann LeCun就公开警告，说OpenAI和Anthropic这些AI实验室，运营成本下降得不够快，太依赖投资者补贴，正面临“大泡沫破裂”的风险。有意思的是，LeCun自己创立的AMI Labs刚刚融了10亿美元。这算不算一边警告别人，一边自己也在融资呢？
在安全方面，Google DeepMind发布了一份AI控制路线图，把自家的AI Agent都当成了潜在内部威胁来对待，甚至比喻成拿着办公室钥匙的“流氓员工”。他们还警告说，全球安全标准的窗口正在关闭。这是第一个系统性的Agent安全框架，对未来的Agent部署非常有指导意义。与此同时，OpenAI也提出了一个叫“部署模拟”的方法，在发布前通过回放历史对话和模拟工具调用，来评估候选模型的风险。看来，Agent安全已经从理论走向了实践。
再来看开源模型这边，今天也有不少亮点。智谱AI发布了GLM-5.2，这是一个拥有7530亿参数的MoE模型，但激活参数只有400亿，而且完全用MIT许可证开源。这意味着，你可以随便商用、随便微调，没有任何限制。它目前是开源纯文本模型里最强的，支持100万token的上下文，在创意写作基准上表现最佳。
还有一个让人惊讶的开源小模型，来自新浪微博团队的VibeThinker-3B。只有30亿参数，但在推理性能上居然能匹配甚至超越Google、OpenAI、Anthropic这些公司的千亿级大模型。这引发了关于基准测试的争议，但也证明了，并不是参数越大越好，小模型也能有大智慧。
另外，MiniMax发布了一种稀疏注意力机制，在100万token的上下文下，注意力计算量减少了28.4倍。这对长上下文推理的加速非常有价值。还有Netflix开源了一个token优化工具，砍掉了90%的冗余词元，内部已经省下了70万美元。这些工具都在帮大家降低AI的运营成本。
在Agent框架方面，Vercel开源了Eve，一个Apache-2.0的Agent框架，每个Agent就是一个目录，内置了持久执行、沙箱、审批等功能，让Agent开发更标准化。还有一个叫Ponytail的开源工具，让AI Agent像“最懒的资深工程师”一样思考，减少不必要的代码生成，节省token。
最后，今天还有一个值得关注的开源项目，OpenMontage，号称是世界上首个开源的Agent视频制作系统。它包含12条流水线、52个工具、500多个Agent技能，能把AI编码助手变成一个完整的视频制作工作室。这可能会颠覆传统的视频制作方式。
今日观察：今天最值得关注的信号，是AI Agent的安全与治理已经成为行业焦点。Google DeepMind、OpenAI、Anthropic三家公司的动作，都指向同</itunes:summary>
      <enclosure url="https://jimmuji.github.io/ai-daily-digest/audio/2026-06-19.mp3" length="2148480" type="audio/mpeg"/>
      <guid isPermaLink="true">https://jimmuji.github.io/ai-daily-digest/audio/2026-06-19.mp3</guid>
      <pubDate>Fri, 19 Jun 2026 08:00:00 +0800</pubDate>
      <itunes:duration>05:58</itunes:duration>
      <itunes:explicit>no</itunes:explicit>
      <itunes:image href="https://jimmuji.github.io/ai-daily-digest/podcast-cover.png"/>
    </item>
    <item>
      <title>AI 每日简报 · 2026-06-18 周四</title>
      <description>各位听众朋友，早上好！今天是2026年6月18号，欢迎收听今天的AI行业播报。今天的看点非常集中，可以说是地缘政治风险爆发、企业烧钱警告，以及技术突破齐飞的一天。咱们直接进入正题。
先说最重磅的消息。美国政府突然对Anthropic下手了，命令他们切断所有外国公民对Fable 5和Mythos 5这两个模型的访问，连美国境内的外国用户和员工都不例外。这直接导致全球AI可用性危机。白宫还补了一刀，要求Anthropic彻底封堵所有越狱漏洞，但安全专家直接说，这根本不可能。安全性和可用性的矛盾被推到了台前，监管要求和技术现实严重脱节。更麻烦的是，这起事件还卷入了韩国电信巨头SK Telecom，白宫要求Anthropic切断SK Telecom对Mythos的访问，理由是涉嫌与中国有关联。这说明AI出口管制已经从个人用户升级到了企业合作伙伴，影响范围远超预期。有分析认为，具备高级黑客能力的AI模型即将成为常态，禁止一家公司根本阻止不了技术趋势。
说完地缘政治，咱们看看企业这边。AI投资的泡沫似乎开始破裂了。Uber几个月就烧光了全年的AI预算，多家公司开始削减Claude许可证，Meta也取消了内部排行榜。这标志着Token经济泡沫开始破裂，企业AI投入面临ROI大考。不过，也有好消息。SpaceX正式以600亿美元收购了AI编程助手Cursor，这简直是核弹级整合，Cursor获得了SpaceX的资源和渠道，直接瞄准企业客户。Google也发布了六年来首款智能音箱，售价99美元，用Gemini对话式交互取代了Google Assistant时代的僵硬指令，大模型正式进入消费级硬件。另外，世界模型公司Odyssey估值达到14.5亿美元，亚马逊等投资，世界模型被视作LLM之外的下一个AI大方向。微信支付也发布了AI专属卡，用户可以直接在对话中发起消费，Agent商业化基础设施进一步完善。
技术层面，今天有几篇论文值得关注。Variable-Width Transformers打破了固定宽度范式，证明各层可以分配不同计算容量，参数量匹配时持续优于固定宽度模型。d-OPSD框架首次将在线策略自蒸馏应用于扩散语言模型，有望提升扩散模型在语言任务上的竞争力。ProCUA-SFT数据集发布，包含310万条高质量计算机使用Agent训练轨迹，将OSWorld成功率从10%提升到26.3%以上。EgoCS-400K数据集则填补了世界模型训练的数据空白，包含40万条第一人称游戏视频。还有RepSelect方法，通过表示选择性实现鲁棒的LLM遗忘，对隐私合规和模型安全意义重大。ACE-Ego-0框架统一了人类和机器人第一人称数据，大幅降低具身智能的数据采集成本。多Agent LLM系统的并发异常检测与预防论文，为多Agent系统提供了形式化验证基础。拆分推理架构的博弈论分析，以NVIDIA Dynamo为例，揭示了资源分配中的效率损失。还有中文逻辑推理鲁棒性评测基准ChLogic，测试模型在不同语言下保持逻辑推理能力的一致性。
开源项目方面，ponytail项目让AI Agent倾向于不写不必要的代码，改变过度生成问题。Agent-Reach是一个CLI工具，可以搜索Twitter、Reddit、YouTube、GitHub、Bilibili等平台，零API费用。codegraph为AI编程工具提供预索引代码知识图谱，减少Token消耗。omnigent则是所有AI Agent的元框架，统一管理多个Agent。last30days-skill让Agent具备实时研究能力。claude-code-best-practice和GLM-5都强调从随意编码转向工程化Agent开发。headroom和rtk两个项目都能压缩Token消耗，分别减少60-95%和60-90%。ppt-master能从文档生成可编辑的PowerPoint，提升办公自动化。
今日观察：今天最重磅的信号无疑是Anthropic出口管制事件，将AI地缘政治风险从理论推向了现实。同时，企业AI ROI清算正在加速，Uber的案例说明Token经济泡沫开始破裂，开发者需要更加务实地评估AI投入产出。在技术层面，Variable-Width Transformers和d-OPSD等论文为模型架构和训</description>
      <itunes:summary>各位听众朋友，早上好！今天是2026年6月18号，欢迎收听今天的AI行业播报。今天的看点非常集中，可以说是地缘政治风险爆发、企业烧钱警告，以及技术突破齐飞的一天。咱们直接进入正题。
先说最重磅的消息。美国政府突然对Anthropic下手了，命令他们切断所有外国公民对Fable 5和Mythos 5这两个模型的访问，连美国境内的外国用户和员工都不例外。这直接导致全球AI可用性危机。白宫还补了一刀，要求Anthropic彻底封堵所有越狱漏洞，但安全专家直接说，这根本不可能。安全性和可用性的矛盾被推到了台前，监管要求和技术现实严重脱节。更麻烦的是，这起事件还卷入了韩国电信巨头SK Telecom，白宫要求Anthropic切断SK Telecom对Mythos的访问，理由是涉嫌与中国有关联。这说明AI出口管制已经从个人用户升级到了企业合作伙伴，影响范围远超预期。有分析认为，具备高级黑客能力的AI模型即将成为常态，禁止一家公司根本阻止不了技术趋势。
说完地缘政治，咱们看看企业这边。AI投资的泡沫似乎开始破裂了。Uber几个月就烧光了全年的AI预算，多家公司开始削减Claude许可证，Meta也取消了内部排行榜。这标志着Token经济泡沫开始破裂，企业AI投入面临ROI大考。不过，也有好消息。SpaceX正式以600亿美元收购了AI编程助手Cursor，这简直是核弹级整合，Cursor获得了SpaceX的资源和渠道，直接瞄准企业客户。Google也发布了六年来首款智能音箱，售价99美元，用Gemini对话式交互取代了Google Assistant时代的僵硬指令，大模型正式进入消费级硬件。另外，世界模型公司Odyssey估值达到14.5亿美元，亚马逊等投资，世界模型被视作LLM之外的下一个AI大方向。微信支付也发布了AI专属卡，用户可以直接在对话中发起消费，Agent商业化基础设施进一步完善。
技术层面，今天有几篇论文值得关注。Variable-Width Transformers打破了固定宽度范式，证明各层可以分配不同计算容量，参数量匹配时持续优于固定宽度模型。d-OPSD框架首次将在线策略自蒸馏应用于扩散语言模型，有望提升扩散模型在语言任务上的竞争力。ProCUA-SFT数据集发布，包含310万条高质量计算机使用Agent训练轨迹，将OSWorld成功率从10%提升到26.3%以上。EgoCS-400K数据集则填补了世界模型训练的数据空白，包含40万条第一人称游戏视频。还有RepSelect方法，通过表示选择性实现鲁棒的LLM遗忘，对隐私合规和模型安全意义重大。ACE-Ego-0框架统一了人类和机器人第一人称数据，大幅降低具身智能的数据采集成本。多Agent LLM系统的并发异常检测与预防论文，为多Agent系统提供了形式化验证基础。拆分推理架构的博弈论分析，以NVIDIA Dynamo为例，揭示了资源分配中的效率损失。还有中文逻辑推理鲁棒性评测基准ChLogic，测试模型在不同语言下保持逻辑推理能力的一致性。
开源项目方面，ponytail项目让AI Agent倾向于不写不必要的代码，改变过度生成问题。Agent-Reach是一个CLI工具，可以搜索Twitter、Reddit、YouTube、GitHub、Bilibili等平台，零API费用。codegraph为AI编程工具提供预索引代码知识图谱，减少Token消耗。omnigent则是所有AI Agent的元框架，统一管理多个Agent。last30days-skill让Agent具备实时研究能力。claude-code-best-practice和GLM-5都强调从随意编码转向工程化Agent开发。headroom和rtk两个项目都能压缩Token消耗，分别减少60-95%和60-90%。ppt-master能从文档生成可编辑的PowerPoint，提升办公自动化。
今日观察：今天最重磅的信号无疑是Anthropic出口管制事件，将AI地缘政治风险从理论推向了现实。同时，企业AI ROI清算正在加速，Uber的案例说明Token经济泡沫开始破裂，开发者需要更加务实地评估AI投入产出。在技术层面，Variable-Width Transformers和d-OPSD等论文为模型架构和训</itunes:summary>
      <enclosure url="https://jimmuji.github.io/ai-daily-digest/audio/2026-06-18.mp3" length="1963872" type="audio/mpeg"/>
      <guid isPermaLink="true">https://jimmuji.github.io/ai-daily-digest/audio/2026-06-18.mp3</guid>
      <pubDate>Thu, 18 Jun 2026 08:00:00 +0800</pubDate>
      <itunes:duration>05:27</itunes:duration>
      <itunes:explicit>no</itunes:explicit>
      <itunes:image href="https://jimmuji.github.io/ai-daily-digest/podcast-cover.png"/>
    </item>
    <item>
      <title>AI 每日简报 · 2026-06-17 周三</title>
      <description>AI 每日简报，周三，2026-06-17。以下是今天的重点。
行业新闻。
Anthropic 与白宫爆发冲突，Claude Fable 5 被要求下线。美国出口管制指令要求 Anthropic 暂停对海外用户（包括其自身外籍员工）开放其最新模型 Fable 5 和 Mythos 5，Anthropic 高管赴华盛顿谈判后仍存分歧。
Anthropic 与政府冲突反促商业增长，销售数据表明。根据 Ramp 的数据，Anthropic 与特朗普政府的公开争执反而提升了其在企业用户中的受欢迎程度。
SpaceX 以 600 亿美元股票收购 Cursor。SpaceX 在 IPO 数日后宣布以 600 亿美元股票收购 AI 编程工具公司 Cursor，旨在强化其 AI 部门并争夺企业客户。
Google 发布 Android 17，深度集成 Gemini AI 功能。Android 17 和 Wear OS 7 正式发布，引入全新多任务工具、家长控制和安全功能，并伴随 Pixel Drop 将 Google 最新 AI 模型部署至设备端。
阿里发布首个具身大模型 Qwen-Robot 系列。阿里巴巴推出 Qwen-Robot 系列模型，实现机器人“边走、边看、边思考”的全身协同能力。
一个模型控制手脚腰身，机器人学会全身协同干精细活。研究团队提出新方法，让机器人首次实现全身协同完成精细操作任务。
Facebook 推出 AI Mode 搜索，基于公开帖子生成结果。Meta 在 Facebook 中推出 AI Mode 搜索功能，搜索结果基于用户公开帖子生成，同时推出多项新 AI 功能。
Meta CTO 承认公司 AI 重组“糟糕透顶”。Andrew Bosworth 在内部备忘录中承认 AI 重组执行不力，承诺将改善稳定性、沟通和员工福利。
Meta 与五角大楼供应商合作，为智能眼镜原型开发面部识别。Meta 与 Rank One Computing（其董事会包括前 CIA 副局长）合作，为其智能眼镜应用开发面部识别功能。
Qualcomm 发布 Snapdragon Reality Elite 芯片，为下一代智能眼镜铺路。高通发布新款 XR 芯片，旨在为更强大的智能眼镜设备提供算力支持。
DeepSeek 融资细节曝光：梁文锋如何保住控制权。报道揭示了 DeepSeek 融资过程中的关键条款设计，梁文锋通过精妙架构保持对公司的控制权。
Plaud 软件业务 ARR 突破 1 亿美元，AI 记事本出货超 200 万台。Plaud 宣布其 AI 会议记录硬件配套软件业务年经常性收入突破 1 亿美元。
Probably 获 900 万美元融资，打造更可靠的 AI 系统。Probably 旨在防止 AI 产生幻觉和事实错误，追求达到确定性系统级别的准确率。
微信支付“AI 专属卡”最快本周上线。微信支付即将推出 AI 专属卡功能，或将改变支付行业格局。
重要论文。
ExpRL：利用探索性强化学习提升 LLM 推理能力。提出一种通过 RL 探索自动发现有用推理原语（如分解、验证、自我修正）的方法，替代人工标注推理轨迹。
Human Universal Grasping (HUG)：从人类抓取数据学习通用机器人抓取。通过智能眼镜收集 100 万帧第一人称抓取数据，训练流匹配模型生成多样化抓取姿态。
LaWAM：潜在世界动作模型，实现高效动力学感知机器人策略。在潜空间中预测动作后果，避免昂贵的像素级视频生成，实现高效机器人控制。
Ling 和 Ring 2.6 技术报告：万亿参数规模的高效即时智能体。Ling-2.6 优化即时响应生成，Ring-2.6 专注深度推理，实现高效训练、服务和部署。
Prompt-Level Distillation：提示级蒸馏，替代模型微调的高效推理方案。从教师模型中提取推理模式并组织为结构化提示列表，无需微调即可提升小模型推理能力。
DreamX-World 1.0：通用交互式世界模型。支持可控长时视频生成，包括相机导航、场景重访和可提示事件，覆盖真实、游戏和风格化领域。
MVEB：大规模视频嵌入基准测试。包含 23 个任务的视频嵌入基准，评估 33 个模型，发现 MLLM 嵌入在多数任务上领先。
MMDiff：将扩散</description>
      <itunes:summary>AI 每日简报，周三，2026-06-17。以下是今天的重点。
行业新闻。
Anthropic 与白宫爆发冲突，Claude Fable 5 被要求下线。美国出口管制指令要求 Anthropic 暂停对海外用户（包括其自身外籍员工）开放其最新模型 Fable 5 和 Mythos 5，Anthropic 高管赴华盛顿谈判后仍存分歧。
Anthropic 与政府冲突反促商业增长，销售数据表明。根据 Ramp 的数据，Anthropic 与特朗普政府的公开争执反而提升了其在企业用户中的受欢迎程度。
SpaceX 以 600 亿美元股票收购 Cursor。SpaceX 在 IPO 数日后宣布以 600 亿美元股票收购 AI 编程工具公司 Cursor，旨在强化其 AI 部门并争夺企业客户。
Google 发布 Android 17，深度集成 Gemini AI 功能。Android 17 和 Wear OS 7 正式发布，引入全新多任务工具、家长控制和安全功能，并伴随 Pixel Drop 将 Google 最新 AI 模型部署至设备端。
阿里发布首个具身大模型 Qwen-Robot 系列。阿里巴巴推出 Qwen-Robot 系列模型，实现机器人“边走、边看、边思考”的全身协同能力。
一个模型控制手脚腰身，机器人学会全身协同干精细活。研究团队提出新方法，让机器人首次实现全身协同完成精细操作任务。
Facebook 推出 AI Mode 搜索，基于公开帖子生成结果。Meta 在 Facebook 中推出 AI Mode 搜索功能，搜索结果基于用户公开帖子生成，同时推出多项新 AI 功能。
Meta CTO 承认公司 AI 重组“糟糕透顶”。Andrew Bosworth 在内部备忘录中承认 AI 重组执行不力，承诺将改善稳定性、沟通和员工福利。
Meta 与五角大楼供应商合作，为智能眼镜原型开发面部识别。Meta 与 Rank One Computing（其董事会包括前 CIA 副局长）合作，为其智能眼镜应用开发面部识别功能。
Qualcomm 发布 Snapdragon Reality Elite 芯片，为下一代智能眼镜铺路。高通发布新款 XR 芯片，旨在为更强大的智能眼镜设备提供算力支持。
DeepSeek 融资细节曝光：梁文锋如何保住控制权。报道揭示了 DeepSeek 融资过程中的关键条款设计，梁文锋通过精妙架构保持对公司的控制权。
Plaud 软件业务 ARR 突破 1 亿美元，AI 记事本出货超 200 万台。Plaud 宣布其 AI 会议记录硬件配套软件业务年经常性收入突破 1 亿美元。
Probably 获 900 万美元融资，打造更可靠的 AI 系统。Probably 旨在防止 AI 产生幻觉和事实错误，追求达到确定性系统级别的准确率。
微信支付“AI 专属卡”最快本周上线。微信支付即将推出 AI 专属卡功能，或将改变支付行业格局。
重要论文。
ExpRL：利用探索性强化学习提升 LLM 推理能力。提出一种通过 RL 探索自动发现有用推理原语（如分解、验证、自我修正）的方法，替代人工标注推理轨迹。
Human Universal Grasping (HUG)：从人类抓取数据学习通用机器人抓取。通过智能眼镜收集 100 万帧第一人称抓取数据，训练流匹配模型生成多样化抓取姿态。
LaWAM：潜在世界动作模型，实现高效动力学感知机器人策略。在潜空间中预测动作后果，避免昂贵的像素级视频生成，实现高效机器人控制。
Ling 和 Ring 2.6 技术报告：万亿参数规模的高效即时智能体。Ling-2.6 优化即时响应生成，Ring-2.6 专注深度推理，实现高效训练、服务和部署。
Prompt-Level Distillation：提示级蒸馏，替代模型微调的高效推理方案。从教师模型中提取推理模式并组织为结构化提示列表，无需微调即可提升小模型推理能力。
DreamX-World 1.0：通用交互式世界模型。支持可控长时视频生成，包括相机导航、场景重访和可提示事件，覆盖真实、游戏和风格化领域。
MVEB：大规模视频嵌入基准测试。包含 23 个任务的视频嵌入基准，评估 33 个模型，发现 MLLM 嵌入在多数任务上领先。
MMDiff：将扩散</itunes:summary>
      <enclosure url="https://jimmuji.github.io/ai-daily-digest/audio/2026-06-17.mp3" length="2935584" type="audio/mpeg"/>
      <guid isPermaLink="true">https://jimmuji.github.io/ai-daily-digest/audio/2026-06-17.mp3</guid>
      <pubDate>Wed, 17 Jun 2026 08:00:00 +0800</pubDate>
      <itunes:duration>08:09</itunes:duration>
      <itunes:explicit>no</itunes:explicit>
      <itunes:image href="https://jimmuji.github.io/ai-daily-digest/podcast-cover.png"/>
    </item>
    <item>
      <title>AI 每日简报 · 2026-06-02 周二</title>
      <description>AI 每日简报，周二，2026-06-02。以下是今天的重点。
行业新闻。
Anthropic 正式提交 IPO 申请，或将成为史上最大规模 AI 公司上市。Anthropic 已向 SEC 秘密提交上市文件，继 SpaceX 之后又一重磅 IPO。
英伟达发布 RTX Spark 自研 CPU，联手微软、戴尔、惠普打造 AI Agent PC。英伟达正式进军消费级 CPU 市场，推出基于 Arm 架构的芯片，旨在将 AI Agent 能力带到个人电脑。
Google 发布 Gemini Spark AI Agent，全天候替你执行任务。Google 推出 &quot;24/7&quot; AI Agent，可在浏览器中自主完成复杂任务，但存在隐私和成本顾虑。
Microsoft Build 大会前瞻：新 AI 模型和 Windows 重大改进即将发布。微软将在本周 Build 大会上展示全新 AI 模型及 Windows 开发模式更新，被视为公司转型的关键时刻。
OpenAI 重返机器人赛道，四大核心岗位开放招聘。OpenAI 重新启动机器人项目，招聘年薪超 200 万的工程岗位。
VAST 完成近 2 亿美元融资，正式披露世界模型技术路线。3D AI 公司 VAST 获巨额融资，主打多人实时同屏场景生成。
佛罗里达州起诉 OpenAI 和 Sam Altman，指控 ChatGPT 与暴力事件有关。首例州政府针对 AI 公司提起的诉讼，涉及校园枪击案中 AI 的角色认定。
AI 天气创业公司 WindBorne 超越政府机构预报水平。利用 400 个气球实时采集数据，结合自研模型实现更精准的天气预报。
Alphabet 计划筹资 800 亿美元用于 AI 基础设施建设。Google 母公司称企业及消费者对 AI 服务的需求远超现有供应能力。
Meta 的 AI 客服机器人被利用来劫持 Instagram 账号。黑客通过诱导 Meta AI 客服修改账户邮箱实现账号盗取。
DuckDuckGo 推出 &quot;无 AI&quot; 浏览器扩展，流量激增。反 AI 搜索引擎 DuckDuckGo 为 Chrome 和 Firefox 发布无 AI 扩展，用户增长显著。
Majestic Labs 发布新 AI 服务器，试图突破 &quot;内存墙&quot; 瓶颈。针对 LLM 推理的内存带宽限制，新硬件架构直接解决 token 生成速度瓶颈。
复旦 × 通义提出全新 CUA 训练范式：别光给 Agent 加 Tool，它根本选不明白。研究发现 Agent 在多个工具间选择能力不足，提出新一代训练方法。
重要论文。
Mellum 2 技术报告发布：12B 参数 MoE 代码专用模型。开源 12B 参数 MoE 模型，2.5B 活跃参数，专注软件工程全流程，支持代码生成、调试、Agent 编程。
从模型扩展到系统扩展：Agentic AI 的 &quot;缰绳&quot; 缩放。论文提出未来 Agent AI 的瓶颈在于系统架构设计（harness scaling），而非模型参数缩放。
物理 AI 推理的 &quot;内存墙&quot; 真相：Batch-1 LLM 解码并非受限于带宽。研究发现单流推理场景下，延迟瓶颈来自内存容量而非带宽，颠覆传统认知。
VisualThink-VLA：视觉中间推理实现低延迟视觉-语言-动作策略。提出用视觉推理替代文本 Chain-of-Thought，大幅降低 VLA 策略的推理延迟。
GrepSeek：训练搜索 Agent 直接与文本库交互。让 LLM Agent 将语料库本身作为搜索环境，通过 grep 操作替代传统检索器。
材料版 AlphaFold 来了！40 个工业任务全面 SOTA。结合 LLM 训练方法，材料 AI 首次学会 &quot;物理直觉&quot;，在工业任务中取得突破。
开源项目。
codegraph：预索引代码知识图谱，为 AI 编程助手减负。为 Claude Code、Codex、Gemini、Cursor 等工具提供本地代码知识图谱，减少 token 消耗和工具调用次数。
hermes-webui：Hermes Agent 的 Web 界面。提供浏览器端和移动端使用 Hermes Agent 的最佳体验。
headroom：压缩工具输出和日志，减少 60-95% token 消耗。在 </description>
      <itunes:summary>AI 每日简报，周二，2026-06-02。以下是今天的重点。
行业新闻。
Anthropic 正式提交 IPO 申请，或将成为史上最大规模 AI 公司上市。Anthropic 已向 SEC 秘密提交上市文件，继 SpaceX 之后又一重磅 IPO。
英伟达发布 RTX Spark 自研 CPU，联手微软、戴尔、惠普打造 AI Agent PC。英伟达正式进军消费级 CPU 市场，推出基于 Arm 架构的芯片，旨在将 AI Agent 能力带到个人电脑。
Google 发布 Gemini Spark AI Agent，全天候替你执行任务。Google 推出 &quot;24/7&quot; AI Agent，可在浏览器中自主完成复杂任务，但存在隐私和成本顾虑。
Microsoft Build 大会前瞻：新 AI 模型和 Windows 重大改进即将发布。微软将在本周 Build 大会上展示全新 AI 模型及 Windows 开发模式更新，被视为公司转型的关键时刻。
OpenAI 重返机器人赛道，四大核心岗位开放招聘。OpenAI 重新启动机器人项目，招聘年薪超 200 万的工程岗位。
VAST 完成近 2 亿美元融资，正式披露世界模型技术路线。3D AI 公司 VAST 获巨额融资，主打多人实时同屏场景生成。
佛罗里达州起诉 OpenAI 和 Sam Altman，指控 ChatGPT 与暴力事件有关。首例州政府针对 AI 公司提起的诉讼，涉及校园枪击案中 AI 的角色认定。
AI 天气创业公司 WindBorne 超越政府机构预报水平。利用 400 个气球实时采集数据，结合自研模型实现更精准的天气预报。
Alphabet 计划筹资 800 亿美元用于 AI 基础设施建设。Google 母公司称企业及消费者对 AI 服务的需求远超现有供应能力。
Meta 的 AI 客服机器人被利用来劫持 Instagram 账号。黑客通过诱导 Meta AI 客服修改账户邮箱实现账号盗取。
DuckDuckGo 推出 &quot;无 AI&quot; 浏览器扩展，流量激增。反 AI 搜索引擎 DuckDuckGo 为 Chrome 和 Firefox 发布无 AI 扩展，用户增长显著。
Majestic Labs 发布新 AI 服务器，试图突破 &quot;内存墙&quot; 瓶颈。针对 LLM 推理的内存带宽限制，新硬件架构直接解决 token 生成速度瓶颈。
复旦 × 通义提出全新 CUA 训练范式：别光给 Agent 加 Tool，它根本选不明白。研究发现 Agent 在多个工具间选择能力不足，提出新一代训练方法。
重要论文。
Mellum 2 技术报告发布：12B 参数 MoE 代码专用模型。开源 12B 参数 MoE 模型，2.5B 活跃参数，专注软件工程全流程，支持代码生成、调试、Agent 编程。
从模型扩展到系统扩展：Agentic AI 的 &quot;缰绳&quot; 缩放。论文提出未来 Agent AI 的瓶颈在于系统架构设计（harness scaling），而非模型参数缩放。
物理 AI 推理的 &quot;内存墙&quot; 真相：Batch-1 LLM 解码并非受限于带宽。研究发现单流推理场景下，延迟瓶颈来自内存容量而非带宽，颠覆传统认知。
VisualThink-VLA：视觉中间推理实现低延迟视觉-语言-动作策略。提出用视觉推理替代文本 Chain-of-Thought，大幅降低 VLA 策略的推理延迟。
GrepSeek：训练搜索 Agent 直接与文本库交互。让 LLM Agent 将语料库本身作为搜索环境，通过 grep 操作替代传统检索器。
材料版 AlphaFold 来了！40 个工业任务全面 SOTA。结合 LLM 训练方法，材料 AI 首次学会 &quot;物理直觉&quot;，在工业任务中取得突破。
开源项目。
codegraph：预索引代码知识图谱，为 AI 编程助手减负。为 Claude Code、Codex、Gemini、Cursor 等工具提供本地代码知识图谱，减少 token 消耗和工具调用次数。
hermes-webui：Hermes Agent 的 Web 界面。提供浏览器端和移动端使用 Hermes Agent 的最佳体验。
headroom：压缩工具输出和日志，减少 60-95% token 消耗。在 </itunes:summary>
      <enclosure url="https://jimmuji.github.io/ai-daily-digest/audio/2026-06-02.mp3" length="2173536" type="audio/mpeg"/>
      <guid isPermaLink="true">https://jimmuji.github.io/ai-daily-digest/audio/2026-06-02.mp3</guid>
      <pubDate>Tue, 02 Jun 2026 08:00:00 +0800</pubDate>
      <itunes:duration>06:02</itunes:duration>
      <itunes:explicit>no</itunes:explicit>
      <itunes:image href="https://jimmuji.github.io/ai-daily-digest/podcast-cover.png"/>
    </item>
  </channel>
</rss>
