AI HOT 日报 2026-07-01：Anthropic、美团 LongCat、Claude

数据来自 AI HOT 过去 24 小时精选动态，本文在原始资讯基础上补充趋势点评、落地建议，并同步更新到本站「AI 资讯播客」。

今日总览

本期基于 AI HOT 过去 24 小时精选动态，重点关注行业动态、模型发布/更新、论文研究、技巧与观点、产品发布/更新。核心信号是：Anthropic在Claude Code中植入隐写术代码识别中国用户；美团 LongCat-2.0 正式发布：国产算力集群训练的万亿参数大模型；Claude Sonnet 5 发布。

我把 12 条重点动态压缩成以下核心信号：

Anthropic在Claude Code中植入隐写术代码识别中国用户：公众号：数字生命卡兹克。Anthropic在Claude Code中植入隐写术：读取本地时区（Asia/Shanghai或Asia/Urumqi）和ANTHROPIC_BASE_…
美团 LongCat-2.0 正式发布：国产算力集群训练的万亿参数大模型：公众号：龙猫LongCat（美团）。美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T，平均激活约48B，原生支持1M超长上下文，在五万卡国产算力集群上完成…
Claude Sonnet 5 发布：Anthropic：Newsroom（网页）。Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型，具备计划、浏览器和终端工具使用能力，可自主运行。性能接近 Opus…
AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题：X：AI Safety Memes (@AISafetyMemes)。AI Safety Memes 推文指出，AI 刚刚解决了 9 个未解决的数学问题，但全球没有记者报道。引用 @WeinsteinOmri 的推文称，采用…
mattpocockuk 的 /writing-great-skills：编写可预测 AI Skill 的指南：X：邵猛 (@shao__meng)。mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill，指导如何编写稳定可预测的 AI Skill。核心：…

一、模型发布/更新

1. 美团 LongCat-2.0 正式发布：国产算力集群训练的万亿参数大模型

来源： 公众号：龙猫LongCat（美团）
时间： 7/1 10:24（约 5 小时前）
AI HOT 热度： 82

摘要： 美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T，平均激活约48B，原生支持1M超长上下文，在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合（Agent/Reasoning/Interaction三组专…

我的点评： LongCat-2.0 把国产算力、超大 MoE、1M 上下文和开源放在同一叙事里，真正值得观察的是训练链路是否稳定、推理成本是否可控，以及长上下文能力能否转成真实 Agent 任务收益。

建议： 评测 LongCat 这类新模型时，不只看发布参数；要用中文长文档、代码仓库、函数调用、长上下文召回、延迟和单位任务成本做横向对比。

2. Claude Sonnet 5 发布

来源： Anthropic：Newsroom（网页）
时间： 7/1 02:02（约 13 小时前）
AI HOT 热度： 81

摘要： Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型，具备计划、浏览器和终端工具使用能力，可自主运行。性能接近 Opus 4.8，定价更低：即日起至 2026 年 8 月 31 日，输入 token $2/百万，输出 $10/百万，之后恢复为 $3/百万输入和 $…

我的点评： Sonnet 5 的信号是“旗舰能力下沉”：更低价格、更强工具使用和 Claude Code 可用性，会继续压缩中间层模型的生存空间，也会加速企业把 Agent 放入真实研发流程。

建议： 把 Sonnet 5 放进现有评测集与 Sonnet 4.6、Opus、Gemini、国产模型对跑，重点观察工具调用成功率、幻觉率、代码修改回归和真实成本。

3. Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

来源： Google DeepMind：Blog（RSS）
时间： 7/1 00:02（约 15 小时前）
AI HOT 热度： 70

摘要： Google DeepMind 推出 Nano Banana 2 Lite（gemini-3.1-flash-lite-image），为 Nano Banana 系列速度最快、成本最低的图像模型，文本到图像输出仅需 4 秒，每 1K 分辨率图像成本 $0.034，已上线 Google AI Stu…

我的点评： 多模态模型开始进入“速度和单价”竞争。对内容生产团队而言，低成本图像生成会把试错次数拉高，真正的差异会转向工作流、版权和品牌一致性。

建议： 内容团队可建立多模型素材流水线，但要同步维护风格规范、版权记录、提示词模板和人工抽检机制。

二、产品发布/更新

1. 用 shot-scraper video 让 AI 智能体录制工作演示视频

来源： Simon Willison 博客
时间： 7/1 00:54（约 14 小时前）
AI HOT 热度： 73

摘要： shot-scraper 1.10 新增 shot-scraper video 命令，支持通过 storyboard.yml 文件定义操作步骤，并利用 Playwright 录制浏览器视频。演示视频展示了 Datasette 中从粘贴的 CSV/TSV/JSON 数据创建新表的功能。该功能依赖 P…

我的点评： 让 Agent 自动生成演示视频，价值在于把“完成了什么”变成可复核证据。对异步 Agent 工作流来说，截图、视频、日志和测试结果会成为交付物的一部分。

建议： 让 Agent 交付时附带可复现证据包：操作脚本、演示视频、测试日志和变更摘要，方便人类快速验收。

2. Acti 将 AI 智能体直接放入手机键盘

来源： TechCrunch：AI（RSS）
时间： 7/1 01:52（约 13 小时前）
AI HOT 热度： 72

摘要： 新加坡初创公司 Acti 发布基于 Google Gemini 的智能体键盘，可代替用户在应用中执行操作。核心功能 Skills 允许用自然语言创建快捷方式，如长按 T 键翻译消息、C 键发送会议链接。早期测试者两周内创建超 1000 个 Skills。采用本地优先架构，默认不访问私人消息。公司获…

我的点评： 键盘可能成为移动端 Agent 的高频入口，因为它天然贴近输入场景。但入口越贴身，用户对隐私、本地处理和误触执行的要求就越高。

建议： 移动端 Agent 产品优先实现本地优先、显式确认、权限分级和可撤销快捷操作，把“误发消息/误执行”作为核心风险测试。

三、行业动态

1. Anthropic在Claude Code中植入隐写术代码识别中国用户

来源： 公众号：数字生命卡兹克
时间： 7/1 08:11（约 7 小时前）
AI HOT 热度： 84

摘要： Anthropic在Claude Code中植入隐写术：读取本地时区（Asia/Shanghai或Asia/Urumqi）和ANTHROPIC_BASE_URL环境变量，与一份经base64+XOR（密钥91）加密的147个域名列表（含美团、字节跳动、月之暗面等）比对，识别中国用户。识别后，在请求…

我的点评： 这条新闻的重点不是单一功能争议，而是开发者工具的透明度和供应链信任。企业越依赖 AI 编程工具，越需要知道客户端收集了什么、如何路由请求、是否存在区域或客户识别逻辑。

建议： 把 AI 编程工具纳入客户端审计和网络观测；对敏感仓库使用代理隔离、最小权限 token、版本锁定和变更审查，不要默认信任闭源本地客户端。

2. 库克与欧盟科技主管就新版Siri AI举行建设性会谈

来源： IT之家（RSS）
时间： 7/1 07:43（约 8 小时前）
AI HOT 热度： 72

摘要： 苹果CEO库克与欧盟科技事务负责人维尔库宁就新版Siri AI在欧推出举行建设性视频会议。新版Siri将转为可调用用户个人数据的聊天机器人，但因《数字市场法》互操作义务苹果拒绝向竞争对手开放同等数据权限，暂不在欧盟iPhone和iPad上推出。苹果提出”可信系统代理”方案，拟在设备与第三方AI模型…

我的点评： 个人 AI 助手的竞争焦点正在从语音问答转向“谁能安全调动用户私有数据”。苹果与欧盟的拉扯说明，平台权限、互操作和隐私边界会直接决定产品节奏。

建议： 做个人助理类产品时先设计数据授权面板、第三方调用边界、撤销机制和审计记录，避免能力上线后再补合规。

3. 亚马逊 AWS 砸 10 亿美元，派遣工程师进驻客户公司

来源： IT之家（RSS）
时间： 7/1 14:57（约 1 小时内）
AI HOT 热度： 70

摘要： 亚马逊 AWS 宣布设立新部门，组建前置驻场工程师团队，先期投入 10 亿美元（约 67.97 亿元人民币）。团队分批派驻客户企业，每批 5-6 组工程师，驻场周期 45 天，协助客户落地人工智能软件与智能体应用。该模式在 Palantir、Salesforce、Anthropic、谷歌云等企业已…

我的点评： AWS 把工程师派进客户现场，说明 AI 落地不是卖 API 就结束，而是需要咨询、迁移、流程改造和指标复盘。大模型云竞争正在服务化。

建议： 企业引入 AI 时预留流程顾问和工程集成预算，按 45-90 天设计试点，验收指标写清节省工时、缺陷率、采用率和成本。

4. Meta秘密测试ChatGPT等竞品：承包商假扮未成年发送数万条危机提示

来源： The Decoder：AI News（RSS）
时间： 6/30 19:14（约 20 小时前）
AI HOT 热度： 70

摘要： Meta通过承包商Covelen发起代号”Cannes”的项目，雇佣数百人假扮未成年人，向ChatGPT、Gemini和Character.AI发送关于自杀、自残、饮食障碍和毒品的敏感提示，并将回复录入表格。2025年8月一轮测试中发送了超过4.5万条提示。Meta称这是行业标准安全测试，未将数据…

我的点评： 安全评测本身也需要治理。用敏感未成年人视角测试竞品可以发现风险，但也会引出数据来源、测试伦理、员工心理负担和行业透明度问题。

建议： 做安全红队时要建立伦理审批、测试人员保护、敏感数据脱敏和披露边界；不要把“行业惯例”当成免审理由。

四、论文研究

1. AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题

来源： X：AI Safety Memes (@AISafetyMemes)
时间： 7/1 06:32（约 9 小时前）
AI HOT 热度： 76

摘要： AI Safety Memes 推文指出，AI 刚刚解决了 9 个未解决的数学问题，但全球没有记者报道。引用 @WeinsteinOmri 的推文称，采用”prover-verifier”LLM 循环的方法，成功解决了理论计算机科学中 9 个重大开放问题，其中包括一个困扰其长达 2 年的难题。该研…

我的点评： prover-verifier 循环说明 AI 在形式化推理中更适合扮演“提出证明 + 自动校验”的协作系统，而不是一次性给出不可审查的答案；可信度来自可验证链路。

建议： 对这类重大研究结论保持“先验兴奋、验证谨慎”：优先查论文、证明、代码和同行复核，再决定是否迁移到研发流程。

五、技巧与观点

1. mattpocockuk 的 /writing-great-skills：编写可预测 AI Skill 的指南

来源： X：邵猛 (@shao__meng)
时间： 7/1 09:14（约 6 小时前）
AI HOT 热度： 75

摘要： mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill，指导如何编写稳定可预测的 AI Skill。核心：以过程可预测为目标；区分 model-invoked（自动触发）与 user-invoked（用户调用），description 应作触发器；采…

我的点评： Skill 的本质是把经验流程产品化：触发条件、步骤、边界和反例越清楚，模型越不容易自由发挥。未来团队的 AI 能力会沉淀为一组可维护的 Skill 库。

建议： 为团队高频任务写 Skill 模板：触发条件、输入输出、禁止事项、验收命令和失败兜底，并把好坏样例纳入版本管理。

2. Claude Code 入门：智能体循环

来源： Claude：Blog（网页）
时间： 7/1 01:28（约 14 小时前）
AI HOT 热度： 72

摘要： Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程，并划分出四种主要类型：turn-based 循环（用户提示触发，Claude 自行判断完成或需更多上下文）、goal-based 循环（通过 /goal 命令设定可验证完成标准与最大轮次）、time-b…

我的点评： Agent 循环的关键不是“让模型一直干”，而是定义停止条件、检查点和预算。循环设计不好，自动化会变成无限重试和不可解释的成本黑洞。

建议： 所有 Agent 循环都要写明目标、最大轮次、预算、停止条件、人工升级条件和可验证产物，避免无界自动化。

今日行动建议

给开发者

把热点模型和工具放到真实仓库、真实数据、真实测试链路中评估。
建立质量、延迟、吞吐、成本、失败回滚五个指标，不只看榜单或演示。
对 Agent 工作流保留日志、分支隔离、权限规则和人工接管点。

给产品经理 / 创业者

先定义高频任务和闭环结果，再选择模型、工具和入口。
把独有数据、行业流程和评测集沉淀为护城河。
对高速模型、免费额度和平台补贴保持成本敏感。

给企业管理者

AI 转型要同步设计培训、岗位协作和绩效指标，避免只变成降本口号。
采购 AI 工具时，把权限、审计、数据合规、供应商持续性写进标准。
每周复盘 AI 项目的实际节省时间、错误率和员工接受度。

结语

今天的 AI 竞争继续从单点模型能力转向系统效率、产品闭环、治理边界和组织执行力。建议团队把新闻转成可验证的评测、预算、权限和复盘机制，而不是只停留在热点追踪。

播客入口：AI 资讯播客；本期文字稿链接：/posts/70101/

AI HOT 日报 2026-07-01：Anthropic、美团 LongCat、Claude

AI HOT 日报 2026-07-01：Anthropic、美团 LongCat、Claude

今日总览

一、模型发布/更新

1. 美团 LongCat-2.0 正式发布：国产算力集群训练的万亿参数大模型

2. Claude Sonnet 5 发布

3. Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

二、产品发布/更新

1. 用 shot-scraper video 让 AI 智能体录制工作演示视频

2. Acti 将 AI 智能体直接放入手机键盘

三、行业动态

1. Anthropic在Claude Code中植入隐写术代码识别中国用户

2. 库克与欧盟科技主管就新版Siri AI举行建设性会谈

3. 亚马逊 AWS 砸 10 亿美元，派遣工程师进驻客户公司

4. Meta秘密测试ChatGPT等竞品：承包商假扮未成年发送数万条危机提示

四、论文研究

1. AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题

五、技巧与观点

1. mattpocockuk 的 /writing-great-skills：编写可预测 AI Skill 的指南

2. Claude Code 入门：智能体循环

今日行动建议

给开发者

给产品经理 / 创业者

给企业管理者

结语

收藏与订阅