AI 早报 2026-05-01

视频版哔哩哔哩YouTube

概览

要闻

  • OpenAI 发布 Codex 重大更新,拓展办公场景 #1
  • xAI 推出 Grok 4.3 #2
  • OpenRouter 上线 stealth 模型 Owl Alpha ,百万上下文 #3

开发生态

  • Anthropic 推出 Claude Security 测试版,基于 Opus 4.7 扫描漏洞 #4
  • Gemini CLI 更新 v0.40.0,支持本地模型及分层记忆 #5
  • 阿里 Qoder 推出远程控制并发布数字员工 QoderWake #6
  • Cloudflare 联合 Stripe 支持 AI Agent 自动完成部署 #7
  • OpenClaw 发布安全复盘及版本更新 #8
  • Hermes Agent 发布 v0.12.0,优化自我改进循环 #9

产品应用

  • OpenAI 推出 ChatGPT 高级账户安全功能 #10
  • 谷歌相册推出 AI 数字衣橱,安卓端率先上线 #11
  • 快手上线桌面 AI 智能体 KroWork #12

技术与洞察

  • DeepSeek 发布多模态技术报告,视觉原语思考代码 #13
  • 智谱 AI 修复 GLM-5 推理竞态 Bug,提交代码至 SGLang 社区 #14
  • OpenAI 披露 GPT 模型哥布林词频暴涨,Nerdy 性格奖励致偏 #15
  • Cursor 发文详解 Agent 框架改进 #16
  • AISI 称 GPT-5.5 比肩 Mythos,OpenAI 将推 GPT-5.5-Cyber #17
  • Qwen 团队发布 Qwen-Scope,开源14组 SAE 权重 #18

行业动态

  • OpenAI 更新 Stargate 项目,提前完成十吉瓦基建目标 #19
  • Google DeepMind 宣布 AI co-clinician 研究计划 #20
  • Genspark 携手微软,AI Agent 原生嵌入 Microsoft 365 生态 #21
  • 小红书宣布组织升级,成立 AI 部门 Dots 及海外部门 Rednote #22

OpenAI 发布 Codex 重大更新,拓展办公场景 #1

OpenAICodex 进行了重大升级,将其全面扩展为支持日常办公的个人工作助手。

新版本引入了基于岗位角色的动态 UI,允许用户连接 Slack 等常用应用,并由系统自动推荐插件与调整界面布局。

它还全面优化了电子表格与幻灯片生成及跨组件直接注释功能。

在性能提升上,Computer Use模式的整体速度提升了 20%

同时 Codex CLI 新增了跨轮次追踪任务的 /goal 命令,App 端则新增了不中断主会话的 /side 侧边聊天命令。

OpenAI 近日对 Codex 进行了重大升级,使其不仅适用于开发者,也面向所有日常办公场景。官方宣布,Codex 现已成为面向团队的个人工作助手,支持非编码的日常计算机操作。

新版本引入了基于角色的动态 UI,用户可选择岗位角色并连接 SlackGoogle WorkspaceMicrosoft 365 等常用应用。Codex 会据此推荐相关插件和提示,并围绕当前任务动态调整界面布局。

在性能方面,官方称 Computer Use 模式在特定用例中速度提升 42%,整体计算机与浏览器操作提速约 20%。一位 OpenAI 内部人员表示这是首次看到 LLM 操作 GUI 的速度与人类相当。

此外,新版本改进了幻灯片和表格生成、支持在浏览器、artifacts 和代码中直接注释,并简化了上手流程与界面设计。

同时,Codex CLI 0.128.0 版本新增了 /goal 命令,允许跨轮次持续追踪并实现一个目标,结合 GPT-5.5 该功能可长时间连续执行复杂任务。Codex App 端新增了 /side 侧边聊天命令,类似 Claude Code/btw

相关链接:


xAI 推出 Grok 4.3 #2

xAI 正式推出了 Grok 4.3 Beta 模型。

官方称这是一款新预训练模型,在规模上与 Grok 4.20 相当,但架构有所改进。

该模型的知识截止日期为 2025年12月

目前已面向订阅用户和 API 开放。

xAI 宣布推出 Grok 4.3 Beta,这是一款新预训练模型。

该模型在规模上与 Grok 4.20 相当,但架构有所改进,知识截止日期为 2025 年 12 月

目前,该模型已向 SuperGrokPremium+ 订阅用户开放,同时 API 也已上线。

Artificial Analysis 测评,Grok 4.3Artificial Analysis Intelligence Index 上得分为 53

其表现略优于 Muse SparkClaude Sonnet 4.6

相关链接:


OpenRouter 上线 stealth 模型 Owl Alpha ,百万上下文 #3

一款名为 Owl Alphastealth 模型已在 OpenRouter 平台上线。相关介绍称,该模型专为 Agent 工作负载设计,提供 百万级 上下文窗口。

同时,该模型在 Kilo 等平台也提供免费使用。

OpenRouter 平台上线一款名为 Owl Alphastealth 模型。据相关页面介绍,该模型专注于 Agent 工作负载,原生支持工具使用和长上下文任务。

在代码生成、自动化工作流和复杂指令执行方面,该模型表现突出,并兼容 Claude CodeOpenClaw 等主流生产力工具。

同时在 Kilo Code 等平台也提供限时免费使用。

相关链接:


Anthropic 推出 Claude Security 测试版,基于 Opus 4.7 扫描漏洞 #4

Anthropic面向 Claude Enterprise客户推出了 Claude Security公开测试版。

这款基于 Claude Opus 4.7的工具可以像安全专家一样扫描代码查找漏洞。

它能够生成需人工审批的修补建议。

Anthropic 近日面向 Claude Enterprise 客户推出 Claude Security 公开测试版。该工具基于 Claude Opus 4.7,可扫描代码库发现漏洞、进行对抗性验证并生成可直接审阅的修补建议。

用户可通过 Claude.ai 侧边栏、专用页面或 Claude Code on the Web 直接使用。功能支持按仓库、目录或分支设定扫描范围,以及执行定时扫描。

结果可以以 CSVMarkdown 格式导出,也可通过 webhook 推送至 SlackJira 等工具。补丁需人工审批后应用

Claude TeamMax 用户的访问权限即将开放。

相关链接:


Gemini CLI 更新 v0.40.0,支持本地模型及分层记忆 #5

Gemini CLI 发布了 v0.40.0 版本,带来了超过 150 项重大改进。

新版本加入了对本地 Gemma 模型的实验性支持,允许用户进行智能模型路由。

同时,Agent 迎来了全新的分层记忆系统和自动提取技能功能。

Google Gemini CLI 发布了 v0.40.0 版本,该版本引入了超过 150 项改进。

核心功能包括对本地 Gemma 模型(实验性)的初始支持,用于智能模型路由;一个全新的分层记忆系统,可跨项目、子目录、私有和全局四个层级持久化上下文;以及基于历史会话自动提取技能的 Auto Memory(实验性)功能。

此外,该版本还引入了用于任务跟踪的 Task Tracker(实验性)。

UI 方面进行了精简,包含紧凑工具输出和主题描述。

MCP 资源支持已正式完成最终化。

新增了保障安全的壳命令验证和核心工具白名单,确保使用安全。

原生桌面通知现已加入。

新版本带来了新的 /memory inbox/new 命令,方便操作。

界面采用了色盲友好主题,提升视觉体验。

针对内存使用和离线搜索,也实施了多项性能优化。

相关链接:


阿里 Qoder 推出远程控制并发布数字员工 QoderWake #6

Qoder正式推出移动端应用及远程控制功能,用户可随时掌控桌面端Agent任务。

同时,Qoder发布了持续进化的生产级数字员工产品QoderWake,其首个数字程序员角色已实际应用。目前该产品已全面开启邀测。

阿里旗下 Qoder 于近日正式推出远程控制功能及移动端应用,同时发布数字员工产品 QoderWake

Qoder 移动端(Web 版已上线,iOS 和 Android 应用正在上架中)支持用户通过手机远程控制桌面端 Qoder 产品完成任务。

移动端首发接入 Qoder CLI 全部能力,未来将打通 Qoder IDEQoderWork 及数字员工 QoderWake 全系产品。

QoderWake 是官方宣称业界首个安全可控、持续进化的生产级数字员工产品,采用 Harness-First 架构。每次执行后将经验归类沉淀到记忆、技能、策略、验证规则和工作流五个维度,支持自主执行、自动回溯和主动复盘,并内置防腐机制持续优化。

目前 QoderWake 已开启邀测,个人和企业可在官网申请雇佣或定制专属数字员工,近期还将上线数字分析师等角色。

相关链接:


Cloudflare 联合 Stripe 支持 AI Agent 自动完成部署 #7

Cloudflare宣布与Stripe合作推出了一项新协议。

现在,AI Agent 在获得用户授权后,能够自动完成创建云账户、购买域名以及部署应用的全套上线操作。

Cloudflare近日宣布,Agent现在可直接代表用户完成所有部署上线的关键步骤:创建Cloudflare账户、开通付费订阅、注册域名并获取 API token

全程无需用户登录仪表盘、复制粘贴API token或输入信用卡信息。

该能力通过与Stripe共同设计的新协议实现,作为Stripe Projects(公开测试阶段)的一部分推出。

相关链接:


OpenClaw 发布安全复盘及版本更新 #8

OpenClaw发文对项目安全方面进行复盘。

同时,项目连续发布了两个版本更新,重点改善了 Agent 群聊体验。

新版本集成了 DeepInfraNVIDIA provider,并全面提升了系统的可靠性与安全性。

OpenClaw近日通过官方博客详细回顾了项目在安全方面的挑战与改进,并同时发布了两个版本更新。

在安全方面,OpenClaw自今年1月至今已收到大量安全公告,项目通过定义信任模型、缩减核心将功能推给插件、强化发布流程、添加可观测性等方式进行了实际修复,并获得了NVIDIA腾讯等多家企业的工程与安全支持。

版本方面,OpenClaw 2026.4.29 改进了群聊体验、支持后续承诺、增强执行安全与控制,并集成了 NVIDIA provider及模型目录。

此前发布的 2026.4.27 版本则将 DeepInfra 作为内置provider、改进了文件附件处理、增加了操作员管理的代理路由、强化了Matrix审批与预览、优化了模型选择,并提升了网关、频道、会话的可靠性。

相关链接:


Hermes Agent 发布 v0.12.0,优化自我改进循环 #9

Nous Research 发布了 Hermes Agent 更新,带来了全新"Hermes Curator"功能。

它能自动评估和清理冗余技能,同时还大幅升级了自我改进循环。

此次更新并新增了多个推理提供商与消息平台。

Nous Research 发布 Hermes Agent v0.12.0 版本。

核心亮点为 Hermes Curator 系统,该后台 Agent 默认以 7 天周期自动评估技能库,据官方称有效解决技能冗余问题。

自我改进循环升级为基于评分模式,ComfyUI v5TouchDesigner-MCP 变为默认内置。

推理提供商方面,LM Studio 升级为一级提供商,新增四个云服务商。

消息平台新增 Microsoft Teams 插件及 腾讯元宝 原生支持,集成 SpotifyGoogle Meet

此外,TUI 冷启动性能提升约 57%

更新已在 GitHub 开放下载,含 213 位贡献者的 360 多个修复 PR。

相关链接:


OpenAI 推出 ChatGPT 高级账户安全功能 #10

OpenAI 推出了名为 Advanced Account SecurityChatGPT 账户安全设置。

该功能通过使用抗钓鱼的 通行密钥物理安全密钥 等措施,提供更高级别的保护。

所有用户现在都可自行开启。

近日,OpenAI 正式面向 ChatGPT 账户推出了一项名为 Advanced Account Security 的可选设置。该功能旨在为面临较高数字攻击风险的用户以及追求最高级别账户保护的用户提供更强的安全保障。

该功能集成了防钓鱼登录、更安全的账户恢复、缩短登录会话时长、自动排除训练数据等多项增强保护措施。用户现可在 Web 端的安全设置中自行开启,同时该保护也适用于 Codex 账户。

OpenAI 还宣布,自 2026 年 6 月 1 日 起,其 Trusted Access for Cyber 项目的个人成员必须启用 Advanced Account Security

相关链接:


谷歌相册推出 AI 数字衣橱,安卓端率先上线 #11

Google Photos 计划在今年夏季推出一项 AI 驱动的数字衣橱功能。

它能自动识别并整理相册里的衣物,方便用户自由搭配并虚拟预览上身效果。

届时将率先面向安卓用户推送。

Google Photos 推出了一项由 AI 驱动的新功能,可自动识别并整理用户照片库中的衣物,生成专属数字衣橱。

用户可依据类别筛选、自由组合搭配、保存为不同场合的灵感板,并借助 Try it on 虚拟预览整体效果。

该功能将于今年夏季率先面向 Android 用户推送,随后登陆 iOS

相关链接:


快手上线桌面 AI 智能体 KroWork #12

快手推出桌面端通用 AI 智能体 KroWork

这款产品专门面向非程序员,能自主执行任务。

它还能把重复的工作流固化为免消耗 Token 的本地桌面应用,实现双击即用。

快手推出的桌面端通用 AI 智能体 KroWork 于近日正式上线,该产品定位为非程序员的知识工作者。支持用户通过自然语言指令让 AI 自主规划执行任务,并能将重复性工作流固化为本地桌面应用,实现一键运行且无需额外消耗 Token 或积分。

KroWork 以安全沙箱机制执行操作,触碰外部内容前需用户授权,并支持查看每一步执行过程。其国内版集成 QwenKimiDeepseek 等主流模型。国际版支持 OpenAIAnthropic 的最新旗舰模型。

该产品即日起开放注册,国内外同步首发,首次注册赠送免费积分。

相关链接:


DeepSeek 发布多模态技术报告,视觉原语思考代码 #13

DeepSeek发布了多模态技术报告《Thinking with Visual Primitives》并开源相关代码,详细解析了基于 DeepSeek-V4-Flash基座的识图模式技术细节。

该技术的核心创新在于将传统语言思维链升级为语言逻辑加空间坐标的双轨思维,让模型能直接在图像上输出点或框进行精准视觉定位。

值得注意的是,官方相关帖子和技术报告在发布一段时间后就被删除。

近日,DeepSeek 发布多模态技术报告 《Thinking with Visual Primitives》,详细阐述了已灰度上线的识图模式背后的技术细节。

该模式基座为 DeepSeek-V4-Flash,其核心创新在于将传统语言思维链升级为“语言逻辑 + 空间坐标”双轨思维,模型可在推理过程中直接输出点或框进行视觉定位。

通过多级视觉压缩架构,高分辨率图像的 KV 缓存仅保留约 90 个视觉条目,压缩比超 7000 倍。报告显示,该模型在一系列高难度视觉 QA 任务中表现超过 GPT-5.4Claude-Sonnet-4.6 等模型。

训练流程涵盖预训练、冷启动与强化学习,包括从超 4000 万个高质量样本中筛选数据,为计数、空间推理、迷宫导航、路径追踪四类任务合成精确思考轨迹,并采用稠密奖励机制。

该项目技术报告与部分代码已在 GitHub 开源,模型权重计划在未来整合进 DeepSeek 基础模型发布。

相关链接:


智谱 AI 修复 GLM-5 推理竞态 Bug,提交代码至 SGLang 社区 #14

智谱发布技术博客,分享了他们在超大规模 Coding Agent 推理中,通过引入同步机制,修复了因 KV Cache 竞态导致的乱码和复读问题。

同时还提出了能显著提升系统吞吐量的 LayerSplit 分层存储方案。

近日,智谱AI发表技术博客,分享了其在超大规模Coding Agent推理实践中遭遇并解决的系统级问题。其GLM-5系列模型在高并发、长上下文的Coding Agent场景下出现乱码、复读及生僻字三类异常。

经排查,问题被定位为两个底层竞态Bug所致:一是PD分离架构下因异步Abort信号缺失引发的KV Cache复用竞态;二是HiCache多级KV Cache流水线中缺少数据加载完成的同步约束导致的read-before-ready访问。

团队通过引入跨节点同步机制和显式同步约束修复了这两个问题,使异常发生率由约万分之十几降至万分之三以下。在此基础上,团队进一步设计了KV Cache分层存储方案LayerSplit

Cache命中率达90%的条件下,系统吞吐量提升10%132%,且随上下文长度增加收益更显著。相关修复已通过Pull Request #22811提交至SGLang社区。

相关链接:


OpenAI 披露 GPT 模型哥布林词频暴涨,Nerdy 性格奖励致偏 #15

OpenAI发布技术博客说明,其多个模型在回复中异常频繁地使用哥布林和小精灵等词汇。

调查发现,这是因为训练 ChatGPTNerdy性格时,奖励模型在强化学习中无意给这类词汇打了高分。

日前,OpenAI发布技术博客,详细披露了其模型从GPT-5.1开始频繁提及“哥布林”(goblin)和“小精灵”(gremlin)等奇幻生物的调查结果。

数据显示,GPT-5.1上线后"goblin"出现次数暴涨 175%,“gremlin”上涨 52%;到GPT-5.4 时问题加剧。

根因锁定在 ChatGPT的"Nerdy"性格定制功能——该性格仅占所有回复的 2.5%,却贡献了 66.7% 的 goblin 提及。OpenAI发现,训练该性格时的奖励模型无意中给包含生物比喻的回复更高分数,导致模型在强化学习训练中学会并泛化了这一表达习惯,形成反馈循环。

其他受影响词汇还包括浣熊、巨魔、食人魔和鸽子。OpenAI已于2026 年 3 月下架 Nerdy 性格,移除相关奖励信号并过滤训练数据中的生物词。

GPT-5.5的训练在找到根因前已开始,故该模型仍带有此倾向,目前 OpenAI在编程工具 Codex中通过系统提示词进行压制。

相关链接:


Cursor 发文详解 Agent 框架改进 #16

Cursor在官方博客发文,详细分享了他们持续优化 Agent 框架的具体方法。

其中主要通过离线评估套件(含公开基准 CursorBench)和在线 A/B 实验来量化改进效果。

Cursor在官方博客发文,详细分享了他们持续优化 Agent 框架的具体做法。

为了量化改进效果,团队建立了包含公开基准 CursorBench 和在线 A/B 测试的多层衡量体系,大幅降低了意外工具调用错误。

同时,Cursor为不同的大模型进行了深度定制,配置专属的工具格式与提示,成功解决了用户在对话中途切换模型时带来的缓存失效等技术难题。

他们还指出,未来的 AI 辅助编程将逐渐走向多**Agent**协同委派与编排的工作模式。

相关链接:


AISI 称 GPT-5.5 比肩 Mythos,OpenAI 将推 GPT-5.5-Cyber #17

AISI 发布评估结果,认为 OpenAIGPT-5.5 早期检查点在多步网络攻击模拟任务上的表现与 AnthropicClaude Mythos Preview 模型相当。

同时,OpenAI 宣布将在未来几天向关键网络安全防御者推送专门用于网络安全的 GPT-5.5-Cyber 模型。

英国 AI 安全研究所(AISI)近日公布了对 OpenAI GPT-5.5 早期检查点的网络安全评估结果。

该评估显示,该模型在多步网络攻击模拟任务上的表现与 AnthropicClaude Mythos Preview 相当,成为继后者之后第二个完成 AISI 端到端攻击模拟的模型。

与此同时,OpenAI CEO Sam Altman 宣布将在未来几天向关键网络安全防御者推送专门为网络安全打造的 GPT-5.5-Cyber 模型。

他表示将与整个生态系统和政府合作建立可信访问机制,以加快保护企业和基础设施。

相关链接:


Qwen 团队发布 Qwen-Scope,开源14组 SAE 权重 #18

Qwen团队发布了 Qwen-Scope 可解释性工具集,在各大开源平台上线了十四组 SAE 权重。

这套工具能自动提取模型内部的可解释特征,帮助开发者精准进行推理控制、数据分类以及训练优化等操作。

2026 年,Qwen 团队发布 Qwen-Scope,这是一套基于 Qwen3Qwen3.5 系列模型的稀疏自编码器集合。

该工具通过稀疏性约束提取高度可解释的内部特征,支持推理控制与数据合成。

官方开源 14SAE 权重,覆盖 7 个大模型。据官方称,其数据合成能效比提升至约 15 倍。

相关资源已上线 HuggingFaceModelScope,技术报告同步公开。

相关链接:


OpenAI 更新 Stargate 项目,提前完成十吉瓦基建目标 #19

OpenAI更新了Stargate项目进展,宣布原定于2029年在美国建成10GW人工智能基础设施的目标已提前超额完成。

过去90天内就新增了超过3GW的容量。

OpenAI 更新 Stargate 项目进展,该项目旨在为通用人工智能提供算力基础。

该公司原承诺 2029 年在美国建成 10GW 基础设施,现已提前超额完成,过去 90 天新增超 3GW 容量。

其旗舰站点位于德克萨斯州阿比林,运行于 Oracle Cloud Infrastructure 之上并搭载 NVIDIA GB200 系统。

官方称最新模型 GPT‑5.5 就是在该站点完成训练。

相关链接:


Google DeepMind 宣布 AI co-clinician 研究计划 #20

Google DeepMind 宣布了 AI co-clinician 研究计划,探索多模态 Agent 如何在专家监督下辅助医疗护理。

在与 哈佛医学院斯坦福医学院 合作的模拟研究中,该系统在 140项 评估里有 68项 达到或超越初级保健医生水平。

Google DeepMind 近日宣布了一项名为 AI co-clinician 的新研究计划,旨在探索多模态 Agent 如何作为临床团队中的协作成员,在专家临床监督下辅助医疗工作及患者护理。

该计划基于 GeminiProject Astra 的实时音视频能力,在由 哈佛医学院斯坦福医学院 合作设计的高保真模拟研究中,AI co-clinician140 项咨询技能评估中有 68 项达到或超过了初级保健医生的水平。

系统采用双 Agent 架构(Planner 监控 Talker)以维持安全边界,并已在药物知识开放式问答(OpenFDA RxQA)中超越其他前沿模型。

目前该研究正与 美国印度澳大利亚新西兰新加坡阿联酋 等地的学术机构合作分阶段推进,并计划逐步扩大临床医生信赖测试项目。

相关链接:


Genspark 携手微软,AI Agent 原生嵌入 Microsoft 365 生态 #21

Genspark 宣布与 Microsoft 建立全球战略合作。其 AI Agent 已作为原生插件直接嵌入 Microsoft 365 生态。

Genspark近日宣布与Microsoft建立全球战略合作伙伴关系,将自身AI Agent直接嵌入Microsoft 365Microsoft Agent 365生态。

PowerPointExcelWord等日常办公应用中原生集成智能工作流。基于Azure基础设施构建。

GensparkAI SlidesSheetsDocs Agents已作为原生插件可在Microsoft 365中使用。

相关链接:


小红书宣布组织升级,成立 AI 部门 Dots 及海外部门 Rednote #22

据报道,小红书近日发布内部信宣布组织升级,全面整合社区、电商和商业化三大核心业务。

同时,公司新成立了 AI 一级部门 Dots

此外,还组建了海外业务部门 Rednote

近日,小红书发布全员内部信,宣布新一轮组织升级。此次升级全面整合社区、电商、商业化三大业务及公司技术体系,旨在提升核心业务整体经营能力。

同时,小红书成立AI一级部门 Dots企业智能部,从产品技术和组织两方面加大对 AI 的投入。

此外,小红书宣布成立海外业务部门 Rednote,开启国际化业务从0到1的新征程,并设立 Lab 1327 探索新产品孵化机制。

据内部信透露,小红书App月活用户已超过 4亿

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误