AI 早报 2026-04-22

视频版哔哩哔哩YouTube

概览

要闻

  • OpenAI 发布图像生成模型 gpt-image-2,支持思考模式及多语言文本渲染 #1
  • SpaceX 与 Cursor 宣布合作,获六百亿美元收购权 #2
  • Anthropic 调整 Claude Code 订阅档位引社区争议 #3

模型发布

  • Gemini API 上线 Gemini Deep Research 两个新版本 #4
  • 蚂蚁集团发布 Ling-2.6-flash 模型,前身为 Elephant Alpha #5
  • 腾讯开源 MegaStyle 框架,开源 1.4M 风格数据集 #6

开发生态

  • OpenAI Codex 周活破 400 万,重置速率限制 #7
  • OpenAI 发布 Euphony 开源工具 可视化 Harmony 会话日志 #8
  • OpenClaw 发布 2026.4.20 版本更新 #9
  • 开源 AI 编程工具 Roo Code 宣布关闭,代码合并回 Cline #10

产品应用

  • Open WebUI 发布 v0.9.0,推原生桌面及后端重构 #11

技术与洞察

  • Kimi.ai 开源 FlashKDA 内核,H20 硬件预填充提速 1.72 倍 #12

前瞻与传闻

  • 美团 LongCat API 平台上线 Sphynx 模型,向受邀开发者开放内测 #13
  • 阿里 HappyHorse-1.0 模型将于 27 日开放 API 邀测 #14
  • 消息称 Claude Mythos 遭未授权用户访问 #15

OpenAI 发布图像生成模型 gpt-image-2,支持思考模式及多语言文本渲染 #1

OpenAI 正式发布了 ChatGPT Images 2.0,目前已在 ChatGPTCodexAPI 中上线。

作为 OpenAI 首个具备思考能力的图像模型,该模型在思考模式下能联网搜索并自检输出,支持根据单句提示词一次性生成最多八张连贯图像,在多语言密集文本渲染及高达 2K 分辨率输出上表现优异。

该模型在相关盲测中夺得断档第一。其高级思考输出功能目前仅限 ChatGPT PlusProBusiness 订阅用户使用。

OpenAI官方正式发布了 ChatGPT Images 2.0 及其底层图像生成模型 gpt-image-2。该模型现已面向 ChatGPTCodex 用户开放,开发者可通过 API 接入,移动端用户需更新至最新版本。

作为 OpenAI 首个具备思考能力的图像模型,当在 ChatGPT 中选择思考模式时,Images 2.0 能够联网搜索实时信息、自检输出结果,甚至生成可扫描的功能性二维码,且能根据单句提示词一次性生成最多八张具备角色与物体连贯性的不同图像。

此次升级带来了前所未有的精确度与控制力,在复杂指令遵循、密集文本渲染、UI 元素生成及高达 2K 分辨率的图像输出方面表现优异。模型在多语言支持上取得重大突破,特别针对中、日、韩、印地语和孟加拉语等非拉丁语系的文本渲染实现了语义连贯。

其真实世界知识库更新至 2025 年 12 月,支持从 3:1 到 1:3 的灵活宽高比,并在照片级真实感、电影静止画面、像素艺术等多种视觉风格上展现出极高的保真度。据 Arena.ai 评测数据显示,gpt-image-2 在文生图、单图编辑和多图编辑三大排行榜上均以创纪录的分数夺得第一,其中在文生图领域以 1512 的 Elo 得分领先第二名 242 分。

目前,高级思考输出功能仅限 ChatGPT PlusProBusiness 用户使用。在 Codex 工作空间中,用户可以直接利用 ChatGPT 的订阅权限进行图像生成,无需额外配置 API 密钥。

相关链接:


SpaceX 与 Cursor 宣布合作,获六百亿美元收购权 #2

SpaceXCursor宣布达成深度合作,双方将结合Cursor的编程产品优势与SpaceX旗下的庞大算力,联合开发面向编码的下一代人工智能。

根据交易条款,Cursor已授予SpaceX一项选择权,允许其在今年晚些时候以600亿美元收购Cursor

或者,Cursor可直接收取100亿美元作为双方合作的对价。

SpaceXCursor日前共同宣布达成深度合作,双方将整合Cursor面向专家软件工程师的产品与分发能力,以及SpaceX旗下号称具备百万张Nvidia H100等效算力的Colossus训练超级计算机,联合开发面向编码与知识工作的下一代AI。

Cursor在其官方博客中披露,此次合作将使其得以借助xAI的Colossus基础设施打破长期算力瓶颈,大幅提升模型智能水平。

根据SpaceX官方公布的信息,Cursor已授予SpaceX今年晚些时候600亿美元将其收购,或支付100亿美元作为双方合作对价的选择权。

相关链接:


Anthropic 调整 Claude Code 订阅档位引社区争议 #3

Anthropic 因悄悄调整定价页面引发争议,据页面显示,Claude Code 权益已从 20 美元 的 Pro 计划中移除。

官方工作人员回应称,这仅是在少数新用户中进行的定价测试,现有订阅用户不受影响,最终方案尚未确定。

近日,Anthropic 因测试调整其命令行编程工具 Claude Code 的订阅权益引发广泛争议。有用户在社交平台指出,该公司似乎已将 Claude Code 从月费 20 美元 的 Pro plan 中移除,仅在月费 100 美元 的 Max plan 中提供。定价页面与支持文档出现相应变更,意味着新用户获取该功能的成本可能上涨 5 倍

面对社区对静默改动的质疑,Anthropic 员工 Amol Avasare 出面回应称,当前仅对约 2% 的新 prosumer 注册者进行小范围测试,现有 Pro 与 Max 订阅者不受影响。他解释称,自 Max plan 推出以来,Claude CodeCowork 及长时间运行 Agent 等功能使订阅者使用模式发生根本变化,当前套餐架构已难以承载,因此团队正在探索新选项。他还承诺,若最终方案影响现有用户,官方将提前充分通知。


Gemini API 上线 Gemini Deep Research 两个新版本 #4

Google 宣布升级 Gemini API 上的 Gemini Deep Research Agent

此次更新推出了基于 Gemini 3.1 Pro 模型的 Deep ResearchDeep Research Max

新服务引入了 MCP 支持、多模态输入以及协同规划等核心功能。

Google 宣布对其 Gemini Deep Research Agent 进行重大升级,推出了名为 Deep ResearchDeep Research Max 的两个独立版本。这两个版本均由 Gemini 3.1 Pro 模型提供支持。

其中,Deep Research 主打速度和效率,适用于需要低延迟的交互式用户界面;而 Deep Research Max 则利用扩展的测试时计算能力进行迭代推理、搜索和报告打磨,旨在实现最高的全面性和最优质的合成效果。

此次更新的核心亮点是引入了 MCP 支持,允许开发者将智能体安全地连接到自定义数据和专业数据流。此外,该智能体还增加了多模态输入支持、协同规划功能、实时流式推理输出,并原生支持通过 HTML 或 Nano Banana 生成图表和信息图。

从即日起,这两项配置已在 Gemini API 的付费层中通过 Interactions API 以公开预览版的形式提供,并支持在 Google AI Studio 中以对话形式调用,其企业版也即将在 Google Cloud 上线。

相关链接:


蚂蚁集团发布 Ling-2.6-flash 模型,前身为 Elephant Alpha #5

蚂蚁集团 百灵团队发布了 Ling-2.6-flash 模型,该模型拥有 104B 总参数和 7.4B 激活参数,无推理模式。

目前已通过多个平台提供为期 一周 的免费 API 访问。蚂蚁集团官方确认未来将开源多种精度的版本。

蚂蚁集团 百灵团队正式发布了 Ling-2.6-flash 模型。该模型此前曾以代号"Elephant Alpha"在 OpenRouter上进行测试。

作为一款拥有 104B 总参数和 7.4B 激活参数的非推理模型,其上下文窗口达到 256K。该模型专为高 Token 效率、Agent 场景和极速执行而设计。

目前,该模型由 Novita AI作为独家托管提供商,通过OpenRouter、官方平台、Kilo以及OpenCode等渠道向开发者提供为期一周的免费 API 访问。

官方同时宣布未来将开源该模型并推出 BF16FP8INT4 等多种版本。

相关链接:


腾讯开源 MegaStyle 框架,开源 1.4M 风格数据集 #6

腾讯团队发布并开源了名为 MegaStyle 的可扩展风格数据生成框架,用于实现泛化的图像风格迁移与相似度测量。

团队同步公开了包含 140 万张图像的 MegaStyle-1.4M 数据集以及相关模型代码。

腾讯团队正式发布了名为 MegaStyle 的可扩展风格数据生成框架,该框架主要探索当前大型生成模型中一致的文本到图像(T2I)风格映射能力,旨在构建风格内一致、风格间多样且高质量的风格数据集。

伴随该框架,团队同步开源了完整的训练与推理代码、模型以及包含 140 万张图像的 MegaStyle-1.4M 数据集。

该数据集利用了 Qwen-Image 的风格映射能力,结合 17 万条精选风格提示词与 40 万条内容提示词生成,具备强烈的风格内一致性并覆盖多样化的细粒度风格。

基于该数据集训练的 MegaStyle-FLUXMegaStyle-Encoder 模型,分别用于实现泛化的图像风格迁移与可靠的风格相似度测量。

目前,上述所有资源均已在 GitHubHugging Face 平台对公众开放。

相关链接:


OpenAI Codex 周活破 400 万,重置速率限制 #7

OpenAI 宣布 Codex 周活跃用户突破 400万

为庆祝这一增长,官方于昨夜重置了速率限制。

OpenAI 官方宣布其产品 Codex 的周活跃用户数已突破 400 万。

根据 Sam Altman 的说法,该产品在 4 月上旬达到 300 万周活跃用户后,仅用不到两周时间便新增了超过 100 万用户。

为庆祝这一增长里程碑,OpenAI 官方于昨夜对 Codex 的速率限制进行重置。

相关链接:


OpenAI 发布 Euphony 开源工具 可视化 Harmony 会话日志 #8

OpenAI Developers 推出名为 Euphony 的开源工具,专门用于在浏览器中可视化 Harmony 聊天对话和 Codex session 日志。

该工具旨在帮助开发者更便捷地检查和操作结构化聊天数据。

OpenAI Developers 官方宣布推出名为 Euphony 的开源工具,该工具主要用于在浏览器中可视化 Harmony 聊天对话和 Codex session 日志。

通过粘贴公共 URL、从剪贴板粘贴或上传本地 JSON 及 JSONL 文件,Euphony 可将原始数据转化为易于浏览的视图。

该工具提供了丰富的功能,包括对话及消息级元数据检查、Markdown 与 HTML 渲染、翻译功能、基于 JMESPath 的数据过滤、网格与编辑器模式、Harmony token 渲染,以及支持在 React 等任意框架中集成的 Web Components。

Euphony 提供独立应用和 JavaScript 库两种使用方式,支持纯前端和后端辅助两种运行模式,并基于 Apache 2.0 许可证发布。

相关链接:


OpenClaw 发布 2026.4.20 版本更新 #9

OpenClaw 发布了 2026.4.20 版本更新。

新版本新增了对 Kimi K2.6 模型的支持,并优化了 GPT-5 系列模型的推理配置。

同时,该版本全面修复了跨平台消息通道稳定性问题。

此外,更新还大幅强化了网关安全隔离与系统底层状态管理机制。

OpenClaw 发布了 2026.4.20 版本。该版本全面优化了模型支持、跨平台消息通道稳定性以及网关安全与调度机制。

本次更新新增了对 Kimi K2.6 模型的默认支持与分层定价计费,并引入了基于 Provider 感知的 /think 命令与 reasoning 逻辑设定。这使得 GPT-5Codex 等模型能更精准地遵循 SOUL/IDENTITY 指导与推理配置。

在消息渠道方面,BlueBubbles 全面修复了 iMessage 发送超时、回退降级与 Tapback 反应问题,提升了 macOS 26 环境下的兼容性。同时,Tg、DiscordMatrixMattermost 等通道的轮询、斜杠命令及流式消息传输也得到了显著增强。

此外,新版本重写了 Cron 状态与投递机制,强化了 Gateway 设备配对的权限隔离、WebSocket 广播安全与 Plugin 启动依赖项隔离。系统通过拦截工作区环境变量注入等一系列底层安全修复,大幅提升了长时间运行的内存与状态管理健壮性。

相关链接:


开源 AI 编程工具 Roo Code 宣布关闭,代码合并回 Cline #10

Roo Code 宣布项目正式关闭,团队将转向开发新项目 Roomote

Roo Code 相关资产将合并回上游项目 Cline

Matt RubensRoo Code的创始人宣布,该项目已达到 300 万次安装量,并将正式关闭。

团队未来将全力投入新项目Roomote的开发,而 Roo Code 的相关资产将合并回其原始上游项目Cline

Cline官方对此表示欢迎,并乐意接纳该项目的现有用户。

与此同时,基于 Roo Code开发的另一款扩展工具Kilo也发文致谢,并承诺将继续打造开源AI编程体验。

相关链接:


Open WebUI 发布 v0.9.0,推原生桌面及后端重构 #11

Open WebUI 正式发布 v0.9.0 版本,首次推出支持多系统的原生桌面应用,并新增定时自动化、任务管理及日历工作区功能。

此次更新完成了后端异步重写以提升性能,但官方提醒涉及数据库架构变更,升级前务必备份数据。

Open WebUI 官方正式发布了 v0.9.0 版本更新,该版本首次推出了官方原生桌面应用程序。

它全面支持 MacWindowsLinux 系统,允许用户在无 Docker 或服务器配置的环境下本地运行,并配备了系统级浮动聊天栏及一键语音通话功能。

核心功能方面,Open WebUI 新增了定时聊天自动化功能、任务管理工具以及完整的日历工作区,支持周期性事件管理与系统级提醒。

同时,该版本进行了全面的后端异步重写。此外,更新还强化了对 Azure OpenAIOllama Responses API 的支持,并修复了大量涉及数据安全、OAuth 验证和权限控制的问题。

官方公告强烈提示,由于此版本包含数据库架构变更,生产环境升级前需备份数据库,多实例部署必须同时更新,且自定义插件可能需要进行异步代码迁移。

相关链接:


Kimi.ai 开源 FlashKDA 内核,H20 硬件预填充提速 1.72 倍 #12

Kimi 宣布开源高性能内核 FlashKDA。该内核在 H20 硬件上最高能实现 2.22 倍的 prefill 提速。

Kimi.ai 官方宣布开源高性能 Kimi Delta Attention 内核 FlashKDA

根据官方公告,这款基于 CUTLASS 构建的产品在 H20 硬件上,相较于 flash-linear-attention 基线可实现 1.72 倍至 2.22 倍的 prefill 提速。

该技术能作为即插即用的后端直接应用于 flash-linear-attention

该技术的运行需要 SM90 及以上架构、CUDA 12.9 及以上版本以及 PyTorch 2.4 及以上版本的支持。

相关链接:


美团 LongCat API 平台上线 Sphynx 模型,向受邀开发者开放内测 #13

美团旗下 LongCat API 开放平台上线了名为 Sphynx 的新模型。

该模型目前处于内测阶段,仅向部分受邀开发者开放。

美团旗下龙猫API开放平台近日上线名为 Sphynx 的新模型。

据官方介绍,该模型主要面向 Agent 开发场景,原生支持工具调用、多步推理和长上下文任务。其在代码生成、自动化工作流及复杂指令执行方面表现突出,并深度适配了 Claude CodeOpenClawOpenCodeKilo Code 等生产力工具。

目前,Sphynx 正处于内测阶段,其使用权限仅向部分受邀开发者开放。

相关链接:


阿里 HappyHorse-1.0 模型将于 27 日开放 API 邀测 #14

阿里 ATH宣布,其 AI 视频生成模型 HappyHorse-1.0 将于本月 27 日通过阿里云百炼平台开启企业级 API 邀测。

商业版本计划于下个月发布。

阿里 ATH 创新事业部宣布,其联合阿里平台技术通义实验室淘天技术等团队协同打造的 AI 视频生成模型 HappyHorse-1.0(欢乐马),将于本月27 日通过阿里云百炼平台逐步开放 API 测试。

首批邀测对象为企业级客户。该模型的商业版本计划于下个月公开发布。


消息称 Claude Mythos 遭未授权用户访问 #15

据报道,一小群未经授权的用户在 Anthropic 宣布 Claude Mythos 模型测试计划当天,通过私有论坛获取了访问权限。

这被视为 Anthropic 的又一次重大安全漏洞。

据媒体报道及知情人士透露,一小群未经授权的用户在 Anthropic 首次宣布其全新 Claude Mythos AI 模型测试计划的同一天,通过一个私有在线论坛获取了该模型的访问权限。

根据官方说法,该模型非常强大,甚至能够促成危险的网络攻击。据知情人士提供的截图与现场演示,以及 彭博社 查阅的相关文件显示,这群用户自获取权限起便一直在定期使用该模型,但并未将其用于网络安全目的。

目前,非官方渠道及社交媒体已将此次未经授权的访问视为 Anthropic 遭遇的又一次重大安全漏洞。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误