AI 早报 2026-05-06

视频版：哔哩哔哩｜ YouTube

概览

要闻

OpenAI 推出 GPT-5.5 Instant，ChatGPT 增强记忆功能 ↗ #1

模型发布

Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter ↗ #2
Subquadratic 推出 SubQ，上下文窗口达 1200 万 token ↗ #3
Inworld AI 发布 Realtime TTS-2，支持跨语言实时对话 ↗ #4
Luma 开放 UNI-1.1 系列模型 API，Image Arena 排名全球实验室第三 ↗ #5

开发生态

AI Studio 更新 Build 模块，集成 Nano Banana 与编辑模式 ↗ #6
字节跳动 TRAE 上线 SOLO 移动端，支持跨设备协同 ↗ #7
Augment Code 发布 Augment Cosmos 公开预览 ↗ #8
谷歌更新 Gemini API 文件搜索，支持多模态检索与精确引用 ↗ #9
OpenClaw 发布 2026.5.4 版，优化启动插件，传将发长期支持版 ↗ #10

产品应用

Claude 推出系列金融 Agent 模板，多家机构已落地采用 ↗ #11
Google NotebookLM 更新 Mind Maps，移动端开发计划确认 ↗ #12
Google Finance 推出 AI 关键瞬间功能解析股价波动 ↗ #13
Google 推出 Pomelli Catalog，免费向全球用户开放体验 ↗ #14

技术与洞察

OpenAI 重构 WebRTC，实现语音 AI 低延迟传输 ↗ #15
OpenRouter 分析 GPT-5.5 涨价，用户成本增 49% 至 92%。 ↗ #16

行业动态

OpenAI 升级 ChatGPT 广告，开放自助管理及 CPC 竞价 ↗ #17
OpenAI 与普华永道合作，以 AI Agent 重构财务职能 ↗ #18

前瞻与传闻

消息称谷歌 Gemini 3.2 Flash 现身 iOS 应用及 AI Studio ↗ #19
传 OpenAI 首款 AI 手机 2027 上半年量产联发科独供 ↗ #20

OpenAI 推出 GPT-5.5 Instant，ChatGPT 增强记忆功能 `#1`

OpenAI宣布向所有 ChatGPT 用户推出 GPT-5.5 Instant 作为新默认模型。它在提升智能与图像分析能力的同时大幅减少幻觉，写作风格也更简洁直白。

ChatGPT还增强了记忆功能的效果，并上线了记忆源功能。用户可直接查看和管理个性化回复的具体上下文来源。

OpenAI从近日起开始向所有ChatGPT用户推出GPT-5.5 Instant，将其作为新的默认模型并替代GPT-5.3 Instant，同时在 API 中以 gpt-5.5-chat-latest提供。

官方称这是一次重大升级，该模型在通用智能、事实准确性、图像分析、STEM问题解答以及何时使用网络搜索方面均有提升。写作风格更加简洁直白，减少了冗余和表情符号。其内部评估显示，在医学、法律、金融等高风险领域，GPT-5.5 Instant相比前代模型减少了52.5%的幻觉声明，并将用户标记的事实错误对话中的不准确声明降低了37.3%。

与此同时，ChatGPT的记忆与个性化功能得到加强，能够更有效地利用保存的记忆、历史对话、文件和已连接的 Gmail账户上下文来提供个性化回答。并新推出记忆源功能，让用户可查看、更新或删除用于个性化回复的具体上下文来源。

个性化改进已向 Plus和 Pro网页端用户推出，移动端即将上线。未来数周内将推广至Free、Go、Business和Enterprise用户；记忆源功能则覆盖所有消费者套餐的网页端。对于付费用户，GPT-5.3 Instant将保留三个月后淘汰。

相关链接：

https://openai.com/index/gpt-5-5-instant/

Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter `#2`

Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter。

它通过推测解码和共享 KV cache，能够并行预测多个 token。

这一技术在不降低输出质量的前提下，将推理速度最高提升至原来的 3 倍。

Google DeepMind 为 Gemma 4 全系列模型发布 Multi-Token Prediction (MTP) drafter。

该草稿模型基于推测解码，通过共享主模型 KV cache，单次前向并行预测并验证多个 token。

官方明确，在不牺牲输出质量和推理逻辑前提下，推理速度最高提升至原来的 3 倍；26B MoE 模型在 Apple Silicon 上可实现约 2.2 倍本地加速。

MTP drafter 均以 Apache 2.0 协议开源，首日即获 Hugging Face、Kaggle、vLLM 等主流框架支持，并可通过 Google AI Edge Gallery 在 Android 和 iOS 端体验。

相关链接：

Subquadratic 推出 SubQ，上下文窗口达 1200 万 token `#3`

Subquadratic公司宣布推出基于Subquadratic Sparse Attention架构的大语言模型 SubQ。

该模型具备 1200万 token 上下文窗口，在百万 token 任务中实现最高 52 倍预填充加速。

现已开放早期访问，提供 API 与编码 Agent 两种使用方式。

Subquadratic 推出基于亚二次方稀疏注意力（Subquadratic Sparse Attention）架构的 SubQ，已开放早期访问。

官方称，SubQ 具备 1200 万 token 上下文窗口。1M 长度较 FlashAttention-2 实现 52.2 倍 预填充加速，成本据称为其他领先模型的 1/5。

测试中，SubQ 在 RULER（128K）得 95.0%，SWE-Bench Verified 为 81.8%。

模型提供 API 与编码 Agent。团队预告将发布模型卡。

相关链接：

https://subq.ai/how-ssa-makes-long-context-practical

Inworld AI 发布 Realtime TTS-2，支持跨语言实时对话 `#4`

Inworld AI发布了新一代实时对话语音模型Realtime TTS-2。

该模型能听取完整对话音频，提供对话感知等核心能力。

它支持在超100种语言中维持同一音色。

Inworld AI 发布新一代语音模型 Realtime TTS-2。该模型能在完整对话中听取音频、捕捉语气，接受自然语言指令，并在超 100 种语言中保持同一说话人身份。

其具备语音方向、对话感知、跨语言和高级语音设计四大核心能力，支持 5-15 秒语音克隆。

该模型串联 STT、LLM 路由与 TTS 实现端到端连接，TTS 层中位首音频延迟低于 200 毫秒。

相关链接：

https://inworld.ai/blog/realtime-tts-2

Luma 开放 UNI-1.1 系列模型 API，Image Arena 排名全球实验室第三 `#5`

Luma正式开放UNI-1.1与UNI-1.1-Max的 API。

相关模型采用 decoder-only 自动回归 transformer 架构。

在 Arena.ai 评测中，Luma 凭借该系列模型位列全球实验室第三名。

Luma宣布正式开放“统一智能”推理模型UNI-1.1-Max与UNI-1.1的 API 访问权限，标志其进入生产环境。该模型采用 decoder-only架构，同步处理文本与图像 token，具备推理能力，在RISEBench测试中领先。API 提供图像生成（支持至多 9 张参考图）与自然语言修改两大端点。

在Arena.ai评测中，Luma位列全球实验室第三，UNI-1.1-Max以 1193 分排Text-to-Image榜单第六。官方称其成本与延迟不到同类模型一半。

相关链接：

AI Studio 更新 Build 模块，集成 Nano Banana 与编辑模式 `#6`

Google AI Studio 的 Vibe Coding 功能正式上线了编辑模式，并集成了 Nano Banana 图像生成能力。

用户可以直接在界面上进行批注、快速编辑组件。

在生成应用时，系统将自动创建并替换自定义图像资产。

近日，Google AI Studio 为 Vibe Coding 推出系列更新，核心为上线编辑模式并集成 Nano Banana 图像生成能力。

据官方社交账号，此次更新主要包括：一是集成 Nano Banana，支持在应用生成时自动创建自定义图像资产；二是推出重新设计的编辑模式，用户可直接在 UI 界面用笔注释、绘制与选择元素，以快速编辑组件并替换图像资产。

三是显著简化了图像上传操作。此外，据透露后续还将有更多更新。

相关链接：

https://x.com/GoogleAIStudio/status/2051679127824998762

字节跳动 TRAE 上线 SOLO 移动端，支持跨设备协同 `#7`

字节跳动旗下 AI 编程产品"TRAE SOLO"移动端现已正式上线，支持跨设备同步与手机端向电脑派发任务。

同时，官方联合星巴克推出限时咖啡兑换活动。

字节跳动旗下 AI 编程产品 TRAE 宣布 TRAE SOLO 移动端正式上线，支持跨设备同步，实现“移动端派发、桌面端执行”的协同工作，已开放下载。

配合发布，TRAE与星巴克推限时福利：2026 年 5 月 5 日 8:00 至 8 日 12:00，用户下载 APP 并下达一次指令，可领限量美式咖啡券。

该券限5 月 8 日 11:00-12:00 在北上深杭广蓉六城指定门店兑换。

此外，官方将于5 月 6 日至6 月 15 日每周末在北京嘉里中心主题店举办"SOLO COFFEE TALK"AI 线下分享会，首场5 月 9 日开启。

相关链接：

Augment Code 发布 Augment Cosmos 公开预览 `#8`

Augment Code 宣布推出 Augment Cosmos 公开预览版。

该产品支持多模型运行，通过引入 Prism 路由技术与专业 Agent，让人类在软件开发生命周期中专注关键节点引导。

现已向 Max 计划用户开放。

Augment Code 近日宣布将其面向 Agent 软件开发的操作系统 Augment Cosmos 推向公开预览版。

该系统专为团队协作设计，支持 Agent 在本地环境或云端运行，并全面覆盖整个软件开发生命周期（SDLC）。

目前，该系统已向 MAX 计划用户开放。

其旨在通过模型路由技术（如 Prism）和专业化智能体（如 Milo），帮助企业在模型能力飞速迭代的背景下，实现组织级的效能转化。

相关链接：

谷歌更新 Gemini API 文件搜索，支持多模态检索与精确引用 `#9`

Google宣布更新 Gemini API 的 File Search 工具。该工具现支持基于 Gemini Embedding 2 的图文跨模态检索、自定义元数据过滤和精确到页码的引用功能。

Google近日更新Gemini API的File Search工具，推三项功能助开发者构建高效多模态RAG系统。

一是基于Gemini Embedding 2模型引入多模态支持，实现图文跨模态检索；二是新增自定义元数据过滤，允许附加键值标签限定搜索范围，提升检索速度与准确性。

三是支持精确引用，将回答关联至原始文档具体页码，增强结果可验证性。

据早期测试者反馈，新功能在混合模态语料库上无需预处理即表现优异。Google现已在AI Studio提供示例应用及API文档。

相关链接：

https://blog.google/innovation-and-ai/technology/developers-tools/expanded-gemini-api-file-search-multimodal-rag

OpenClaw 发布 2026.5.4 版，优化启动插件，传将发长期支持版 `#10`

OpenClaw 发布了 2026.5.4 版本，重点优化了插件安装体验与 Gateway 启动速度。此次更新同时修复了 Windows 和 Discord 的稳定性问题。

此外，官方计划在五月下旬推出 StableClaw 长期支持版本。

近日，OpenClaw 发布 2026.5.4 版本。

本次更新重点优化了插件安装与更新流程，加速了 Gateway 启动路径，改进了诊断提示，并修复了 Windows 与 Discord 的可靠性问题。

同时，该版本新增了 Twilio 实时 Gemini 语音桥及模型认证查看功能。

此外，据报道，为回应此前更新导致的性能下降，OpenClaw 计划在 五月下旬 推出长期支持版本。

相关链接：

Claude 推出系列金融 Agent 模板，多家机构已落地采用 `#11`

Claude 面向金融行业推出投行推介、月终结账及 KYC 筛查等预构建 Agent 模板。

这些模板内嵌连接器与子 Agent，可作为插件安装到 Claude Cowork 或 Claude Code。

用户也能在 Managed Agents 中直接投产运行。

Anthropic近日面向金融服务行业推出了一系列预构建Agent模板，覆盖投行推介材料制作、估值复核、月终结账、信用承保、KYC筛查及对账等关键任务。

这些模板可作为插件安装于 Claude Cowork 和Claude Code，或通过官方Cookbooks在Managed Agents中生产化运行。每个模板均内嵌所需的连接器、技能与子Agent，支持直接使用或按机构标准定制。

与此同时，Anthropic官方在金融服务解决方案页面展示了Claude在银、保险、资管及金融科技领域的广泛采用。Coinbase、Citadel、FIS、BNY、Carlyle、Walleye Capital、Citi等多家机构已将其用于工程加速、投资分析、合规流程自动化等场景。

该平台具备原生Excel与PowerPoint集成、预构建接入LSEG及FactSet等数据源、满足SOC 2与FedRAMP合规要求等企业级能力，且在金融推理基准上表现领先。

相关链接：

https://claude.com/solutions/financial-services

Google NotebookLM 更新 Mind Maps，移动端开发计划确认 `#12`

NotebookLM的Mind Maps功能已推送重大更新。

用户现在能通过输入提示词来定制生成思维导图，还能即时重命名与分享导图，节点导航动画也变得更加丝滑。

Google NotebookLM 的 Mind Maps 功能正在迎来一次重大更新，近日已向用户推出。此次更新引入了三项核心改进。

首先是定制化（Customization）能力，让用户可以使用特定提示“驾驶”思维导图的生成，并能将导图范围限定至特定主题或来源。

其次是组织（Organization）功能，支持即时重命名和分享已创建的思维导图。

最后是导航（Navigation）方面的提升，为节点之间的切换带来丝滑的过渡动画。NotebookLM 官方称移动版本正在推进中。

相关链接：

https://x.com/NotebookLM/status/2051715594697977870

Google Finance 推出 AI 关键瞬间功能解析股价波动 `#13`

Google Finance的beta版上线了AI驱动的“关键瞬间”功能。

用户查看一个月及以上的股票走势图时，AI会自动标记并解释股价波动原因。

Google 近日在 Google Finance 测试版中上线了 AI 驱动的“关键瞬间”功能。

用户在查看 1 个月及以上股票走势图时，AI 会自动标注并解释导致股价显著波动的关键事件。

用户可点击相关文章链接或利用内置工具进行深入追问。

此外，该功能还支持直接跳转至公司财报电话会议的核心段落，免去了手动检索的繁琐。

相关链接：

http://finance.google.com/beta

Google 推出 Pomelli Catalog，免费向全球用户开放体验 `#14`

Google 为 Pomelli 项目推出了免费的 Pomelli Catalog 新功能。

全球用户只需在官网添加并编辑产品或服务信息，该 Agent 就会基于品牌 DNA 自动生成产品集合。

系统将持续产出个性化的营销活动与摄影棚级高质量图片。

Google宣布为Pomelli营销Agent实验项目推出Pomelli Catalog新功能，该功能免费向全球用户开放。

用户可通过Google Labs官网 labs.google.com/pomelli 进行体验。Pomelli Catalog支持添加产品或服务信息，并允许对产品描述进行编辑。

随后该智能体将基于品牌DNA生成一系列产品集合，用于持续产出个性化的营销活动与高质量摄影棚级图片。

相关链接：

OpenAI 重构 WebRTC，实现语音 AI 低延迟传输 `#15`

为了让语音AI跟上自然语速，OpenAI发文介绍其重建了 WebRTC 堆栈。

引入薄中继与有状态收发器架构，为 ChatGPT 语音和 Realtime API 实现了大规模低延迟的实时媒体传输。

OpenAI近日发布技术博文，阐述其如何为 ChatGPT 语音和 Realtime API 等产品提供大规模、低延迟的语音 AI 能力。

为使语音 AI 对话跟上自然语速，OpenAI重新设计了 WebRTC 技术栈。

该团队未采用厚重的传统媒体服务器，而是构建了“薄中继结合有状态收发器”的系统架构。

相关链接：

https://openai.com/index/delivering-low-latency-voice-ai-at-scale/

OpenRouter 分析 GPT-5.5 涨价，用户成本增 49% 至 92%。 `#16`

OpenRouter 发布成本分析指出，由于 token 价格翻倍，用户从 GPT-5.4 切换到 GPT-5.5 后，实际支出成本大幅增加了 49% 到 92%。

OpenRouter 近期发布的一项成本分析显示，在 OpenAI 推出 GPT-5.5 模型后，从 GPT-5.4 切换至该新模型的用户实际支出成本增加了 49% 到 92%。

OpenRouter 的分析证实，对于超过 1 万 token 的较长提示，GPT-5.5 的输出长度确实减少了 19% 至 34%，在一定程度上抵消了价格上涨的影响。

但在较短提示的场景下，成本增幅更为显著。该研究选取了在 GPT-5.5 发布前后主要使用模型发生切换的用户群体作为样本。

相关链接：

https://openrouter.ai/announcements/gpt55-cost-analysis

OpenAI 升级 ChatGPT 广告，开放自助管理及 CPC 竞价 `#17`

OpenAI宣布扩展 ChatGPT 广告功能，面向美国广告主推出测试版自助 Ads Manager，并新增单次点击付费的 CPC 竞价模式。

平台还上线了 Conversions API 等工具，在保障对话隐私的前提下提供聚合转化洞察。

OpenAI近日宣布，正进一步扩展ChatGPT广告功能，推出新的购买和管理方式。

同时，OpenAI新增了按点击付费（CPC）竞价模式，与此前仅有的 CPM 千次展示付费形成互补。

针对广告主对更强大效果衡量的需求，该公司推出了Conversions API和像素级测量工具，可提供聚合转化洞察（如购买、线索、注册等）。

同时强调对话隐私，确保广告与ChatGPT回答分离，广告主无法获取个人对话数据。

相关链接：

https://openai.com/index/new-ways-to-buy-chatgpt-ads/

OpenAI 与普华永道合作，以 AI Agent 重构财务职能 `#18`

OpenAI与普华永道合作，帮企业CFO利用AI Agent自动化财务工作流并强化风控。

双方已在OpenAI内部验证，通过Codex把合同处理量提升五倍。

正将这些经验转化为企业部署路径，让财务团队能在既有工具中规模化应用AI Agent。

OpenAI与**普华永道（PwC）**近期宣布合作，共同帮助企业的 CFO 部门利用 AI Agent 自动化财务工作流、增强预测能力、强化风险控制，从而重构财务职能。

该合作以实际生产环境为先导，双方围绕规划、预测、报告、采购、支付、资金、税务及会计关账等核心财务节奏构建 AI Agent，并率先在 OpenAI 内部财务组织落地验证：

其团队借助 Codex 工具，在人员规模不变的情况下将合同处理量提升至原来的 5倍。

并利用 IR-GPT 在近期的一轮融资中管理了超过 200次 投资者互动。

相关链接：

https://openai.com/index/openai-pwc-finance-collaboration/

消息称谷歌 Gemini 3.2 Flash 现身 iOS 应用及 AI Studio `#19`

多名用户发现，模型标识为 Gemini 3.2 Flash 的模型曾现身 Gemini app iOS 端及 Google AI Studio，但很快又消失。

有体验到该模型的用户反馈，其性能接近 Gemini 3.1 Pro。

近日，据多名非官方社区用户报告及截图显示，Google未发布的 Gemini 3.2 Flash 模型已现身部分用户的 iOS 版 Gemini 应用及 AI Studio 中。

因并非全员可见，社区推测这可能是早期灰度测试或 UI 泄露。

据一名自称参与测试的用户称，该模型实测性能惊人地接近 Gemini 3.1 Pro。

相关链接：

传 OpenAI 首款 AI 手机 2027 上半年量产联发科独供 `#20`

分析师郭明錤透露，OpenAI计划最早于2027年上半年量产首款 AI Agent 手机。

该设备预计独家采用联发科定制版 天玑9600 处理器。

OpenAI正在加速其首款 AI Agent 手机的推进工作。

据行业分析师郭明錤称，该设备目标最早于 2027 年 上半年量产。

预计将采用联发科的天玑 9600定制版处理器作为唯一供应方案。

相关链接：

https://x.com/mingchikuo/status/2051523855286776034

提示：内容由AI辅助创作，可能存在幻觉和错误。

Contents

AI 早报 2026-05-06

概览

要闻

模型发布

开发生态

产品应用

技术与洞察

行业动态

前瞻与传闻

OpenAI 推出 GPT-5.5 Instant，ChatGPT 增强记忆功能 #1

Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter #2

Subquadratic 推出 SubQ，上下文窗口达 1200 万 token #3

Inworld AI 发布 Realtime TTS-2，支持跨语言实时对话 #4

Luma 开放 UNI-1.1 系列模型 API，Image Arena 排名全球实验室第三 #5

AI Studio 更新 Build 模块，集成 Nano Banana 与编辑模式 #6

字节跳动 TRAE 上线 SOLO 移动端，支持跨设备协同 #7

Augment Code 发布 Augment Cosmos 公开预览 #8

谷歌更新 Gemini API 文件搜索，支持多模态检索与精确引用 #9

OpenClaw 发布 2026.5.4 版，优化启动插件，传将发长期支持版 #10

Claude 推出系列金融 Agent 模板，多家机构已落地采用 #11

Google NotebookLM 更新 Mind Maps，移动端开发计划确认 #12

Google Finance 推出 AI 关键瞬间功能解析股价波动 #13

Google 推出 Pomelli Catalog，免费向全球用户开放体验 #14

OpenAI 重构 WebRTC，实现语音 AI 低延迟传输 #15

OpenRouter 分析 GPT-5.5 涨价，用户成本增 49% 至 92%。 #16

OpenAI 升级 ChatGPT 广告，开放自助管理及 CPC 竞价 #17

OpenAI 与普华永道合作，以 AI Agent 重构财务职能 #18

消息称谷歌 Gemini 3.2 Flash 现身 iOS 应用及 AI Studio #19

传 OpenAI 首款 AI 手机 2027 上半年量产 联发科独供 #20

OpenAI 推出 GPT-5.5 Instant，ChatGPT 增强记忆功能 `#1`

Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter `#2`

Subquadratic 推出 SubQ，上下文窗口达 1200 万 token `#3`

Inworld AI 发布 Realtime TTS-2，支持跨语言实时对话 `#4`

Luma 开放 UNI-1.1 系列模型 API，Image Arena 排名全球实验室第三 `#5`

AI Studio 更新 Build 模块，集成 Nano Banana 与编辑模式 `#6`

字节跳动 TRAE 上线 SOLO 移动端，支持跨设备协同 `#7`

Augment Code 发布 Augment Cosmos 公开预览 `#8`

谷歌更新 Gemini API 文件搜索，支持多模态检索与精确引用 `#9`

OpenClaw 发布 2026.5.4 版，优化启动插件，传将发长期支持版 `#10`

Claude 推出系列金融 Agent 模板，多家机构已落地采用 `#11`

Google NotebookLM 更新 Mind Maps，移动端开发计划确认 `#12`

Google Finance 推出 AI 关键瞬间功能解析股价波动 `#13`

Google 推出 Pomelli Catalog，免费向全球用户开放体验 `#14`

OpenAI 重构 WebRTC，实现语音 AI 低延迟传输 `#15`

OpenRouter 分析 GPT-5.5 涨价，用户成本增 49% 至 92%。 `#16`

OpenAI 升级 ChatGPT 广告，开放自助管理及 CPC 竞价 `#17`

OpenAI 与普华永道合作，以 AI Agent 重构财务职能 `#18`

消息称谷歌 Gemini 3.2 Flash 现身 iOS 应用及 AI Studio `#19`

传 OpenAI 首款 AI 手机 2027 上半年量产联发科独供 `#20`