2026-05-06

AI 早报 2026-05-06
概览
要闻
- OpenAI 推出 GPT-5.5 Instant,ChatGPT 增强记忆功能 ↗
#1
模型发布
- Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter ↗
#2 - Subquadratic 推出 SubQ,上下文窗口达 1200 万 token ↗
#3 - Inworld AI 发布 Realtime TTS-2,支持跨语言实时对话 ↗
#4 - Luma 开放 UNI-1.1 系列模型 API,Image Arena 排名全球实验室第三 ↗
#5
开发生态
- AI Studio 更新 Build 模块,集成 Nano Banana 与编辑模式 ↗
#6 - 字节跳动 TRAE 上线 SOLO 移动端,支持跨设备协同 ↗
#7 - Augment Code 发布 Augment Cosmos 公开预览 ↗
#8 - 谷歌更新 Gemini API 文件搜索,支持多模态检索与精确引用 ↗
#9 - OpenClaw 发布 2026.5.4 版,优化启动插件,传将发长期支持版 ↗
#10
产品应用
- Claude 推出系列金融 Agent 模板,多家机构已落地采用 ↗
#11 - Google NotebookLM 更新 Mind Maps,移动端开发计划确认 ↗
#12 - Google Finance 推出 AI 关键瞬间功能解析股价波动 ↗
#13 - Google 推出 Pomelli Catalog,免费向全球用户开放体验 ↗
#14
技术与洞察
行业动态
前瞻与传闻
OpenAI 推出 GPT-5.5 Instant,ChatGPT 增强记忆功能 #1
OpenAI宣布向所有 ChatGPT 用户推出
GPT-5.5 Instant作为新默认模型。它在提升智能与图像分析能力的同时大幅减少幻觉,写作风格也更简洁直白。ChatGPT还增强了记忆功能的效果,并上线了记忆源功能。用户可直接查看和管理个性化回复的具体上下文来源。
OpenAI从近日起开始向所有ChatGPT用户推出GPT-5.5 Instant,将其作为新的默认模型并替代GPT-5.3 Instant,同时在 API 中以 gpt-5.5-chat-latest提供。
官方称这是一次重大升级,该模型在通用智能、事实准确性、图像分析、STEM问题解答以及何时使用网络搜索方面均有提升。写作风格更加简洁直白,减少了冗余和表情符号。其内部评估显示,在医学、法律、金融等高风险领域,GPT-5.5 Instant相比前代模型减少了52.5%的幻觉声明,并将用户标记的事实错误对话中的不准确声明降低了37.3%。
与此同时,ChatGPT的记忆与个性化功能得到加强,能够更有效地利用保存的记忆、历史对话、文件和已连接的 Gmail账户上下文来提供个性化回答。并新推出记忆源功能,让用户可查看、更新或删除用于个性化回复的具体上下文来源。
个性化改进已向 Plus和 Pro网页端用户推出,移动端即将上线。未来数周内将推广至Free、Go、Business和Enterprise用户;记忆源功能则覆盖所有消费者套餐的网页端。对于付费用户,GPT-5.3 Instant将保留三个月后淘汰。


相关链接:
Google DeepMind 为 Gemma 4 系列模型开源了 MTP drafter #2
Google DeepMind 为 Gemma 4 系列模型开源了
MTP drafter。它通过推测解码和共享
KV cache,能够并行预测多个 token。这一技术在不降低输出质量的前提下,将推理速度最高提升至原来的 3 倍。
Google DeepMind 为 Gemma 4 全系列模型发布 Multi-Token Prediction (MTP) drafter。
该草稿模型基于推测解码,通过共享主模型 KV cache,单次前向并行预测并验证多个 token。
官方明确,在不牺牲输出质量和推理逻辑前提下,推理速度最高提升至原来的 3 倍;26B MoE 模型在 Apple Silicon 上可实现约 2.2 倍本地加速。
MTP drafter 均以 Apache 2.0 协议开源,首日即获 Hugging Face、Kaggle、vLLM 等主流框架支持,并可通过 Google AI Edge Gallery 在 Android 和 iOS 端体验。

相关链接:
- https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
- https://huggingface.co/collections/google/gemma-4
Subquadratic 推出 SubQ,上下文窗口达 1200 万 token #3
Subquadratic公司宣布推出基于
Subquadratic Sparse Attention架构的大语言模型SubQ。该模型具备 1200万 token 上下文窗口,在百万 token 任务中实现最高 52 倍预填充加速。
现已开放早期访问,提供 API 与编码 Agent 两种使用方式。
Subquadratic 推出基于亚二次方稀疏注意力(Subquadratic Sparse Attention)架构的 SubQ,已开放早期访问。
官方称,SubQ 具备 1200 万 token 上下文窗口。1M 长度较 FlashAttention-2 实现 52.2 倍 预填充加速,成本据称为其他领先模型的 1/5。
测试中,SubQ 在 RULER(128K)得 95.0%,SWE-Bench Verified 为 81.8%。
模型提供 API 与编码 Agent。团队预告将发布模型卡。

相关链接:
Inworld AI 发布 Realtime TTS-2,支持跨语言实时对话 #4
Inworld AI发布了新一代实时对话语音模型
Realtime TTS-2。该模型能听取完整对话音频,提供对话感知等核心能力。
它支持在超
100种语言中维持同一音色。
Inworld AI 发布新一代语音模型 Realtime TTS-2。该模型能在完整对话中听取音频、捕捉语气,接受自然语言指令,并在超 100 种语言中保持同一说话人身份。
其具备语音方向、对话感知、跨语言和高级语音设计四大核心能力,支持 5-15 秒语音克隆。
该模型串联 STT、LLM 路由与 TTS 实现端到端连接,TTS 层中位首音频延迟低于 200 毫秒。
相关链接:
Luma 开放 UNI-1.1 系列模型 API,Image Arena 排名全球实验室第三 #5
Luma正式开放
UNI-1.1与UNI-1.1-Max的 API。相关模型采用
decoder-only自动回归transformer架构。在 Arena.ai 评测中,Luma 凭借该系列模型位列全球实验室第三名。
Luma宣布正式开放“统一智能”推理模型UNI-1.1-Max与UNI-1.1的 API 访问权限,标志其进入生产环境。该模型采用 decoder-only架构,同步处理文本与图像 token,具备推理能力,在RISEBench测试中领先。API 提供图像生成(支持至多 9 张参考图)与自然语言修改两大端点。
在Arena.ai评测中,Luma位列全球实验室第三,UNI-1.1-Max以 1193 分排Text-to-Image榜单第六。官方称其成本与延迟不到同类模型一半。


相关链接:
AI Studio 更新 Build 模块,集成 Nano Banana 与编辑模式 #6
Google AI Studio 的
Vibe Coding功能正式上线了编辑模式,并集成了 Nano Banana 图像生成能力。用户可以直接在界面上进行批注、快速编辑组件。
在生成应用时,系统将自动创建并替换自定义图像资产。
近日,Google AI Studio 为 Vibe Coding 推出系列更新,核心为上线编辑模式并集成 Nano Banana 图像生成能力。
据官方社交账号,此次更新主要包括:一是集成 Nano Banana,支持在应用生成时自动创建自定义图像资产;二是推出重新设计的编辑模式,用户可直接在 UI 界面用笔注释、绘制与选择元素,以快速编辑组件并替换图像资产。
三是显著简化了图像上传操作。此外,据透露后续还将有更多更新。

相关链接:
字节跳动 TRAE 上线 SOLO 移动端,支持跨设备协同 #7
字节跳动旗下 AI 编程产品"TRAE SOLO"移动端现已正式上线,支持跨设备同步与手机端向电脑派发任务。
同时,官方联合星巴克推出限时咖啡兑换活动。
字节跳动旗下 AI 编程产品 TRAE 宣布 TRAE SOLO 移动端正式上线,支持跨设备同步,实现“移动端派发、桌面端执行”的协同工作,已开放下载。
配合发布,TRAE与星巴克推限时福利:2026 年 5 月 5 日 8:00 至 8 日 12:00,用户下载 APP 并下达一次指令,可领限量美式咖啡券。
该券限5 月 8 日 11:00-12:00 在北上深杭广蓉六城指定门店兑换。
此外,官方将于5 月 6 日至6 月 15 日每周末在北京嘉里中心主题店举办"SOLO COFFEE TALK"AI 线下分享会,首场5 月 9 日开启。

相关链接:
Augment Code 发布 Augment Cosmos 公开预览 #8
Augment Code 宣布推出 Augment Cosmos 公开预览版。
该产品支持多模型运行,通过引入
Prism路由技术与专业 Agent,让人类在软件开发生命周期中专注关键节点引导。现已向 Max 计划用户开放。
Augment Code 近日宣布将其面向 Agent 软件开发的操作系统 Augment Cosmos 推向公开预览版。
该系统专为团队协作设计,支持 Agent 在本地环境或云端运行,并全面覆盖整个软件开发生命周期(SDLC)。
目前,该系统已向 MAX 计划用户开放。
其旨在通过模型路由技术(如 Prism)和专业化智能体(如 Milo),帮助企业在模型能力飞速迭代的背景下,实现组织级的效能转化。

相关链接:
谷歌更新 Gemini API 文件搜索,支持多模态检索与精确引用 #9
Google宣布更新 Gemini API 的
File Search工具。该工具现支持基于Gemini Embedding 2的图文跨模态检索、自定义元数据过滤和精确到页码的引用功能。
Google近日更新Gemini API的File Search工具,推三项功能助开发者构建高效多模态RAG系统。
一是基于Gemini Embedding 2模型引入多模态支持,实现图文跨模态检索;二是新增自定义元数据过滤,允许附加键值标签限定搜索范围,提升检索速度与准确性。
三是支持精确引用,将回答关联至原始文档具体页码,增强结果可验证性。
据早期测试者反馈,新功能在混合模态语料库上无需预处理即表现优异。Google现已在AI Studio提供示例应用及API文档。

相关链接:
OpenClaw 发布 2026.5.4 版,优化启动插件,传将发长期支持版 #10
OpenClaw 发布了 2026.5.4 版本,重点优化了插件安装体验与
Gateway启动速度。此次更新同时修复了 Windows 和 Discord 的稳定性问题。此外,官方计划在五月下旬推出
StableClaw长期支持版本。
近日,OpenClaw 发布 2026.5.4 版本。
本次更新重点优化了插件安装与更新流程,加速了 Gateway 启动路径,改进了诊断提示,并修复了 Windows 与 Discord 的可靠性问题。
同时,该版本新增了 Twilio 实时 Gemini 语音桥及模型认证查看功能。
此外,据报道,为回应此前更新导致的性能下降,OpenClaw 计划在 五月下旬 推出长期支持版本。

相关链接:
Claude 推出系列金融 Agent 模板,多家机构已落地采用 #11
Claude 面向金融行业推出投行推介、月终结账及
KYC筛查等预构建 Agent 模板。这些模板内嵌连接器与子 Agent,可作为插件安装到 Claude Cowork 或 Claude Code。
用户也能在 Managed Agents 中直接投产运行。
Anthropic近日面向金融服务行业推出了一系列预构建Agent模板,覆盖投行推介材料制作、估值复核、月终结账、信用承保、KYC筛查及对账等关键任务。
这些模板可作为插件安装于 Claude Cowork 和Claude Code,或通过官方Cookbooks在Managed Agents中生产化运行。每个模板均内嵌所需的连接器、技能与子Agent,支持直接使用或按机构标准定制。
与此同时,Anthropic官方在金融服务解决方案页面展示了Claude在银、保险、资管及金融科技领域的广泛采用。Coinbase、Citadel、FIS、BNY、Carlyle、Walleye Capital、Citi等多家机构已将其用于工程加速、投资分析、合规流程自动化等场景。
该平台具备原生Excel与PowerPoint集成、预构建接入LSEG及FactSet等数据源、满足SOC 2与FedRAMP合规要求等企业级能力,且在金融推理基准上表现领先。

相关链接:
Google NotebookLM 更新 Mind Maps,移动端开发计划确认 #12
NotebookLM的
Mind Maps功能已推送重大更新。用户现在能通过输入提示词来定制生成思维导图,还能即时重命名与分享导图,节点导航动画也变得更加丝滑。
Google NotebookLM 的 Mind Maps 功能正在迎来一次重大更新,近日已向用户推出。此次更新引入了三项核心改进。
首先是定制化(Customization)能力,让用户可以使用特定提示“驾驶”思维导图的生成,并能将导图范围限定至特定主题或来源。
其次是组织(Organization)功能,支持即时重命名和分享已创建的思维导图。
最后是导航(Navigation)方面的提升,为节点之间的切换带来丝滑的过渡动画。NotebookLM 官方称移动版本正在推进中。

相关链接:
Google Finance 推出 AI 关键瞬间功能解析股价波动 #13
Google Finance的
beta版上线了AI驱动的“关键瞬间”功能。用户查看一个月及以上的股票走势图时,AI会自动标记并解释股价波动原因。
Google 近日在 Google Finance 测试版中上线了 AI 驱动的“关键瞬间”功能。
用户在查看 1 个月及以上股票走势图时,AI 会自动标注并解释导致股价显著波动的关键事件。
用户可点击相关文章链接或利用内置工具进行深入追问。
此外,该功能还支持直接跳转至公司财报电话会议的核心段落,免去了手动检索的繁琐。

相关链接:
Google 推出 Pomelli Catalog,免费向全球用户开放体验 #14
Google 为 Pomelli 项目推出了免费的 Pomelli Catalog 新功能。
全球用户只需在官网添加并编辑产品或服务信息,该
Agent就会基于品牌 DNA 自动生成产品集合。系统将持续产出个性化的营销活动与摄影棚级高质量图片。
Google宣布为Pomelli营销Agent实验项目推出Pomelli Catalog新功能,该功能免费向全球用户开放。
用户可通过Google Labs官网 labs.google.com/pomelli 进行体验。Pomelli Catalog支持添加产品或服务信息,并允许对产品描述进行编辑。
随后该智能体将基于品牌DNA生成一系列产品集合,用于持续产出个性化的营销活动与高质量摄影棚级图片。

相关链接:
OpenAI 重构 WebRTC,实现语音 AI 低延迟传输 #15
为了让语音AI跟上自然语速,OpenAI发文介绍其重建了
WebRTC堆栈。引入薄中继与有状态收发器架构,为 ChatGPT 语音和
Realtime API实现了大规模低延迟的实时媒体传输。
OpenAI近日发布技术博文,阐述其如何为 ChatGPT 语音和 Realtime API 等产品提供大规模、低延迟的语音 AI 能力。
为使语音 AI 对话跟上自然语速,OpenAI重新设计了 WebRTC 技术栈。
该团队未采用厚重的传统媒体服务器,而是构建了“薄中继结合有状态收发器”的系统架构。

相关链接:
OpenRouter 分析 GPT-5.5 涨价,用户成本增 49% 至 92%。 #16
OpenRouter 发布成本分析指出,由于 token 价格翻倍,用户从
GPT-5.4切换到GPT-5.5后,实际支出成本大幅增加了 49% 到 92%。
OpenRouter 近期发布的一项成本分析显示,在 OpenAI 推出 GPT-5.5 模型后,从 GPT-5.4 切换至该新模型的用户实际支出成本增加了 49% 到 92%。
OpenRouter 的分析证实,对于超过 1 万 token 的较长提示,GPT-5.5 的输出长度确实减少了 19% 至 34%,在一定程度上抵消了价格上涨的影响。
但在较短提示的场景下,成本增幅更为显著。该研究选取了在 GPT-5.5 发布前后主要使用模型发生切换的用户群体作为样本。

相关链接:
OpenAI 升级 ChatGPT 广告,开放自助管理及 CPC 竞价 #17
OpenAI宣布扩展 ChatGPT 广告功能,面向美国广告主推出测试版自助 Ads Manager,并新增单次点击付费的
CPC竞价模式。平台还上线了
Conversions API等工具,在保障对话隐私的前提下提供聚合转化洞察。
OpenAI近日宣布,正进一步扩展ChatGPT广告功能,推出新的购买和管理方式。
同时,OpenAI新增了按点击付费(CPC)竞价模式,与此前仅有的 CPM 千次展示付费形成互补。
针对广告主对更强大效果衡量的需求,该公司推出了Conversions API和像素级测量工具,可提供聚合转化洞察(如购买、线索、注册等)。
同时强调对话隐私,确保广告与ChatGPT回答分离,广告主无法获取个人对话数据。

相关链接:
OpenAI 与普华永道合作,以 AI Agent 重构财务职能 #18
OpenAI与普华永道合作,帮企业CFO利用
AI Agent自动化财务工作流并强化风控。双方已在OpenAI内部验证,通过
Codex把合同处理量提升五倍。正将这些经验转化为企业部署路径,让财务团队能在既有工具中规模化应用
AI Agent。
OpenAI与**普华永道(PwC)**近期宣布合作,共同帮助企业的 CFO 部门利用 AI Agent 自动化财务工作流、增强预测能力、强化风险控制,从而重构财务职能。
该合作以实际生产环境为先导,双方围绕规划、预测、报告、采购、支付、资金、税务及会计关账等核心财务节奏构建 AI Agent,并率先在 OpenAI 内部财务组织落地验证:
其团队借助 Codex 工具,在人员规模不变的情况下将合同处理量提升至原来的 5倍。
并利用 IR-GPT 在近期的一轮融资中管理了超过 200次 投资者互动。

相关链接:
消息称谷歌 Gemini 3.2 Flash 现身 iOS 应用及 AI Studio #19
多名用户发现,模型标识为
Gemini 3.2 Flash的模型曾现身 Gemini app iOS 端及 Google AI Studio,但很快又消失。有体验到该模型的用户反馈,其性能接近
Gemini 3.1 Pro。
近日,据多名非官方社区用户报告及截图显示,Google未发布的 Gemini 3.2 Flash 模型已现身部分用户的 iOS 版 Gemini 应用及 AI Studio 中。
因并非全员可见,社区推测这可能是早期灰度测试或 UI 泄露。
据一名自称参与测试的用户称,该模型实测性能惊人地接近 Gemini 3.1 Pro。


相关链接:
- https://x.com/Waguri_Kaoruko8/status/2051488074589167704
- https://x.com/Xplo8E/status/2051573739200901315
传 OpenAI 首款 AI 手机 2027 上半年量产 联发科独供 #20
分析师郭明錤透露,OpenAI计划最早于2027年上半年量产首款
AI Agent手机。该设备预计独家采用联发科定制版
天玑9600处理器。
OpenAI正在加速其首款 AI Agent 手机的推进工作。
据行业分析师郭明錤称,该设备目标最早于 2027 年 上半年量产。
预计将采用联发科的天玑 9600定制版处理器作为唯一供应方案。

相关链接:
提示:内容由AI辅助创作,可能存在幻觉和错误。