2026-05-20

AI 早报 2026-05-20
概览
要闻
- Google 发布 Gemini 3.5 Flash 模型 ↗
#1 - Google 发布视频生成模型 Gemini Omni ↗
#2 - Google 发布 Gemini App 重大更新 ↗
#3 - Google AI Ultra降价至200美元并新增100美元月费档位 ↗
#4 - Google 推出 AI Studio 原生 Android 应用构建及移动端预注册 ↗
#5 - Google发布Antigravity 2.0并推出CLI工具,要求Gemini CLI用户迁移 ↗
#6 - DeepSeek 官方回应特定字符触发异常
#7
模型发布
- 字节跳动开源原生多模态模型 Lance ↗
#8 - Odyssey 发布 Starchild-1 与多智能体模型 Agora-1 ↗
#9 - 1B 参数模型 HRM-Text-1B 发布,采用双时间尺度层级推理架构 ↗
#10 - NVIDIA 开源 Nemotron-Labs-Diffusion 系列模型 ↗
#11 - Skywork发布Agent模型SkyClaw-v1.0及轻量版 ↗
#12
开发生态
产品应用
- 腾讯发布AI助手Marvis,支持自然语言控屏与本地隐私模式 ↗
#15
行业动态
- Andrej Karpathy 宣布加入 Anthropic 回归大模型研发 ↗
#16 - OpenAI 推出 Guaranteed Capacity 算力保障服务 ↗
#17 - 谷歌联手黑石建 AI 云公司,2027 年目标上线 500 兆瓦 ↗
#18 - 月之暗面20亿美元融资步入尾声 获国资及央企加持 ↗
#19 - KPMG 与 Anthropic 建立全球联盟并向超 27 万员工推出 Claude ↗
#20 - 报道称:Meta计划裁员8000人以抵消AI巨额支出 ↗
#21
Google I/O
- Google 搜索发布 AI Mode 重大更新 ↗
#22 - Google 发布智能购物车Universal Cart并扩展UCP与AP2 ↗
#23 - 谷歌推出 Gemini for Science 科研工具集 ↗
#24 - Google 推出 Project Genie 与 Street View 整合功能 ↗
#25 - Google Flow 引入全新 Agent 与 Gemini Omni 模型 ↗
#26 - Pomelli 推出 AI Agent 及品牌手册与建站功能 ↗
#27 - 谷歌发布 Wear OS 7:最高提升 10% 续航,将引入 Gemini Intelligence ↗
#28 - 谷歌发布 Ask YouTube 对话式搜索功能 ↗
#29 - Chrome 148 推出稳定版 Prompt API,WebMCP 源试用即将开启 ↗
#30 - Gemini API 引入 Managed Agents 一键启动云端沙箱 Agent ↗
#31 - Google 升级端侧 AI 工具栈,AI Edge Gallery 支持 MCP 并扩充平台生态 ↗
#32 - Google 预告 Agent 状态栏追踪功能 Android Halo ↗
#33 - Google预告Gemini智能音频眼镜 ↗
#34 - Google 宣布Workspace多项AI更新 ↗
#35 - Google与OpenAI深化SynthID合作并扩展内容验证工具 ↗
#36
Google 发布 Gemini 3.5 Flash 模型 #1
Google正式发布
Gemini 3.5 Flash模型。官方称该模型在编码和Agent任务上超越前代,并且速度快四倍。它能自主规划工作流并部署协作子Agent,已成为Gemini和AI Mode的默认模型。同时Google宣布下个月将发布Gemini 3.5 Pro。
Google 正式发布最新 AI 模型系列 Gemini 3.5,并率先推出专为复杂任务设计的 Gemini 3.5 Flash。
官方称,该模型在编码和 Agent 任务上超越了前代 3.1 Pro,输出速度比其他前沿模型快 4 倍,且运行成本通常不到后者的一半。
该模型现已通过 Antigravity 2.0 平台及 Gemini API 向开发者普遍开放,并成为 Gemini 应用 和 Google 搜索 AI Mode 的全球默认模型。
此外,Google 官方确认计划于下个月发布 3.5 Pro 模型,未来该模型将作为主控调度 3.5 Flash 执行具体的 Agent 任务。


相关链接:
Google 发布视频生成模型 Gemini Omni #2
Google 在 IO 大会发布多模态模型
Gemini Omni及首发版本Gemini Omni Flash,支持通过图文音视组合输入生成视频并进行对话式编辑,目前已面向全球付费订阅用户开放。
Google 推出多模态模型 Gemini Omni,首发版本 Omni Flash 现已向 Gemini App 和 Flow 平台的全球 Plus、Pro 及 Ultra 订阅用户开放。
该模型支持基于文本、图像、音频和视频的任意组合输入进行视频生成,并允许用户利用自然语言进行视频编辑及创建数字 Avatar。
官方计划本周起将此功能陆续推送至 YouTube Shorts,未来几周将通过 API 面向开发者开放。

相关链接:
- https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni
- https://deepmind.google/models/gemini-omni/
Google 发布 Gemini App 重大更新 #3
Google 宣布对 Gemini App 进行全面升级,推出全新的
Neural Expressive设计语言,并发布了个性化早间摘要Agent Daily Brief以及24/7全天候个人 AgentGemini Spark。其中,Daily Brief 今日起面向美国地区的部分订阅者推出,而 Gemini Spark 计划下周向美国的 AI Ultra 订阅者开启Beta测试,同时官方还启用了基于运算量的新额度系统。
Google 官方宣布对 Gemini App 进行重大更新,推出了全新的设计语言、多款 Agent 以及 AI 视频模型。
官方推出的个性化早间摘要 Agent Daily Brief 能够综合用户的 Gmail、日历和任务信息并提供优先级排序和下一步行动建议。该功能目前已开始面向美国地区年满 18 岁的 Google AI Plus、Pro 和 Ultra 订阅者推出。
此外,全新的 24/7 全天候云端 Agent Gemini Spark 和视频模型 Gemini Omni 也同步登场。前者将于下周面向美国的 AI Ultra 订阅者开启 Beta 测试,后者已面向全球订阅者推出。
伴随新功能上线,官方启用了基于复杂程度的新额度系统,将额度重置周期设定为 5 小时,并明确了各订阅层级的倍数关系。



相关链接:
- https://blog.google/innovation-and-ai/products/gemini-app/next-evolution-gemini-app
- https://support.google.com/gemini/answer/17004136
Google AI Ultra降价至200美元并新增100美元月费档位 #4
Google 宣布,
AI Ultra订阅新增每月 100美元 档位,并将顶级档位从 250美元 降至 200美元。新档位提供 5倍Gemini使用限制、20TB云存储和 YouTube Premium,即日 上线。
谷歌在 Google I/O 2026 大会期间对 AI Ultra 订阅计划做出调整:原每月 250美元 的顶级档位正式降至 200美元。
同时推出面向开发者、技术负责人和高级创作者的每月 100美元 新档位。100美元 档位提供 5倍 于 Pro 计划的 Gemini app 与 Google Antigravity 使用限额。
该档位还包含 20TB 云端存储、YouTube Premium 个人版以及优先体验新功能。200美元 档位则保留 20倍 使用限额及原有全部权益。
即日起全球上线,AI Plus 和 Pro 计划也同步获得多项权益升级。部分功能仅限美国,计费模式亦转向按计算量动态分配的新机制。

相关链接:
- https://blog.google/products-and-platforms/products/google-one/google-ai-subscriptions/
- https://one.google.com/about/google-ai-plans/
Google 推出 AI Studio 原生 Android 应用构建及移动端预注册 #5
Google 宣布 AI Studio 推出多项更新,原生支持通过提示词构建 Android 原生应用,并集成 Google Workspace,同时开启移动端 App 预注册。
在 Google I/O 2026 大会上,Google 官方宣布其网页端开发工具 Google AI Studio 新增原生 Android 应用构建能力,用户无需配置本地环境即可生成基于 Kotlin 和 Jetpack Compose 的应用代码。
该平台现已深度集成 Google Workspace,允许开发者直接在应用中调用 Docs、Sheets 和 Gmail 等服务,并引入了包含自定义图片生成的全新设计功能。
用户目前可将构建的应用免费部署至 Cloud Run(无需信用卡),或将测试版一键推送至 Google Play Console 的内部测试轨道,但官方提示目前生成的原生应用仅限个人使用。
此外,Google 正式推出了 AI Studio 的移动端 App 并已开放预注册,支持开发者随时随地进行代码迭代和预览。

相关链接:
- https://blog.google/innovation-and-ai/technology/developers-tools/google-ai-studio-io-2026
- https://android-developers.googleblog.com/2026/05/build-android-apps-google-ai-studio.html
Google发布Antigravity 2.0并推出CLI工具,要求Gemini CLI用户迁移 #6
Google发布
Antigravity 2.0,同步推出Antigravity CLI、独立桌面应用与SDK。即日起,Gemini CLI个人及免费用户须迁移至Antigravity CLI。
Google 在近日的 Google I/O 大会上正式发布 Antigravity 2.0 开发平台,并同步推出 Antigravity CLI、独立桌面应用与 SDK。它们共享统一的 agent harness,为开发者提供多端一致的 agent-first 体验。
桌面应用支持原生语音交互、Multi-Agent 并行与后台任务编排。CLI 采用 Go 语言重构以提升异步工作流执行速度,两者还同步用户的常用设置。
目前新平台已面向全球开放。但官方已要求所有通过 Google AI Pro/Ultra 或免费 Gemini Code Assist 使用 Gemini CLI 的个人消费者在约 30 天 内迁移至 Antigravity CLI。该旧服务将于约 30 天 后关停。
持企业许可的用户及通过 Google Cloud 的使用者不受影响,可继续使用或选择迁移。

相关链接:
- https://developers.googleblog.com/an-important-update-transitioning-gemini-cli-to-antigravity-cli/
- https://antigravity.google/blog/introducing-google-antigravity-cli
- https://github.com/google-antigravity/antigravity-cli
DeepSeek 官方回应特定字符触发异常 #7
针对输入特定特殊字符触发模型异常回复的现象,DeepSeek 官方发布说明确认,该现象属于模型幻觉,明确表示不存在安全漏洞或隐私泄露风险,后续将通过针对性训练修复该问题。
DeepSeek 官方发布说明,回应了用户反馈的输入特定特殊字符触发模型异常回复的现象。
官方技术团队经排查后确认,该异常属于特殊字符引发的模型幻觉,明确表示不涉及安全漏洞或用户隐私泄露。
后续官方将通过针对性训练增强模型对此类字符的识别与处理能力,以修复已知问题并优化模型表现。

字节跳动开源原生多模态模型 Lance #8
字节开源了 3B 参数的原生统一多模态模型
Lance,该模型支持在同一框架内完成图像和视频的理解、生成与编辑。据官方数据,其在多项生成基准测试中表现强劲。
字节跳动智能创作团队发布了 3B 参数的原生统一多模态模型 Lance,并在 GitHub 和 HuggingFace 上开源了代码与权重。
官方信息显示,该模型采用双流混合专家架构,完全从零开始使用 128 块 A100 GPU 训练,原生支持文生图、文生视频、多模态理解和编辑等六类任务。
官方宣称,Lance 在 VBench 视频生成等基准测试中取得了较高分数,超越了现有的部分开源统一模型。


相关链接:
- https://lance-project.github.io/
- https://github.com/bytedance/Lance
- https://huggingface.co/bytedance-research/Lance
Odyssey 发布 Starchild-1 与多智能体模型 Agora-1 #9
Odyssey 发布
Starchild-1预览版与Agora-1研究预览版。Starchild-1可实时生成音视频,Agora-1支持人类和 AI 在同一世界中实时互动。
Odyssey 官方宣布推出 Starchild-1 预览版和 Agora-1 研究预览版。
官方称 Starchild-1 是首个实时多模态世界模型,能自回归生成同步音视频并响应用户输入。
而 Agora-1 通过解耦模拟与渲染,允许多个参与者(人类或 AI)在同一世界中实时交互。用户现已可在线体验基于 GoldenEye 的多人对战演示。
团队还在社交平台确认 Agora-2 即将到来。

相关链接:
- https://odyssey.ml/introducing-agora-1
- https://agora.odyssey.ml/
- https://odyssey.ml/introducing-starchild-1
1B 参数模型 HRM-Text-1B 发布,采用双时间尺度层级推理架构 #10
Sapient Intelligence 发布了 10 亿参数的语言模型
HRM-Text-1B。官方称该模型基于双时间尺度的层级循环架构,实现了极具竞争力的性能。该模型目前属于预对齐状态。
Sapient Intelligence 推出了 10 亿参数的语言模型 HRM-Text-1B,并同步在 Hugging Face 和 GitHub 开源了模型权重及完整预训练框架。
该模型基于全新的层级推理模型(HRM)架构,由快慢两个 Transformer 模块迭代计算。
官方宣称,通过结构化数据集和架构优化,该模型仅需约 400 亿 token 即可完成预训练。
参考运行显示使用 16 块 H100 训练耗时约 46 小时,成本在 1000 至 1400 美元左右。
在可用性方面,当前发布的是预对齐基础检查点,尚未经过指令微调或多轮对话对齐。
官方明确其仅支持英语且未包含代码训练数据。

相关链接:
NVIDIA 开源 Nemotron-Labs-Diffusion 系列模型 #11
NVIDIA 发布 Nemotron-Labs-Diffusion
模型系列。该系列支持通过切换注意力模式在自回归、并行扩散及自推测解码三种模式间转换。
NVIDIA 于近期开源了 Nemotron-Labs-Diffusion 系列模型,包括 3B、8B、14B 的 Base 和 Instruct 版本,以及一款 9B 参数规模的视觉语言模型(VLM-8B)。
该系列架构的核心特点是支持三模式解码。用户仅需在推理时切换注意力模式,即可在传统的自回归(AR)解码、基于扩散的并行解码,以及结合两者的自推测解码模式间无缝切换。
根据官方提供的数据,相较于使用 MTP 方案的 Qwen3-8B-Eagle3,其自推测模式在接受长度上实现约 3 倍 提升。在 GB200 平台运行 8B 模型时,配合定制 CUDA 内核,推理速度可达 1015 tok/sec。
该系列模型采用 BF16 精度,依赖 transformers>=5.0.0 环境,并已在 Hugging Face 上基于不同的官方许可协议开放下载。

相关链接:
- https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B
- https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-VLM-8B
Skywork发布Agent模型SkyClaw-v1.0及轻量版 #12
Skywork 官方发布了专为 Agent 环境优化的 SkyClaw 模型及其轻量版变体,目前正通过
APIFree平台提供免费 API 访问。
Skywork 正式推出 Agent 模型 SkyClaw-v1.0 与主打低延迟、低成本的变体 SkyClaw-v1.0-lite。
官方称这两个模型在基于真实用户模式构建的 PinchBench 和 Claw-Eval 等基准测试中表现优于 Minimax 2.7、DeepSeek V4 Flash 和 Qwen。
SkyClaw-v1.0 原生支持 MCP、函数调用及包含流式输出的多种思考模式,重点强化了多步规划与工具调用能力。
用户现可通过 APIFree 平台获取 API Key 进行免费调用。

相关链接:
SpaceXAI 宣布 Grok 订阅接入 OpenClaw #13
SpaceXAI 宣布 Grok 现已支持接入
OpenClaw,持有SuperGrok或X Premium订阅的用户可直接跨设备与平台实现对话、生成多媒体及搜索 X 帖子。
SpaceXAI 官方宣布,用户现可在开源且本地优先的智能助手 OpenClaw 中直接使用 Grok 模型。
所有持有 SuperGrok 或 X Premium 订阅的用户均可接入该功能,并与 Agent 对话、生成图像和视频或搜索 X 平台帖子。
OpenClaw 支持在包括树莓派在内的多种硬件上运行并保持跨会话记忆,同时能连接 WhatsApp、Telegram 等多款主流通讯平台。
此外,OpenClaw 近期发布的 2026.5.18 版本也专门修复了相关的 xAI/Grok OAuth 验证等问题。

相关链接:
Anthropic 推出 Claude Managed Agents 自托管沙箱与 MCP 隧道 #14
Anthropic 宣布,Claude
Managed Agents推出自托管沙箱公开测试版及MCP隧道研究预览版。此外,Claude全平台的“extra usage”更名为"usage credits"。
Anthropic 在 Code with Claude London 活动上宣布,为 Claude Managed Agents 新增自托管沙箱与 MCP 隧道两项功能。
自托管沙箱目前处于公开测试版,允许 Agent 在自有基础设施或 Cloudflare、Daytona、Modal 和 Vercel 等托管环境中执行工具,而负责编排的 Agent 循环仍在 Anthropic 基础设施上运行。
MCP 隧道目前为研究预览版,需申请使用。该功能使 Agent 能通过轻量级网关的单向出站连接安全访问私有网络中的 MCP 服务器,无需向公共互联网暴露服务端点。
此外,Claude 开发者团队确认已将全平台的“额外使用量”(extra usage)重命名为“使用额度”(usage credits)。用户原有余额与限制保持不变,但该额度现在可直接用于驱动“快速模式”等功能。


相关链接:
- https://claude.com/blog/claude-managed-agents-updates
- https://x.com/ClaudeDevs/status/2056543965672083966
腾讯发布AI助手Marvis,支持自然语言控屏与本地隐私模式 #15
腾讯推出 AI 助手"Marvis 马维斯",整合
DeepSeek与混元模型,支持自然语言控制电脑,目前需凭邀请码体验。
腾讯推出操作系统层级 AI 助手"Marvis马维斯",目前用户需通过官方问卷获取邀请码后进行体验。
该助手整合了DeepSeek v4与混元Hunyuan3等最新模型,支持跨 PC、手机和微信多端在线。
Marvis支持通过自然语言一句话调用 APK 与 EXE 应用、修改电脑设置,并能对本地文档、表格及图片进行深度理解、内容搜索与生成。
为保护用户数据,该产品提供基于本地大模型的隐私模式,可确保敏感文件不上云。

相关链接:
Andrej Karpathy 宣布加入 Anthropic 回归大模型研发 #16
知名 AI 研究员 Andrej Karpathy 宣布已加入 Anthropic,将回归大语言模型前沿研发,并计划未来适时恢复教育工作。
Andrej Karpathy 通过个人社交账号宣布已加入 Anthropic。他表示,LLM 前沿领域未来几年将“尤为关键”,自己很高兴回归研发工作,同时仍对教育保持热情,计划适时恢复相关项目。
Karpathy 此前曾任 OpenAI 核心团队成员及 Tesla Autopilot 架构师。据媒体报道,他此次选择 Anthropic 而非重返 OpenAI,被外界视为前东家的明显损失。
相关链接:
OpenAI 推出 Guaranteed Capacity 算力保障服务 #17
OpenAI 推出全新服务 Guaranteed Capacity,允许客户通过
1到3年的承诺锁定长期算力访问权限并获取token折扣,以应对预期的全球算力紧缺。
OpenAI 宣布推出名为 Guaranteed Capacity 的新服务,旨在帮助符合条件的客户确保关键工作负载、Agent 和生产基础设施的长期算力访问。
客户可选择 1 到 3 年的承诺期,不仅能获得随年度承诺增加的 token 折扣,还能跨支持的云提供商和模型系列灵活调配支出额度。
OpenAI 高管表示,随着模型能力提升,预计全球将在一段时间内持续面临算力受限。此举既满足了客户对算力确定性的需求,也有助于团队规划基础设施。

相关链接:
谷歌联手黑石建 AI 云公司,2027 年目标上线 500 兆瓦 #18
谷歌与黑石宣布成立一家新
AI云合资公司。黑石投入 50 亿美元初始股权,谷歌提供TPU及技术,计划 2027 年上线 500 兆瓦容量。
谷歌与黑石宣布将成立一家暂无名称的 AI 云合资公司。黑石将投入 50 亿美元初始股权,谷歌则负责提供 TPU 硬件、软件和服务。
新公司计划于 2027 年上线 500 兆瓦容量,预计包含杠杆在内的总计算投资规模约 250 亿美元。
据《华尔街日报》报道,黑石将持有多数股权,并由谷歌长期高管 Benjamin Treynor Sloss 担任 CEO。
此举被视为谷歌迄今最大规模的对外芯片商业化尝试,旨在挑战 CoreWeave 等算力服务商。

相关链接:
月之暗面20亿美元融资步入尾声 获国资及央企加持 #19
据媒体报道,月之暗面正进行的 20 亿美元 融资已进入收尾阶段,国智投与中国移动等多家国资机构及央企已加入该公司的最新股东名单。
据媒体报道,月之暗面近期正在进行的 20 亿美元融资已进入收尾阶段。
其最新股东名单中除原有互联网大厂与产业基金外,已新增国智投、北京人工智能基金等国资机构及中国移动等央企巨头。
相关链接:
- https://www.ithome.com/0/952/336.htm
- https://www.aibase.com/zh/news/28132
- https://www.ithome.com/0/941/385.htm
KPMG 与 Anthropic 建立全球联盟并向超 27 万员工推出 Claude #20
毕马威宣布与 Anthropic 建立全球联盟,将
Claude嵌入其核心业务平台,并向全球超27.6 万名员工全面开放使用权限。
Anthropic与全球性专业服务机构 KPMG(毕马威)宣布达成全球战略联盟。
KPMG正在将 Claude Cowork和Managed Agents嵌入其基于Microsoft Azure构建的核心平台Digital Gateway中,初期将面向税务和法务客户推出新工具。
此次整合将使 KPMG 分布在全球的超过 27.6 万名员工获得 Claude的访问权限,进一步扩大其过去两年在美国市场的应用范围。
此外,双方还将在网络安全漏洞排查领域展开合作。Anthropic同时指定 KPMG为私募股权行业的首选合作伙伴。
相关链接:
报道称:Meta计划裁员8000人以抵消AI巨额支出 #21
据报道,Meta计划裁员约8000人以提升效率并抵消
AI支出,同时将冻结 6000 个空缺岗位的招聘。
据彭博社报道,Meta向员工发布内部备忘录,计划削减约**10%**的员工以提升效率,并抵消其在人工智能领域的巨额支出。
此次裁员涉及大约8000名员工,预计将于次月执行。同时,该公司决定不再招聘原本计划填补的6000个空缺职位。
相关链接:
Google 搜索发布 AI Mode 重大更新 #22
Google宣布升级
AI Mode,推出了支持多模态输入与长对话的智能搜索框。并将推出能根据提问实时生成定制交互界面的Generative UI,以及能全天候监控数据的Information Agents等功能。
Google 在 2026 年 I/O 大会上宣布了 25 年来最大规模的搜索升级,推出了支持多模态输入与长对话的智能搜索框,并将全球 AI Mode 默认模型升级为 Gemini 3.5 Flash。
通过整合 Google Antigravity 平台,官方计划今年夏季向所有用户免费推出 Generative UI,使搜索能根据提问实时生成定制化的交互界面与模拟。
同时,能在后台 24 小时监控全网并汇总更新的 Information Agents,以及构建个性化 Mini Apps 的能力,将在夏季优先面向美国的 Google AI Pro 与 Ultra 订阅者推出。
此外,Agentic Booking 服务与免订阅的 Personal Intelligence 功能也将陆续向全球更多市场扩展。

相关链接:
Google 发布智能购物车Universal Cart并扩展UCP与AP2 #23
Google 发布智能购物车
Universal Cart,计划 今夏 在 美国 Search 和Gemini应用中上线;此外,UCP协议将扩展至酒店预订和本地外卖,AP2支付协议也将整合至Gemini Spark等产品。
Google 在 I/O 2026 上发布了智能购物车 Universal Cart,并宣布对通用商务协议 UCP 和代理支付协议 AP2 的更新。
Universal Cart 可跨多个 Google 服务使用,在后台自动寻找优惠和降价。它利用 Gemini 模型主动标记产品不兼容问题,并基于用户的支付方式和忠诚度计划推荐最优结账选择。
该购物车定于今夏在美国 Search 和 Gemini 应用中上线,YouTube 和 Gmail 将随后支持。
此外,UCP 协议将扩展至酒店预订和本地外卖等垂直场景,其结账体验也将在未来几个月内进入加拿大、澳大利亚和英国市场。
AP2 支付协议则计划于未来几个月整合至 Gemini Spark 等产品。用户可设定花费上限和品牌偏好,代理仅在满足条件时完成交易,全程隐私保护并留存数字凭证。

相关链接:
谷歌推出 Gemini for Science 科研工具集 #24
谷歌宣布推出 Gemini for Science 实验工具集。该系列包含
Literature Insights等三大科研原型,旨在加速科学发现,现已逐步开放访问与注册。
谷歌正式宣布推出 Gemini for Science,这是一系列旨在扩展科学探索规模与精确度的实验性工具与技能集合。
该系列包含三个核心原型:基于 NotebookLM 构建的 Literature Insights,用于合成文献并生成报告;基于 Co-Scientist 构建的 Hypothesis Generation,利用多 Agent 模拟科学方法生成与评估假设;以及基于 AlphaEvolve 和 ERA 构建的 Computational Discovery,可并行生成并评估数千个代码变体。
目前相关实验已通过 Google Labs 逐步开放,企业级解决方案也正处于私有预览阶段。

相关链接:
- https://blog.google/innovation-and-ai/technology/research/gemini-for-science-io-2026/
- http://labs.google/science
- https://ai.google/gemini-for-science/
Google 推出 Project Genie 与 Street View 整合功能 #25
Google 宣布在
Project Genie中接入Street View,允许用户基于真实街景生成可交互世界。该功能现逐步面向全球符合条件的 Google AI Ultra 订阅者开放,目前仅限美国地点。
Google DeepMind 宣布在通用世界模型 Project Genie 中接入 Google Street View,使其能够基于真实街景数据生成虚拟环境。
用户现可选择美国境内的真实地点作为基础,配合特定视觉风格与自定义角色创建交互式世界。
这项整合了 Maps Imagery Grounding 技术的新功能正逐步向全球年满 18 岁且支付 200 美元月费的 Google AI Ultra 订阅用户开放。
官方同时提醒,Project Genie 仍处于实验性研究原型阶段。

相关链接:
- https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie-expands/
- http://labs.google/projectgenie/
Google Flow 引入全新 Agent 与 Gemini Omni 模型 #26
Google 为 Google Flow 推出全新
Agent与Gemini Omni模型。Agent已面向所有用户开放,高级模型与工具创建仅限订阅者,相关移动端应用已陆续推出。
Google 近期为其 AI 创意工作室 Google Flow 及音乐工具 Google Flow Music 发布多项重大更新,引入了全新的 Gemini Omni 模型、Google Flow Agent 以及 Google Flow Tools。
全新的 Gemini Omni Flash 模型结合了 Gemini 的理解能力与生成式媒体模型,官方称其为视频版的 Nano Banana。这一更新显著提升了多模态处理、精确视频编辑和角色一致性。目前,该功能已面向全球的 Google AI 订阅者开放。
定位为“创意伙伴”的 Google Flow Agent 能够规划并推理复杂任务,支持同时执行多项操作和批量编辑。现已向全球所有 Flow 用户开放。
此外,用户可以通过 Google Flow Tools 使用自然语言"vibe code"无需代码即可创建自定义工作流。所有用户均可使用现有工具,但创建和重混功能仅限 Google AI 订阅者。
同时,这两款工具的移动端应用也已在 Android 和 iOS 平台逐步上线。

相关链接:
- https://blog.google/innovation-and-ai/models-and-research/google-labs/flow-updates/
- https://flow.google/
Pomelli 推出 AI Agent 及品牌手册与建站功能 #27
Google Labs 旗下 Pomelli 官方引入
AI Agent,协助中小企业构建品牌身份,并推出自动生成品牌手册与一键建站的新功能。
Google Labs 旗下的 Pomelli 官方宣布引入 AI Agent 能力,协助中小企业构建品牌身份并制作相关内容。
用户可通过上传素材或与 Pomelli Agent 对话来生成"Business DNA",并据此创建包含定制图像与字体的综合指南。
此外,该产品新增了网站设计功能,支持用户在几次点击内设计并上线完整网站。目前,上述新功能已面向用户开放体验。

相关链接:
- https://blog.google/innovation-and-ai/models-and-research/google-labs/pomelli-agentic-capabilities/
- https://labs.google.com/pomelli/about/
谷歌发布 Wear OS 7:最高提升 10% 续航,将引入 Gemini Intelligence #28
谷歌在 I/O 开发者大会发布
Wear OS 7。官方称该系统较Wear OS 6最高提升 10% 续航,并计划在今年晚些时候为部分手表新增 Gemini Intelligence 支持。
谷歌在 2026 年 I/O 开发者大会上正式发布了全新的智能手表平台 Wear OS 7。
新系统带来了更优的电源管理,官方表示从 Wear OS 6 升级后最高可提升 10% 的电池续航。
同时引入了灵活的 Wear Widgets、Live Updates 以及全新的系统媒体控制与训练追踪功能。
在智能化方面,谷歌计划在今年晚些时候为部分设备推送 Gemini Intelligence,并提供 AppFunctions API 支持 Agent 语音执行任务。
目前,基于 Android 17 的 Wear OS 7 Canary 模拟器已面向开发者开放测试。

相关链接:
谷歌发布 Ask YouTube 对话式搜索功能 #29
YouTube 发布了 Ask YouTube 对话式搜索功能,支持用完整句子与连续追问检索长视频及 Shorts。
谷歌在 2026 年 I/O 大会上正式推出对话式搜索体验 Ask YouTube,将传统的关键词搜索升级为意图理解模式。
用户可输入复杂长句描述需求,并通过连续追问缩小范围,系统会自动整理全平台的长视频和 Shorts 并生成互动式结构化回应。
该功能目前通过特定页面面向美国 18 岁及以上的 YouTube Premium会员开放,官方计划未来向全体用户推广。
同期,谷歌还将 Gemini Omni引入YouTube Shorts Remix和YouTube Create应用,允许创作者通过文本指令重塑视频场景与风格,并确保生成内容带有数字水印及原始视频链接。

相关链接:
Chrome 148 推出稳定版 Prompt API,WebMCP 源试用即将开启 #30
Chrome团队发布了面向开发者的
WebMCP实验性标准、Modern Web Guidance早期预览及Chrome DevTools for agents和Prompt API稳定版。
谷歌宣布了构建"Agentic Web"的系列工具更新,其中 Prompt API 和 Chrome DevTools for agents 已正式进入 Stable 状态。
Prompt API 现已于 Chrome 148 中可用,允许开发者利用内置的 Gemini Nano 模型处理多模态输入(图像和音频)及输出结构化 JSON 数据。
面向未来,谷歌提出了 WebMCP 提议标准,旨在通过命令式与声明式 API 让网站向 Agent 暴露结构化工具,该功能预计将在 Chrome 149 开启源试用。
同步进入早期预览的 Modern Web Guidance 则集成了 Baseline,旨在指导 AI 编程 Agent 遵循最佳实践构建现代化 Web 体验。
此外,面向日常用户的 Gemini in Chrome 即将登陆 Android 平台,提供自动浏览、图像生成及全局语音输入等新交互方式。

相关链接:
- https://developer.chrome.com/docs/modern-web-guidance
- https://developer.chrome.com/docs/ai/prompt-api
- https://developer.chrome.com/docs/ai/webmcp
- https://developer.chrome.com/blog/chrome-at-io26
Gemini API 引入 Managed Agents 一键启动云端沙箱 Agent #31
Google 宣布在 Gemini API 推出预览版
Managed Agents。开发者可通过底层Antigravity agent在隔离沙箱内启动具备代码执行等能力的完整 Agent。
Google 宣布在 Gemini API 中推出预览版的 Managed Agents 功能。
开发者只需一次 API 调用,即可通过基于 Gemini 3.5 Flash 的 Antigravity agent,在隔离的云端 Linux 沙箱中启动能够执行代码、浏览网页和管理文件的自定义 Agent。
该功能抽象了底层基础设施的复杂性,支持使用 Markdown 文件定义技能。
目前已面向开发者在 Gemini API 和 Google AI Studio 中提供,并针对企业用户开启了私下预览。

相关链接:
Google 升级端侧 AI 工具栈,AI Edge Gallery 支持 MCP 并扩充平台生态 #32
Google 发布多项端侧 AI 更新,AI Edge Gallery 应用引入
MCP集成等功能;LiteRT-LM扩展至 Apple 与Web平台,Tensor ML SDK进入 Beta 并面向 Pixel 10 设备开放超百种TPU优化模型。
Google 发布了一系列针对端侧 AI 的更新,涵盖应用层、推理引擎及特定硬件 SDK。
AI Edge Gallery 应用在 Android 端以实验性质支持开源 MCP 协议进行外部工具调用,并加入主动通知提醒与持久聊天记录功能。
底层引擎 LiteRT-LM 针对 Gemma 4 引入最高 2.2 倍加速的 Multi-Token Prediction 机制。该引擎同时新增面向 Apple 生态的 Swift API 和面向 Web 端的 WebGPU JavaScript API。
面向 Pixel 10 系列设备的 Google Tensor ML SDK 正式进入 Beta 阶段。通过与 LiteRT 集成,该 SDK 提供包含 100 多个 TPU 优化模型在内的统一开发工作流。

相关链接:
- https://developers.googleblog.com/a-smarter-google-ai-edge-gallery-mcp-integration-notifications-and-session-continuity/
- https://developers.googleblog.com/blazing-fast-on-device-genai-with-litert-lm/
- https://developers.googleblog.com/google-tensor-sdk-beta-with-litert/
Google 预告 Agent 状态栏追踪功能 Android Halo #33
Google 今日预告了 Android
Halo功能。该功能计划于今年晚些时候推出,支持在屏幕顶部实时查看Agent的运行状态。
Google 官方今日预览了 Android Halo 功能,这是 Android 设备上专为 Agent 设立的新空间。
该功能将于今年晚些时候推出。届时用户无需中断当前操作,即可在屏幕顶部的状态栏直接查看 Agent 的任务进度、实时模式或消息通知。
Android Halo 将兼容 Gemini Spark 及其他受支持的 Agent。且在搭载 Gemini Intelligence 的最先进设备上将提供额外的进阶能力。

相关链接:
Google预告Gemini智能音频眼镜 #34
Google预告了将于今秋推出的
Gemini智能音频眼镜。该产品由三星及Warby Parker等品牌合作打造,提供拍照、导航和实时音频翻译等系列功能,并同时兼容Android和iOS设备。
Google官方预览了其全新的智能音频眼镜。该产品集成了Gemini,旨在提供全天候免提帮助,支持拍照、导航和实时音频翻译。
这些设备由Google联合三星、Gentle Monster和Warby Parker共同打造,并提前展示了秋季的部分设计。
这款眼镜计划于今年秋季率先上市,且将同时适配 Android 和 iOS 手机。


相关链接:
Google 宣布Workspace多项AI更新 #35
Google宣布,今夏将面向Workspace的订阅用户推出多项基于
Gemini的 AI 新功能,包括可语音问答的 Gmail Live、辅助起草文档的 Docs Live、自动整理笔记的 Keep,以及精准图像编辑工具 Pics和更多 AI Inbox管理能力。
Google 在 I/O 2026 大会宣布了一系列 Workspace AI 更新,包括 Gmail、Docs、Keep 的语音交互功能、新图像工具 Google Pics、升级版 AI Inbox,以及 24/7 个人 AI Agent Gemini Spark,预计 今夏 向部分用户推出。
其中 Gmail Live 可用自然语言问答收件箱内容,Docs Live 能充当写作搭档并调用 Gmail 等数据辅助创作,Keep 可自动将口述转为结构化笔记。Pics 支持精准对象编辑、文字翻译和协作编辑。
AI Inbox 新增个性化草稿、文件直达和任务管理功能;Gemini Spark 则可在用户指示下代为执行操作并与 Workspace 集成。这些功能 今夏 将面向 Google AI Pro 和 Ultra 订阅者及商业客户推出。

相关链接:
Google与OpenAI深化SynthID合作并扩展内容验证工具 #36
Google宣布在多平台扩展内容验证工具,联合 OpenAI 等推广 SynthID 水印;OpenAI 同步采用该技术,并推出图像公开验证工具预览版。
Google与OpenAI相继宣布推进AI内容来源透明度,双方通过整合C2PA标准与SynthID数字水印技术,帮助用户识别和验证生成式媒体。
Google正将SynthID及C2PA验证能力扩展至Search、Chrome和Gemini,并联合OpenAI、Nvidia、Kakao与ElevenLabs等合作伙伴将SynthID应用于更多生成内容。
OpenAI已成为C2PA符合规范的生成器,开始在通过ChatGPT、Codex及API生成的图像中嵌入SynthID,并发布了可检测图像是否由其生成的公开验证工具预览版。
OpenAI提示该验证工具在未检测到相关信号时无法得出明确结论,且在上线之初仅限于检测OpenAI自家产品生成的图像内容。

相关链接:
- https://blog.google/innovation-and-ai/products/identifying-ai-generated-media-online/
- https://openai.com/index/advancing-content-provenance/
提示:内容由AI辅助创作,可能存在幻觉和错误。