2026-04-16

AI 早报 2026-04-16
概览
要闻
- Google 发布 Gemini 3.1 Flash TTS 模型 ↗
#1 - Google 发布 macOS 版 Gemini 原生桌面应用支持屏幕共享 ↗
#2 - Anthropic 为 Claude 平台启用身份验证机制 ↗
#3
模型发布
- NVIDIA 发布 Lyra 2.0,支持单图生成可探索 3D 世界 ↗
#4 - World Labs 开源 Spark 2.0 支持网页端亿级 3D 场景渲染 ↗
#5 - Nucleus AI 开源 Nucleus-Image,17B 参数激活 2B
#6
开发生态
- Claude Code 更新支持自主配置 Prompt Caching 的 TTL ↗
#7 - Google 官方宣布为 Gemini API 推出预付费计费功能 ↗
#8 - Windsurf 发布 2.0 版本,集成 Devin 解决多 Agent 管理瓶颈 ↗
#9 - Cursor 在最新版中上线交互式画布 ↗
#10 - OpenAI 升级 Agents SDK,引入沙箱环境保障安全运行 ↗
#11 - Cloudflare 发布 Mesh 服务 支持 AI Agent 安全私有网络访问 ↗
#12 - OpenRouter 视频生成功能上线 ↗
#13
产品应用
- Google 宣布扩大 Personal Intelligence 功能开放范围 ↗
#14
行业动态
- Anthropic 调整 Claude Enterprise 计费模式为按量计费
#15 - OpenAI 计划为 ChatGPT 广告业务引入按点击计费 ↗
#16
Google 发布 Gemini 3.1 Flash TTS 模型 #1
谷歌发布了文本转语音模型 Gemini 3.1 Flash TTS。该模型原生支持多说话人对话及超过 70 种语言,并创新引入了
Audio Tags功能,允许用户通过自然语言指令精细调控声音风格与语速。该模型在相关基准测试中取得了 1211 的 Elo 分。
开发者与企业现已可通过相关平台接入测试,同时所有生成的音频均自带
SynthID水印。
Google 发布了名为 Gemini 3.1 Flash TTS 的全新文本转语音模型。官方称 Gemini 3.1 Flash TTS 是 Google 迄今为止最自然、最具表现力的模型,其原生支持多说话人对话以及超过 70 种语言,并创新性地引入了 Audio Tags 功能,允许用户通过自然语言指令对声音风格、语速和表达方式进行精细调控。
此外,该模型生成的所有音频均带有 SynthID 水印,以确保内容透明度并防止虚假信息的传播。
该模型现已进入预览阶段,开发者可通过 Gemini API 和 Google AI Studio 进行接入与测试,企业用户能在 Vertex AI 平台上体验,而 Workspace 用户则可以直接在 Google Vids 中使用该功能。


相关链接:
- https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts
- http://aistudio.google.com/generate-speech
- https://ai.google.dev/gemini-api/docs/speech-generation#transcript-tags
Google 发布 macOS 版 Gemini 原生桌面应用支持屏幕共享 #2
Google 推出了 macOS 版 Gemini 原生桌面应用,用户安装后可通过全局快捷键一键唤出 AI 助手,还能直接共享屏幕或本地文件作为上下文。
Google 正式推出了 macOS 版 Gemini 原生桌面应用,这款应用向运行 macOS 15 及以上版本的用户免费开放,支持所有 Gemini 应用支持的语言和国家/地区。
该应用完全采用原生 Swift 构建,主打无缝融入用户的桌面工作流。用户不仅可以通过全局快捷键(默认为 Option + Space)在任意界面唤出 AI 助手,还能通过屏幕共享功能让 Gemini 读取本地文件或实时画面以获取上下文,直接生成针对当前工作内容的回答、图像或视频。

相关链接:
Anthropic 为 Claude 平台启用身份验证机制 #3
Anthropic 官方近期正在其 Claude 平台逐步推行身份验证机制。当用户访问特定功能、触发平台完整性检查或进行其他安全合规验证时,需通过第三方平台提供实体护照等证件并拍摄实时自拍。
Anthropic 被发现近期正在其 Claude 平台逐步推行身份验证机制。当用户访问特定功能、触发平台完整性检查或进行其他安全合规验证时,系统将要求通过第三方合作伙伴 Persona Identities 进行身份核实。
用户需提供原始的实体政府签发证件(如护照或驾照等)并拍摄实时自拍,不接受复印件、数字证件及非政府签发证件。
Anthropic 承诺,验证数据仅用于确认身份、防欺诈及法律合规,由 Persona 负责加密收集与持有,绝不用于模型训练或第三方营销,且仅在审查申诉等必要时由 Anthropic 访问记录。
若用户未满 18 岁、来自不支持地区或多次违规,其账号仍可能被封禁,误封可交由 Safeguards 团队申诉。
据社区及社交媒体用户反馈,目前开通 Claude Max 时已有概率触发此项 KYC 验证。


相关链接:
NVIDIA 发布 Lyra 2.0,支持单图生成可探索 3D 世界 #4
英伟达研究院正式发布了 Lyra 2.0 框架,这项技术实现了从单张图像大规模生成可探索的3D世界。该框架通过生成式重建新范式,成功克服了复杂大场景的空间遗忘与时间漂移难题,可自动生成并输出高质量的3D资产。
NVIDIA Research 近日发布了 Lyra 2.0 框架,该框架旨在从单张图像大规模生成持久且可探索的 3D 世界。这项技术通过结合摄像机控制的视频生成与前向重建技术,确立了“生成式重建”的新范式,并成功克服了复杂大场景生成中常见的空间遗忘与时间漂移两大技术瓶颈。
具体而言,Lyra 2.0 利用逐帧 3D 几何进行信息路由以检索过往帧并建立密集对应关系,同时依托自增强历史记录进行训练以纠正合成误差。
用户可通过其提供的交互式 GUI 实时规划摄像机轨迹。随着用户的移动,系统会迭代生成视频片段并转换为 3D 点云进行持续导航,最终输出可导出至物理引擎(如 NVIDIA Isaac Sim)的 3D Gaussians 或 meshes。
该框架为具身 AI 仿真、实时渲染及沉浸式应用提供了极具潜力的基础设施。目前其代码与模型均已公开,研究论文亦可在线查阅。

相关链接:
World Labs 开源 Spark 2.0 支持网页端亿级 3D 场景渲染 #5
World Labs 开源了其动态3D高斯泼溅渲染器
Spark 2.0,该引擎通过引入连续细节层级树、全新RAD数据格式以及GPU虚拟内存管理三大核心技术,成功突破了超大规模3D场景在网页端渲染的算力与传输瓶颈。
AI 世界模型公司 World Labs 近日正式开源了其内部使用的动态 3D 高斯泼溅(3DGS)渲染器 Spark 2.0。该引擎旨在解决超大规模 3D 场景在网页端渲染的算力与传输瓶颈。
根据官方博客介绍,Spark 2.0 基于最流行的网页端 3D 框架 THREE.js 和 WebGL2 构建,通过引入连续细节层级树、全新设计的 .RAD 数据格式以及 GPU 虚拟内存管理这三项核心技术,使其能够在任意搭载浏览器的设备(包括 iOS、Android、桌面端及 VR 设备)上,以固定且有限的显存流式传输并流畅渲染包含超过 1 亿个高斯泼溅的超大 3D 场景。
该技术现已与 World Labs 的创作平台 Marble 深度绑定,形成从内容生成到网页端交付的完整闭环。

相关链接:
Nucleus AI 开源 Nucleus-Image,17B 参数激活 2B #6
Nucleus AI 发布了开源文本生成图像模型 Nucleus-Image。该模型采用 MoE 架构,总参数达 170亿,激活参数约 20亿。
据官方数据,其核心评测表现已匹配或超越 GPT Image 1 和 Imagen 4 等模型。
Nucleus AI 团队近期发布了完全开源的文本生成图像模型 Nucleus-Image。该模型拥有 17B 总参数量,激活约 2B 参数,官方宣称其参数效率比同类主流模型高出 10 倍。
作为一个未经任何后训练优化(无 DPO、无强化学习、无人类偏好微调)的基础模型,根据官方公布的基准测试数据,其在 GenEval、DPG-Bench 和 OneIG-Bench 等评测中匹配或超越了 GPT Image 1、Imagen 4 以及 Qwen-Image 等模型。
该模型采用 Apache 2.0 协议,公开了完整的模型权重、训练代码及数据集配方。


Claude Code 更新支持自主配置 Prompt Caching 的 TTL #7
Claude Code 近期更新的版本已支持自主配置
Prompt Caching的 TTL ,开发者可通过新增环境变量启用 1小时 或强制设定 5分钟 的缓存机制。
Claude Code 在 2.1.108 版本的官方更新日志中宣布,该产品现已支持通过环境变量自定义设置 Prompt Caching 的 TTL。
该版本引入了 ENABLE_PROMPT_CACHING_1H 环境变量,允许用户在使用 API key、Bedrock、Vertex 以及 Foundry 时启用时长为 1 小时 的 Prompt Caching TTL。
此外,该更新还新增了 FORCE_PROMPT_CACHING_5M 变量,用于强制设定 5 分钟 的 TTL。
此前专用于 Bedrock 的 ENABLE_PROMPT_CACHING_1H_BEDROCK 变量现已弃用,但目前仍被系统兼容支持。

相关链接:
Google 官方宣布为 Gemini API 推出预付费计费功能 #8
Google宣布为 Gemini API 推出预付费计费功能,开发者可通过预先购买积分来调用
Gemini API,有效避免产生意外高额账单。这项功能目前已在美国地区启用并支持自动充值,未来几周将向全球推广。
Google 官方宣布在 Google AI Studio 为 Gemini API 推出预付费计费功能。该功能目前面向美国地区新启用该 API 的 Google Cloud Billing Accounts 上线,将在未来几周内全球推广。
开发者可预先购买积分,基于余额调用 Gemini API,提供支出可预测性,避免意外账单。系统支持余额不足时自动充值。
建立付款记录并升级 Usage Tiers 后,可无缝切换至标准后付费账户,以解锁更高速率限制。

相关链接:
Windsurf 发布 2.0 版本,集成 Devin 解决多 Agent 管理瓶颈 #9
Windsurf 正式发布 2.0 版本,通过引入全新的看板视图
Agent Command Center,帮助开发者集中监控并管理本地与云端 Agent 的状态。同时,自主云端 Agent “Devin” 被集成到编辑器中,它能在独立的云端虚拟机中持续运行端到端的复杂任务。
Windsurf 官方发布了 2.0 版本,通过引入全新的 Agent Command Center 和将自主云端 Agent Devin 直接集成到编辑器中,旨在解决开发者管理大量并行 Agent 时的注意力和记忆瓶颈。
Agent Command Center 提供单一的看板视图以监控所有本地和云端 Agent 的状态,而 Windsurf Spaces 功能则允许开发者按项目对会话、PR、文件和上下文进行分组,并支持上下文的无缝继承。
Devin 可以在独立的云端虚拟机中运行端到端的复杂任务,即便用户关闭设备也会继续执行,其生成的 PR 可直接在 Windsurf 内部进行审查和测试。
该云端功能被包含在所有 Windsurf 订阅计划中,其访问权限将在未来 48 小时 内逐步向用户开放。

相关链接:
Cursor 在最新版中上线交互式画布 #10
Cursor在最新版中上线了交互式画布功能,用可视化界面替代传统的纯文本交互。用户现在可以通过
canvas指令或自定义技能,让智能体直接生成包含图表的自定义数据看板。
Cursor 推出了全新的交互式画布功能,旨在通过可视化方式呈现信息,从而替代传统聊天或 Markdown 文件中难以消化的大段文本。
该功能允许智能体生成比纯文本更丰富的仪表盘和自定义界面,以展示现实世界数据并执行特定逻辑。
该产品在底层使用基于 React 的 UI 库进行渲染,原生支持表格、框体、示意图和图表等组件,并作为持久化产物与终端、浏览器等工具一同集成在智能体窗口中。
用户不仅可以借此进行 PR 代码审查和学习新库,还能通过创建“技能”来教会智能体生成特定类型的画布,例如为代码库生成交互式架构图。
目前,该功能已在 Cursor 3.1 版本中上线供用户试用。

相关链接:
OpenAI 升级 Agents SDK,引入沙箱环境保障安全运行 #11
OpenAI 宣布 Agents SDK 迎来重大升级,将其拓展为完整的智能体开发平台。开发者现在可以直接利用其内置的
Sandbox沙箱隔离环境和开源Harness架构,构建能长时间安全运行且支持防崩溃恢复的智能体,无需再从头搭建底层框架。
OpenAI 宣布对其 Agents SDK 进行了一次重大升级。根据官方公告,该 SDK 现支持在受控的 Sandbox 中运行 Agent。
此次更新采用了模型原生的 Harness 架构,将状态保存与计算执行分离,不仅能在容器崩溃时快速恢复任务,还能通过状态外置保护敏感数据免受提示注入等漏洞影响。
此外,SDK 增加了名为 Manifest 的统一配置层,以便使用同一套配置在本地开发和生产环境中挂载 S3、Google Cloud Storage 和 Azure Blob 等存储。
新版本还内置了 MCP 工具调用、Skills 渐进式能力暴露、AGENTS.md 自定义指令、Shell 工具、Apply Patch 文件编辑以及可灵活控制存储位置和创建时机的记忆系统。
目前该 SDK 支持 Python,TypeScript 支持正在开发中,所有 OpenAI API 用户均可直接使用,计费维持基于 Token 和工具调用的标准不变。

相关链接:
Cloudflare 发布 Mesh 服务 支持 AI Agent 安全私有网络访问 #12
Cloudflare 正式上线了全新安全私有网络服务 Cloudflare Mesh,通过单一轻量级连接器构建双向多对多的零信任网络,专为解决 AI Agent 的安全联网难题而设计。该服务支持免费使用。
Cloudflare 发布了名为 Cloudflare Mesh 的全新安全私有网络服务,旨在为用户、节点及自主 AI Agent 提供统一的网络访问能力。
该服务通过单一轻量级连接器,将个人设备、远程服务器及用户端点整合为一个双向、多对多的私有网络,并直接集成至 Cloudflare Developer Platform,使基于 Workers、Durable Objects 和 Agents SDK 构建的 Agent 能够通过 Workers VPC 直接访问私有数据库、API 及 MCP,无需手动配置隧道。
该服务现已上线,每个 Cloudflare 账户可免费支持最多 50 个节点和 50 个用户。

相关链接:
OpenRouter 视频生成功能上线 #13
OpenRouter正式上线视频生成功能,开发者现在可以通过单一的标准API调用顶级视频模型,统一处理分辨率、时长等原本碎片化的参数,并与文本、图像等多模态功能无缝结合使用。
OpenRouter 正式宣布其平台的视频生成功能已上线。通过该平台提供的通用 API,开发者可以使用单一的标准化 schema 访问顶级的视频模型,并将其与现有的文本、图像、音频、嵌入和重排器生成功能结合使用。
该接口统一了原本碎片化的视频接口请求,标准化了分辨率、时长、宽高比及音频生成等参数,并支持在调用前以编程方式查询模型的具体能力。

相关链接:
Google 宣布扩大 Personal Intelligence 功能开放范围 #14
谷歌宣布在 Gemini 及本周晚些时候在 Chrome 中,向全球更多用户开放 Personal Intelligence 功能。该功能能让用户获取专属的个性化 AI 响应。
Google 宣布即日起向全球更多用户推广其 Personal Intelligence 功能,该功能将率先在 GeminiApp 中上线,并计划于本周晚些时候集成至 Google Chrome。
通过这项技术,用户能够安全地跨应用(如 Gmail 和 Google Photos)建立连接并梳理信息脉络,从而无需反复提供背景信息,即可直接获得与其高度相关的个性化响应。

相关链接:
Anthropic 调整 Claude Enterprise 计费模式为按量计费 #15
Anthropic 最近调整了 Claude Enterprise 的计费模式,从每人每月最高 200 美元 的固定订阅制,改为了按用量计费。新标准为每月每人 20 美元 的基础席位费,再加上实际使用的算力消耗额外计费。
Anthropic 近期将 Claude Enterprise 的计费模式从最高 200 美元/人/月的固定订阅制,改为按用量计费的新标准:每月 20 美元/人的基础席位费,加上实际算力消耗的额外费用。
官方表示,此次调整是为了更好地反映工作负载向代理式使用转变的实际情况,直接推动因素是 Claude Code 和 Claude Cowork 等产品的算力消耗激增。
该计费变更目前适用于 150 人以上的企业客户,Team 订阅及 150 人以下企业不受影响。

OpenAI 计划为 ChatGPT 广告业务引入按点击计费 #16
据报道,OpenAI计划将其广告业务从当前的按展示计费模式,引入按点击次数计费的
CPC模式,推出以转化为导向的广告活动,并将广告业务逐步扩展至加拿大等国际市场。
OpenAI 计划在 ChatGPT 广告试点中引入按点击计费(CPC)模式,并规划转化导向广告,旨在与 Meta 和 Google 竞争。
该业务始于 2026 年初,面向美国免费版及 Go 订阅用户,广告展示于回答底部。
官方称,试点启动不到两个月已实现超 1 亿美元年化经常性收入。
初始采用每千次展示约 60 美元定价,现正寻求调整。
据媒体报道,该公司计划向加拿大、澳大利亚和新西兰扩张,2026 年广告收入目标为 24 亿美元。
官方强调用户对话内容不与广告商共享。

相关链接:
提示:内容由AI辅助创作,可能存在幻觉和错误。