2026-03-11

AI 早报 2026-03-11
概览
要闻
模型发布
- Tencent AI Lab 开源 LeVo 2 音乐模型,支持 4 分半全曲生成 ↗
#3 - Fish Audio 开源 S2 文本转语音模型 ↗
#4 - Hume AI 开源 TADA,基于 Llama 3.2 实现语音语言统一模型 ↗
#5
开发生态
- OpenAI 调整 Codex 服务,免费层级移除 gpt-5.4 模型权限 ↗
#6 - Claude Code 引入 /btw 命令支持后台任务对话 ↗
#7 - JetBrains 上线 Air,支持多 Agent 并行执行与任务隔离 ↗
#8 - Kilo 发布预发布版 VS Code 扩展,基于 OpenCode 核心重构 ↗
#9 - Zed 推出高校教育计划,启动 2026 校园大使项目 ↗
#10
产品应用
- OpenAI 上线 ChatGPT 动态视觉解释功能,覆盖 70 概念 ↗
#11 - Claude 移动端应用更新,优化语音模式与大型 Prompt 性能表现 ↗
#12 - Adobe 开放 Photoshop AI 助手 Beta,支持 Web 与移动端应用 ↗
#13 - MiroThinker 发布重大更新,会员收费正式全量开放
#14 - alphaXiv 上线 SKILL.md,优化 Claude Code 论文读取效率 ↗
#15 - 智谱正式上线 AutoClaw 客户端 ↗
#16 - 腾讯云 Lighthouse 团队上线 SkillHub 镜像社区 ↗
#17
行业动态
- 图灵奖得主杨立昆创立 AMI Labs 获 10.3 亿美元融资 ↗
#18 - Thinking Machines Lab 获 Nvidia 投资 ↗
#19 - Meta 完成收购 Moltbook 团队并入超级智能实验室 ↗
#20 - Dify 完成 3000 万美元 Pre-A 轮融资 ↗
#21 - 亚马逊电商部门收紧 AI 代码管控,新增人工签字审批 ↗
#22 - 小红书发布治理公告 打击 AI 托管运营账号行为
#23
前瞻与传闻
- 微信开发内嵌式 AI Agent ,据称计划年中灰度三季度上线 ↗
#24
谷歌发布 Gemini Embedding 2 原生多模态嵌入模型 #1
Google发布了首个基于Gemini架构的原生多模态Embedding模型Gemini Embedding 2,现已通过Gemini API和Vertex AI开放公开预览。
该模型支持将文本、图像、音视频等五种模态统一映射至同一向量空间,官方称其在多模态任务中达 SOTA 水平,可实现高效的跨媒体信息检索。
Google 发布首个基于 Gemini 架构的原生多模态 Embedding 模型 Gemini Embedding 2,现通过 Gemini API 与 Vertex AI 以 Public Preview 状态开放。该模型将文本、图像、视频、音频及文档统一映射至单一向量空间,支持 100 余种语言,适用于 RAG 及语义搜索等任务。
技术规格上,模型文本输入上限为 8192 tokens,视频支持 120 秒,音频无需中间转录。输出维度默认 3072 维,可利用 MRL 技术缩放以平衡成本。官方称其在多模态任务中达 SOTA 水平。



相关链接:
- https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
- https://ai.google.dev/gemini-api/docs/embeddings
- https://docs.cloud.google.com/vertex-ai/generative-ai/docs/embeddings/get-multimodal-embeddings
Google 升级 Workspace Gemini 功能 #2
Google 于 2026 年 3 月 10 日向 AI Ultra 和 Pro 订阅用户推送了 Workspace 套件的
Gemini新一轮 Beta 功能。此次更新重点强化了办公自动化能力。用户在
Docs中可直接调用Gmail和Drive数据生成初稿并统一格式。在
Sheets中,用户可通过自然语言指令创建工作簿并自动填充内容。在
Drive中,则能实现跨文档的智能问答与摘要。目前,
Docs、Sheets和Slides功能支持全球英语用户,Drive增强搜索仅限美国地区。
Google 宣布为 Google Workspace 推出一系列由 Gemini 驱动的重大更新,旨在让 Docs、Sheets、Slides 和 Drive 变得更加个性化、智能且具备协作能力。此次更新以 Beta 形式推出,优先面向 Google AI Ultra 和 Pro 订阅者开放。
在 Google Sheets 方面,Gemini 在 SpreadsheetBench 数据集上达到了 70.48% 的成功率,官方称其表现接近人类专家水平,并引入了“Fill with Gemini”功能以加速数据填充。据 Google CEO Sundar Pichai 称,构建复杂表格的速度提升了 9 倍。
Google Docs 新增了“Help me create”功能,允许用户从 Drive、Gmail 和网络中选择来源以生成草稿,同时提供了“Match writing style”和“Match doc format”功能以统一文风和格式。
Google Slides 增强了幻灯片生成能力,支持生成完全可编辑的布局,并预告了未来通过单一提示词生成整套幻灯片的功能。
此外,Google Drive 变身为主动协作助手,引入“AI Overview”和“Ask Gemini”功能,使用户能通过自然语言搜索并跨文档、邮件及日历获取综合洞察。
目前,Docs、Sheets 和 Slides 的更新支持全球英语用户,而 Drive 的更新仅限于美国地区。

相关链接:
Tencent AI Lab 开源 LeVo 2 音乐模型,支持 4 分半全曲生成 #3
腾讯 AI Lab 在 GitHub 开源了商业级音乐生成模型 LeVo 2,该模型支持最长 4 分半钟 的中英西日多语言全曲生成。官方宣称其主观听感已对标头部闭源模型,且歌词准确率优于
Suno v5。
Tencent AI Lab 在 GitHub 开源 LeVo 2(SongGeneration 2)音乐生成模型,定位为面向商业级质量的开源音乐基础模型。
当前已开放 4B 参数规模的 SongGeneration-v2-large 权重下载,并在 Hugging Face Space 提供在线 Demo。
该版本支持最长 4 分 30 秒 的全曲生成,覆盖中、英、西、日等多语言歌词。
官方宣称其主观听感质量已可对标 MiniMax Music 2.5 等头部闭源商业系统。


相关链接:
- https://github.com/tencent-ailab/SongGeneration
- https://huggingface.co/spaces/tencent/SongGeneration
- https://huggingface.co/collections/lglg666/levo-68d0c3031c370cbfadade126
Fish Audio 开源 S2 文本转语音模型 #4
Fish Audio 发布了文本转语音模型
S2,该模型支持通过自然语言标签进行精细的情感控制、多说话人进行多轮对话以及零样本语音克隆。目前模型权重已公开,采用 Fish Audio Research License,商用需获授权。
Fish Audio宣布开源文本转语音模型 S2。该模型基于 Dual-AR 架构,总参数约 5B,在约 1000万小时 音频上训练。其支持自然语言标签控制情感韵律,具备多说话人、多轮对话及零样本语音克隆能力。
据官方数据,S2 在多项基准测试中表现领先,部分指标优于 Google 和 OpenAI 闭源系统。
目前,模型权重及代码已在 GitHub 和 HuggingFace 公开,采用 Fish Audio Research License 授权,允许非商业用途。

相关链接:
Hume AI 开源 TADA,基于 Llama 3.2 实现语音语言统一模型 #5
Hume AI 开源发布了基于
Llama 3.2的语音语言统一模型 TADA,提供 1B 英文版与 3B 多语言版,支持中文及语音续写。
Hume AI 在 2026 年 3 月 10 日 开源发布 TADA(Text-Acoustic Dual Alignment),这是一款基于 Llama 3.2 的语音-语言统一模型。
该模型通过 1:1 的文本-音频 token 对齐机制,实现文本到语音(TTS)合成与语音续写功能。
TADA 在 GitHub 与 Hugging Face 同步上线,提供 1B 英文版与 3B 多语言版两个参数规模,支持本地部署与云端推理。

相关链接:
- https://github.com/HumeAI/tada
- https://www.hume.ai/blog/opensource-tada
- https://huggingface.co/spaces/HumeAI/tada
OpenAI 调整 Codex 服务,免费层级移除 gpt-5.4 模型权限 #6
OpenAI 于 2026年3月10日 调整 Codex 服务策略,移除了免费层级对
gpt-5.4及5.3-codex模型的调用权限。免费用户现仅能使用gpt-5.2及更早版本,而付费账户不受影响。此外,官方已在 3月10日中午 修复了导致服务无响应的挂起故障,并重置了速率限制。
OpenAI 于 2026 年 3 月 10 日 起调整 Codex 服务,移除免费层级对 gpt-5.4 及 gpt-5.3-codex 模型的调用权限,付费层级未受影响。免费用户仅能使用 gpt-5.2 等旧版模型。
此外,OpenAI 于北京时间 3 月 10 日 中午修复了导致 Codex 请求无响应的挂起故障,并重置了速率限制。


相关链接:
Claude Code 引入 /btw 命令支持后台任务对话 #7
Claude Code 推出了
btw命令,允许用户在 AI 执行后台任务时进行支线对话。该功能复用上下文缓存,能在不中断主工作流的前提下快速回答简短问题,但不支持工具调用且不写入主记录。
Claude Code 引入了 /btw 命令,允许用户在 Claude 执行后台任务时进行“支线对话”。用户可通过界面叠加层发起提问,该功能拥有当前会话的完整上下文,但不会写入主对话历史,也不支持工具调用,仅限单轮交互。
这一设计旨在解决等待任务时的交互痛点,通过复用父对话的提示缓存以优化计算成本。消息不输入主数据流,仅用于处理基于现有上下文的简短问答。

相关链接:
JetBrains 上线 Air,支持多 Agent 并行执行与任务隔离 #8
JetBrains 发布了多 Agent 并行开发工具 Air,支持
Codex、Claude、GeminiCLI 与Junie在独立的 Docker 或 Git Worktree 环境中互不干扰地同时运行。该工具目前已开放 macOS 版。
JetBrains 推出多 Agent 并行开发工具 Air Preview 版。该工具支持 Codex、Claude Agent、Gemini CLI 与 Junie 在同一工作流中独立运行。
其核心采用“任务级隔离”机制,用户指定任务后,可通过 Local Workspace、Git Worktree 或 Docker 容器配置独立环境,实现互不干扰的并行执行及代码审查。
目前 Air 已开放免费试用,现有版本或仅支持 macOS,Windows 与 Linux 支持待上线。

相关链接:
Kilo 发布预发布版 VS Code 扩展,基于 OpenCode 核心重构 #9
Kilo 发布了完全重构的 VS Code 扩展 pre-release 版本,基于
OpenCode server开源核心实现了跨平台会话同步。
Kilo 发布重构版 Kilo Code VS Code 扩展 pre-release。新版本基于 OpenCode server 构建,与 CLI 共享可移植引擎,不再依赖 VS Code 内部实现。
核心引入子代理委托与并行执行,支持并发调用及多角色协同;Agent Manager 集成 diff 审查与 git-worktree 隔离,支持多模型对比。跨平台会话实现了 CLI 与 VS Code 的无缝衔接。
该扩展已上线 Marketplace,官方称稳定可用但以 pre-release 收集反馈。目前 UI 暂不支持 Provider 配置,需通过 CLI 设置。

相关链接:
Zed 推出高校教育计划,启动 2026 校园大使项目 #10
Zed 正式面向全球高校师生推出 Zed for Students 教育计划及校园大使项目。
身份有效的教师和学生现可申请获得为期一年的 Zed Pro 订阅及每月 AI 额度。
Zed 面向全球高校师生推出“Zed for Students”教育计划及 2026 年度 Campus Ambassador 校园大使项目,两项计划现已开放申请且未设截止期限。
教育计划为在读师生提供为期 12 个月的 Zed Pro 订阅、每月 10 美元 token credits 及无限制 edit predictions 权限,申请入口位于官网教育页面。
大使项目招募本科及硕士生,要求申请者须为 Zed 用户,并承诺每年主办至少 3 场活动。入选者将获活动预算、独家社区及导师支持等资源,需承担建立校园组织及推广职责,通过 Google Forms 提交申请。

相关链接:
OpenAI 上线 ChatGPT 动态视觉解释功能,覆盖 70 概念 #11
OpenAI 在 ChatGPT 中上线了动态视觉解释功能,首批覆盖勾股定理、理想气体方程等70多个数学与科学核心概念。该功能支持用户在对话中通过滑动条实时调整变量,直观观察公式与图形的联动变化,将抽象概念转化为可交互的实验对象。
OpenAI于2026年3月6日在ChatGPT中上线“动态视觉解释功能”。首批覆盖超过70个数学与科学核心概念,面向全球所有已登录用户开放,涵盖免费与付费订阅计划。
该功能在对话中嵌入交互式视觉模块,允许用户通过滑动条等控件实时修改变量,直观观察公式、图形与计算结果的联动变化。示例涵盖勾股定理、理想气体方程等,旨在帮助用户将抽象概念转化为可实验对象,主要面向高中及大学阶段学习者。
官方数据显示,每周有1.4亿用户利用ChatGPT学习相关知识。OpenAI计划未来扩展该功能至更多学科。

相关链接:
Claude 移动端应用更新,优化语音模式与大型 Prompt 性能表现 #12
Claude 移动端应用发布更新,重点优化了语音交互、转录功能及附件上传体验,改善了
LaTeX和Artifact的显示效果,同时也显著提升了大型Prompt的处理性能与MCP连接稳定性。
Claude 移动端应用近期发布新一轮功能更新,涉及多项交互与功能模块优化。
在输入交互方面,新版本改进了语音模式与转录功能,并提升了附件上传体验;在显示渲染层面,优化了 LaTeX 渲染效果及 Artifact 显示方式。
此外,针对技术性能,新版本显著增强了处理大型 Prompt 的性能表现,并改进了 MCP 连接。
开发团队表示,更新还包含更多细节改进,并邀请用户持续分享使用反馈以推动产品迭代。

相关链接:
Adobe 开放 Photoshop AI 助手 Beta,支持 Web 与移动端应用 #13
Adobe 面向 Web 端和移动端发布了 Photoshop AI 助手 公开测试版,用户只需输入自然语言指令或通过手绘标记,即可让
AI自动完成对象移除、光影调整及背景替换等复杂操作。
Adobe 面向 Photoshop 的 AI 助手于 2026 年 3 月 10 日 进入公开 Beta 阶段,同步覆盖 Web 端与移动端应用。
该功能支持用户通过自然语言指令完成对象移除、色彩调整、光照修正、柔光添加、特定比例裁切、阴影增强及背景替换等操作。

相关链接:
MiroThinker 发布重大更新,会员收费正式全量开放 #14
MiroThinker 发布更新,正式上线 S、M、L 三档定价体系和会员收费机制。
此次升级引入了语音输入与关键信息高亮功能,并上线了对话置顶、分组与批量管理能力。
2026 年 3 月 10 日,MiroThinker 发布重大功能更新,涵盖对话体验、账号体系、对话管理及商业化机制,会员收费正式全量开放。
在对话体验上,新增语音输入、内容高亮及系统自动生成标题功能,并支持单条消息删除。对话管理模块引入归档、分组、置顶及批量操作。
账号体系支持头像昵称自定义、邮箱绑定(支持跨账号数据合并)及 Web 端 Apple 快捷登录。
商业化方面,上线打赏功能,回答定价划分为 S / M / L 三档,并与会员计费关联。

alphaXiv 上线 SKILL.md,优化 Claude Code 论文读取效率 #15
alphaXiv 推出了 SKILL.md 功能,引导 Agent 直接调用
alphaXiv平台结构化且对 AI 友好的论文数据,从而提升理解准确率并降低资源消耗。
alphaXiv 针对使用 Claude Code 进行学术研究的场景,上线了 SKILL.md 新功能模块。该机制改变了文献输入源方式,指示 Agent 不再直接解析原始 PDF,而是优先获取 alphaXiv 平台提供的结构化、AI 友好的论文概览数据。
此举旨在解决 PDF 解析损耗问题,通过提供包含标题、摘要及方法论等预处理的高信噪比内容,提升模型对科研内容的理解效率,并降低 Token 消耗。

相关链接:
智谱正式上线 AutoClaw 客户端 #16
智谱发布了 AutoClaw,一款支持本地部署的 OpenClaw 客户端,兼容
macOS与Windows双平台。内置 50 多项技能,搭载智谱专为 OpenClaw 优化的代号为
Pony-Alpha-2的模型。提供免费体验额度,并支持接入第三方模型 API。
2026年3月10日,智谱正式上线 AutoClaw(澳龙)。这是一款面向本地部署的一键安装版 OpenClaw 客户端,支持 macOS 与 Windows 双平台,预置 50+ Skills。
产品支持飞书等即时通讯工具一键接入,并兼容 DeepSeek 等第三方模型 API。
技术层面,AutoClaw 内置内测中的 Pony-Alpha-2 模型,针对工具调用与任务推进优化;同时集成 AutoGLM Browser-Use 能力,支持多步骤浏览器自动化操作。
计费方面提供免费额度与阶梯式付费积分包。
目前,产品已正式上线且无白名单限制,用户可直接下载,但内置模型仍处于内测阶段,正式版发布时间未定。

相关链接:
腾讯云 Lighthouse 团队上线 SkillHub 镜像社区 #17
腾讯云 Lighthouse 团队上线了 SkillHub,这是一个面向中国开发者的 OpenClaw Skills 镜像社区,实现了技能包在国内的加速拉取与管理。
腾讯云 Lighthouse 团队上线 SkillHub,一个面向中国开发者的 OpenClaw Skills 镜像社区与命令行工具,提供国内加速下载、精选技能榜单及中文搜索能力,同时支持 Lighthouse 面板、命令行及本地环境三种安装方式。

相关链接:
图灵奖得主杨立昆创立 AMI Labs 获 10.3 亿美元融资 #18
图灵奖得主 Yann LeCun 联合创立的 AMI Labs 完成了 10.3 亿美元种子轮融资,投前估值达 35 亿美元。该机构摒弃主流
LLM路线,主攻基于JEPA架构的“世界模型”,致力于实现 AI 对真实世界的理解、推理与规划,并承诺坚持长期开源策略。
Yann LeCun联合创立的AMI Labs完成10.3亿美元种子轮融资,投前估值35亿美元。该轮融资由Cathay Innovation等领投,英伟达、三星等参投,被称为欧洲史上最大种子轮。
AMI Labs致力于构建基于JEPA架构的“世界模型”,旨在实现真实世界理解与推理,区别于LLM范式。公司目前处于纯研究阶段,暂无短期营收计划,但承诺开源,并与Nabla建立合作。

相关链接:
Thinking Machines Lab 获 Nvidia 投资 #19
Thinking Machines Lab 与 Nvidia 正式建立多年期战略合作伙伴关系,Nvidia 将作为战略投资者入场。
双方计划于 2027 年开始部署至少 1 吉瓦 的
Nvidia Vera Rubin系统,并共同开发针对架构优化的训练与推理系统,以支持构建具有可复现结果的 AI 模型。
Thinking Machines Lab 与 Nvidia 建立多年期战略合作伙伴关系。作为协议一部分,Nvidia 将对该初创公司进行战略投资,其投后估值已超 120 亿美元。
根据合作细节,双方计划于 2027 年 开始部署至少 1 Gigawatt 的 Nvidia Vera Rubin 系统,并将共同开发针对该架构优化的训练与推理系统。

相关链接:
- https://blogs.nvidia.com/blog/nvidia-thinking-machines-lab/
- https://thinkingmachines.ai/nvidia-partnership/
Meta 完成收购 Moltbook 团队并入超级智能实验室 #20
据报道,Meta 已完成对 AI agent 社交网络 Moltbook 的收购,其团队将并入 Meta Superintelligence Labs。
Meta 已完成对 AI agent 社交网络 Moltbook 的收购,该项目将整体并入 Meta Superintelligence Labs(MSL)。
Moltbook 是一个基于 OpenClaw 框架构建的类 Reddit 平台,旨在允许 AI agent 通过自然语言进行互连与通信。
作为交易的一部分,Moltbook 创始人 Matt Schlicht 和 Ben Parr 将加入 Meta,具体交易金额未公开。
Meta 方面确认,Moltbook 团队将利用其“通过常驻目录连接 agent”的技术路径,协助 MSL 开发面向个人和企业的 agentic experience。

相关链接:
Dify 完成 3000 万美元 Pre-A 轮融资 #21
Dify 宣布完成 3000万美元 Pre-A 轮融资,该笔资金将用于推进其开源
Agent平台的生产级能力、企业级基础设施建设以及降低构建门槛。
Dify 宣布完成 3000 万美元 Pre-A 轮融资,HSG 领投,老股东 5Y Capital 加码跟投。
本轮资金将用于推进生产级 Agent 与工作流、企业级基础能力、降低非开发者构建门槛及开源生态建设四方面。

相关链接:
亚马逊电商部门收紧 AI 代码管控,新增人工签字审批 #22
据报道,亚马逊电商部门在 2026年3月初 推出新规,强制要求初、中级工程师在提交
AI辅助代码前必须获得资深工程师签字批准。
2026 年 3 月初,亚马逊电商部门针对近期多起系统故障实施新规:初级和中级工程师提交 AI 辅助代码变更前,必须获资深工程师签字批准。内部备忘录确认,缺乏保障的生成式 AI 使用导致了“高爆炸半径”事故。
涉事工具包括内部试验性的 Kiro IDE。典型故障包括 2025 年 12 月 Kiro 导致的 13 小时服务中断,以及 2026 年 2 月网站与 App 近 6 小时宕机。
该政策在内部引发争议。质疑者指出,资深工程师面临审查疲劳风险,且公司以 AI 使用率为绩效指标的激励结构可能与质量管控冲突。

相关链接:
小红书发布治理公告 打击 AI 托管运营账号行为 #23
小红书宣布将从 2026年3月10日 起严厉打击 AI托管运营,严禁使用技术手段自动生成内容或模拟真人互动。对于完全由 AI托管 或批量注册的账号,将直接予以封禁。
小红书发布公告,针对部分用户采用 AI托管 模式运营账号的情况,明确禁止利用技术手段模拟真人、自动生成笔记及在评论、私信等场景进行虚假互动。
治理措施将于 2026年3月10日 生效,实行分级处理。对于普通账号偶发使用 AI托管 代写、代发或互动,平台将根据违规程度采取警告、限制内容分发等措施。
对于直接通过 AI工具 注册、发布、互动的账号,或主页所有公开笔记均为 AI代发 的账号,平台将予以封禁处理。

微信开发内嵌式 AI Agent ,据称计划年中灰度三季度上线 #24
据报道,腾讯正在为微信开发内嵌式
AI Agent,它直接嵌入聊天列表,允许用户通过自然语言指令自动调用小程序完成复杂任务。该产品目前正处于内部测试阶段,计划于年中启动灰度测试,最快第三季度全量上线。
据报道,腾讯正为微信开发内嵌式 AI Agent,产品直接嵌入会话列表,接入百万级小程序,支持用户通过自然语言对话完成打车、订票等复杂任务,目前处于内测阶段。
据项目内部消息,因自研 混元 模型性能未达顶尖,现测试 智谱、阿里、DeepSeek 等外部模型。这导致数据打通流程延长,且考虑到微信 14 亿 月活对稳定性的高要求,团队确立了“不够稳,不发布”原则。
按计划,该产品将于 2026 年中 启动灰度测试,第三季度全量上线,但具体时间表视功能稳定性可能调整。

相关链接:
提示:内容由AI辅助创作,可能存在幻觉和错误。