AI 早报 2026-03-19

视频版哔哩哔哩YouTube

概览

要闻

  • MiniMax 发布 M2.7 模型,实现自我进化,SWE-Pro 得分 56.22% #1
  • MiniMax 推出 Token Plan,支持全模态模型统一访问 #2
  • 小米发布 MiMo 系列三款模型,开放 API 服务 #3

模型发布

  • Midjourney 开启 V8 模型早期测试,图像生成速度提升五倍 #4
  • 英伟达发布 Nemotron 3 Nano 4B 混合架构模型 #5
  • 百度千帆发布 40 亿参数 Qianfan-OCR #6
  • Datalab 发布 Chandra OCR 2,获 olmocr 基准 85.9 分 #7

开发生态

  • Google 更新 Gemini API,简化 Agent 工作流开发 #8
  • 谷歌调整 Gemini CLI 策略,免费用户仅可使用 Flash 模型 #9
  • 火山引擎上线“火山联网搜索Skill”,个人每月免费500次调用 #10

产品应用

  • Claude Cowork Dispatch 功能向 Pro 用户开放,支持启动 Claude Code #11
  • Google Labs 升级 Stitch 为 vibe design AI 原生设计平台 #12
  • 腾讯 QClaw 发布更新,升级微信入口上线灵感广场 #13
  • Perplexity 官方宣布 Comet 浏览器正式上线 iOS 移动平台 #14
  • LiblibAI 上线 LibTV 专业视频平台,支持人类与 Agent 创作 #15

技术与洞察

  • Together AI 等发布 Mamba-3,优化推理效率设计 #16
  • Anthropic 详解 Claude Code Skills 构建经验与九大核心分类 #17
  • Anthropic 发布 8 万用户研究揭示全球 AI 期望与担忧 #18

行业动态

  • 微软或将起诉 OpenAI 与亚马逊 涉 500 亿美元云协议 #19
  • 阿里云 2026 年 4 月起调整 AI 算力价格,最高涨幅 34% #20
  • OpenAI 启动 Parameter Golf 挑战赛挖掘顶尖人才 #21
  • 苹果拦截 Replit 等 Vibe Coding 应用在 App Store 的更新 #22

前瞻与传闻

  • 腾讯官宣混元 HY 3.0 预计 4 月上线 #23
  • 消息称英伟达筹备面向中国的 Groq 芯片,预计 5 月上市 #24
  • Google AI Studio 将推全新 vibe coding,历时四月从零重构 #25

MiniMax 发布 M2.7 模型,实现自我进化,SWE-Pro 得分 56.22% #1

MiniMax 正式发布 M2.7 模型,官方称其能自行构建复杂 Agent 系统完成高难度生产力任务。

该模型在软件工程和办公评测中表现强劲。

目前,M2.7 已在 MiniMax Agent 平台及 API 开放平台全量上线,同时开源了 Agent 交互系统 OpenRoom

MiniMax 正式发布 M2.7 模型,将其定义为首个深度参与迭代自身的模型。该模型能够自行构建复杂的 Agent Harness,并利用 Agent Teams、复杂 SkillsTool Search Tool 等能力完成高复杂度的生产力任务。

在性能表现上,官方数据显示 M2.7 在软件工程基准 SWE-Pro 中得分 56.22%,接近 Opus 系列模型水平;在专业办公评测 GDPval-AA 中,其 ELO 得分达到 1495

此外,该模型增强了身份保持能力与情商,拓展至互动娱乐场景,并同步开源 Agent 交互系统 OpenRoom

目前,MiniMax M2.7 已在 MiniMax Agent 平台及 API 开放平台全量上线。

相关链接:


MiniMax 推出 Token Plan,支持全模态模型统一访问 #2

MiniMax 将原有的 Coding Plan 升级为 Token Plan。Token Plan 搭载最新的 M2.7 模型,并整合了文本、语音、视频等全模态模型访问权限。

采用基于滚动 5 小时窗口的“请求”计费单位,不同模型的请求消耗量不同。

MiniMax 正式推出了 Token Plan 订阅服务,该服务由原有的 Coding Plan 升级而来,旨在通过单一额度为用户提供对 MiniMax 全模态模型的统一访问能力。

该服务涵盖了文本、语音、视频、音乐和图像等模态,并搭载最新的 MiniMax M2.7 模型,其中极速版订阅还提供专属的 M2.7-highspeed 支持。

Token Plan 采用基于滚动 5 小时窗口的“请求”计费单位,不同模型的请求消耗量不同。用户订阅后需获取专用 API Key 进行接入,达到用量上限后可选择切换至按量计费模式或等待额度自动恢复。

相关链接:


小米发布 MiMo 系列三款模型,开放 API 服务 #3

小米大模型团队正式发布 MiMo 系列三款新模型,包括拥有 1T 总参数量及 1M 上下文的旗舰基座模型 MiMo-V2-Pro,全模态 Agent 模型 MiMo-V2-Omni,以及端到端语音模型 MiMo-V2-TTS

目前相关模型已开放 API,其中 MiMo-V2-TTS 模型 API 调用限时免费。

小米正式发布 MiMo 系列三款全新模型,包括面向 Agent 时代的旗舰基座模型 MiMo-V2-Pro、全模态 Agent 基座模型 MiMo-V2-Omni 以及端到端语音合成模型 MiMo-V2-TTS

其中,MiMo-V2-Pro 拥有超过 1T 的总参数量(激活参数 42B),支持 1M 超长上下文,专为高强度 Agent 工作场景打造。在 Artificial Analysis 排行榜中位列全球第八、国内第二。官方称其使用体感已超越 Claude Sonnet 4.6 并逼近 Opus 4.6,但 API 定价仅为其 1/5

相关模型已正式开放 API 服务,其中 MiMo-V2-TTS 模型限时免费。

MiMo-V2-Pro 已接入金山办公、小米手机浏览器等多款产品,同时联合多个 AI 编程工具,为全球开发者提供为期一周的限时免费接口支持。

相关链接:


Midjourney 开启 V8 模型早期测试,图像生成速度提升五倍 #4

Midjourney 官方宣布,Midjourney V8 模型早期版本现已开启社区测试。

其生成速度提升约 5 倍,在指令遵循、图像连贯性及文本渲染方面均有显著增强。

并引入了原生 2K 分辨率的 hd 模式。

Midjourney 官方宣布,其 V8 模型的早期版本现已开始在 alpha.midjourney.com 上接受社区测试。

根据官方博客描述,V8 生成速度相比之前提升了约 5 倍,在遵循详细指令、图像连贯性与细节方面均有显著提升,且文本渲染功能比以往任何时候都更好。

该模型在理解用户审美方面表现出色,支持向后兼容 V7 的个性化配置、风格参考 和情绪板,并引入了原生 2K 分辨率的 --hd 模式和旨在增强连贯性的 --q 4 模式。

为了配合这一速度提升,Midjourney 升级了 Web 界面,增加了改进的“对话模式”、“网格模式” 以及侧边栏设置。

相关链接:


英伟达发布 Nemotron 3 Nano 4B 混合架构模型 #5

NVIDIA 发布了专为边缘端 Agentic AI 设计的 Nemotron 3 Nano 4B 混合架构模型,支持 262K 上下文长度及可控推理模式。

NVIDIA 正式发布 Nemotron 3 Nano 4B,这是一款专为边缘端 Agentic AI 设计的混合架构语言模型。该模型拥有 39.7 亿 参数,结合 Mamba-2Transformer 层,支持 262K 上下文长度。

其基于 Nemotron Elastic 框架从父模型压缩而成,经过两阶段蒸馏和多阶段强化学习训练。

相关链接:


百度千帆发布 40 亿参数 Qianfan-OCR #6

百度千帆发布了拥有40亿参数的端到端文档智能模型 Qianfan-OCR,该模型引入了 Layout-as-Thought 思维链机制以处理复杂文档布局,在 OmniDocBench 等基准测试中表现优异。

百度千帆团队发布端到端文档智能模型 Qianfan-OCR。该模型拥有 40 亿参数,基于 Qwen3-4B 构建,支持 192 种语言 及图像到 Markdown 转换。

其核心创新在于引入 "Layout-as-Thought" 机制,可通过 ⟨think⟩ 标记生成结构化布局表示。

根据官方数据,该模型在 OmniDocBench v1.5 基准中位居端到端模型第一,并在五个关键信息提取基准上平均分达 87.9

目前,项目已依据 Apache 2.0 协议开源。

相关链接:


Datalab 发布 Chandra OCR 2,获 olmocr 基准 85.9 分 #7

Datalab 发布了 Chandra OCR 2 模型,这款参数量约 4B 的模型能将图像和 PDF 高效转化为 Markdown 等格式。

Datalab 正式发布 Chandra OCR 2 模型,这是一款 SOTA 级光学字符识别工具,支持将图像和 PDF 转为 Markdown 等格式并保留布局。

据官方显示,该模型在 olmocr 基准测试中得分 85.9%,支持 90 多种语言,在复杂表格和数学公式处理上性能显著提升。

其参数量约为 4B5B,处理速度达每秒 1.44 页。

相关链接:


Google 更新 Gemini API,简化 Agent 工作流开发 #8

Google宣布更新Gemini API,支持开发者在单次请求中混合使用内置与自定义工具。新增的“上下文循环”机制允许模型自动串联多步骤任务的输入输出,同时Google Maps Grounding功能已扩展至Gemini 3系列模型。

Google 日前宣布推出一系列 Gemini API 工具更新,旨在简化 Agent 工作流的开发与编排。开发者现在可以在单个 API 请求中混合使用内置工具(如 Google SearchGoogle Maps 和文件搜索)与自定义函数,无需手动编排切换逻辑。

配合这一功能,官方引入了“上下文循环”机制,允许模型在多步骤任务中自动将一个工具的输出作为后续工具的输入,从而实现更复杂的推理。

此外,为了提升调试效率,API 新增了工具响应 ID 功能。此次更新还将 Grounding with Google Maps 扩展到了 Gemini 3 模型家族,使其能够获取实时的空间数据和地点信息。

相关链接:


谷歌调整 Gemini CLI 策略,免费用户仅可使用 Flash 模型 #9

Gemini CLI 团队宣布将于 3月25日 调整服务策略以应对算力紧张,免费层级用户将仅限使用 Gemini Flash 模型。

流量路由机制将依据许可证类型和账户信誉度进行优先级排序,并升级检测机制,严查违规使用 OAuth 凭证。

Gemini CLI 团队发布服务更新公告,宣布将调整后端服务策略以应对计算资源紧张并保障高优先级订阅用户的体验。

此次更新将于 3月25日 正式生效,主要涉及模型访问权限、流量优先级及滥用检测三个方面:免费层级用户将仅限使用 Gemini Flash 模型,访问 Gemini Pro 模型需升级至 AI ProUltra 计划,或使用来自 AI StudioVertex AI 的付费 API Key。

流量路由机制将依据许可证类型和账户信誉度进行优先级排序,部分用户在高峰期可能遭遇容量限制。

同时官方将严查违规用例,禁止在第三方软件中使用 Gemini CLI 的 OAuth 凭证。

此外,官方确认 Gemini Code Assist 企业版不受此次个人版调整影响,仍可作为替代方案。

相关链接:


火山引擎上线“火山联网搜索Skill”,个人每月免费500次调用 #10

火山引擎宣布上线 “火山联网搜索Skill”,该技能整合了 字节系 独家信源,能通过原生适配自动对网页内容进行摘要总结和数据结构化。个人用户注册后每月可享受 500次 的免费调用额度。

火山引擎宣布将 “火山联网搜索 Skill” 接入 ArkClawOpenClaw 平台,为 AI Agent 提供现实世界信息获取能力。该技能与 豆包搜索 同源,整合 今日头条 等独家信源,支持内容摘要与数据结构化,降低 Token 消耗。

个人用户注册后享每月 500 次 免费调用。安装需通过控制台及命令行配置 API Key。免费额度用尽后自动暂停,无自动扣费。

相关链接:


Claude Cowork Dispatch 功能向 Pro 用户开放,支持启动 Claude Code #11

Claude Cowork 的 Dispatch 功能现已向所有 Pro 用户开放,支持从设备端直接触发桌面任务,并能启动 Claude Code 会话来执行构建或改进指令。

Claude Cowork 的 Dispatch 功能现已向 100% 的 Claude Pro 用户完成推送。该功能允许用户直接从设备端触发桌面 Cowork 任务,并新增支持启动 Claude Code 会话以执行构建、制作或改进等指令。

若要使用此项特性,用户需更新 Claude 桌面应用程序,并确保已启用 Code 功能。

相关链接:


Google Labs 升级 Stitch 为 vibe design AI 原生设计平台 #12

Google 宣布将 Stitch 升级为 AI 原生的“vibe design”平台,新增智能设计 Agent 和无限画布功能,用户可通过自然语言就能快速生成高保真 UI 及交互原型。

Google 宣布对其设计工具 Stitch 进行重大升级,将其转型为一款支持“vibe design”的 AI 原生软件设计平台,旨在通过自然语言处理将想法转化为高保真 UI 设计。

此次更新引入了全新的 AI 原生无限画布、能够推理项目全貌的智能设计 Agent,以及用于并行管理任务的 Agent Manager

该平台支持通过 DESIGN.md 文件和 URL 提取来实现设计系统的便携化与复用,并具备将静态设计即时转化为交互原型的能力。

此外,Stitch 还集成了语音交互模式,以支持实时设计批评与修改,并通过 MCP serverSDK 实现了与 AI StudioAntigravity 等开发工具的互联互通。

目前该服务仅面向 18 岁及以上用户开放,支持英语且仅限 Gemini 覆盖的地区使用。

相关链接:


腾讯 QClaw 发布更新,升级微信入口上线灵感广场 #13

腾讯发布 QClaw 更新,新上线 “QClaw管家” 小程序,可在微信端实现远程操作电脑及文件传输。

同步推出了 “灵感广场”,预置了办公与研究等场景的常用技能。

腾讯 QClaw 近日宣布重大版本更新。该产品基于 OpenClaw 极简封装,主打无需配置环境即可通过微信远程操作电脑。

此次更新将微信入口升级为 "QClaw 管家" 小程序,支持文件传输。官方透露,后续将支持语音、图片多模态交互及远程切换模型。

针对指令痛点,该产品上线“灵感广场”,预置针对办公、研究等场景任务的 Skills,用户可一键执行。

此外,其优化了对话记忆与任务管理。

相关链接:


Perplexity 官方宣布 Comet 浏览器正式上线 iOS 移动平台 #14

Perplexity推出的AI浏览器 Comet 现已正式登陆 iOS 平台,用户可直接在 App Store 下载安装。

Perplexity 推出的 Comet 现已正式登陆 iOS 平台,用户可通过 App Store 下载这款 AI 浏览器助手。

官方发布了上架通知,并提供了 App Store 的直接访问链接及 pplx.ai/comet-ios 短链入口,支持用户即刻安装使用。

相关链接:


LiblibAI 上线 LibTV 专业视频平台,支持人类与 Agent 创作 #15

LiblibAI 正式上线专业 AI 视频创作平台 LibTV,定位为业内首个同时服务人类与 Agent 的创作系统。

LiblibAI 推出视频创作平台 LibTV。官方称其为唯一同时面向人类创作者与 Agent 设计的平台。

面向人类,其提供无限画布工作流,支持五节点及 20 多项独家专业控制能力。

面向 Agent,该平台开放 Skill 接口,支持“小龙虾”系列及 Claude Code 等工具调用,实现一句话指令完成剧本至成片流程。

相关链接:


Together AI 等发布 Mamba-3,优化推理效率设计 #16

Together AI 联合卡内基梅隆等高校团队发布了专为推理效率打造的新一代状态空间模型 Mamba-3。该模型通过引入多输入多输出架构和复数值系统,在不增加推理延迟的前提下大幅提升了表达能力。

Together AI卡内基梅隆大学等联合团队日前发布新一代状态空间模型 Mamba-3,专为推理效率设计。该模型引入指数梯形离散化、复数值状态空间系统及多输入多输出架构,移除短卷积层并加入 QKNormRoPE

官方数据显示,在 1.5B 规模下,其 SISO 变体全序列长度延迟优于 Mamba-2vLLM 优化的 Llama-3.2-1B;MIMO 变体在 1B 规模下游任务中精度提升超 1 个百分点。

该模型利用推理时空闲 Tensor Cores 提升计算密度,不影响延迟。相关内核代码已开源,论文被 ICLR 2026 接收。

相关链接:


Anthropic 详解 Claude Code Skills 构建经验与九大核心分类 #17

Anthropic 官方分享了构建 Claude Code Skills 的实战经验,明确指出 Skills 是包含脚本和资源的文件夹,供 Agent 自主发现与操作,而不仅仅是 Markdown 文件。

Anthropic 官方近期分享构建 Claude Code Skills 经验。官方指出,Skills 是包含脚本、资源和数据的文件夹,供 Agent 发现与操作,而非仅 Markdown 文件。

其划分为库与 API 引用、产品验证、数据获取与分析等九大核心类别。

建议利用文件系统渐进式披露,建立 Gotchas 板块,并通过 Description 字段引导模型触发。

其支持通过仓库或内部插件市集分发,可通过 PreToolUse Hook 记录数据以度量效果。

相关链接:


Anthropic 发布 8 万用户研究揭示全球 AI 期望与担忧 #18

Anthropic 利用 AI 访谈工具对全球超 8万 名用户进行调研,发现人们对 AI 既期待其提升职业表现和解放时间,又高度担忧其不可靠性及对就业市场的冲击。

Anthropic 近期通过 AI 访谈工具对全球 80,508 名用户进行研究。据官方博客称,系迄今规模最大、语言种类最多的定性研究。

结果显示,67% 受访者对 AI 持积极态度,南美、非洲和亚洲乐观情绪高于欧美。

用户最希望 AI 带来专业精进(18.8%)和个人转变(13.7%),主要担忧为不可靠性(26.7%)及就业冲击(22.3%)。

研究揭示“明暗面”现象,即同一能力伴随益处与风险。

相关链接:


微软或将起诉 OpenAI 与亚马逊 涉 500 亿美元云协议 #19

据报道,微软正考虑对合作伙伴 OpenAI亚马逊 采取法律行动,起因是双方规避了微软的独家权益,签署了一项价值 500亿美元有状态运行时环境 云服务协议。

据英国《金融时报》消息,微软正考虑对合作伙伴OpenAI亚马逊采取法律行动,起因是双方签署了一项价值500亿美元的云服务协议。

争议核心在于OpenAI试图通过引入有状态运行时环境技术,将亚马逊AWS定为其企业级AI Agent平台Frontier的独家第三方云提供商,以此规避微软在“无状态”模型调用上的独家权益。

微软方面认为此举即便未违反合同字面条款,也违背了协议精神。目前双方正试图在产品发布前通过谈判解决这一争端。

相关链接:


阿里云 2026 年 4 月起调整 AI 算力价格,最高涨幅 34% #20

阿里云宣布因全球AI需求爆发及供应链成本上涨,将于 2026年4月18日 起调整 AI算力CPFS智算版 价格,最高涨幅达 34%

阿里云官方宣布,将于 4 月 18 日起正式调整 AI 算力、CPFS(智算版)等服务价格。该公司表示,此次调价基于全球 AI 需求爆发及供应链成本上涨背景。此次调整最高幅度达 34%,涉及平头哥真武 810E等算力服务及存储产品。

相关链接:


OpenAI 启动 Parameter Golf 挑战赛挖掘顶尖人才 #21

OpenAI 宣布启动 “Parameter Golf” 挑战赛,参赛者需在 8 张 H100 算力和 10 分钟 时长内,开发出总大小不超过 16MB 的模型。表现优异者有机会获得 OpenAI 的面试机会。

OpenAI 官方宣布推出名为 Parameter Golf 的开放研究挑战赛,旨在通过构建极致高效的预训练模型来发掘优秀技术人才。

该挑战要求参赛者在固定的 FineWeb 数据集上,致力于最小化保留集损失,同时须遵守严格的资源限制:模型权重与训练代码的总大小不得超过 16MB,且训练预算限制在 8H100 GPU 上的 10 分钟内。

参赛者需 Fork 官方提供的 GitHub 仓库进行改进,并提交包含代码、日志及说明的 Pull Request。通过审批后,结果将合并至自动更新的排行榜。

官方表示,表现突出的参与者有机会获得面试邀请,其获胜方案也可能被公开展示。

此外,参赛者可申请 Runpod 的免费计算积分。

相关链接:


苹果拦截 Replit 等 Vibe Coding 应用在 App Store 的更新 #22

据报道,苹果拦截了 Replit 等 AI 编程应用在 App Store 的更新。苹果官方表示,该措施旨在防止应用在未经审核的情况下发生根本性功能变更。

据 The Information 报道,Apple 近期拦截了 ReplitVibecode 等支持 Vibe Coding 应用的更新。该措施针对允许用户通过自然语言在设备端直接生成应用、可能绕过审核流程的工具。

Apple 官方表示,此举旨在防止应用在未经审核的情况下发生根本性功能变更。

目前,受影响的相关应用在同意移除特定于 Apple 设备的代码生成功能或调整预览方式后,已接近重新获得批准。

相关链接:


腾讯官宣混元 HY 3.0 预计 4 月上线 #23

腾讯在发布财报后的媒体沟通会上透露,新一代混元模型 HY 3.0 正在内部进行业务测试,计划于 4月 正式对外推出,重点强化推理与 Agent 能力。

腾讯发布了2025年第四季度及全年财报,官方宣称其混元基础模型在3D生成、文生图和世界建模等多模态能力方面已处于行业领导地位。

在财报发布后的媒体沟通环节,腾讯透露代号为HY 3.0的新一代混元模型正在内部进行业务测试,计划于4月正式对外推出。

相关链接:


消息称英伟达筹备面向中国的 Groq 芯片,预计 5 月上市 #24

据报道,英伟达正筹备一款面向中国市场的 Groq 人工智能芯片,预计将于今年 5月 上市,这款芯片是主攻AI推理市场的新版本。与此同时,英伟达已重启 H200 芯片生产。

据媒体报道,知情人士透露,英伟达正筹备一款面向中国市场的 Groq 人工智能芯片版本,预计 5 月上市。该芯片并非降级版,而是可适配系统的新版本。

此外,英伟达 CEO 黄仁勋宣布,获美国特朗普政府出口许可及中国订单后,已重启 H200 芯片生产。

相关链接:


Google AI Studio 将推全新 vibe coding,历时四月从零重构 #25

Google AI Studio 预告即将推出全面重构的 Vibe Coding 体验。AI Studio 负责人 Logan Kilpatrick 透露,团队耗时 4个月 从底层重建系统,旨在帮助用户实现创意。

Google AI Studio 即将推出一项经过全面重构的全新 vibe coding 体验。

根据 Google 开发者关系主管 Logan Kilpatrick 发布的消息,该功能将于近期正式揭晓。

为了打造这一新体验,其团队在过去 4 个月中从零开始对系统进行了重建,旨在消除使用中的生涩环节,帮助用户更顺畅地将创意转化为现实。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误