AI 早报 2026-03-05

视频版哔哩哔哩YouTube

概览

要闻

  • OpenAI面向Windows正式发布Codex应用并开源原生Agent沙盒 #1

模型发布

  • MiniMax发布Music 2.5+纯音乐创作模型 #2
  • 北大字节Canva联合团队发布14B视频生成模型Helios #3
  • YuanLab.ai开源万亿参数多模态模型Yuan3.0 Ultra #4

开发生态

  • Cursor正式登陆JetBrains IDE #5
  • Antigravity 提升非高峰期用户配额 #6
  • Mistral发布Vibe 2.3.0版 新增网络搜索等功能 #7
  • OpenAI上线Symphony开源项目 #8

产品应用

  • Google AI Mode 上线 Canvas 功能 #9
  • NotebookLM发布Cinematic Video Overviews视频生成更新 #10
  • OpenAI 集成 Codex 升级 Prism 平台 #11
  • Raycast发布AI对话构建桌面应用工具Glaze #12
  • Grok推出定制智能体功能 #13

技术与洞察

  • 高德纳验证 Claude 攻克图论难题 #14
  • Black Forest Labs联合MIT研究人员发布多模态生成模型Self-Flow研究 #15

行业动态

  • 火山引擎公布Seedance2.0视频生成服务定价 #16

前瞻与传闻

  • Claude Code 即将推出 Auto Mode 权限模式 #17
  • 据称OpenAI研发代码托管平台以替代GitHub #18

OpenAI面向Windows正式发布Codex应用并开源原生Agent沙盒 #1

OpenAI 正式发布 Windows 版 Codex 应用,用户可通过 Microsoft Store 下载。该应用支持原生运行及 WSL 环境,并集成了 PowerShell 等多种终端。此次更新构建了首个 Windows 原生 Agent 沙盒,并已在 GitHub 开源。同时,Windows 版本新增了 WinUIASP.NET 专属技能。此外,官方修复了 PlusPro 用户 Rate Limit 未正确生效的问题,并重置了所有 PlusPro 用户的速率限制。

OpenAI正式发布Windows版Codex应用,用户现可通过Microsoft Store获取。该应用支持原生运行及WSL环境,并集成了PowerShellGit Bash等主流终端。此次更新引入了首个Windows原生Agent沙盒,利用系统级控制严格限制AI仅能在指定目录写入且默认阻断对外网络,该沙盒代码已在GitHub开源。
同时,新版本新增Handoff工作流,Windows版新增专属WinUIASP.NET技能。
此外,官方今天早上修复了 PlusPro 用户 Rate Limit 未正确生效的问题,并重置了所有 PlusPro 用户的速率限制。

相关链接:


MiniMax发布Music 2.5+纯音乐创作模型 #2

MiniMax 正式宣布其 Music 2.5+ 模型上线纯音乐创作能力,支持从古典管弦到现代电子等多元风格,并针对笛子、古筝等中国乐器进行了深度优化。

MiniMax宣布其 Music 2.5+ 模型正式上线纯音乐创作功能,将业务从歌曲生成延展至无需人声的纯音乐领域。该模型采用单一架构,支持从自然声景到复杂多轨编排的处理,涵盖古典、电子等多元风格,适配冥想、影视配乐等场景。官方称,模型具备跨风格融合能力,且对中国传统乐器如笛子、琵琶、古筝有深度优化,生成音乐具备丰富的和声层次。目前,该功能已通过官网及API接口向用户开放。

相关链接:


北大字节Canva联合团队发布14B视频生成模型Helios #3

北京大学字节跳动Canva联合团队发布了14B参数视频生成模型Helios,支持分钟级长视频生成。目前,Helios的代码及模型权重已开源。

北京大学字节跳动Canva 联合团队发布 14B 参数自回归扩散视频模型 Helios。官方数据显示,该模型在单张 H100 GPU 上实现 19.5 FPS 实时推理,支持分钟级长视频生成。Helios 架构效率极高,不依赖 KV-cache 等加速技术,计算成本相当于甚至低于 1.3B 模型。通过训练阶段显式模拟漂移现象,模型有效解决了长视频画面漂移问题。其原生支持 T2VI2VV2V 任务,目前代码、基础及蒸馏模型已全面开源。

相关链接:


YuanLab.ai开源万亿参数多模态模型Yuan3.0 Ultra #4

浪潮信息 YuanLab.ai 团队开源发布 Yuan 3.0 Ultra 万亿参数多模态大模型,该模型具备强大的复杂表格理解与智能体工具调用能力,目前模型权重已发布,并全面支持商用。

浪潮信息 YuanLab.ai 正式开源 Yuan3.0 Ultra 万亿参数多模态大模型,使其成为全球仅有的三个同级开源模型之一。该模型采用混合专家架构,通过创新的 LAEP 算法将训练参数优化至 1010B(激活 68.8B),预训练效率提升 49%;引入 LFA 机制与改进的反思抑制奖励机制,有效缓解“过度思考”,训练准确率提升 16.33%

官方数据显示,该模型在 DocMatixChatRAG 等多项企业级基准测试中表现优于 GPT-4o,具备强大的复杂文档理解及智能体调用能力。目前,该模型已在 HuggingFace 等平台上线,提供 16bitint4 版本,支持 64K 上下文及商用。

相关链接:


Cursor正式登陆JetBrains IDE #5

Cursor 现已通过 ACP 协议正式登陆 JetBrains IDE,开发者可在 IntelliJ IDEAPyCharm 等环境中直接调用 Cursor 的 AI 智能体工作流。

Cursor 官方宣布通过 Agent Client Protocol (ACP) 正式登陆 JetBrains IDE,支持 IntelliJ IDEAPyCharm 等环境。此次集成将 Cursor 的 AI 智能体工作流与 JetBrains 代码智能结合,支持多前沿模型及安全代码库索引。

用户需将 IDE 更新至 2025.3.2 或更高版本,通过 ACP Registry 安装并使用现有 Cursor 付费账户认证即可使用,无需 JetBrains AI 订阅。

相关链接:


Antigravity 提升非高峰期用户配额 #6

Google Antigravity宣布利用闲置算力提升用户体验,在太平洋标准时间午后的非高峰时段,开发者可自动享受更多请求次数。官方表示将持续动态调整该时间窗口。

Google Antigravity 官方宣布一项算力共享举措,旨在利用系统闲置资源提升用户体验。在特定的非高峰时段(目前主要为太平洋标准时间午后晚些时候,约为北京时间早晨到上午时段),用户基准配额将得到延伸。开发者无需升级订阅即可获得更多请求次数。官方表示,未来将随全球需求变化动态调整可用时间窗口,致力于确保开发者拥有充足的算力资源。

相关链接:


Mistral发布Vibe 2.3.0版 新增网络搜索等功能 #7

Mistral 发布 Vibe 2.3.0 版本,新增联网搜索、Ping 通知及会话恢复功能。用户现在能在对话中途直接抓取网络内容,并随时恢复历史会话。

Mistral 正式发布 Vibe 2.3.0 版本,重点引入 Web SearchPing 通知及会话恢复功能。此次更新支持用户在会话中途直接查询抓取网络内容,并可接收 Ping 通知及恢复任意历史会话。官方表示该工具将持续快速迭代,后续将上线更多新特性。

相关链接:


OpenAI上线Symphony开源项目 #8

OpenAI 在 GitHub 上开源了 Agent 编排系统 Symphony,该系统能够监控 Linear 等看板的变动,自动调度 Agent 完成从编码、测试到合并 PR 的全流程。

OpenAI在GitHub上发布了开源项目Symphony,这是一个旨在将项目工作转化为隔离且自主运行的系统。作为编排层,Symphony允许团队通过管理任务替代对编码Agent的直接监督。官方演示显示,该系统可监控Linear看板变化,自动生成Agent处理任务,并提供包含CI状态、PR审查反馈及演示视频在内的完整工作证明,最终在获准后安全合并PR

相关链接:


Google AI Mode 上线 Canvas 功能 #9

Google 向所有美国用户开放 AI Mode 中的 Canvas 功能,这是一个集成在搜索侧边栏的动态工作空间。

Google正式向所有美国英语用户开放AI Mode中的Canvas功能。该功能现已集成于Google Search侧边栏,支持结合Knowledge Graph进行深度研究、文档起草及代码编写,并能将创意转化为可交互应用。用户可通过与Gemini对话实时优化项目,或利用其将报告转化为网页及音频。

相关链接:


NotebookLM发布Cinematic Video Overviews视频生成更新 #10

NotebookLM 正式上线 Cinematic Video Overviews 功能,能根据用户素材自动生成叙事连贯、视觉丰富的沉浸式视频。目前该功能已向 Google AI Ultra 订阅用户完成全量推送,Pro 用户上线时间尚未确定。

NotebookLM 正式推出 “Cinematic Video Overviews” 功能,将 AI 视频生成从简单的幻灯片升级为定制化沉浸式大片。该功能整合 Gemini 3Nano Banana ProVeo 3 等模型,由 Gemini 担任“创意总监”,负责脚本撰写与视觉指导,根据用户素材自动生成叙事连贯的精致视频。目前,该功能已向 Google AI Ultra 订阅用户(需年满 18 岁)完成 100% 推送,支持 Web 端和移动端,暂仅支持英语。官方表示 Pro 用户已在路线图中,但尚未承诺具体上线时间。

相关链接:


OpenAI 集成 Codex 升级 Prism 平台 #11

OpenAI 宣布将基于 GPT-5.3Codex harness 集成至科学写作平台 Prism,使用户能在 LaTeX 环境中直接进行计算、分析与迭代,打造“可执行手稿”。

OpenAI 宣布已将基于 GPT-5.3 模型的 Codex harness 集成至科学写作平台 Prism,旨在打造集写作、计算与分析于一体的“可执行手稿”环境。此次更新增强了上下文处理能力,并新增了版本管理功能。未来团队计划增加更多研究工作流连接器。

相关链接:


Raycast发布AI对话构建桌面应用工具Glaze #12

Raycast 发布新品 Glaze,这是一款通过 AI 对话在数分钟内构建 Mac 桌面应用的工具,生成的原生应用支持离线运行及系统级权限调用。

Raycast 正式发布新产品 Glaze,这是一款支持通过 AI 对话在数分钟内创建桌面应用的工具。目前 Glaze 处于私密测试阶段,初期仅支持 Mac 平台。官方强调,Glaze 生成的是运行在本地的“真正的桌面应用”,具备离线工作、即时启动、文件系统访问及菜单栏集成等原生特性,而非基于 Web 的封装。此外,该产品提供公共商店与团队私有商店,允许用户安装并微调现有应用。官方透露,Glaze 未来将与 4 月发布的新版 Raycast 深度集成,现有用户将很快获得优先访问权。

相关链接:


Grok推出定制智能体功能 #13

Grok Web 平台新增开关即可在 Expert mode 中启用 Grok 4.20 Beta。同时,平台还上线了 Custom Agents 功能,允许基于 Grok 4.20 构建定制化智能体。

Grok Web 平台近期更新,界面新增 Grok 4.20 Beta 切换开关。启用该选项后,Expert mode 将调用 Grok 4.20 模型运行。此外,平台 Agent 定制能力增强,现已支持创建基于 Grok 4.20 的 Custom Agents,允许用户利用该版本构建个性化智能体。

相关链接:


高德纳验证 Claude 攻克图论难题 #14

计算机科学泰斗 Donald Knuth 发布论文《Claude's Cycles》,证实 Claude Opus 4.6 成功攻克了一道困扰其数周的三维网格图论难题。Knuth 直言这代表生成式 AI 在自动推理与创造性问题求解能力上的戏剧性跃升

计算机泰斗高德纳发表论文《Claude's Cycles》,记录了Anthropic模型Claude Opus 4.6攻克一道三维网格图论难题的经过。该问题旨在寻找互不相交的哈密顿环,Claude Opus 4.6历经31次试错,利用“纤维分解”及“bump”规则发现了适用于奇数m的通用解法。高德纳验证了该解法的正确性,并指出存在760种变体。高德纳对AI展现出的推理能力表示震惊,认为这标志着AI在数学创造性求解领域的重大进步,预示着“人类提问、AI探索、人类证明”的新研究模式。

相关链接:


Black Forest Labs联合MIT研究人员发布多模态生成模型Self-Flow研究 #15

Black Forest Labs 联合 MIT 发布 Self-Flow 研究预览,这是一种利用自监督流匹配技术、无需依赖外部模型即可端到端训练的多模态生成架构。

Black Forest Labs 联合 MIT 发布 Self-Flow 研究预览,这是一种基于自监督流匹配技术的多模态生成架构。该架构支持图像、视频、音频和文本的端到端学习,旨在摆脱对外部表示学习模型的依赖。性能方面,其跨模态收敛速度提升高达 2.8 倍,显著改善了视频时间一致性及图像文本渲染精度。Self-Flow 计划进一步整合视觉扩展能力与语义抽象,以推进世界模型的开发。

相关链接:


火山引擎公布Seedance2.0视频生成服务定价 #16

火山引擎正式公布 Seedance 2.0 视频生成服务 API 定价,依据是否包含视频输入分为两档,纯生视频服务因算力消耗较高,定价为 46元 每百万 tokens,视频编辑服务则为 28元 每百万 tokens

据火山引擎官网信息,Seedance2.0生成视频服务定价正式公布。依据应用场景分为两档:包含视频输入的视频编辑服务为 28元/百万tokens;不含视频输入的纯生视频服务因算力消耗更高,定价为 46元/百万tokens


Claude Code 即将推出 Auto Mode 权限模式 #17

Claude Code 计划于 3 月 11 日后推出研究预览版的 auto mode 权限模式。该功能允许 Claude 在编程中自主处理权限决策,被视为 yolo 模式的更安全替代方案。

Claude Team 宣布 Claude Code 即将推出“auto mode”研究预览版(官方邮件显示不早于 3月11日)。该模式允许 Claude 自主处理权限决策,以支持无需频繁手动审批的长时段任务,被视为 --dangerously-skip-permissions 参数的更安全替代方案。

官方强调,该模式虽内置针对提示词注入的防护,但无法捕捉所有风险,建议仅在隔离环境中使用。此外,启用该功能将导致 Token 消耗、成本及延迟轻微增加。

相关链接:


据称OpenAI研发代码托管平台以替代GitHub #18

据 The Information 报道,OpenAI 正在开发一款代码托管平台以替代 GitHub,起因是 GitHub 频繁的服务中断严重干扰了开发效率。OpenAI 内部已在讨论将其商业化。

据 The Information 援引知情人士消息,OpenAI 正在开发一款代码托管平台以替代 GitHub。此举直接源于近期 GitHub 服务频繁中断,可用性一度跌破 90%,严重干扰 OpenAI 开发效率。目前该项目处于早期阶段,预计需数月完成。虽初衷为减少外部依赖,但内部正讨论将其商业化的可能性。若推出,该平台将深度集成 Codex 等编程代理,升级为“超级 AI 开发环境”。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误