2026-04-02

AI 早报 2026-04-02
概览
要闻
- 智谱发布 GLM-5V-Turbo 多模态模型 ↗
#1
模型发布
- 阿里发布 Wan2.7-Image 模型,支持交互式图像编辑 ↗
#2 - Qwen3.5-Max-Preview 已上线 Qwen Chat ↗
#3 - Arcee AI 发布 Trinity-Large-Thinking 模型,参数量约 398B ↗
#4 - 阿布扎比 TII 发布 Falcon 视觉及 OCR 模型开源 ↗
#5 - Skywork AI 开源 Matrix-Game 3.0 交互式世界模型 ↗
#6 - Fish Audio 推出支持百种语言及情感标注的 STT 工具 ↗
#7
开发生态
- Claude Code 推出实验性 NO_FLICKER 模式解决终端闪烁 ↗
#8 - Codex 团队全面重置使用限制,封禁一批欺诈账户 ↗
#9 - 智谱开源 GLM-skills 技能库含十七项技能 ↗
#10 - Google AI Studio 推出多项体验优化 ↗
#11 - Kaggle 推出 AI Agent 实验性标准化评估项目 SAE ↗
#12
产品应用
- 即梦 AI 推出即梦 CLI 工具支持 Agent 自动调用生成 ↗
#13 - OpenClaw 发布 v2026.3.31 版本内置 QQ Bot 原生插件 ↗
#14 - ClawHub 上线官方中国镜像站,获火山引擎基础设施支持 ↗
#15
技术与洞察
- DeepReinforce 的 GrandCode 夺 Codeforces 三场竞赛冠军 ↗
#16
行业动态
智谱发布 GLM-5V-Turbo 多模态模型 #1
智谱发布了面向视觉编程的多模态模型
GLM-5V-Turbo,该模型原生支持图像视频输入,拥有200K上下文窗口,能以更小参数量在编程与 GUI 操控等基准测试中取得领先表现。官方称,该模型深度适配 Agent 工作流,支持从看懂环境到执行任务的完整闭环,特别擅长设计稿代码还原与可视化迭代。
该模型 API 已上线,并面向
GLM Coding Plan用户开放体验申请,后续将逐步纳入该订阅。
智谱发布了面向视觉编程任务打造的多模态 Coding 基座模型 GLM-5V-Turbo。该模型能够原生处理图像、视频、文本和文件等多模态输入,上下文窗口达 200K,最大输出 Tokens 为 128K。
通过采用新一代 CogViT 视觉编码器与 30+ 任务协同强化学习等技术手段,GLM-5V-Turbo 在多模态 Coding、Agentic 任务及纯文本编程等基准测试中,以更小参数量取得了领先且稳定的表现。
该模型深度适配 Agent 工作流,能与 Claude Code、OpenClaw 等框架深度协同,支持从“看懂环境”到“规划动作”再到“执行任务”的完整闭环。
目前,该模型的 API 已上线 BigModel 开放平台,并面向 Coding Plan 用户开放申请;后续 GLM Coding Plan 也会纳入 GLM-5V-Turbo。



相关链接:
- https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo
- https://zhipu-ai.feishu.cn/share/base/form/shrcndgpmRlJoD5rMmIavUrPwzg
阿里发布 Wan2.7-Image 模型,支持交互式图像编辑 #2
阿里通义实验室发布了图像生成与编辑统一模型 Wan2.7-Image 及其 Pro 版本。该模型核心功能升级包括支持定制骨相五官的虚拟捏脸、精准提取参考图配色的调色盘、最高 3K token 的多语言印刷级文本渲染等。
目前两款模型已开放 API 调用,并在万相官网开放体验。
阿里巴巴正式发布图像生成与编辑统一模型 Wan2.7-Image 及其 Pro 版本。该模型将文生图、图生组图、图像指令编辑和交互式编辑整合于统一架构中。根据官方提供的数据,其在人类偏好盲测中多项能力位列国内第一,整体水平接近 Nano Banana Pro。
Wan2.7-Image 重点升级了人物、文字与色彩生成的控制力,推出可定制骨相五官的虚拟形象“捏脸”功能,支持提取参考图色彩分布比例的“调色盘”功能,最高支持 3K token 且覆盖 12 种语言的印刷级超长文本渲染,以及基于框选指令的像素级交互式编辑能力。
此外,该模型在多主体一致性上最高支持 9 张参考图,并具备单次生成最多 12 张组图的能力。
目前,上述两款模型均已在阿里云百炼平台开放 API 调用,并在万相官网开放体验,千问 App 也即将接入。


相关链接:
- https://tongyi.aliyun.com/wan/
- https://bailian.console.aliyun.com/cn-beijing?tab=api#/api/?type=model&url=3026980
- https://mp.weixin.qq.com/s/IgZVizTpNo1SJCFBJH9QuA
Qwen3.5-Max-Preview 已上线 Qwen Chat #3
Qwen3.5-Max-Preview 已上线 Qwen Chat。该模型处于预览阶段,仅提供思考模式和文本输入。官方称其在专家级推理、编程及创意写作等方面表现卓越,专为应对高复杂度任务设计。
Qwen3.5 系列旗舰模型的预览版 Qwen3.5-Max-Preview 已上线 Qwen Chat,但该模型目前尚处于预览阶段,未发布正式版。
该模型仅支持文本模态,且仅以思考模式运行。
官方表示,该预览版模型提供了目前最先进的文本能力,在专家级知识、复杂推理、数学、编程、创意写作和角色扮演等方面表现卓越。

相关链接:
Arcee AI 发布 Trinity-Large-Thinking 模型,参数量约 398B #4
Arcee AI 发布并开源了 Trinity-Large-Thinking 模型,这是一个 398B 参数的稀疏 MoE 架构模型,专为 Agent 工具调用和多步规划优化。
在
PinchBench基准测试中,该模型排名第二,仅次于Opus-4.6。
Arcee AI 发布 Trinity-Large-Thinking 模型,该模型拥有约 398B 参数的稀疏 MoE 架构,基于 Trinity-Large-Base 构建。
官方博客显示,该模型在多项 Agentic 基准测试中表现优异,在 Tau2-Airline 上以 88.0% 领先,Tau2-Telecom 达 94.7%,PinchBench 排名第二。
该模型权重以 Apache 2.0 许可开放,兼容主流 Agent 框架。API 定价为每百万输出 token 0.90 美元。

相关链接:
- https://www.arcee.ai/blog/trinity-large-thinking
- https://huggingface.co/arcee-ai/Trinity-Large-Thinking
阿布扎比 TII 发布 Falcon 视觉及 OCR 模型开源 #5
Falcon Vision 团队发布了 Falcon Perception 和 Falcon OCR 两款融合视觉模型,其中 0.6B 参数的
Falcon Perception在开放词汇分割基准上优于SAM 3,而 0.3B 参数的Falcon OCR则在文档理解任务上性能媲美体积大 3 到 10 倍的竞品。
阿布扎比技术创新研究所(TII)Falcon 视觉团队发布了 Falcon Perception 和 Falcon OCR 两款模型。
前者为 0.6B 参数早期融合 Transformer,用于开放词汇定位分割。官方博客显示,其在 SA-Co 基准上 Macro-F1 分数为 68.0,优于 SAM 3。
后者为 0.3B 参数模型,专攻文档理解,官方称其具备开源 OCR 模型最高吞吐量,在 OmniDocBench 上获 88.6 分。
相关代码、权重已在 GitHub 开源,支持 PyTorch FlexAttention 及 MLX 框架。

相关链接:
Skywork AI 开源 Matrix-Game 3.0 交互式世界模型 #6
Skywork 开源了交互式世界模型 Matrix-Game 3.0,该模型基于
Wan2.2模型微调而来,专为 720p 分辨率下的实时长视频流式生成设计。
Skywork AI 团队日前开源了交互式世界模型 Matrix-Game 3.0 的代码、模型权重及技术报告。该模型专为 720p 分辨率下的实时长视频流式生成而设计,基于其升级的工业级数据引擎(整合虚幻引擎合成数据、3A 游戏自动化收集及真实世界视频增强)进行训练。
目前,基础模型与蒸馏模型已在 HuggingFace 上线,采用 Apache 2.0 许可证,基于 Wan2.2 模型微调而来。而结合真实世界与虚幻数据的混合模型及 28B 大模型则预告将于后续发布。

相关链接:
- https://matrix-game-v3.github.io/
- https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3
- https://huggingface.co/Skywork/Matrix-Game-3.0
Fish Audio 推出支持百种语言及情感标注的 STT 工具 #7
Fish Audio 推出专为语音生产工作流设计的 STT 工具,支持超百种语言及角色检测,能自动标注 [叹气]、[大笑] 等副语言特征。其生成的标签与
S2 TTS模型格式兼容,支持导出为SRT、VTT或JSON格式。
Fish Audio 正式推出其全新的 STT 工具,该工具支持超过 100 种语言,并具备内置的角色检测与自动情感、副语言标注功能,能够实时自动捕捉并标记 [叹气]、[大笑] 和 [停顿] 等细微动作。
其导出的情感标签格式与该公司的 S2 TTS 模型完全兼容。
用户可根据需求将转录结果导出为 SRT、VTT 或 JSON 格式,并自主选择是否保留情感标签、角色标签及标点符号。

相关链接:
Claude Code 推出实验性 NO_FLICKER 模式解决终端闪烁 #8
Claude Code 宣布推出实验性的
NO_FLICKER全屏渲染模式,通过接管终端视口解决了长对话中的闪烁跳屏问题。同时引入了光标定位、点击链接及拖拽复制等鼠标交互功能。
用户可通过环境变量启用该模式。
近日,Claude Code 宣布推出实验性的 NO_FLICKER(全屏渲染)模式,旨在解决终端长对话中常见的闪烁与跳屏问题。该模式通过接管终端视口并启用备用屏幕缓冲区,仅渲染当前可见内容,从而实现平滑显示并保持内存和 CPU 占用的稳定。
同时,其引入了鼠标交互支持,包括光标定位、展开工具输出、点击链接及拖拽文本自动复制等。用户只需在启动时添加 CLAUDE_CODE_NO_FLICKER=1 环境变量即可体验(需 v2.1.88 或更高版本)。
由于该技术改变了传统的终端渲染逻辑,原生的 Cmd+F 搜索和终端选择功能将失效,需改用内置的 Ctrl+o 等快捷键进行交互。
针对可能出现的鼠标捕获冲突或兼容性限制(如在特定 tmux 模式下),用户可通过 CLAUDE_CODE_DISABLE_MOUSE=1 环境变量单独禁用鼠标接管。

相关链接:
Codex 团队全面重置使用限制,封禁一批欺诈账户 #9
北京时间 4月1日 下午约 4点,Codex 团队宣布因监测到用户触发速率限制的频率异常升高,全面重置所有用户的使用限制。同时,该团队通过封禁一批欺诈账户,成功回收了部分计算资源,以持续打击滥用行为。
据 Codex 团队成员 Tibo 透露,因后台仪表板监测到用户触发速率限制的频率近期出现不明原因增加,该团队决定采取谨慎措施,全面重置跨所有平台和所有计划的使用限制。
此外,该团队在平台安全维护方面取得新进展。其成员发现并成功封禁了一批存在欺诈行为的账户,此次清理行动帮助团队重新收回了一部分计算资源。Tibo 表示,平台打击滥用的行动永远不会停止。

相关链接:
智谱开源 GLM-skills 技能库含十七项技能 #10
智谱在GitHub开源了GLM系列模型的官方技能库 GLM-skills。该库涵盖多模态处理、OCR及图像生成等4大类共17项功能,支持文档写作、股票分析及网页复制等生产级应用。
智谱在 GitHub 上推出了针对 GLM 系列模型的官方技能库 zai-org/GLM-skills,将原先分散在各个独立模型仓库的技能整合为统一集合。
该技能库专为 Claude Code、OpenClaw 等 AI 编程 Agent 架构设计,涵盖了多模态处理(如文档写作、股票分析、网页复制等 10 项功能)、OCR(文本、公式、表格提取及手写识别等 5 项功能)、图像生成以及元技能管理等四大类,共计 17 项具体功能。

相关链接:
Google AI Studio 推出多项体验优化 #11
Google AI Studio 负责人 Logan Kilpatrick 宣布平台已全面上线一系列体验优化,涵盖交互流程简化及移动端深度适配。
Google AI Studio 负责人 Logan Kilpatrick 近日宣布,该平台在 Gemini 的协助下推出了一系列旨在提升用户体验的质量优化更新。
此次更新涵盖了交互流程简化、界面视觉重构以及多项移动端适配。
新增功能包括一键将 Playground 临时聊天转换为应用、默认媒体分辨率设置以及 STT 按钮等实用特性。
目前这些改动已在 Google AI Studio 中全面生效。

相关链接:
Kaggle 推出 AI Agent 实验性标准化评估项目 SAE #12
Kaggle 推出了针对 AI Agent 的标准化评估项目 SAE,测试内容涵盖推理能力与对抗性安全两个关键维度。
Kaggle 宣布推出其针对 AI Agent 的实验性 MVP 项目 Standardized Agent Exams(简称 SAE),旨在提供一种轻量级、零配置(zero-setup)的标准化评估方案。
该方案允许开发者通过单次 API 调用为 Agent 注册,并使其在无需 Kaggle 账号的情况下自主完成包含 16 道题目的考试。
测试内容涵盖推理(Reasoning)能力与对抗性安全(Adversarial safety)两个关键维度。
考试完成后,系统会即时生成公开成绩单,并更新全球实时排行榜名次。

相关链接:
即梦 AI 推出即梦 CLI 工具支持 Agent 自动调用生成 #13
即梦AI发布了命令行工具“即梦CLI”。用户只需一键配置授权,就能让智能体在任意环境中自动调用即梦账号,完成文生图、文生视频等创作任务,或将其嵌入自动化工作流处理批量作业。
即梦 AI 正式推出专为 Agent 定制的命令行工具包“即梦 CLI”。用户经一键配置及账号授权后,可使 Agent 在任意环境自动调用 文生图、文生视频 等创作任务,支持嵌入自动化工作流处理批量或定时任务。
安装可通过特定指令交由 Agent 自行处理,登录后支持查询余额及任务状态。
该工具提供 文生图、文生视频、图生图 及 图生视频 四大类生成命令,支持异步任务管理与本地存储维护。

相关链接:
OpenClaw 发布 v2026.3.31 版本内置 QQ Bot 原生插件 #14
OpenClaw 发布了
v2026.3.31版本,官方新增内置 QQ Bot 插件。系统引入了基于
SQLite的共享后台任务控制,并带来了更好的 CJK 支持。值得注意的是,此次更新包含多项破坏性变更。
OpenClaw 最新发布了 v2026.3.31 版本,带来了一系列破坏性更新、功能增强与底层修复。
该版本最受瞩目的变动是官方内置了 QQ Bot 插件,使其成为首个被原生集成的中国主流社交平台。该插件支持多账户管理、SecretRef 凭证、斜杠命令以及私聊、群组、频道等多媒体交互。
此外,此次更新还引入了基于 SQLite 的真正共享后台任务流控制面,增强了 LINE 平台的音视频出站发送能力。
并在 Agents、MCP 协议、Sandbox 网络隔离以及 OpenAI/Anthropic 模型兼容性方面进行了深度优化与安全加固。

相关链接:
ClawHub 上线官方中国镜像站,获火山引擎基础设施支持 #15
ClawHub 上线官方中国镜像站,由字节跳动旗下火山引擎提供基础设施支持,实现了服务本土化与中文内容同步。
OpenClaw 生态技能分发市场 ClawHub 近日上线官方中国镜像站。其基础设施由 字节跳动 火山引擎及 BytePlus 赞助,已完成备案且内容汉化。
条款显示,火山引擎仅提供技术支持,用户需自行承担第三方技能的安全与侵权风险。
平台禁止欺诈、侵犯隐私等违规技能,违者受处罚。

相关链接:
DeepReinforce 的 GrandCode 夺 Codeforces 三场竞赛冠军 #16
DeepReinforce 团队宣布其研发的多 Agent AI 系统
GrandCode在近期举办的三场 Codeforces 直播比赛中连续夺得第一名,击败了所有人类参赛者。
根据 DeepReinforce 官方博客,该团队研发的多 Agent AI 系统 GrandCode 在近期举办的三场 Codeforces 直播比赛中连续夺得第一名,标志着 AI 首次在曾被视为人类最后优势领域的竞技编程中全面超越人类顶尖选手。
在不到一年的时间内,AI 在该领域的排名从 OpenAI o3 的第 175 名迅速攀升至榜首。
GrandCode 在这三场比赛中击败了包括传奇 Grandmaster 在内的所有人类参赛者,并且是全场首个解出所有题目的选手。
该系统通过编排假设生成器、主求解器、测试用例生成器和摘要等多个 Agent 模块,结合在直播比赛中实时应用的 测试时强化学习 技术,在严格的时间压力下实现了对复杂编程问题的最优解生成。

相关链接:
甲骨文启动裁员释放百亿资金支持 AI 基础设施建设 #17
甲骨文为应对高达 1560亿美元 的 AI 基础设施扩张计划及由此引发的巨额债务,已启动大规模裁员,预计波及数万名员工,旨在通过削减人力释放近百亿美元现金流填补缺口。
为了应对由大规模AI基础设施扩张引发的巨额资本开支与现金流不足,甲骨文近日启动了大规模裁员计划。据投资银行TD Cowen估算,此次裁员预计波及2万至3万名员工,约占该企业全球员工总数的18%,旨在释放80亿至100亿美元现金流。
尽管甲骨文上季度净利润同比大涨95%至61.3亿美元,但其总债务已超过1240亿美元,且自由现金流为负100亿美元。
此次裁员被视为该公司将劳动力转化为现金流、以支持其高达1560亿美元AI基础设施扩张计划的重要“节流”手段。

相关链接:
OpenRouter 传拟融资 1.2 亿美元 #18
据报道,OpenRouter 正在以约 13 亿美元 的估值筹集 1.2 亿美元 的新一轮融资。该平台目前年经常性收入已突破 5000万美元。
据媒体报道,初创公司 OpenRouter 正筹集 1.2 亿美元 新一轮融资,由 CapitalG 领投。若完成,其估值约 13 亿美元,较上轮增长一倍以上。
该公司致力于帮助开发者为 AI 应用和 Agent 筛选及访问模型。
据媒体透露,OpenRouter 目前年度经常性收入(ARR)已超 5000 万美元。
相关链接:
提示:内容由AI辅助创作,可能存在幻觉和错误。