AI 早报 2026-04-30

视频版哔哩哔哩YouTube

概览

要闻

  • DeepSeek 灰度测试识图模式,支持多模态理解 #1
  • 谷歌 Gemini 上线新功能,正式支持对话直接生成多种格式文件 #2

模型发布

  • Mistral AI 发布 Mistral Medium 3.5 模型 #3
  • 腾讯混元开源 Hy-MT1.5-1.8B 端侧翻译模型 #4
  • IBM 发布 Granite 4.1 系列开源模型 #5
  • 蚂蚁百灵开源 Ling-2.6-1T 模型 #6
  • 科大讯飞发布星火 X2-Flash,基于华为昇腾 910B 训练 #7
  • 百度发布文心一言 5.1 预览版 #8

开发生态

  • Google AI Studio build 模式上线搜索与多会话功能 #9
  • Cursor 发布 TypeScript SDK 公测 #10
  • OpenAI Codex 接入 Figma 与 Supabase,拟增强长任务能力 #11
  • Zed 团队发布 Zed 1.0 版 #12
  • Hermes Agent 集成 ComfyUI 控制能力,支持工作流管理 #13
  • Exa Labs 合作 Google,搜索集成至 Vertex 及 Gemini 企业版 #14

产品应用

  • ima 正式上线知识 Agent 模式,支持全平台及自定义模型接入 #15
  • AWS 正式发布 Amazon Quick,定位为跨应用 AI 办公助理 #16
  • ElevenLabs 发布 ElevenMusic 平台,支持创作者变现 #17
  • xAI 于 Grok Web 推出 Imagine Agent 图像处理功能 #18

技术与洞察

  • Anthropic 发布内省适配器,支持模型审计隐藏不对齐行为 #19
  • Qwen 团队开源 FlashQLA 优化 GDN 架构获 2 至 3 倍加速 #20

DeepSeek 灰度测试识图模式,支持多模态理解 #1

DeepSeek正在灰度测试全新的“识图模式”,该功能具备多模态图像理解能力。

现已作为独立入口向部分用户开放体验。

DeepSeek正在灰度测试一项全新的“识图模式”,该模式并非简单的 OCR 文字识别,而是具备多模态理解能力。

允许用户通过上传图片进行深度的图像分析与描述。

该功能与此前的“快速模式”和“专家模式”并列,作为一个独立入口呈现。

相关链接:


谷歌 Gemini 上线新功能,正式支持对话直接生成多种格式文件 #2

Gemini宣布正式上线了全新的文件生成功能。用户现在只需在聊天界面输入一句话,就能直接生成并下载 PDFWordExcel 等多种格式的完整文件。全程无需手动排版或复制粘贴。

Google Gemini 正式上线了一项新功能,用户可直接在聊天界面中通过简单的一句话提示,即时生成 Google Workspace 文件(DocsSheetsSlides)、PDF.pdf)、Microsoft Word.docx)、Microsoft Excel.xlsx)、CSV.csv)、LaTeX、纯文本(TXT)、富文本格式(RTF)及 MarkdownMD)。

无需复制粘贴或手动排版。该功能现已面向全球所有 Gemini 应用用户开放,用户可以直接下载文件到设备,或导出至 Google Drive

相关链接:


Mistral AI 发布 Mistral Medium 3.5 模型 #3

Mistral AI 发布了 Mistral Medium 3.5 模型,官方称该模型具备顶尖的推理与编码能力。

同时,还推出了 Vibe 云端远程编码 Agent 以及 Le Chat 的 Work 模式。

Mistral AI 发布了其首个旗舰融合模型 Mistral Medium 3.5

Mistral Medium 3.5 是一个参数规模达 128B 的稠密模型,具备 256k 上下文窗口。它将指令遵循、推理和编码能力统一到单一权重中,其 SWE-Bench Verified 得分达到 77.6%τ³-Telecom 得分 91.4%

该模型以 Modified MIT 许可证开放权重,可通过 Hugging Face 获取。同时提供 API 服务,定价为每百万输入 tokens 1.5 美元、输出 tokens 7.5 美元。

基于此模型,Mistral Vibe 推出了云端的异步远程 Agent。它允许开发者从 CLI 或 Le Chat 中启动可并行运行、独立于本地终端的长期编程任务。

此外,Le Chat 还推出了处于预览阶段的 Work 模式。作为一个强大的 Agent 模式,它能自动调用多种工具,处理和完成跨邮件、日历、文档等多步复杂工作流。

相关链接:


腾讯混元开源 Hy-MT1.5-1.8B 端侧翻译模型 #4

腾讯混元团队开源了专为手机端打造的翻译模型Hy-MT1.5-1.8B

只需不到 600兆 的存储空间即可在离线环境下流畅运行,支持 三十多种 语言。

官方同步推出了安卓端完全离线演示应用。

腾讯混元团队近日开源了手机端离线翻译模型 Hy-MT1.5-1.8B-1.25bit。该模型基于混元翻译大模型 Hy-MT1.5 打造,仅需 440MB(1.25-bit 版本)或 574MB(2-bit 版本)的存储空间,即可在本地无网络环境下运行。

它支持 33 种语言、5 种方言及 1056 个翻译方向。据官方称,其翻译质量在评测中超越了谷歌翻译和百度翻译等主流系统。

该模型通过 Sherry 稀疏高效三值量化(已被 ACL 2026 录用)和 SEQ 拉伸弹性量化技术实现极致压缩。其中 2-bit 版本在支持 Arm SME2 的设备上推理速度更快。

腾讯混元同时发布了适配安卓的 Demo 应用,支持后台取词模式,实现完全离线、零隐私泄露的翻译体验。所有模型权重、代码及技术报告均已开源,未来将支持 iOS 平台。

相关链接:


IBM 发布 Granite 4.1 系列开源模型 #5

IBM 发布了采用 Apache 2.0 开源许可的 Granite 4.1 系列模型。

全系列涵盖了多种参数规模的语言模型。

此外,该系列还包括视觉、语音、安全检测和文本嵌入等专用模型。

IBM Research 发布了 Granite 4.1 系列模型,涵盖 3B8B30B 参数量级的密集解码器语言模型(含基础版与指令微调版)。

该系列还包括 Granite Vision 4.1Granite Speech 4.1Granite Guardian 4.1 以及 Granite Embedding Multilingual R2 等多模态与专用模型。

全系列采用 Apache 2.0 开源许可,已上架 Hugging Facewatsonx 等平台。

相关链接:


蚂蚁百灵开源 Ling-2.6-1T 模型 #6

蚂蚁百灵团队宣布开源此前发布的模型 Ling-2.6-1T

目前该模型已在 Hugging FaceModelScope 平台正式上线开源。

此外,在 OpenRouter 上还将提供延长 一周 的免费调用服务。

蚂蚁集团 百灵团队宣布开源Ling系列新旗舰模型**Ling-2.6-1T**。

该模型总参数量达1T,活跃参数63B,专为真实复杂场景下的推理、代码生成与 Agent 工作流而设计。

它采用**MLA**与线性注意力混合架构以降低长上下文推理延迟,并通过后训练中的“Fast Thinking"机制压缩 token 开销。

在**AIME26SWE-bench Verified**等执行密集型基准上据官方称达到开源 SOTA。

Ling-2.6-1T被设计为生产就绪,可与Claude Code、**OpenClaw**等主流 Agent 框架无缝集成。

目前已在Hugging FaceModelScope开源。

开发者可通过OpenRouter(与Novita AI合作延长免费 API 访问一周)及Zenmux.ai等渠道调用。

相关链接:


科大讯飞发布星火 X2-Flash,基于华为昇腾 910B 训练 #7

科大讯飞正式发布了星火X2-Flash模型,并同步开放 API 接口。

这款模型总参数量为 30B,完全基于华为昇腾910B集群训练,重点提升了智能体与代码能力。

科大讯飞正式发布星火X2-Flash模型,同步开放API接口。该模型采用MoE架构,总参数量为30B,最大支持256K上下文,完全基于华为昇腾910B集群训练,在智能体与代码能力上实现大幅提升。

目前,AstronClawLoomy已率先接入。该模型同时深度兼容OpenClawClaude Code等主流Agent框架。开发者可通过讯飞星辰Coding Plan或讯飞开放平台、星辰MaaS平台进行体验与API调用。

相关链接:


百度发布文心一言 5.1 预览版 #8

百度宣布文心大模型ERNIE-5.1-Preview现已上线。

它在大模型竞技场LMArena文本榜拿下国内第一、全球第十三的成绩。

目前可在文心一言官网体验。

文心大模型 ERNIE-5.1-Preview 已于近期上线,并在大模型竞技场 LMArena 最新公布的文本榜排名中位列全球第 13、国内第 1。

ERNIE-5.1-Preview 基于 文心 5.0 预训练基础,通过将总参数压缩至约三分之一、激活参数压缩至约二分之一,以业界同规模模型约 6% 的预训练成本实现了同级别领先的基础效果。

该模型采用了分离式全异步强化学习技术和规模化智能体后训练技术。

用户可通过 文心一言官网(ernie.baidu.com)体验。官方表示,更多新模型正在规划中。

相关链接:


Google AI Studio build 模式上线搜索与多会话功能 #9

Google AI Studiobuild 模式推出了两项新功能。

现在可以通过新增的 web search 实时联网获取最新文档,还能利用 multi-chat 在不同想法的独立会话间自由切换。

Google AI Studio 近日在 build 模式中推出了两项针对 coding Agent 的更新:web searchmulti-chat

coding Agent 现在能够实时从网络拉取信息,将响应 grounded 在最新的 API 文档中。

multi-chat 则允许用户为每个新想法开启一个独立会话,并随时在多个会话之间切换。

相关链接:


Cursor 发布 TypeScript SDK 公测 #10

Cursor 正式推出了官方 TypeScript SDK 公测版。

开发者现在可以通过它将 Cursor 强大的 Agent 运行时直接集成到自己的应用中,支持在本地或云端专属沙箱运行任务。

Cursor 正式发布 TypeScript SDK 公测版,开发者可集成其 Agent 运行时与框架。该 SDK 支持 Agent 在本地或云端专用沙箱虚拟机运行,确保任务在设备休眠或断网时继续执行。

其开放代码库索引、语义搜索、MCP 服务器 及子 Agent 等功能,支持切换 OpenAIAnthropicCursor Composer 2 等模型,计费基于 token 用量。官方已开源示例项目。

官方披露,RipplingNotion 等公司已使用该 SDK 构建自定义后台 Agent 或维护自愈代码库。

相关链接:


OpenAI Codex 接入 Figma 与 Supabase,拟增强长任务能力 #11

OpenAICodex迎来多项重要更新,现已正式接入FigmaFigJamSupabase,能将实施计划转为可视化看板并跨数据库执行任务。

同时,OpenAI准备发布新变更来优化Codex的长周期运行能力。

近日,OpenAICodex 迎来多项重要更新,涵盖集成扩展与长期任务能力提升。

Figma 为其 FigJam 产品发布了 MCP 更新,新增 generate_diagram 工具用于创建架构图与 ERD,以及 figma-use-figjam skillget_figjam 工具。这使得 Codex 能够将实现计划直观地转换为 FigJam 看板,并直接在看板中添加笔记、代码块和注释。

同时,Supabase 现已正式接入 Codex,用户连接项目后,Codex 可跨数据库、认证、存储和边缘函数进行工作。

相关链接:


Zed 团队发布 Zed 1.0 版 #12

Zed团队正式发布了代码编辑器Zed1.0版本。

这款由Atom创始人打造的编辑器现已支持三大操作系统。

它集成了GitSSH等完整开发功能,原生支持多种AI助手协同工作。

Zed 团队近日正式宣布代码编辑器 Zed 推出 1.0 版本。

该编辑器由 Atom 创始人重新构思,采用自研的 Rust 框架 GPUI 并基于 GPU 渲染。

现已支持 macOS、Windows、Linux 三大平台。

1.0 版本涵盖了 Git 集成、SSH 远程开发、调试器、彩虹括号等开发者所需的完整功能。

其 AI 原生架构支持多个 Agent 并行运行、基于按键粒度的编辑预测。

并通过 Agent Client Protocol 接入 Claude AgentCodexOpenCodeCursor 等多种 AI 助手。

团队同步推出 Zed for Business 企业版,提供集中计费、基于角色的访问控制与团队管理功能。

相关链接:


Hermes Agent 集成 ComfyUI 控制能力,支持工作流管理 #13

Nous Research 宣布 Hermes Agent 现已原生集成对 ComfyUI 的控制能力。

用户只需运行更新命令,就能直接在本地或云端轻松管理和运行复杂的 ComfyUI 工作流。

Hermes Agent 现已集成对 ComfyUI 的原生控制能力,用户可通过内置技能轻松管理本地和云端工作流。

该功能由 Nous Research 发布,官方声明称 Hermes Agent 现在可以按需安装、启动、管理并运行复杂的 ComfyUI 工作流。

用户只需执行 hermes update 命令,随后运行 /comfyui 即可开始使用。

相关链接:


Exa Labs 合作 Google,搜索集成至 Vertex 及 Gemini 企业版 #14

Exa Labs谷歌达成合作,将其AI搜索引擎接入谷歌云生态。

Exa现已通过Vertex AIGrounding功能为Gemini模型提供实时搜索结果。

Exa LabsGoogle达成合作,将该公司的AI搜索引擎以两种方式集成至Google Cloud生态。

Exa Labs官方博客,Exa Web Search现已通过Vertex AIGrounding功能进入私人预览。作为grounding source,它提供实时搜索结果以锚定Gemini模型的回答。

此外,Exa还作为首发合作伙伴,将其Agent上线至Gemini EnterpriseAgent Marketplace。企业用户可直接在工作空间内调用该Agent执行网页研究、查找相似页面或提取URL内容,无需额外编码或采购流程。

相关链接:


ima 正式上线知识 Agent 模式,支持全平台及自定义模型接入 #15

ima.copilot正式上线了知识 Agent 模式 copilot,目前用户可在全平台申请创建自己的专属 Agent。

同时,ima正式允许用户自行接入各类模型的 API KEY。

ima.copilot 正式上线知识 Agent 模式 copilot。该功能支持全平台创建专属 Agent,当前采取申请制。

该功能定位为统一入口式个人知识伙伴,内置自主进化记忆系统,含设定、档案、记忆及技巧模块。

其具备全场景感知能力,以浮窗形式伴随应用内操作,无需额外上传即可基于当前内容响应。

技能生态方面,除内置官方 Skills 外,支持通过 Skillhub 或自行上传扩展。

模型层面,正式允许用户自行接入各大模型的 API KEY,相关消耗由用户自行承担。

相关链接:


AWS 正式发布 Amazon Quick,定位为跨应用 AI 办公助理 #16

AWS 发布了 Amazon Quick 桌面应用,这是一款跨应用的 AI 办公助理。

它能连接本地文件、日历邮件及各类第三方工具。

通过长期记忆和主动提醒功能帮用户高效办公。

Amazon Quick 桌面应用正式发布,定位为跨应用 AI 办公助理。

其具备长期记忆功能,能索引文档构建知识图谱,跨会话保持记忆。

其采取主动式工作模式,后台监控动态并主动推送待办与预警。

用户可用自然语言创建应用及生成文档,支持 Microsoft 365 预览及 Google Workspace 等集成。

现已开放注册,提供免费与 Plus 方案,仅需邮箱使用。

相关链接:


ElevenLabs 发布 ElevenMusic 平台,支持创作者变现 #17

ElevenLabs宣布发布ElevenMusic平台,用户可以通过这个平台使用 AI 创作或者混音音乐作品。

用户还能通过发布作品来获得收入。

ElevenLabs 于今日发布 ElevenMusic 平台,这是一个基于其自有音乐生成模型的全新平台,支持音乐发现、混音、创作与变现,现已上线 Web 端和 iOS 应用。

该平台已汇聚超过 4000 位独立与新兴艺术家。用户可通过探索超过 4000 首曲目、进行流派与节奏的混音改编,或从歌词、旋律、情绪等起点借助 AI 创作完整作品。

ElevenLabs 表示,创作者可通过发布原创曲目和混音获得收入。此前其语音库已向创作者支付超过 1100 万美元。

相关链接:


xAI 于 Grok Web 推出 Imagine Agent 图像处理功能 #18

据用户发现,xAIGrok 网页端推出了 Imagine Agent Mode,提供快速动画、群组图片和裁剪等多项图像处理功能。

近日,据 X 平台账号 Tech Dev Notes披露,xAI已在 Grok Web端上线Imagine Agent Mode

该模式集成 Quick AnimateGroup ImagesCrop等多项图像处理功能。

相关截图显示,用户可直接在界面内调用上述能力。

目前,该功能仅限 Grok Web端使用,具体范围及用法尚待官方进一步说明。

相关链接:


Anthropic 发布内省适配器,支持模型审计隐藏不对齐行为 #19

Anthropic 发布最新研究,推出了一款名为 内省适配器 的工具。

它能引导语言模型主动报告在训练中学会的隐藏不良行为。

并在针对安全后门等隐蔽威胁的检测测试中表现优异。

人工智能 的安全对齐审计提供了全新手段。

Anthropic在最新发布的研究中推出了Introspection Adapter(IA),这是一种能使语言模型自主报告其在训练过程中学习到的行为(包括潜在的不对齐、后门与安全机制移除)的适配器。

该研究同时发布了AuditBench基准,包含 56 个对抗性训练的隐藏不良行为模型,IA在其中取得了 59% 的 Agent 成功率,优于次优方法(53%)和最佳白盒方法(44%),且在 89% 的模型上至少产生一条正确行为描述。

IA还能检测隐蔽的微调 API 攻击(7/9模型)、揭示奖励模型谄媚的具体行为(52个中的16个,未修改模型仅承认2个),并为 UKAISI 的 sandbagging 模型提供此前不存在的初步信号。

研究发现 IA随模型规模扩大表现提升(Qwen3 0.6B→4B→14B口头化率从38%→60%→77%),训练多样性增加与 DPO 步骤进一步改善性能,且该适配器可跨微调变体复用,为对齐审计提供了一种“在测试集上训练”的可能。

论文、博客、模型与数据集及代码均已公开。

相关链接:


Qwen 团队开源 FlashQLA 优化 GDN 架构获 2 至 3 倍加速 #20

Qwen团队正式开源了高性能线性注意力算子库 FlashQLA,该算子库在 NVIDIA Hopper 架构上实现了 2至3倍 的前向加速与 2倍 的反向加速。

这一性能突破大幅提升了大模型预训练与端侧 Agent 推理的运行效率,为相关领域的计算优化提供了新的强力支持。

Qwen 团队正式开源 FlashQLA,这是一个基于 TileLang 构建的高性能线性注意力算子库。该库专为 Gated Delta Network (GDN)Chunked Prefill 流程设计。

NVIDIA Hopper 架构上,该项目实现了相较于 FLA Triton Kernel 2 至 3 倍的前向加速与 2 倍的反向加速。这一技术在预训练及端侧 Agent 推理场景下效率提升尤为显著。

FlashQLA 采用了三项核心设计:首先,利用 GDN gate 的指数衰减性质实现门控驱动的自动化卡内序列并行(AutoCP),以提升小头数或 TP 场景下的 GPU SM 利用率;其次,对前反向流程进行硬件友好的代数改写以降低各类核心开销;最后,基于 TileLang 构建融合的 warp-specialized 内核,通过手动 warpgroup specialization 实现数据搬运与计算的重叠。

此外,在反向传播中,其基于极紧张的片上内存构建了 16 级 warp-specialized 流水线。代码已基于 MIT 协议GitHub 开源。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误