AI 早报 2026-05-13

视频版哔哩哔哩YouTube

概览

要闻

  • Google 发布 Gemini Intelligence 升级安卓体验 #1

模型发布

  • Claude Opus 4.7 快速模式以研究预览形式上线 API 及多款工具 #2
  • Jina AI 新模型 jina-embeddings-v5-omni 支持文本图像音视频混合检索 #3
  • Perceptron 推出 Mk1 模型,专攻视频理解与具身推理 #4

开发生态

  • GitHub更新Copilot计费与订阅:引入弹性配额与Max计划 #5
  • Xiaomi MiMo 发布 API 适配说明:未回传 reasoning_content 将报错 #6
  • “Mini Shai-Hulud”供应链攻击爆发 波及Mistral AI等超160个包 #7
  • Hermes Agent 推出 macOS 后台 Computer Use 功能 #8
  • StepFun 宣布 Step 3.5 Flash 在 Nous Portal 免费 15 天 #9

产品应用

  • Google DeepMind 推出 AI 指针实验原型 #10
  • Anthropic 开源发布 Claude for Legal 工具集 #11
  • 豆包输入法 Mac 版推出,免费AI语音输入 #12
  • 智谱清言上线 AgentMore AI 群聊功能 #13

技术与洞察

  • Google 发布 ADK 教程:构建长期运行 AI Agent #14
  • curl作者称Anthropic的Mythos模型宣传存在夸大 #15
  • Shopify 官方数据:AI 引荐消费者转化率较自然搜索高出近 50% #16
  • Qwen-Image-2.0 技术报告发布 #17
  • 新评估 AI IQ 上线:对比模型智商、情商与成本 #18

行业动态

  • 短视频发布前将强制要求勾选内容属性标签 #19
  • Alphabet旗下Isomorphic Labs融资21亿美元扩展AI药物设计引擎 #20

前瞻与传闻

  • Android 版 Chrome 将集成 Gemini 并支持 Agent 浏览 #21
  • 报道称亚马逊员工迫于考核压力刷AI Token使用量 #22
  • Codex 团队正考虑每周四进行较大版本发布 #23
  • Google 宣布推出以 Gemini 为核心的笔记本新品类 Googlebook #24

Google 发布 Gemini Intelligence 升级安卓体验 #1

Google 宣布推出 Gemini Intelligence,为部分安卓设备引入主动式 AI 能力。该套件支持跨应用多步任务自动化等多项 AI 功能,将于今年夏季率先在部分 三星谷歌 手机上推送。

GoogleAndroid Show 上宣布推出 Gemini Intelligence,通过整合硬件与软件将 Android 从操作系统向智能系统演进。

该功能套件引入了多项新能力,包括跨应用多步骤任务自动化、利用上下文信息的智能表单填写、将杂乱语音转化为精炼文本的 Rambler 功能,以及使用自然语言生成个性化界面的 Create My Widget

相关功能将从今年夏季开始分批推送,首发支持最新的 Samsung Galaxy S26Google Pixel 10 手机,并计划于今年晚些时候扩展至手表、汽车、眼镜和笔记本电脑等更多设备。

相关链接:


Claude Opus 4.7 快速模式以研究预览形式上线 API 及多款工具 #2

Claude 宣布,Claude Opus 4.7 快速模式已上线 APIClaude Code,并在 Cursor 等六款第三方工具中开放,API 用户需加入候补名单。

Claude 官方开发者账号 ClaudeDevs 宣布,Claude Opus 4.7 的快速模式已以研究预览形式在 API 和 Claude Code 中开放。

Cursor 官方表示,该模式速度为标准版的 2.5 倍,成本则为 6 倍,建议大多数任务仍使用标准速度。

Claude Code 用户今日起可选择启用,周四起将自动成为快速模式的默认模型。

该模式同期在 CursorEmergent LabsFactoryAIv0WarpWindsurf 六款第三方工具的研究预览中可用。API 用户需加入候补名单方可使用。

相关链接:


Jina AI 新模型 jina-embeddings-v5-omni 支持文本图像音视频混合检索 #3

Jina AI 发布了首个支持文本、图像、音频和视频的通用嵌入模型 jina-embeddings-v5-omni。官方称该模型性能可与参数量大 5 倍 以上的模型持平。

Jina AI 正式推出 jina-embeddings-v5-omni 嵌入模型系列,将多模态支持扩展至文本、图像、音频和视频。

该系列提供 small(约 1.57B 参数,1024 维,32K 上下文)和 nano(约 0.95B 参数,768 维,8K 上下文)两个版本,均支持 Matryoshka 维度截断。

在架构上,模型冻结了文本主干以及新增的视听预训练编码器,仅训练占总权重 0.35% 的投影层。官方表示这使得模型生成的文本向量与旧版 v5-text 字节级完全相同。

这两个版本目前已上线 HuggingFaceJina APIElastic Inference Service,并采用 CC BY-NC 4.0 许可证。

相关链接:


Perceptron 推出 Mk1 模型,专攻视频理解与具身推理 #4

Perceptron AI 发布专为视频及具身推理构建的闭源模型 Perceptron Mk1,官方称其能力匹配 Gemini 等前沿模型,现已开放 API 且成本更低。

Perceptron AI 发布了专为视频理解和具身推理构建的闭源模型 Perceptron Mk1,并已通过其平台和 SDK 开放 API 调用。

官方称该模型匹配了 GeminiGPT 等前沿模型的视频推理能力。它支持最高 2 FPS 的原生视频处理和 32K token 上下文窗口,具备时间推理、密集场景计数、复杂 OCR 以及跨多摄像头的像素级具身推理能力。

其 API 定价为每百万输入 token 0.15 美元、输出 token 1.50 美元。官方表示成本低于 Gemini Flash Lite

相关链接:


GitHub更新Copilot计费与订阅:引入弹性配额与Max计划 #5

GitHub官方发布4 月报告供用户预估用量,为6 月 1 日上线按量计费模式做准备。同时,官方更新个人订阅套餐,引入弹性配额,并新增100美元每月的Max套餐。

GitHub 宣布其 Copilot 服务将于 6 月 1 日 全面转向基于使用量的计费模式,计费单位为全新的 AI credits

为帮助用户提前规划,官方现已允许企业版管理员及 ProPro+ 个人用户下载 4 月份 的使用报告以评估各项模型消耗量。但官方提示该报告仅为预估参考且存在部分数据缺失。

同日,GitHub 更新了个人版订阅矩阵。在维持原价的 ProPro+ 计划中,引入了随时间动态调整的“弹性配额”。同时,针对高频用户推出了每月 100 美元 的全新 Max 计划。

在新的计费体系下,所有付费计划的代码补全和下一次编辑建议将保持无限使用且不消耗 credits

相关链接:


Xiaomi MiMo 发布 API 适配说明:未回传 reasoning_content 将报错 #6

Xiaomi MiMo 官方发布 API 适配说明,要求 Agent 产品在多轮对话中,开启思考模式并包含工具调用时,必须完整回传 reasoning_content 字段,否则将触发 400 错误。

Xiaomi MiMo 团队发布最新适配说明,要求在 Agent 产品的多轮对话中,若启用了思考模式且历史会话存在工具调用,开发者必须在后续交互中完整回传 assistant 消息的 reasoning_content 字段。

否则 API 将报 400 错误。官方强调,缺失该字段会导致模型上下文不完整,进而可能引发指令遵循能力下降和幻觉增多。

该要求影响 TRAECursorGitHub Copilot CLI 等多个主流框架及 MiMo-V2.5 系列等多款模型。官方正积极推进兼容性更新。

相关链接:


“Mini Shai-Hulud”供应链攻击爆发 波及Mistral AI等超160个包 #7

据安全机构警告,针对AI开发者的供应链攻击"Mini Shai-Hulud"正在爆发。该攻击通过劫持 CI 管道波及 Mistral AI 等超160个包,Hermes Agent 用户或受影响。

安全机构Aikido Security及多名开发者警告,代号为"Mini Shai-Hulud"的超大规模供应链攻击正在爆发。

恶意软件专门针对AI开发者工具,并已波及TanStackMistral AIUiPath等超过160npmPyPI包。

该攻击通过劫持GitHub Actions CI管道窃取凭证,利用合法项目自动发布带有SLSA 3级证明的带毒版本以绕过验证。

即便开发者固定了包版本,也可能在6分钟的发布窗口期内中招。

目前已知受影响的包括PyPI上的mistralai@2.4.6(会在Linux系统导入时执行后门)以及npm上的多个@mistralai相关版本。

安全专家强烈建议开发者立即停止安装包、轮换所有云密钥和CI凭证,并使用安全工具进行排查。

相关链接:


Hermes Agent 推出 macOS 后台 Computer Use 功能 #8

Hermes Agent 近日推出 macOS 后台 Computer Use 功能,兼容各类视觉及开源模型,可在不移动光标或干扰用户操作的情况下后台控制桌面。

Nous Research 发布的 Hermes Agent 现已支持在 macOS 上进行后台 Computer Use 操作。

该功能允许 Agent 在不影响用户光标和当前焦点的情况下在后台驱动桌面,并兼容 ClaudeGPTGemini 及各类本地开源模型。

它通过开源驱动 cua-driver 和 Apple 私有接口实现,且配备了针对破坏性操作和危险脚本的严格安全护栏。目前此功能仅限 macOS 平台可用。

相关链接:


StepFun 宣布 Step 3.5 Flash 在 Nous Portal 免费 15 天 #9

StepFun 宣布,其 Step 3.5 Flash 模型目前在 Nous Portal 上再次向用户免费开放,本次免费活动将持续 15 天。

StepFun 近日通过官方社交账号宣布,旗下 Step 3.5 Flash 模型已在 Nous Portal 上重新向用户免费开放。

官方表示,由于此前为期 10 天 的免费时间不足,本次特将免费使用期限延长至 15 天

目前用户可以直接在 Nous Research 的平台上体验该模型。

相关链接:


Google DeepMind 推出 AI 指针实验原型 #10

Google DeepMind 发布由 Gemini 驱动的"AI pointer"实验原型,用户可通过手势、语音和自然简写在屏幕上直接指示 AI 执行任务。该实验功能已在 Google AI Studio 开放体验。

Google DeepMind 官方宣布正在重新定义拥有 50 年历史的鼠标指针,将其转化为具备上下文感知能力的 AI 交互入口。

该功能允许用户通过结合指针移动、语音指令和“这个/那个”等自然简写,让 AI 直接理解屏幕上的视觉与语义上下文,并将像素转化为可操作的实体。

目前,用户可在 Google AI Studio 中体验该原型的图片编辑与地图查找演示。

官方也已将相关能力引入 Gemini in Chrome,并计划在其新款 Googlebook 笔记本电脑上推出名为"Magic Pointer"的功能。

相关链接:


Anthropic 发布开源工具集 Claude for Legal,包含 12 个法律岗位插件与 20 余个 MCP 连接器,已在 Claude Cowork 上线,并已在 Github 开源。

Anthropic 发布开源工具集 Claude for Legal,包含 12 个面向不同法律岗位的插件及 20 余个 MCP 连接器,已在 Claude CoworkClaude Code 中可用。

插件覆盖合同审查、并购尽调、诉讼管理、隐私合规、AI 治理等场景,通过冷启动访谈学习团队 playbook 与风格后运行。连接器打通 iManageDocuSignEverlawThomson Reuters 等行业平台及 WordExcelOffice 软件。

所有输出均标注为供律师审阅的草稿而非法律意见。法律援助及非营利机构可通过 Claude for Nonprofits 计划获得折扣,部分插件可作为 Managed AgentAPI 无界面部署。

相关链接:


豆包输入法 Mac 版推出,免费AI语音输入 #12

有用户发现,字节跳动旗下免费的AI语音输入法产品豆包输入法Mac 版已上线官网。

有用户发现,豆包输入法 Mac 版现已正式发布,这是一款免费的AI语音输入法。

目前用户已可以通过该产品链接访问并获取该产品的更多信息或进行下载。

相关链接:


智谱清言上线 AgentMore AI 群聊功能 #13

智谱清言宣布其 AgentMore 上线 AI 群聊。用户可将最多 5AI 拉群协作,支持智能招募建群与共享工作区。

智谱宣布其 AgentMore 平台的 AI 群聊功能正式上线,允许用户将不同 Agent 拉入同一群组协作。

群成员上限为 5 人,支持手动挑选或通过输入需求由系统智能招募生成 AI 角色。

该功能内置头脑风暴与任务分配两种发言模式,并配备公共与私密并存的共享文件工作区。

作为群主,用户不仅能全面管理群设置与成员,还拥有一键打断 AI 间无休止对话的专属静音特权。

相关链接:


Google 发布 ADK 教程:构建长期运行 AI Agent #14

Google 发布技术指南,演示如何使用 Agent Development Kit,构建一个支持暂停、恢复且不丢失上下文的长期运行 AI Agent,配套源代码已在 GitHub 开源。

Google Developers Blog 发布了关于构建生产级、长期运行 AI Agent 的指南,重点介绍如何利用 Agent Development Kit (ADK) 管理跨越数天甚至数周的复杂企业工作流。

为解决传统无状态机器人在长流程中的上下文遗忘和成本激增问题,该方案引入了持久化状态机、事件驱动的休眠机制以及多 Agent 协作架构。

开发者可通过 ADKDatabaseSessionService 实现会话状态持久化,并在外部 Webhook 触发时自动唤醒和恢复执行。

完整的新员工入职协调 Agent 源代码已在 GitHub 开源,支持通过 Agents CLI 一键部署至支持自动扩缩容的 Agent Runtime 生产环境。

相关链接:


curl作者称Anthropic的Mythos模型宣传存在夸大 #15

curl 作者收到由第三方使用 Mythos 模型生成的扫描报告,但经测试发现,Mythos 报告的 5 个漏洞中仅 1 个属实且为低危,其余全为误报或普通 Bug。curl 作者认为,Mythos 并未显著超越现有工具,其宣传更像营销手段。

Anthropic 此前因声称其 AI 模型 Mythos 发现漏洞的能力极强而拒绝公开发布,仅通过 Linux Foundation 项目提供有限访问。

curl 项目创建者 Daniel Stenberg 收到由第三方使用该模型生成的扫描报告。

结果显示,Mythos 在分析 curl 超过 17 万行代码时报告了 5 个漏洞,但经 curl 安全团队复核,仅 1 个被确认为真实的低危安全漏洞,另外 3 个为误报,1 个仅为普通 Bug。

Stenberg 表示,与其他现有的 AI 工具相比,Mythos 并未展现出显著优势,其宣传更像是一种营销手段。

该低危漏洞计划随 6 月下旬curl 8.21.0 版本同步修复。

相关链接:


Shopify 官方数据:AI 引荐消费者转化率较自然搜索高出近 50% #16

Shopify 官方公布的 2026 年一季度早期数据显示,平台内由 AI 引荐的消费者转化率比自然搜索高出近 50%,且平均客单价提升 14%

Shopify 官方博客发布的分析指出,其平台 2026 年第一季度 来自 ChatGPTPerplexityGoogle Gemini 等 AI 平台的引荐流量同比增长超过 8 倍

官方数据显示,这些 AI 引荐的购物者在产品详情页上的转化率比自然搜索高出近 50%,平均客单价高出 14%,且有超过一半的会话直接从特定产品页面开始。

尽管自然搜索在总流量上依然占据主导地位且同期保持约 5% 的增长,但 Shopify 认为由 AI 主导的购物模式已展现出显著的早期商业价值。

建议商家将 AI 作为独立渠道进行优化,并已推出相关基础设施以支持未来 Agent 直接完成交易。

相关链接:


Qwen-Image-2.0 技术报告发布 #17

Qwen-Image-2.0 技术报告发布。官方称该图像模型统一了生成与编辑能力,性能大幅超越前代模型。

Qwen-Image-2.0 技术报告近日发布,该模型是一个统一了高保真图像生成与精确编辑的全能基础模型。

在架构上,它结合 Qwen3-VL 作为条件编码器与 多模态 Diffusion Transformer 进行联合建模,支持最长 1K tokens 的指令输入。这一特性使其可用于生成幻灯片、海报等富文本内容。

官方称,广泛的人类评估表明该模型在生成和编辑任务上均大幅优于旧版 Qwen-Image 模型。同时,其在多语言排版和真实感生成等方面也得到了显著增强。

相关链接:


新评估 AI IQ 上线:对比模型智商、情商与成本 #18

一项名为 AI IQ 的评估项目发布,基于公开基准数据,估算主流模型的 IQEQ。该项目展示了多个模型在 智商曲线演进时间线成本效益 方面的表现。

Ryan Shea 发布了名为 AI IQ 的评估项目,旨在通过人类 IQ 量表来量化评估前沿 AI 模型。

该项目整合了公开基准排行榜的数据源,通过校准的难度曲线将得分映射为 IQ 值。

IQ 估算基于四个维度的平均分:抽象推理数学推理程序推理学术推理

这些维度涵盖了 ARC-AGI-2FrontierMathSWE-bench12 项基准测试。

此外,项目还结合了 Arena EloEQ-Bench 数据评估 EQ。

用户可通过交互式图表对比模型在智商、情商及成本上的综合表现。

相关链接:


短视频发布前将强制要求勾选内容属性标签 #19

针对短视频虚构摆拍、AI生成等误导公众的问题,有关部门近期全面部署短视频内容标注,要求平台提供"AI生成"等6类必选标签且发布前必须强制勾选,该功能将于5月底前陆续上线。

针对短视频虚构摆拍、AI 生成等误导公众的问题,有关部门近日全面部署推进短视频内容标注工作。

官方明确要求各网站平台必须提供包含“含有 AI 生成内容”“含有虚构演绎内容”等在内的 6 类“必选标签”,并将勾选标签设为短视频发布的强制必经环节。

在前期 12 家平台试点的基础上,全行业预计于 5 月底前陆续完成功能上线。同时,将对存量未规范标注的视频进行分批回溯整改。

相关链接:


Alphabet旗下Isomorphic Labs融资21亿美元扩展AI药物设计引擎 #20

Alphabet旗下的AI药物研发公司Isomorphic Labs完成21亿美元****B 轮融资,资金将用于扩展其AI药物设计引擎,并推进候选药物向临床试验迈进。

Alphabet旗下的AI药物研发公司 Isomorphic Labs宣布完成21亿美元的B轮融资,本轮融资由 Thrive Capital领投,这是该机构连续第二次领投。

参投方包括现有投资方 AlphabetGV,以及新晋投资方 MGXTemasekCapitalG英国主权人工智能基金

官方称,新资金将用于扩展其内部AI药物设计引擎 IsoDDE,在全球范围内扩大业务并推进药物管线更接近临床试验。

公司创始人 Demis Hassabis表示,目前的重点将转向规模化扩展该技术,其最终使命是“解决所有疾病”。

相关链接:


Android 版 Chrome 将集成 Gemini 并支持 Agent 浏览 #21

Google 宣布为 Android 版 Chrome 引入由 Gemini 3.1 驱动的 Agent 浏览体验,包含自动浏览,以及 Nano Banana 等新功能。这些功能将于 6 月底美国 的部分 Android 设备上推出。

Google 宣布将在 Android 版 Chrome 中推出由 Gemini 3.1 驱动的个人浏览助手及自动浏览功能。

该助手支持网页总结、连接 Google 系应用管理日程,并能使用 Nano Banana 工具直接在浏览器内生成或修改图像。

新增的自动浏览功能可代为执行预订停车位或更新订单等操作,但会在完成敏感操作前向用户请求确认以保障安全。

根据计划,相关功能将于 6 月底 开始面向美国地区运行 Android 12 及以上版本的部分设备推出,其中自动浏览仅限 AI ProUltra 订阅用户使用。

相关链接:


报道称亚马逊员工迫于考核压力刷AI Token使用量 #22

据媒体报道,由于面临内部考核压力,亚马逊员工正利用内部AI工具"MeshClaw"自动化非必要任务,以此“刷”高Token使用量。

据媒体报道,为了应对亚马逊设定的每周AI工具使用目标及内部排行榜追踪,部分员工正使用该公司的内部AI产品“MeshClaw”自动化非必要任务,以增加Token消耗量。

尽管亚马逊官方声称该统计数据不会用于绩效评估,但多名员工表示管理者仍在监控这些数据。

这一做法已在团队中引发了不良竞争。

相关链接:


Codex 团队正考虑每周四进行较大版本发布 #23

据团队成员 Tibo 透露,Codex 正考虑建立稳定的发布节奏,计划每周四进行一次较大版本更新,目前该计划尚未最终确认。

近日,Codex 团队成员 Tibo 在社交平台 X 上表示,团队正在考虑为 Codex 建立一种稳定的发布节奏。

根据初步设想,他们计划在每周四进行一次较大规模的版本发布。

Tibo 指出这种安排可能会降低每周开始时的期待感,因此该节奏仍处于团队内部思考和征求社区意见的阶段,尚未得到官方最终确认。

相关链接:


Google 宣布推出以 Gemini 为核心的笔记本新品类 Googlebook #24

Google 宣布推出全新笔记本品类 Googlebook,这是一款以 Gemini 为核心并可与 Android 手机无缝同步的设备。首批由多家合作厂商打造的 Googlebook 将于今年秋季面市。

Google 官方博客发文宣布推出名为 Googlebook 的全新笔记本电脑品类,该设备将 Android 的应用生态与 ChromeOS 的浏览器优势相结合,专为 Gemini Intelligence 打造。

Googlebook 首发集成了与 Google DeepMind 团队合作开发的 Magic Pointer 功能,允许用户通过移动光标获取由 Gemini 提供的上下文建议,并支持通过 Create your Widget 功能用自然语言生成个性化桌面组件。

该设备基于部分 Android 技术栈构建,支持在电脑端直接访问和操作手机应用及文件。官方表示,包括 AcerASUSDellHPLenovo 在内的合作伙伴将推出采用独特 glowbar 设计的硬件产品。具体设备将于今年秋季上市。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误