AI 早报 2026-05-19

视频版哔哩哔哩YouTube

概览

要闻

  • 千问上线 Qwen3.7 Max Preview 和 Qwen3.7 Plus Preview #1

模型发布

  • Cursor 发布 Composer 2.5 并携手 SpaceXAI 合训新模型 #2

开发生态

  • Anthropic 宣布将 Claude Design 各计划 token limits 翻倍 #3
  • Claude Code 上线基于 Opus 4.7 的 /fast 模式 #4
  • GitHub 发布多项 Copilot 更新 一键修复 Actions 上线 #5
  • OpenRouter 发布长周期 Agent 构建原语与 SDK #6
  • Browserbase 推出 Browse.sh 技能目录 #7

技术与洞察

  • 腾讯混元等机构发布古文字评测基准 Chronicles-OCR #8

行业动态

  • Anthropic 收编 SDK 供应商 Stainless,将关停其托管产品 #9
  • 消息称 Musk 诉 OpenAI 案败诉,陪审团认定起诉超时 #10

前瞻与传闻

  • DeepSeek 调研 DeepSeek-V4 角色扮演及情感陪伴体验 #11
  • SpaceXAI 将提高 Grok Imagine 速率限制并改进生成准确度 #12

千问上线 Qwen3.7 Max Preview 和 Qwen3.7 Plus Preview #1

千问团队Qwen Studio 上线了 Qwen3.7 MaxQwen3.7 Plus 两款模型的 Preview 版。同步公开了 Arena 分数和排名,该系列模型或于近期的阿里云峰会正式发布。

阿里通义千问团队日前在 Qwen Studio 及评测平台 Arena 上线了 Qwen3.7 的预览版模型,包含 Qwen3.7-Max-PreviewQwen3.7-Plus-Preview 两个版本。

根据 Arena 公布的数据,Max 版在 Text 赛道总排名第 13,且在数学、编程等分项均跻身前十。Plus 版在 Vision 赛道总排名第 16

其正式发布活动预计在即将到来的阿里云峰会上进行。

相关链接:


Cursor 发布 Composer 2.5 并携手 SpaceXAI 合训新模型 #2

Cursor 宣布推出 Composer 2.5,官方称其复杂指令跟随能力更强,效率最高可比同类提升十倍,首周额度翻倍。同时,其宣布将与 SpaceXAI 联手,使用十倍算力从零训练一个更大模型。

Cursor 发布了最新的编程模型 Composer 2.5,该模型基于 MoonshotKimi K2.5 训练。

Composer 2.5 强化了长时间运行任务中的持续工作能力和复杂指令遵循表现。Cursor 官方称其效率最高可比同等能力模型提升十倍

模型现已上线,提供标准版和更快的快速版本,后者为默认选项。首周将提供双倍使用额度。

训练中引入了基于文本反馈的强化学习等方法,有效解决了长轨迹中的信用分配难题。

同时,Cursor 同步宣布正与 SpaceXAI 合作,使用十倍总计算资源在百万 H100 等效的 Colossus 2 集群上从零训练一个更大模型。

预计将带来重大能力飞跃。

相关链接:


Anthropic 宣布将 Claude Design 各计划 token limits 翻倍 #3

Anthropic 官方宣布已将 Claude Design 在所有订阅计划中的 token limits 翻倍。

Anthropic 通过其官方社交账号宣布,已将 Claude Design 在所有订阅计划中的 token limits 翻倍。

此次扩容主要针对此前用户极易触及输出上限的痛点。

相关链接:


Claude Code 上线基于 Opus 4.7 的 /fast 模式 #4

Claude Code 官方宣布 Fast 模式已默认切换为 Opus 4.7,官方称其响应速度约为标准模式的 2.5 倍,但按更高 token 费率计费。

ClaudeDevs 官方社交账号宣布,Claude Code 的 Fast 模式现已默认使用 Opus 4.7 模型。

官方称该模式提供与标准 Opus 相同的质量,响应速度约为标准模式的 2.5 倍。但该功能按更高的 token 费率计费,适用于快速迭代、实时调试等对延迟敏感的场景。

用户可通过 /fast 命令启用。

相关链接:


GitHub 发布多项 Copilot 更新 一键修复 Actions 上线 #5

GitHub发布多项 Copilot更新,推出可一键修复 Actions 的云 Agent,并将 Spaces APICLI 远程控制正式开放。

GitHub 官方近日针对 BusinessEnterprise 用户推出多项 Copilot 更新。

核心全新能力是云 Agent 现可一键修复失败的 GitHub Actions,自动完成代码调查、修复推送并标记审查,同时新增用于审计该 Agent 配置的 REST API

此前处于测试阶段的 Spaces 编程管理 API,以及 Copilot CLIVS Code 会话的远程控制功能均已在本次正式全面可用。

此外 Copilot Chat 也通过同页面面板和上下文自动附加改善了交互体验。

相关链接:


OpenRouter 发布长周期 Agent 构建原语与 SDK #6

OpenRouter 推出用于构建长程 AI AgentSDK 与开发原语。该工具包支持运行多小时的复杂任务循环,内置成本上限控制、状态可恢复等功能。

OpenRouter 官方宣布发布用于构建长程、持久运行 AI Agent 的开发工具包与原语。

通过该 Agent SDK,开发者可以运行高步骤数、长超时的多步任务循环,并利用 maxCoststepCountIs 等条件组合来限制最高成本与执行步数。

该工具支持持久化对话消息、工具结果和共享上下文,允许在系统崩溃、重新部署或人工审查后重放或恢复长程任务。

此外,SDK 原生集成了 /api/v1/audio/transcriptions 等端点以支持语音输入与输出,开发者目前可通过获取 API 密钥直接部署相关智能体。

相关链接:


Browserbase 推出 Browse.sh 技能目录 #7

Browserbase 推出并开源名为 Browse.shAgent 技能生态系统,为 Agent 提供数百家网站预设指南。仅特定功能需 API 密钥。

Browserbase 官宣推出并开源名为 Browse.sh 的 Agent 技能生态系统,旨在帮助其可靠执行复杂的端到端浏览器任务。

官方称该生态为最大的开源技能集合,已研究数百家网站并提供了预设指南,同时与 RampLovable 等平台合作创建了认证技能。

该目录及其配套 CLI 工具对所有人免费开放,支持社区提交技能或由系统按需生成,但官方澄清,涉及调用 Browserbase 平台特定底层功能的技能仍需使用带有免费额度的 API 密钥。

相关链接:


腾讯混元等机构发布古文字评测基准 Chronicles-OCR #8

腾讯混元等机构发布古文字评测基准 Chronicles-OCR。官方称其能覆盖汉字“七体之变”,测试显示当前主流多模态大模型对古文字的识别与转写能力近乎失效。

腾讯混元SSV 数字文化实验室等团队联合多家高校与中科院正式推出中国古文字感知评测基准 Chronicles-OCR。官方称该基准是业界首个覆盖甲骨、金文、篆、隶、楷、行、草“七体之变”的评测数据集,包含 2800 张专家标注图像,目前已公开于 GitHub

研究团队对 28 个主流多模态大模型进行的测试显示,GPT-5Gemini 2.5 Pro 等模型在跨时代字符检测任务上的得分接近零。且开启思维链推理模式反而会导致识别表现下降。

相关链接:


Anthropic 收编 SDK 供应商 Stainless,将关停其托管产品 #9

Anthropic 收购 SDKMCP 工具平台 Stainless 以提升 Agent 连接能力,后续将关停该公司所有托管版产品。

Anthropic宣布收购 SDK 和 MCP 服务器工具平台 Stainless。后者自 API 早期起,便为 Anthropic 生成所有官方 SDK。

官方虽未披露交易金额,但据媒体报道,此次收购作价超过 3 亿美元

收购完成后,Anthropic 将逐步关停所有托管版 Stainless 产品,但现有客户仍可保留并修改已生成的 SDK。

官方称此举旨在进一步推进 Claude 平台的开发者体验及 Agent 外部连接能力。

相关链接:


消息称 Musk 诉 OpenAI 案败诉,陪审团认定起诉超时 #10

据媒体报道,Elon Musk 在针对 OpenAI 的诉讼中败诉,九人陪审团经过仅两小时的审议后一致认定其起诉过晚,Musk 的律师表示计划提起上诉。

据媒体报道,Elon Musk 近日在针对 OpenAISam Altman 的诉讼中败诉。

奥克兰的九人陪审团在经过三周庭审和仅两小时的审议后,一致认定其主张已超过法定诉讼时效。该诉讼寻求高达 1340 亿美元 的赔偿。

法官 Yvonne Gonzalez 表示支持陪审团决定。而据媒体及 Musk 律师透露,Musk 方面保留了上诉权并计划继续上诉。

相关链接:


DeepSeek 调研 DeepSeek-V4 角色扮演及情感陪伴体验 #11

DeepSeek 官方工作人员发帖向用户收集 DeepSeek-V4 模型使用反馈,调研角色扮演与情感陪伴体验,相关意见将用于指导下一次更新。

DeepSeek 工作人员在小红书平台发布调研贴,向用户收集关于 DeepSeek-V4 模型的使用反馈。

该模型上线已大半个月,此次调研重点聚焦于角色扮演与情感陪伴场景的体验。

同时也接受关于小说、公文、幻觉、搜索和代码等其他领域的反馈。

用户可以通过小红书评论区、私信进行提交。

如需提交长篇资料,可发送至指定邮箱。

这些收集到的意见将被用于指导模型的下次更新。

相关链接:


SpaceXAI 将提高 Grok Imagine 速率限制并改进生成准确度 #12

Elon Musk 称,Grok的图像与视频生成准确度即将大幅提升,并承诺将放宽 Grok Imagine 的使用频率限制。

Elon Musk 近期在社交平台上针对 SpaceXAI 的相关功能做出了两项明确表态。

他首先确认 Grok 在图像与视频生成的准确度方面即将迎来重大改进。

同时,针对用户反馈的 Grok Imagine 频率限制过严问题,他承诺将会提高使用额度。

但目前官方尚未公布具体的生效时间与详细额度。

相关链接:


提示:内容由AI辅助创作,可能存在幻觉错误