① GPT-5 多模态能力全面开放

OpenAI 本周正式向所有付费用户开放 GPT-5 的完整多模态能力,这标志着大模型从”文本引擎”向”世界感知器”的关键跨越。与此前仅限部分企业客户的灰度测试不同,此次开放覆盖了实时视频理解、跨模态推理和语音交互三大核心能力。

实时视频理解意味着用户可以直接将手机摄像头对准任何场景,GPT-5 能够实时识别物体、阅读文字、分析动作,甚至判断情绪状态。在演示中,一位视障用户通过 GPT-5 的语音引导独立完成了超市购物和地铁换乘——这不仅是技术突破,更是无障碍领域的里程碑。跨模态推理则允许用户同时输入图片、视频片段和文字指令,模型能够综合理解后进行深度分析,例如上传一张 CT 影像和症状描述,直接获得诊断建议和参考文献。

值得注意的是,GPT-5 的多模态架构并非此前传闻的”拼接式多模态”(即用独立的视觉编码器+文本模型),而是一个端到端统一训练的单一模型,这意味着视觉和语言的理解在底层神经元层面就已经融合。Sam Altman 在发布会上表示,这是”通往 AGI 的最后一块拼图”,并暗示下一步将是机器人与 GPT-5 的深度结合。

市场反应方面,OpenAI 的竞争对手 Anthropic 和 Google DeepMind 股价无明显波动,但专注于多模态 AI 应用的创业公司集体大涨,显示市场对”AI 感知世界”这个方向的强烈信心。


② 谷歌 DeepMind 发布 Agent SDK 2.0

Google DeepMind 本周发布了 Agent SDK 2.0,被开发者社区称为”AI Agent 开发的 Docker 时刻”。这套工具链首次将 Agent 的构建、部署、监控和迭代整合到统一平台,大幅降低了从原型到生产环境的门槛。

SDK 2.0 的核心突破在于三个层面。首先是”声明式 Agent 定义”——开发者只需用 YAML 描述 Agent 的目标、可用工具和约束条件,SDK 自动生成执行计划,无需手写复杂的编排逻辑。其次是”沙盒测试环境”——一个完全隔离的虚拟环境,可以模拟真实世界的 API 调用、数据库操作和用户交互,Agent 在部署前可以安全地接受充分测试。第三是”生产级可观测性”——内置的监控面板实时展示每个 Agent 的任务执行状态、资源消耗和异常日志,解决了 Agent 应用”跑起来不知道在干什么”的行业痛点。

对于 Jarvis/Hermes 这样的 Agent 系统而言,SDK 2.0 的部分设计理念与我们正在建设的架构不谋而合:标准化的任务对象、统一的 Agent 注册表、完整的审计日志。区别在于 DeepMind 提供的是托管平台,而我们选择自主搭建。如果未来需要将 Jarvis 的能力对外提供为 API 服务,SDK 2.0 的模式是重要参考。


③ Apple Intelligence 正式登陆中国市场

经过长达 18 个月的监管审批和技术适配,Apple Intelligence 于本周正式向中国区用户推送。与海外版本直接使用 OpenAI 模型不同,中国版 Apple Intelligence 采用了与百度文心大模型的深度整合方案。

这一方案的核心是”端侧推理+云端协同”架构:日常任务(如 Siri 对话、照片搜索、邮件摘要)完全在设备端的 Apple Neural Engine 上运行,保证了隐私和低延迟;复杂任务(如文档分析、创意写作、代码辅助)则通过加密通道调用百度文心 4.0 云端模型。苹果为此重新设计了数据隔离层,确保云端请求不包含任何可追溯到个人身份的信息。

市场影响方面,这是中国用户首次在 iPhone 上体验到系统级 AI 能力,覆盖写作工具、图像生成、智能通知摘要、Safari 智能搜索等核心场景。首批支持机型包括 iPhone 16 系列和 iPhone 15 Pro,覆盖超过 1.2 亿用户。对于百度而言,这是获得苹果官方背书的重大胜利,文心大模型的 API 调用量预计将在未来三个月内增长 5-10 倍。


④ 开源模型首次在 MMLU 评测超越 GPT-4

Meta 发布的开源模型 Llama-4-405B 本周在 MMLU(大规模多任务语言理解)评测中取得 88.7 分,首次超越 GPT-4 的 86.4 分。这是开源社区自 GPT-4 发布以来的标志性里程碑。

MMLU 涵盖 57 个学科领域,从法律、医学到物理学和哲学,被广泛认为是衡量大模型”通用知识水平”的黄金标准。Llama-4-405B 的得分意味着在开放获取的前提下,一个 4050 亿参数的模型已经能够匹敌甚至超越闭源的商业模型。考虑到该模型可以在自己的硬件上部署运行,无需依赖任何云服务 API,这对企业用户而言意味着巨大的成本优势和完全的数据控制力。

技术层面,Llama-4 采用了全新的”混合专家”(MoE)架构和”递归反思训练”方法。前者允许模型在推理时只激活部分参数,使 405B 模型的推理成本接近传统 70B 模型;后者则让模型在训练过程中不断回顾和纠正自己的错误,大幅提升了推理准确率。HuggingFace 社区的初步评测还显示,该模型在中文、日语和阿拉伯语的多语言任务上也表现出色,表明开源模型的能力边界正在全面追赶闭源方案。


⑤ AI Agent 创业公司单月融资破 50 亿美元

根据 PitchBook 和 Crunchbase 的最新数据,2026 年 5 月全球 AI Agent 赛道的风险投资总额突破 50 亿美元,创下单月历史新高。这个数字甚至超过了 2023 年全年整个生成式 AI 领域的融资总额,显示资本市场对”自主 Agent”方向的极度狂热。

融资热点集中在三个方向:企业级 Agent 平台(如 CrewAI、AutoGen 的商业化版本)、垂直行业 Agent(法律、医疗、金融领域的专业 Agent),以及 Agent 基础设施(工具调用框架、安全审计、多 Agent 编排)。其中最大的一笔是 OpenAI 投资的 Harvey AI(法律 Agent)以 45 亿美元估值完成的 3 亿美元 D 轮融资。

值得注意的是,与 2023-2024 年的”大模型热”不同,这一轮投资更看重”产品化能力”而非”模型能力”。投资人已经不再追问”你们用的哪个模型”,而是问”客户留存率是多少""平均处理一个任务需要多少 token”。这表明 AI 行业正在从”技术炫技”阶段进入”商业验证”阶段。对于 Jarvis 这样的系统而言,这一趋势意味着:拥有完整的任务编排、监控和可靠性体系,比拥有最新最强的模型更具竞争力。