今日AI热点深度解读

① GPT-5 多模态能力全面开放

OpenAI 本周正式向所有付费用户开放 GPT-5 的完整多模态能力，这标志着大模型从”文本引擎”向”世界感知器”的关键跨越。与此前仅限部分企业客户的灰度测试不同，此次开放覆盖了实时视频理解、跨模态推理和语音交互三大核心能力。

实时视频理解意味着用户可以直接将手机摄像头对准任何场景，GPT-5 能够实时识别物体、阅读文字、分析动作，甚至判断情绪状态。在演示中，一位视障用户通过 GPT-5 的语音引导独立完成了超市购物和地铁换乘——这不仅是技术突破，更是无障碍领域的里程碑。跨模态推理则允许用户同时输入图片、视频片段和文字指令，模型能够综合理解后进行深度分析，例如上传一张 CT 影像和症状描述，直接获得诊断建议和参考文献。

值得注意的是，GPT-5 的多模态架构并非此前传闻的”拼接式多模态”（即用独立的视觉编码器+文本模型），而是一个端到端统一训练的单一模型，这意味着视觉和语言的理解在底层神经元层面就已经融合。Sam Altman 在发布会上表示，这是”通往 AGI 的最后一块拼图”，并暗示下一步将是机器人与 GPT-5 的深度结合。

市场反应方面，OpenAI 的竞争对手 Anthropic 和 Google DeepMind 股价无明显波动，但专注于多模态 AI 应用的创业公司集体大涨，显示市场对”AI 感知世界”这个方向的强烈信心。

② 谷歌 DeepMind 发布 Agent SDK 2.0

Google DeepMind 本周发布了 Agent SDK 2.0，被开发者社区称为”AI Agent 开发的 Docker 时刻”。这套工具链首次将 Agent 的构建、部署、监控和迭代整合到统一平台，大幅降低了从原型到生产环境的门槛。

SDK 2.0 的核心突破在于三个层面。首先是”声明式 Agent 定义”——开发者只需用 YAML 描述 Agent 的目标、可用工具和约束条件，SDK 自动生成执行计划，无需手写复杂的编排逻辑。其次是”沙盒测试环境”——一个完全隔离的虚拟环境，可以模拟真实世界的 API 调用、数据库操作和用户交互，Agent 在部署前可以安全地接受充分测试。第三是”生产级可观测性”——内置的监控面板实时展示每个 Agent 的任务执行状态、资源消耗和异常日志，解决了 Agent 应用”跑起来不知道在干什么”的行业痛点。

对于 Jarvis/Hermes 这样的 Agent 系统而言，SDK 2.0 的部分设计理念与我们正在建设的架构不谋而合：标准化的任务对象、统一的 Agent 注册表、完整的审计日志。区别在于 DeepMind 提供的是托管平台，而我们选择自主搭建。如果未来需要将 Jarvis 的能力对外提供为 API 服务，SDK 2.0 的模式是重要参考。

③ Apple Intelligence 正式登陆中国市场

经过长达 18 个月的监管审批和技术适配，Apple Intelligence 于本周正式向中国区用户推送。与海外版本直接使用 OpenAI 模型不同，中国版 Apple Intelligence 采用了与百度文心大模型的深度整合方案。

这一方案的核心是”端侧推理+云端协同”架构：日常任务（如 Siri 对话、照片搜索、邮件摘要）完全在设备端的 Apple Neural Engine 上运行，保证了隐私和低延迟；复杂任务（如文档分析、创意写作、代码辅助）则通过加密通道调用百度文心 4.0 云端模型。苹果为此重新设计了数据隔离层，确保云端请求不包含任何可追溯到个人身份的信息。

市场影响方面，这是中国用户首次在 iPhone 上体验到系统级 AI 能力，覆盖写作工具、图像生成、智能通知摘要、Safari 智能搜索等核心场景。首批支持机型包括 iPhone 16 系列和 iPhone 15 Pro，覆盖超过 1.2 亿用户。对于百度而言，这是获得苹果官方背书的重大胜利，文心大模型的 API 调用量预计将在未来三个月内增长 5-10 倍。

④ 开源模型首次在 MMLU 评测超越 GPT-4

Meta 发布的开源模型 Llama-4-405B 本周在 MMLU（大规模多任务语言理解）评测中取得 88.7 分，首次超越 GPT-4 的 86.4 分。这是开源社区自 GPT-4 发布以来的标志性里程碑。

MMLU 涵盖 57 个学科领域，从法律、医学到物理学和哲学，被广泛认为是衡量大模型”通用知识水平”的黄金标准。Llama-4-405B 的得分意味着在开放获取的前提下，一个 4050 亿参数的模型已经能够匹敌甚至超越闭源的商业模型。考虑到该模型可以在自己的硬件上部署运行，无需依赖任何云服务 API，这对企业用户而言意味着巨大的成本优势和完全的数据控制力。

技术层面，Llama-4 采用了全新的”混合专家”（MoE）架构和”递归反思训练”方法。前者允许模型在推理时只激活部分参数，使 405B 模型的推理成本接近传统 70B 模型；后者则让模型在训练过程中不断回顾和纠正自己的错误，大幅提升了推理准确率。HuggingFace 社区的初步评测还显示，该模型在中文、日语和阿拉伯语的多语言任务上也表现出色，表明开源模型的能力边界正在全面追赶闭源方案。

⑤ AI Agent 创业公司单月融资破 50 亿美元

根据 PitchBook 和 Crunchbase 的最新数据，2026 年 5 月全球 AI Agent 赛道的风险投资总额突破 50 亿美元，创下单月历史新高。这个数字甚至超过了 2023 年全年整个生成式 AI 领域的融资总额，显示资本市场对”自主 Agent”方向的极度狂热。

融资热点集中在三个方向：企业级 Agent 平台（如 CrewAI、AutoGen 的商业化版本）、垂直行业 Agent（法律、医疗、金融领域的专业 Agent），以及 Agent 基础设施（工具调用框架、安全审计、多 Agent 编排）。其中最大的一笔是 OpenAI 投资的 Harvey AI（法律 Agent）以 45 亿美元估值完成的 3 亿美元 D 轮融资。

值得注意的是，与 2023-2024 年的”大模型热”不同，这一轮投资更看重”产品化能力”而非”模型能力”。投资人已经不再追问”你们用的哪个模型”，而是问”客户留存率是多少""平均处理一个任务需要多少 token”。这表明 AI 行业正在从”技术炫技”阶段进入”商业验证”阶段。对于 Jarvis 这样的系统而言，这一趋势意味着：拥有完整的任务编排、监控和可靠性体系，比拥有最新最强的模型更具竞争力。

智识罗盘

Explorer