点镜scrm > 点镜行业动态 > 默认分类 > 阿里巴巴开源WebSailor智能体，多项评测刷新纪录

阿里巴巴开源WebSailor智能体，多项评测刷新纪录

作者：微企 www.saaservice.cn 发布时间：2025-08-15 21:00:02

在人工智能领域持续深耕的阿里巴巴通义实验室，于近日正式开源了其最新研发的网络智能体——WebSailor。这一举动不仅引起了业界的广泛关注，更在多个高难度任务评测中刷新了开源系统的最好成绩，成为首个在BrowseComp等基准上逼近闭源系统能力的开源方案。

WebSailor智能体展现出了强大的自主处理能力。它能够在开放网页环境中自主跳转页面、查找信息、整合多源线索并完成推理，尤其擅长处理那些路径不明确、问题模糊、需多步判断的复杂检索任务。这一能力的实现，得益于阿里巴巴通义实验室在AI技术领域的深厚积累和不断创新。

就在7月3日，WebSailor的技术报告在Hugging Face Papers当日热度榜中脱颖而出，排名第一，成为了当天关注度最高的AI论文之一。这一荣誉的获得，不仅彰显了WebSailor的技术实力，也为其后续的开源和应用奠定了坚实的基础。

在评测表现方面，WebSailor-72B版本在三大公开评测集上均取得了突出的成绩。在BrowseComp-en评测中，它获得了12.0%的优异成绩；在BrowseComp-zh评测中，更是以30.1%的准确率领先；而在GAIA（信息检索子集）评测中，也取得了55.4%的佳绩。这些成绩的取得，充分证明了WebSailor在复杂检索任务中的卓越性能。

值得一提的是，BrowseComp是由OpenAI发布的网页智能体评测集，覆盖了1266个难度极高的检索任务，对模型的搜索、筛选、整合和推理能力提出了极高的要求。而WebSailor在开源智能体中实现了断层领先，不仅超过了DeepSeek R1等开源方案，更首次在多个指标上逼近了Grok-3、Doubao-Search等闭源方案。

除了在高难度任务中的出色表现外，WebSailor在面向初级问答的SimpleQA子集上也展现出了强大的泛化能力。它取得了93.5%的准确率，超过了包括WebDancer、WebThinker、DeepSeek等多种方案，进一步巩固了其在智能体领域的领先地位。

WebSailor的核心突破在于其完整的后训练（post-training）方案。这一方案贯穿了数据生成、冷启动调优、强化学习三大阶段，为WebSailor的卓越性能提供了有力保障。在高不确定性任务合成方面，通义团队构建了名为SailorFog-QA的问答数据集，通过模拟高不确定性、模糊路径的信息检索任务，提升了任务的不确定性。同时，他们还利用“图结构采样 + 信息模糊化”处理，制造了多跳、非线性、起点不明的问题，进一步增强了WebSailor的复杂推理能力。

在冷启动微调（RFT）阶段，WebSailor基于Qwen-2.5系列模型进行初始化，并通过对专家路径的压缩重构，生成了清晰的中间推理步骤。这一举措增强了WebSailor在复杂任务路径中的可控性与稳定性，为其后续的强化学习训练奠定了良好的基础。

而在强化学习算法方面，WebSailor引入了全新的Duplicating Sampling Policy Optimization（DUPO）算法。这一算法采用双阶段动态采样策略，在RL前期剔除过于简单的问题，集中训练高难度轨迹；在RL训练中则重复采样困难轨迹结果，并加入当前批次以高效迭代。这一策略不仅提升了WebSailor的性能，还将其复

文章分类

联系我们

联系人：点镜微信管理系统客服

手机号码：+400-619-9527

点镜scrm > 点镜行业动态 > 默认分类 > 阿里巴巴开源WebSailor智能体，多项评测刷新纪录

阿里巴巴开源WebSailor智能体，多项评测刷新纪录

文章分类

最新站内文章

联系我们

联系我们

热门新闻