阿里巴巴开源WebSailor智能体,多项评测刷新纪录
作者:微企 www.saaservice.cn 发布时间:2025-08-15 21:00:02
在人工智能领域持续深耕的阿里巴巴通义实验室,于近日正式开源了其最新研发的网络智能体——WebSailor。这一举动不仅引起了业界的广泛关注,更在多个高难度任务评测中刷新了开源系统的最好成绩,成为首个在BrowseComp等基准上逼近闭源系统能力的开源方案。
WebSailor智能体展现出了强大的自主处理能力。它能够在开放网页环境中自主跳转页面、查找信息、整合多源线索并完成推理,尤其擅长处理那些路径不明确、问题模糊、需多步判断的复杂检索任务。这一能力的实现,得益于阿里巴巴通义实验室在AI技术领域的深厚积累和不断创新。
就在7月3日,WebSailor的技术报告在Hugging Face Papers当日热度榜中脱颖而出,排名第一,成为了当天关注度最高的AI论文之一。这一荣誉的获得,不仅彰显了WebSailor的技术实力,也为其后续的开源和应用奠定了坚实的基础。
在评测表现方面,WebSailor-72B版本在三大公开评测集上均取得了突出的成绩。在BrowseComp-en评测中,它获得了12.0%的优异成绩;在BrowseComp-zh评测中,更是以30.1%的准确率领先;而在GAIA(信息检索子集)评测中,也取得了55.4%的佳绩。这些成绩的取得,充分证明了WebSailor在复杂检索任务中的卓越性能。
值得一提的是,BrowseComp是由OpenAI发布的网页智能体评测集,覆盖了1266个难度极高的检索任务,对模型的搜索、筛选、整合和推理能力提出了极高的要求。而WebSailor在开源智能体中实现了断层领先,不仅超过了DeepSeek R1等开源方案,更首次在多个指标上逼近了Grok-3、Doubao-Search等闭源方案。
除了在高难度任务中的出色表现外,WebSailor在面向初级问答的SimpleQA子集上也展现出了强大的泛化能力。它取得了93.5%的准确率,超过了包括WebDancer、WebThinker、DeepSeek等多种方案,进一步巩固了其在智能体领域的领先地位。
WebSailor的核心突破在于其完整的后训练(post-training)方案。这一方案贯穿了数据生成、冷启动调优、强化学习三大阶段,为WebSailor的卓越性能提供了有力保障。在高不确定性任务合成方面,通义团队构建了名为SailorFog-QA的问答数据集,通过模拟高不确定性、模糊路径的信息检索任务,提升了任务的不确定性。同时,他们还利用“图结构采样 + 信息模糊化”处理,制造了多跳、非线性、起点不明的问题,进一步增强了WebSailor的复杂推理能力。
在冷启动微调(RFT)阶段,WebSailor基于Qwen-2.5系列模型进行初始化,并通过对专家路径的压缩重构,生成了清晰的中间推理步骤。这一举措增强了WebSailor在复杂任务路径中的可控性与稳定性,为其后续的强化学习训练奠定了良好的基础。
而在强化学习算法方面,WebSailor引入了全新的Duplicating Sampling Policy Optimization(DUPO)算法。这一算法采用双阶段动态采样策略,在RL前期剔除过于简单的问题,集中训练高难度轨迹;在RL训练中则重复采样困难轨迹结果,并加入当前批次以高效迭代。这一策略不仅提升了WebSailor的性能,还将其复
文章分类
最新站内文章
联系我们
联系人:点镜微信管理系统客服