热门AI应用,这里都有!
当前位置:首页 > AI教程资讯 > ZeroSearch:阿里巴巴开源的一种创新大模型搜索引擎框架

ZeroSearch:阿里巴巴开源的一种创新大模型搜索引擎框架

更新时间:2025-05-23来源:互联网

2025年5月8日,阿里巴巴开源了ZeroSearch大模型搜索引擎,ZeroSearch是阿里巴巴通义实验室开源的创新大模型搜索引擎框架,本质上是一种独特的强化学习框架,无需与传统意义上的真实搜索引擎进行交互,便能充分激励大模型自身潜藏的搜索能力。

ZeroSearch:阿里巴巴开源的一种创新大模型搜索引擎框架.jpg

ZeroSearch主要功能

无需真实搜索引擎交互:模拟搜索引擎的方式,激励大模型的搜索能力,避免与真实搜索引擎(如谷歌)的交互,降低成本和不可控性。

动态控制文档质量:支持生成相关或噪声文档,基于调整提示中的关键词,灵活控制生成文档的质量,为训练提供多样化的检索场景。

支持多种模型和算法:兼容不同参数规模的大模型(如3B、7B、14B),支持多种强化学习算法(如PPO、GRPO)。

ZeroSearch核心技术

无需真实搜索引擎交互:ZeroSearch通过强化学习框架,无需与谷歌等真实搜索引擎交互,就能激发大模型的搜索能力。它基于大模型在大规模预训练过程中积累的知识,将其转化为检索模块,根据查询生成相关内容。

动态控制文档质量:该框架可动态控制生成文档的质量,支持生成相关或噪声文档,为训练提供多样化检索场景。通过调整提示模板中的关键词,引导模型学习质量分级检索。

轻量级监督微调:先将大模型转化为检索模块,使其能生成高质量或低质量文档,适应不同训练需求。

课程学习机制:在训练中逐步增加文档噪声水平,让模型从简单场景开始,逐步适应更具挑战性的任务,提升推理能力。

基于F1分数的奖励机制:用F1分数作为奖励信号,专注于答案准确性。

多轮交互模板:设计明确的推理、搜索和回答阶段,引导模型逐步完成任务。

性能与成本优势

性能表现:研究人员在NQ、TriviaQA等七大问答数据集上测试,70亿参数监督微调模型搜索能力达33.06,140亿参数模型达33.97,超过谷歌搜索的32.47。

成本效益:使用谷歌搜索进行约64,000次搜索查询训练,成本约586.70美元,而用140亿参数大模型在四个A100 GPU上模拟训练,成本仅70.80美元,成本降幅超80%。

ZeroSearch:阿里巴巴开源的一种创新大模型搜索引擎框架.webp

ZeroSearch应用场景

智能问答系统:可以快速准确地回答用户问题,适用于智能客服和智能助手等场景。

企业内部知识管理:企业可以利用ZeroSearch搭建高效的知识搜索平台,员工能够快速定位所需信息,提升工作效率。

项目地址

项目官网:https://alibaba-nlp.github.io/ZeroSearch/

GitHub仓库:https://github.com/Alibaba-nlp/ZeroSearch

HuggingFace模型库:https://huggingface.co/collections/sunhaonlp/zerosearch

arXiv技术论文:https://arxiv.org/pdf/2505.04588

近期热点
热门文章