Nous-Yarn-Mistral-7b-128k：处理长篇文本的先进语言模型，支持128k令牌的语境窗口

更新时间：2025-01-22来源：互联网

项目简介

Nous-Yarn-Mistral-7b-128k 是一种最先进的语言模型，用于处理长篇文本语境，采用 YaRN 扩展方法对长篇文本数据进行了 1500 步的进一步预训练。它是 Mistral-7B-v0.1 的扩展版本，支持 128k 令牌的语境窗口。

要使用，加载模型时传递 trust_remote_code=True 参数，例如:

model = AutoModelForCausalLM.from_pretrained("NousResearch/Yarn-Mistral-7b-128k", use_flash_attention_2=True, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True)

此外，您需要使用最新版本的 transformers（在 4.35 版本发布之前）。

pip install git+https://github.com/huggingface/transformers

基准测试

长文本语境基准测试：

短文本语境基准测试显示质量下降最小：

项目链接

https://huggingface.co/NousResearch/Yarn-Mistral-7b-128k

上一篇： Segmind SSD-1B：SDXL文生图的超能英雄，速度提升60%！
下一篇：最后一页