VLMEvalKit是一个由开源贡献者开发的大规模视觉语言模型(LVLM)评估工具包。它具有以下主要特点:
支持对约100种视觉语言模型进行评估,包括API模型和开源PyTorch/Hugging Face模型提供40多个基准数据集,涵盖图像理解、视频理解等多个任务采用基于生成的评估方法,并提供精确匹配和基于LLM的答案提取两种评估模式一键式评估,无需繁琐的数据准备工作支持自定义基准和模型,易于扩展VLMEvalKit支持多种类型的视觉语言模型:
API模型:如GPT-4v、Gemini Pro Vision等开源PyTorch/HF模型:如IDEFICS、LLaVA、MiniGPT-4等支持多模态输入的模型(标记为下一篇: 最后一页
tortoise-tts学习资料汇总 - 高质量多声音TTS系统
2024-12-31
PaddleSpeech入门学习资料汇总 - 开源语音AI工具包
2025-01-02
pot-desktop使用指南 - 跨平台划词翻译和OCR软件
2025-01-02
understand-prompt学习资料汇总 - AI助手的探索与应用
2025-01-02
GPT4All学习资源汇总 - 在本地设备上运行大型语言模型
2025-01-02
2025-01-02
wechat-bot入门指南 - 基于ChatGPT的微信聊天机器人
2025-01-02
Cheetah - AI助手学习资料汇总 - Mac应用助力远程技术面试
2025-01-02
AI代码翻译器学习资料汇总 - 使用AI将代码从一种语言翻译成另一种语言
2025-01-02