与“模型评测”相关的标签

HELM

【HELM】斯坦福语言模型评测体系!场景 - 适配 - 指标三维框架,覆盖鲁棒性与公平性指标!

MMBench

MMBench】多模态基准测试!三级能力维度 + 3000 题,精准评估模型感知认知能力!

OpenCompass

【OpenCompass】上海 AI 实验室大模型评测体系!开源可复现框架,支持多模态模型一站式评测...

AGI-Eval

【AGI-Eval】高校联合大模型评测社区!评估认知与问题解决能力,助力 AI 适配现实场景!

SuperCLUE

【SuperCLUE】中文大模型综合评测基准!四维 12 项能力 + AI Agent 评估,人机对...

AI Ping

【AI Ping】AI 大模型性能评测平台!吞吐量 / 延迟关键指标,客观对比 DeepSeek/G...

FlagEval

【FlagEval(天秤)】BAAI 大模型评测体系!三维框架 + 22 + 数据集,多模态兼容助力...

C-Eval

【C-Eval】中文大模型评估套件!52 学科 + 4 难度级别,零 / 少样本测试度量泛化能力!

Hugging Face

【Hugging Face】AI 开发者开源社区平台!提供 NLP + 机器学习模型 / 数据集,协...