与“模型评测”相关的标签

PubMedQA

【PubMedQA】生物医学NLP评测数据集!27万+问答对,聚焦文献摘要问答能力评估!

H2O EvalGPT

【H2O EvalGPT】大模型自动化评测平台!每周更新排行榜,支持金融 / 法律等多领域任务,适配...

LLMEval3

【LLMEval】复旦 NLP 大模型评测基准!LLMEval-3 覆盖 13 学科门类,20W 道...

LMArena

【LMArena】伯克利 AI 模型评估平台!用户匿名投票选优,动态塑造模型公共排行榜!

HELM

【HELM】斯坦福语言模型评测体系!场景 - 适配 - 指标三维框架,覆盖鲁棒性与公平性指标!

MMBench

MMBench】多模态基准测试!三级能力维度 + 3000 题,精准评估模型感知认知能力!

OpenCompass

【OpenCompass】上海 AI 实验室大模型评测体系!开源可复现框架,支持多模态模型一站式评测...

AGI-Eval

【AGI-Eval】高校联合大模型评测社区!评估认知与问题解决能力,助力 AI 适配现实场景!

SuperCLUE

【SuperCLUE】中文大模型综合评测基准!四维 12 项能力 + AI Agent 评估,人机对...