AIDE-免费收录好用的AI工具
与“模型评测”相关的标签
PubMedQA
【PubMedQA】生物医学NLP评测数据集!27万+问答对,聚焦文献摘要问答能力评估!
H2O EvalGPT
【H2O EvalGPT】大模型自动化评测平台!每周更新排行榜,支持金融 / 法律等多领域任务,适配...
LLMEval3
【LLMEval】复旦 NLP 大模型评测基准!LLMEval-3 覆盖 13 学科门类,20W 道...
LMArena
【LMArena】伯克利 AI 模型评估平台!用户匿名投票选优,动态塑造模型公共排行榜!
HELM
【HELM】斯坦福语言模型评测体系!场景 - 适配 - 指标三维框架,覆盖鲁棒性与公平性指标!
MMBench
MMBench】多模态基准测试!三级能力维度 + 3000 题,精准评估模型感知认知能力!
OpenCompass
【OpenCompass】上海 AI 实验室大模型评测体系!开源可复现框架,支持多模态模型一站式评测...
AGI-Eval
【AGI-Eval】高校联合大模型评测社区!评估认知与问题解决能力,助力 AI 适配现实场景!
SuperCLUE
【SuperCLUE】中文大模型综合评测基准!四维 12 项能力 + AI Agent 评估,人机对...