AIDE-免费收录好用的AI工具
与“模型评测”相关的标签
HELM
【HELM】斯坦福语言模型评测体系!场景 - 适配 - 指标三维框架,覆盖鲁棒性与公平性指标!
                  MMBench
MMBench】多模态基准测试!三级能力维度 + 3000 题,精准评估模型感知认知能力!
                  OpenCompass
【OpenCompass】上海 AI 实验室大模型评测体系!开源可复现框架,支持多模态模型一站式评测...
                  AGI-Eval
【AGI-Eval】高校联合大模型评测社区!评估认知与问题解决能力,助力 AI 适配现实场景!
                  SuperCLUE
【SuperCLUE】中文大模型综合评测基准!四维 12 项能力 + AI Agent 评估,人机对...
                  AI Ping
【AI Ping】AI 大模型性能评测平台!吞吐量 / 延迟关键指标,客观对比 DeepSeek/G...
                  FlagEval
【FlagEval(天秤)】BAAI 大模型评测体系!三维框架 + 22 + 数据集,多模态兼容助力...
                  C-Eval
【C-Eval】中文大模型评估套件!52 学科 + 4 难度级别,零 / 少样本测试度量泛化能力!
                  Hugging Face
【Hugging Face】AI 开发者开源社区平台!提供 NLP + 机器学习模型 / 数据集,协...