【PubMedQA】生物医学NLP评...
【H2O EvalGPT】大模型自动...
【LLMEval】复旦 NLP 大模...
【LMArena】伯克利 AI 模型...
【HELM】斯坦福语言模型评测体系!...
MMBench】多模态基准测试!三级...
【OpenCompass】上海 AI...
【AGI-Eval】高校联合大模型评...
【SuperCLUE】中文大模型综合...
【AI Ping】AI 大模型性能评...
【FlagEval(天秤)】BAAI...
【C-Eval】中文大模型评估套件!...
【Hugging Face】AI 开...
【MagicArena】字节跳动视觉...