AI模型评测

共 14 篇网址

AI模型评测

SophNet

独家推出DeepSeek满血极速版，TPS指标超100，是目前DeepSeek API 推理速度最快的平台

3280

AI学习网站 AI开发平台

MMLU

多任务语言理解基准测试，涵盖了 57 个不同的任务领域

4360

Open LLM Leaderboard

Open LLM Leaderboard

Hugging Face 推出的大语言模型的评估平台

4600

HELM

斯坦福大学开源的语言模型评测框架

3850

PubMedQA

评估 AI 模型在生物医学领域的阅读理解能力

2890

H2O EvalGPT

H2O.ai 开发的 GPT 模型评估工具

2890

OpenCompass

上海人工智能实验室推出的专注于对大型语言模型（LLM）的开源评测体系

3090

CMMLU

专注于中文语境的多任务评估框架

4670

Chatbot Arena

通过用户投票和对比测试，评估不同聊天机器人模型的开放平台

4700

LLMEval3

专注于评估大型语言模型（LLM）性能的开放平台

2980

FlagEval

北京人工智能研究院（BAAI）开发的开源评估平台

3150

C-Eval

专注于评估中文语言模型性能的基准测试平台

3550

SuperCLUE

专注于中文语言理解的基准测试平台

2890

MMBench

MMBench 是一个专注于多模态基准测试的平台，旨在评估和...

4260