AI导航工具官网-全网最全AI合集网站
  • AI工具分类
    • AI办公工具
      • 常用AI办公工具
      • AI幻灯片和演示
      • AI思维导图
      • AI文档工具
      • AI表格数据处理
      • AI会议工具
      • AI效率提升
    • AI图像工具
      • 常用AI图像工具
      • AI图片插画生成
      • AI图片背景移除
      • AI图片物体抹除
      • AI商品图片生成
      • AI图片无损放大
      • AI图片优化修复
    • AI编程工具
    • AI写作工具
    • AI对话工具
    • AI开发平台
    • AI搜索引擎
    • AI翻译工具
    • AI视频工具
    • AI设计工具
    • AI音频工具
    • 其他AI工具
      • AI学习网站
      • AI内容检测
      • AI训练模型
      • AI提示指令
      • AI模型评测
      • AI法律助手
  • AI新闻资讯
  • AI排行榜
  • 投稿AI工具
  • Ctrl+D或⌘+D收藏本站⎡每周更新最新AI工具🎉⎦
    • AI办公工具
      • 常用AI办公工具
      • AI幻灯片和演示
      • AI思维导图
      • AI文档工具
      • AI表格数据处理
      • AI会议工具
      • AI效率提升
    • AI图像工具
      • 常用AI图像工具
      • AI图片插画生成
      • AI商品图片生成
      • AI图片优化修复
      • AI图片无损放大
      • AI图片背景移除
      • AI图片物体抹除
    • AI编程工具
    • AI写作工具
    • AI对话工具
    • AI开发平台
    • AI搜索引擎
    • AI翻译工具
    • AI视频工具
    • AI设计工具
    • AI音频工具
    • 其他AI工具
      • AI学习网站
      • AI内容检测
      • AI训练模型
      • AI提示指令
      • AI模型评测
      • AI法律助手

    AI模型评测

    共 14 篇网址
    AI模型评测
    AI写作工具AI图像工具AI办公工具AI设计工具AI视频工具AI音频工具AI对话工具AI搜索引擎AI翻译工具AI编程工具AI开发平台其他AI工具热门AI工具
    AI学习网站AI内容检测AI训练模型AI模型评测AI提示指令AI法律助手
    排序
    发布更新浏览点赞收藏
    MMLU

    MMLU

    多任务语言理解基准测试,涵盖了 57 个不同的任务领域
    320
    AI模型评测
    Open LLM Leaderboard

    Open LLM Leaderboard

    Hugging Face 推出的大语言模型的评估平台
    410
    AI模型评测
    HELM

    HELM

    斯坦福大学开源的语言模型评测框架
    440
    AI模型评测
    PubMedQA

    PubMedQA

    评估 AI 模型在生物医学领域的阅读理解能力
    300
    AI模型评测
    H2O EvalGPT

    H2O EvalGPT

    H2O.ai 开发的 GPT 模型评估工具
    310
    AI模型评测
    OpenCompass

    OpenCompass

    上海人工智能实验室推出的专注于对大型语言模型(LLM)的开源评测体系
    320
    AI模型评测
    CMMLU

    CMMLU

    专注于中文语境的多任务评估框架
    450
    AI模型评测
    Chatbot Arena

    Chatbot Arena

    通过用户投票和对比测试,评估不同聊天机器人模型的开放平台
    910
    AI模型评测
    LLMEval3

    LLMEval3

    专注于评估大型语言模型(LLM)性能的开放平台
    350
    AI模型评测
    FlagEval

    FlagEval

    北京人工智能研究院(BAAI)开发的开源评估平台
    310
    AI模型评测
    C-Eval

    C-Eval

    专注于评估中文语言模型性能的基准测试平台
    320
    AI模型评测
    SuperCLUE

    SuperCLUE

    专注于中文语言理解的基准测试平台
    290
    AI模型评测
    AGI-Eval

    AGI-Eval

    专注于通用人工智能(AGI)能力评估的平台
    300
    AI模型评测
    MMBench

    MMBench

    MMBench 是一个专注于多模态基准测试的平台,旨在评估和...
    600
    AI模型评测
    没有了
    AI导航工具官网-全网最全AI合集网站
    AI工具导航-AI工具箱-AI工具集-AIGC-全网最全AI网站合集 | 覆盖10大领域3000+智能工具,您的云端AI军火库
    • AI工具分类
    • AI新闻资讯
    • XML地图
    • 商务合作
    联系站长AI导航工具官网-全网最全AI合集网站
    联系站长
    Copyright © 2025 AI导航工具官网-全网最全AI合集网站 赣ICP备20005287号-4 
    反馈
    让我们一起共建文明社区!您的反馈至关重要!
    网址
    网址文章