大模型评测#

一键评测#

综合基准#

  • chatbot-arena 包括文本、t2i、web2dev、t2v、搜索、copilot等榜单。
  • 推理&知识
  • 人类最后考试 https://agi.safe.ai/
  • 视觉推理 https://mmmu-benchmark.github.io/
  • 科学 https://github.com/idavidrein/gpqa
  • 数学 https://artofproblemsolving.com/wiki/index.php/AIME_Problems_and_Solutions
  • 代码
  • 代码生成 https://livecodebench.github.io/
  • 代码编辑 https://aider.chat/docs/leaderboards/
  • Agent编程 https://www.swebench.com/
  • [2026.01] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces Agent 在命令行环境的 benchmark
  • 事实
  • https://openai.com/index/introducing-simpleqa/ https://github.com/openai/simple-evals/
  • 图像理解 https://github.com/reka-ai/reka-vibe-eval
  • 长上下文
  • 多轮一致性 https://arxiv.org/html/2409.12640v2
  • 多语言
  • https://huggingface.co/datasets/CohereForAI/Global-MMLU
  • Open LLM Leaderboard Archived 开放llm榜单,2024-10-17更新

  • [2023.07] SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark 中文大模型榜单
  • CLUEbenchmark/SuperCLUE 不更新了
  • https://www.superclueai.com/ 2025-08还在更新

  • SuperCLUE总排行榜[link]

  • Text-to-Video Generation on MSR-VTT[link]
  • Video Generation on UCF-101[link]

幻觉&TruthFull#

角色扮演#

多模态#

电商#

推理#

安全#

RAG#

  • [2024.09] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation 模型在没检索辅助时,答对率只有 0.408;就算给一些检索到的文章,答对率也只到 0.474;但如果给全所有需要的文章,答对率能到 0.729,不过就算这样,模型在算数字、处理表格这类推理题上还是容易错。"多步检索" 方法,让模型一步步生成搜索词、找文章、补全信息,再结合示例引导模型 "按步骤思考",结果答对率提升到了 0.66,比最初提升了 50% 以上,很接近给全资料的理想状态。

评估指标#