GPT-4o、o1-preview、o1和人类专家在复杂推理任务中的得分差异

GPT-4o、o1-preview、o1和人类专家在复杂推理任务中的得分差异的图片

数据来源:OpenAI 官网,实心矩阵代表使用pass@1的正确率,虚影矩阵代表64个样本的平均正确率

查看原文

相关图表

图表属性

  • 数据类型:其他
  • 行业分类:综合其他
  • 发布日期:2024-09-25
  • 文件格式:PNG