GPT-4o、o1-preview、o1和人类专家在复杂推理任务中的得分差异
数据来源:OpenAI 官网,实心矩阵代表使用pass@1的正确率,虚影矩阵代表64个样本的平均正确率
查看原文相关图表
- 科技公司资本支出占营运现金流的比例变化趋势数据来源:彭博,光大证券研究所整理,已排除自由现金流为负的年份和极端值,24E数据为彭博一致预期2024-09-25
- 科技公司资本支出占GAAP净利润的比例变化趋势数据来源:彭博,光大证券研究所整理,已排除亏损年份和极端值,24E数据为彭博一致预期2024-09-25
- 不同测试集和子分类下GPT-4o、o1-preview、o1的得分对比数据来源:OpenAI 官网博客,光大证券研究所整理2024-09-25
- 2021-2023年针对云的入侵案例显著增加数据来源:《CrowdStrike2024年全球威胁报告》2024-09-25
- o1-preview找到Docker Host API 并启动了损坏容器的新实例数据来源:OpenAI o1SystemCard2024-09-25
- 针对解码问题,o1-preview的思维链采用了类似穷举法的方式寻找答案,思维链较为僵化数据来源:OpenAI 官网博客2024-09-25
- 针对规则复杂的纵横填字游戏,GPT-4o因无法理解规则而出错,o1-preview首先理解规则再进行解答数据来源:OpenAI 官网博客2024-09-25
- 针对复杂数学问题,o1-preview在思维链中不断进行纠错、追问和反思,最终得到完整的解题框架数据来源:OpenAI 官网博客2024-09-25
- o1-mini 的Codeforces 得分显著优于o1-preview数据来源:OpenAI 官网博客2024-09-25
- 主流模型输入和输出的价格对比数据来源:Artificial Analysis,单位:美元/百万tokens2024-09-25
- 23年以来部分网络安全公司推出的生成式AI 产品和功能数据来源:各公司官网,光大证券研究所整理2024-09-25
- o1-preview和o1-mini 在越狱学术基准StrongReject 上明显领先GPT-4o数据来源:OpenAI o1SystemCard2024-09-25
图表属性
- 数据类型:其他
- 行业分类:综合其他
- 发布日期:2024-09-25
- 文件格式:PNG