GPT-4o、o1-preview、o1和人类专家在复杂推理任务中的得分差异

数据来源：OpenAI 官网，实心矩阵代表使用pass@1的正确率，虚影矩阵代表64个样本的平均正确率

查看原文

相关图表

科技公司资本支出占营运现金流的比例变化趋势
数据来源：彭博，光大证券研究所整理，已排除自由现金流为负的年份和极端值，24E数据为彭博一致预期2024-09-25
公司分析 | 综合其他查看原文
科技公司资本支出占GAAP净利润的比例变化趋势
数据来源：彭博，光大证券研究所整理，已排除亏损年份和极端值，24E数据为彭博一致预期2024-09-25
公司分析 | 综合其他查看原文
不同测试集和子分类下GPT-4o、o1-preview、o1的得分对比
数据来源：OpenAI 官网博客，光大证券研究所整理2024-09-25
产业概述 | 综合其他查看原文
2021-2023年针对云的入侵案例显著增加
数据来源：《CrowdStrike2024年全球威胁报告》2024-09-25
其他 | 综合其他查看原文
o1-preview找到Docker Host API 并启动了损坏容器的新实例
数据来源：OpenAI o1SystemCard2024-09-25
其他 | 综合其他查看原文
针对解码问题，o1-preview的思维链采用了类似穷举法的方式寻找答案，思维链较为僵化
数据来源：OpenAI 官网博客2024-09-25
其他 | 综合其他查看原文
针对规则复杂的纵横填字游戏，GPT-4o因无法理解规则而出错，o1-preview首先理解规则再进行解答
数据来源：OpenAI 官网博客2024-09-25
其他 | 综合其他查看原文
针对复杂数学问题，o1-preview在思维链中不断进行纠错、追问和反思，最终得到完整的解题框架
数据来源：OpenAI 官网博客2024-09-25
其他 | 综合其他查看原文
o1-mini 的Codeforces 得分显著优于o1-preview
数据来源：OpenAI 官网博客2024-09-25
其他 | 综合其他查看原文
主流模型输入和输出的价格对比
数据来源：Artificial Analysis，单位：美元/百万tokens2024-09-25
其他 | 综合其他查看原文
23年以来部分网络安全公司推出的生成式AI 产品和功能
数据来源：各公司官网，光大证券研究所整理2024-09-25
其他 | 综合其他查看原文
o1-preview和o1-mini 在越狱学术基准StrongReject 上明显领先GPT-4o
数据来源：OpenAI o1SystemCard2024-09-25
其他 | 综合其他查看原文

图表属性

数据类型：其他
行业分类：综合其他
发布日期：2024-09-25
文件格式：PNG