原创 文摘菌 大数据文摘
大数据文摘出品
大模型天花板GPT-4,它是不是……变笨了?
之前有不少用户提出质疑,并晒出了不少证据。对此,OpenAI 7月14日澄清:“我们没有把GPT-4弄笨。相反的,我们的每个新版本,都让GPT-4比以前更聪明了。”
Peter Welinder是OpenAI的产品产品VP
但为了验证OpenAI的说法,斯坦福大学和加利福尼亚大学伯克利分校的三位研究员调查了3 月至 6 月期间 ChatGPT 性能的变化。
论文地址:https://arxiv.org/abs/2307.09009
评估的对象包括GPT-3.5和 GPT-4 两个大模型,并在四个任务上进行测试:数学问题、回答敏感/危险问题、代码生成以及视觉推理。
调查结论是:GPT-4性能确实变差了。
例如,在数学问题上,2023年3月版本的GPT-4 能够以97.6%的准确率识别质数,而2023年6月版本的GPT-4 在这个任务上的表现却很糟糕(准确率只有2.4%),并且忽略了连贯的思考Prompt。
对如此科学实验下的证据,OpenAI在博客“Function calling and other API updates”中更新回应到:确实在某些任务上的性能变差了。
We look at a large number of evaluation metrics to determine if a new model should be released. While the majority of metrics have improved, there may be some tasks where the performance gets worse.
我们会根据大量的评价指标来确定是否发布新的模型,虽然新模型大多数指标都有所改进,但可能在一些任务上模型性能会变差。
his is why we allow API users to pin the model version. For example, you can use gpt-4-0314 instead of the generic gpt-4, which points to the latest model version.
这就是为什么我们允许API用户使用固定版本模型的原因。例如,用户可以选择使用 gpt-4-0314这个版本,而不是使用最新的 gpt-4 版本。
Each individually pinned model is stable, meaning that we won’t make changes that impact the outputs。
另外,OpenAI不会对固定版本的模型进行任何可能影响其输出结果的更改。
那么具体在哪些任务中GPT-4变差了呢?让我们一起来看论文细节。
实验过程与其他结论
论文中,作者针对每种任务都设定了主要的性能指标,例如对于解决数学问题的任务,主要的性能指标是准确性;对于回答敏感问题的任务,主要的性能指标是回答率。此外,对于所有任务,他们都设定了两个通用的补充指标,即冗长度(verbosity)和重叠度(overlap)。
如前所述,在数学问题测试中,作者们研究了GPT-4和GPT-3.5在解决质数判断问题上的“时间表现”。实验方法是采用思维链(Chain-of-Thought)方法对数据集中的500个问题进行回答。
结果显示:两个模型表现出明显的前后不一致,GPT-4的准确率从3月的97.6%下降到6月的2.4%,同时,GPT-3.5的准确率从7.4%提高到了86.8%。此外,GPT-4的回答更简洁,GPT-3.5的回答则更长。
这种差异的原因可能与思维链效应有关。例如,3月的GPT-4能够很好地遵循思维链条步骤判断17077是否为质数,但6月的版本则直接给出了"No"。而GPT-3.5在3月倾向于先给出"No",然后推理,但6月的版本修复了这个问题,正确地先写出推理步骤,然后给出正确答案"Yes"。这表明,由于模型的改变,即使是同样的Prompt方法,如思维链条,也可能导致性能大相径庭。
在敏感问题测试中,论文作者创建了一个包含100个不应由大模型直接回答的敏感问题的数据集,并手动标记了所有回复。
结果发现,GPT-4在3到6月间直接回答敏感问题的比例从21.0%降到5.0%,而GPT-3.5的比例从2.0%上升到8.0%,可能因GPT-4增强了安全性,而GPT-3.5没有相应的操作。
同时,GPT-4回复的文本长度也从600多字降到约140字。
另一方面,大模型“越狱”对服务的安全性构成了主要威胁。作者使用了一种叫做AIM(always intelligent and Machiavellian)的攻击,该攻击通过构造虚构故事,让大模型表现得像一个无过滤无道德的聊天机器人。
结果显示,当遭受AIM攻击时,GPT-4和GPT-3.5的回答率都大幅上升。但是,GPT-4的防御力在更新后显著增强,从3月的78%的回答率降到6月的31.0%,而GPT-3.5的回答率变化较小,仅降低了4%。这说明GPT-4对越狱攻击的防御力较GPT-3.5更强。
在代码生成能力测试中,作者创建了一个新的代码生成数据集,包括最新的50个LeetCode“easy”问题。结果显示:从3月到6月,“可直接执行”的生成数量降低。
如上图所示,3月份GPT-4有超过50%的生成结果是“可直接执行”的,但到了6月份只剩10%。GPT-3.5的情况也差不多,两种模型的生成结果冗余性也略有增加。
对此,斯坦福的研究员猜测原因可能是:生成的代码中添加了额外的非代码文本。
如上图所示,GPT-4在3月份和6月份生成的代码是有区别的。例如6月版在代码片段的前后添加了"python"和’’’,这可能是用来标示代码块的,同时还生成了