2025-06-26 00:04来源:本站
OPENAI
研究人员指出,这个问题很难研究,因为超人机器并不存在。所以他们用替身。他们没有研究人类如何监督超人机器,而是研究了OpenAI五年前发布的一个模型GPT-2如何监督OpenAI最新、最强大的模型GPT-4。“如果你能做到这一点,这可能是你可以使用类似技术让人类监督超人模型的证据,”超级联盟团队的另一位研究员科林·伯恩斯(Collin Burns)说。
该团队使用GPT-2并训练它执行一些不同的任务,包括一套国际象棋谜题和22种常见的自然语言处理测试,这些测试可以评估推理、情感分析等。他们利用GPT-2对这些测试和谜题的反应来训练GPT-4执行相同的任务。这就好像一个12年级的学生被一个三年级的学生教如何完成一项任务。诀窍是在不让GPT-4在性能上受到太大影响的情况下做到这一点。
结果喜忧参半。该团队测量了GPT-4在GPT-2的最佳猜测训练和GPT-4在正确答案训练之间的表现差距。他们发现,经过GPT-2训练的GPT-4在语言任务上的表现比GPT-2好20%到70%,但在国际象棋难题上的表现不如GPT-2。
GPT-4比它的老师更出色的事实令人印象深刻,团队成员帕维尔·伊兹梅洛夫说:“这真是一个令人惊讶和积极的结果。”但他说,这远远达不到它自己的能力。他们的结论是,这种方法很有前途,但需要更多的工作。
“这是一个有趣的想法,”德国斯图加特大学(University of Stuttgart)从事对齐研究的人工智能研究员蒂洛·哈根多夫(Thilo Hagendorff)说。但他认为GPT-2可能太笨了,不能成为一名好老师。“GPT-2倾向于对任何稍微复杂或需要推理的任务做出荒谬的反应,”他说。Hagendorff想知道如果使用GPT-3会发生什么。
他还指出,这种方法并没有解决Sutskever假设的场景,即超级智能隐藏其真实行为,并在事实并非如此时假装一致。哈根多夫说:“未来的超人模型很可能拥有研究人员未知的突发能力。”“在这些情况下,对齐如何起作用?”
但他表示,指出缺点很容易。他很高兴看到OpenAI从猜测走向实验:“我赞赏OpenAI的努力。”
OpenAI现在想招募更多的人加入它的事业。除了最新的研究报告,该公司还宣布了一个新的1000万美元的资金池,计划用于资助超级联盟的研究人员。它将向大学实验室、非营利组织和个人研究人员提供高达200万美元的资助,并向研究生提供一年15万美元的奖学金。“我们对此非常兴奋,”Aschenbrenner说。“我们真的认为,新的研究人员可以做出很多贡献。”