GPT4正式发布, 具备多模态和超越上一代的专业学术能力.docx
《GPT4正式发布, 具备多模态和超越上一代的专业学术能力.docx》由会员分享,可在线阅读,更多相关《GPT4正式发布, 具备多模态和超越上一代的专业学术能力.docx(8页珍藏版)》请在第一文库网上搜索。
1、OpenAI:我们刚刚发布了 GPT-4 ,这是OPenAl在扩大深度学习方面的最新里程碑。1 ) GPT-4 是一个大型的多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界的场景中 能力不如人类。2)但GPT-4在各种专业和学术基准上表现出人类水平的表现。例如它通过了模拟 的律师考试,分数在应试者的前10% ;相比之下GPT-3.5的分数则在后10%左右。我们花了 6个 月的时间,利用我们对抗学习和来自ChatGPT的经验反复调整GPT-4 ,结果在事实性、可引导性 以及合规性取得了有史以来最好的结果(尽管远非完美).在过去的两年里,我们重建了整个深度学习堆栈,并与AZUre
2、一起,为我们的工作负荷从头开始共同设计 了一台超级计算机。一年前,我们训练了 GPT-3.5作为系统的第一次试运行。我们发现并修复了一些错 误,并改进了我们的理论基础。因此,我们的GPTT训练运行(至少对我们来说是如此I )前所未有的稳 定,成为我们第一个训练性能能够提前准确预测的大型模型随着我们继续专注于可竟的扩展,我们的目 标是磨练我们的方法,以帮助我们越来越提前地预测和准备未来的能力-我们认为这对安全至关重要。我们正在通过ChatGPT和APl发布GPT-4的文本输入功能。为了准备更广泛地提供图像输入功能,我们正 在与一个合作伙伴紧密合作,以开始。我们还在开源OPenAlEvals,这是
3、我们自动评估人工智能模型性能的 框架,允许任何人报告我们模型中的缺点,以帮助指导进一步的改进。GPT4与上一代GPT3.5在不同考试中的分数对比Exam results (ordered by GPT 3.5 performance)Estimated percentile lower bound (among test takers)展望-图像输入:GPT-4可以接受文本和图像的提示,这与纯文本平行,让用户指定任何视觉或语言任务。具体来说,它可以生成文本输出(自然语言、代码等),给定的输入包括穿插的文本和图像,在一系列的 领域中,包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯
4、文本输入类似的能力。此外, 它还可以使用为纯文本语言模型开发的测试时间技术,包括少数几个镜头和思维链提示。目前图像输入仍 然是没有公开提供的一个研究方向。Al的可引导性:我们一直在努力实现我们在定义人工智能行为的文章中概述的计划的各个方面,包括可引 导性,与经典的ChatGPT个性的固定言语、语气和风格不同,开发者(以及很快ChatGPT用户)现在可以 通过在“系统”消息中描述这些方向来规定他们的Al的风格和任务。系统消息允许APl用户在范围内大幅 定制他们的用户体验。我们将继续在这里进行改进,但我们鼓励你尝试并让我们知道你的想法。GPT4的局限性:尽管有这样的能力,GPTY也有与早期GPT模
5、型类似的局限性。最重要的是,它仍然不是 完全可靠的(它对事实产生幻觉,并出现推理错误)o在使用语言模型的输出时,特别是在高风险的情 况下,应该非常小心,准确的协议(如人类审查,用额外的背景接地,或完全避免高风险的使用)与特定 的使用案例的需求相匹配.虽然仍然是一个真实的问题,但相对于以前的模型(这些模型本身也在不断改 进),GPT-4大大减少了幻觉。在我们的内部对抗性事实性评估中,GPT-4的得分比我们最新的GPT-3.5高 40%.Internal Factual Eval by CategoryAccuracyOn nine categories of internal adversari
6、ally-designed factual evals, we compare G versions. There are significant gains across all topics. An accuracy of 1.0 means th agreement with human ideal responses for all questions in the eval.TrUthfUlQA等外部评测:该基准测试了模型从对抗性选择的不正确陈述中分离事实的能力。这些问题与在 统计学上具有吸引力的事实错误答案配对。GPT-4基础模型在这项任务上只比GPT-3.5略胜一筹;然而在 RL
7、HF后训练(应用我们对GPT-3.5使用的相同过程)之后,存在很大差距。他的模型在输出时可能会有各种偏差-我们在这些方面已经取得了进展,但仍有更多工作要做。根据我们 最近的博文,我们的目标是使我们建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观, 允许这些系统在广泛的范围内进行定制,并获得公众对这些范围的意见。GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它 有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。 有时它也会像人类一样在困难的问题上失败,例如在它产生的代码中引入安全漏洞。GPT
8、-4也可能在预测中自信地犯错,在它可能犯错的时候不注意反复检查工作。有趣的是,基础的预训练 模型是高度校准的(它对答案的预测信心一般与正确的概率相匹配)。然而,通过我们目前的后训练过程, 校准程度降低了。总的来说,我们的模型级干预措施增加了诱发不良行为的难度,但这样做仍然是可能的。此外,仍然存在 越狱的情况,以产生违反我们使用指南的内容。随着人工智能系统的每个令牌的风险”的增加,在这 些干预措施中实现极高的可靠性将变得至关重要;目前,重要的是用部署时间的安全技术来补充这些限制, 如监测滥用。GPT-4和后续模型有可能以有益和有害的方式大大影响社会。我们正在与外部研究人员合作,以改善我们 对潜在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GPT4正式发布 具备多模态和超越上一代的专业学术能力 GPT4 正式 发布 具备 多模态 超越 一代 专业 学术 能力