GPT-4 发布
OpenAI推出了GPT-4 Release,这是他们推进深度学习的最新成果。GPT-4 是一个实质性的多模式模型(在生成文本输出的同时处理图像和文本输入),尽管在许多现实世界的情况下不如人类熟练,但它在各种专业和学术基准上展示了人类水平的表现。
GPT-4 作为一个庞大的多模式模型,接受图像和文本输入并生成文本输出。尽管在许多现实世界的案例中它不如人类熟练,但它在一系列专业和学术基准上表现出人类水平的熟练程度。
例如,GPT-4 在模拟律师考试中取得了前 10% 的分数,而 GPT-3.5 的分数则落在了后 10% 之内。OpenAI 工程师花了 6 个月的时间逐步完善 GPT-4,利用他们的对抗性测试程序和 ChatGPT 的见解,在真实性、可控性和遵守护栏方面产生了迄今为止最好的结果,尽管并非完美无缺。
OpenAI 正在通过 ChatGPT 和 API(有候补名单)推出 GPT-4 的文本输入功能。为了更广泛地使用图像输入功能,他们与Be My Eyes展开了密切合作。此外,OpenAI 正在开源他们的自动化 AI 模型性能评估框架OpenAI Evals,允许任何人报告模型弱点以帮助告知未来的改进。
能力
在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性超过某个阈值时,差异就会变得明显——与 GPT-3.5 相比,GPT-4 被证明更可靠、更有创造力,并且能够处理复杂的指令。
为了了解这两种模型之间的差异,工程师们对各种基准进行了测试,包括那些最初用于人体检查的基准。工程师使用最新的公开测试(奥林匹克竞赛和 AP 自由回答问题)或购买 2022-2023 模拟考试。没有为这些考试提供专门的培训。虽然该模型在训练期间遇到了一小部分考试问题,但它被认为是具有代表性的结果——有关更多信息,请参阅 OpenAI 的技术报告。
OpenAI 在为机器学习模型创建的传统基准上评估了 GPT-4。GPT-4 明显优于现有的大型语言模型和大多数最先进的 (SOTA) 模型,这些模型可能涉及特定于基准的调整或其他训练方法。
视觉输入
GPT-4 可以处理文本和图像的组合作为输入,允许用户指定任何视觉或语言任务,类似于纯文本上下文。具体来说,GPT-4 基于包含混合文本和图像的输入生成文本输出(自然语言、代码等)。
GPT-4 在各种领域(包括带有文本和照片的文档、图表或屏幕截图)显示类似的功能,就像它处理纯文本输入一样。此外,它还可以受益于为纯文本语言模型开发的测试时间技术,例如少镜头和思维链提示。
图像输入仍然是研究预览,尚未公开。但是您可以在下面看到模型的响应示例:
OpenAI 通过在有限选择的标准学术视觉基准上对其进行评估,让您一窥 GPT-4 的性能。尽管如此,这些数字并未完全体现其功能,因为工程师们不断发现该模型可以完成的新颖而令人兴奋的任务。OpenAI 打算在不久的将来发布进一步的分析、评估指标和对测试时间技术影响的全面检查。
总之,GPT-4 Release 标志着大规模多模态 AI 模型的开发向前迈出了重要一步,展示了在文本和图像处理任务方面令人印象深刻的能力。
当我们设想未来GPT-5模型的可能性时,期望它在处理日益复杂的任务的能力上有更大的进步,超越 GPT-4 在各个领域的表现是不合理的。
我们预计ChatGPT-5将具有更复杂的上下文理解、增强的创造力以及视觉和文本输入的更无缝集成。它将提供人机交互的变革性体验,并开辟人工智能应用的新领域。