OpenAI发布了GPT的最新一代版本ChatGPT-4,相比上一代,其AI能力再度提升,同时支持输入的内容不再仅限于文字,而且支持图像内容的输入,成为一个能够理解照片的人工智能。

GPT-4 能够接受图像和文本输入,输出文本,在各项测试和基准上的表现已经与人类水平相当。

Sam Altman 称,GPT-4 是“我们迄今为止最强大、对齐最好的模型”。

恐怖的AI智能ChatGPT-4更牛逼的生产力

 

GPT-4 可以实现从图片中提取文字信息并输出到 HTML,比如尝试手绘一个笑话网站模型,让 GPT-4 尝试自动生成网站的原型图(程序员嗅到了危险的味道):

恐怖的AI智能ChatGPT-4更牛逼的生产力

手绘的笑话网站模型图

恐怖的AI智能ChatGPT-4更牛逼的生产力

在官方宣传视频中,也演示了一段GPT-4识别手绘的网页草图的效果

而在文字问答方面,GPT-4 也有非常大的提升,它在专业领域上的回答,全方位碾压了老版本。

比如,在统一律师考试( Uniform Bar Exam )中,GPT-4 可以超过 90% 的人类考生,而老版本只能超过 10% 的人类考生,相当于一个是考第一名,一个是考倒数第一名。

在 GRE 数学考试中 GPT-4 可以考 163 分( 170 分满 )超过 80% 的考生,老版本只能超过 25% 的考生。

在 GRE 语文( 阅读与填空 )考试中 GPT-4 可以考 169 分( 170 分满 )超过 99% 的考生,而老版本只能超过 63% 的考生。

单从这两门的分数来看,GPT-4 到了可以申请哈佛、麻省理工、斯坦福大学的水平。

不只是知识渊博,GPT-4 相较于老版本,还可以成为更好的导师。

如果你提出一个问题,老版本的 ChatGPT 会一股脑的回答,而 GPT-4 可以像一名真正的人类老师一样一步一步引导、鼓励你思考并获得答案。

 

GPT-4 开启了多模态大模型的时代,遗憾的是,OpenAI 这次并没有公布 GPT-4 在多模态方面的技术细节。

自然语言是多模态的基础

目前 GPT-4 还只是文本+图像输入、文本输出,可以预测文本+图像不久也将实现。ChatGPT 已经带火了 NLP,GPT-4 想必对于视觉领域的研究者们也是一大机遇,也或许是一次冲击。不过,在多模态大模型中,自然语言仍被认为是核心。UCL 计算机系教授、上海数字大脑研究院院长汪军告诉 AI科技评论,Chat 构建了一个相对清晰的逻辑描述,它或许不是百分百严谨,但已经足够让我们去表达一些非常复杂的逻辑关系。但他认为,这是一个 Free power,也即是说,它可以能把这个问题表述得很清晰、但这是表象,最主要的是 Chat 里面含载的语义关系,当其他多模态来了之后,匹配上相应的语义表达,就可以迁移到其他的模态当中。

知识体系和自动化体系时代

在通过交互界面获取信息这一点上,ChatGPT 已经对用户完成了科普任务。GPT-4 出现后,Chat 将不再是大家关注的重点,GPT-4 能力的跃升正在引发大家思考 GPT 时代的产业变革将怎样发生。在前维卓CTO 张烜看来,ChatGPT 背后的时代变化,是从信息时代 AI 向用户快速提供丰富的信息,到AI直接提供完整的知识体系。ChatGPT 的贡献是提供了一个便捷易用的交互界面,让普通人都能用得起来,功不可没,GPT-4 是在此基础上的再一次飞跃。他认为,除了模型变得更大、更强以外,AI 技术本身的变化可能不显著,但从应用的角度看,新的时代已经到来。这个新时代便是知识体系和自动化的时代,AI 优化的目标是自动化地输出最终结果和完整的知识体系。

能够适应这种新形势的是以 RPA(Robotic process automation)为代表的自动流程化分发,但是目前的 RPA 起始于20年前,不适用于现在的媒体方式和交互内容,需要在文字、图像和视频化处理上加以改进,才能和 GPT 完美匹配。张烜对 AI科技评论透露,这是 GPT 影响产业的一个重要方式,也将是他接下来的创业方向。

目前,有一部分企业已经提前用上了 GPT-4,其中就包括了 Stripe、摩根士丹利和 Duolingo 等。Stripe 团队列出了50个潜在应用程序来测试 GPT-4,经过审查和测试,当中有15个原型被认为是集成到平台中的有力候选者,包括支持定制、回答有关支持的问题和欺诈检测。

最终ChatGPT会成为人们工作、学习的帮手,还是会成为替代人们的人工智能呢,我们无从得知?但是我们知道,在不断学习之下,ChatGPT势必会变得更为聪明、有用,这点不仅限于ChatGPT,更适用于所有的人。

参考链接: