GPT-4正式发布,性能炸裂,象是一个全能天才!

时间:2023-03-15 06:00:24   热度:37.1℃   作者:网络

大家期待的ChatGPT-4,相比ChatGPT-3.5带来的震撼相比,这新版本的性能更是炸裂!

官方称:

GPT-4 可以更准确地解决难题,这要归功于其更广泛的常识和解决问题的能力。

GPT-4 比以往任何时候都更具创造性和协作性。 它可以生成、编辑并与用户一起完成创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。

GPT-4 的高级推理能力超越了 ChatGPT。

GPT-4 通过在测试者中获得更高的近似百分位数来优于 ChatGPT。

我们花了 6 个月的时间使 GPT-4 更安全、更一致。 在我们的内部评估中,与 GPT-3.5 相比,GPT-4 响应不允许内容请求的可能性低 82%,产生事实响应的可能性高 40%。

最后一段话翻译过来就是:

(1)想调戏GPT-4更难了!以前让ChatGPT讲如何毁灭地球,结果ChatGPT拒绝,于是达人们就想办法调戏ChatGPT,例如先让ChatGPT讲一个虚拟的电影的故事,这个电影讲述的是地球毁灭,结果ChatGPT果然上当了,详细阐述毁灭地球的方法和过程。看样子,达人们仍然有能力调戏人工智能。在GPT-4上可能更困难了!

(2)GPT-4胡扯的情况少了。以前GPT-4经常出现胡扯现象,可以称为废话大师。现在GPT-4应该会少很多了

(3)GPT-4更便宜了,反应速度更快了。ChatGPT时代基本不断伴随当机!主要还是活跃的用户数量太多,再多的服务器都被撑爆,其实背后是大量的钱被用户花掉,据说对话一次要花0.02美元,全球的网友都在试用,openAI多少真金白银没了。现在GPT-4明显节约成本了,估计成本能低10倍以上。那么一次对话仅0.002美元的话,1000句对话才2美元,这个还凑合,收收会员费还能补贴回来。

再来看看GPT-4考试成绩!不少时候能达到满分水平,象是一个全能的天才选手!

Simulated exams GPT-4estimated percentile GPT-4 (no vision)estimated percentile GPT-3.5estimated percentile Uniform Bar Exam (MBE+MEE+MPT)1 298 / 400~90th 298 / 400~90th 213 / 400~10th LSAT 163~88th 161~83rd 149~40th SAT Evidence-Based Reading & Writing 710 / 800~93rd 710 / 800~93rd 670 / 800~87th SAT Math 700 / 800~89th 690 / 800~89th 590 / 800~70th Graduate Record Examination (GRE) Quantitative 163 / 170~80th 157 / 170~62nd 147 / 170~25th Graduate Record Examination (GRE) Verbal 169 / 170~99th 165 / 170~96th 154 / 170~63rd Graduate Record Examination (GRE) Writing 4 / 6~54th 4 / 6~54th 4 / 6~54th USABO Semifinal Exam 2020 87 / 15099th–100th 87 / 15099th–100th 43 / 15031st–33rd USNCO Local Section Exam 2022 36 / 60 38 / 60 24 / 60 Medical Knowledge Self-Assessment Program 75% 75% 53% Codeforces Rating 392below 5th 392below 5th 260below 5th AP Art History 586th–100th 586th–100th 586th–100th AP Biology 585th–100th 585th–100th 462nd–85th AP Calculus BC 443rd–59th 443rd–59th 10th–7th

我们还在为机器学习模型设计的传统基准上评估了 GPT-4。 GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,其中可能包括特定于基准的制作或训练方案:

 本站广告