鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
OpenAI开发者日新加坡站今天启幕,果不其然,ChatGPT又出手了:
Gemini刚在竞技场头把交椅上坐了不到一周,最新版ChatGPT轻轻一更新,第一再次易主。
对, 还不是o1满血版,而是新版4o 。
具体来说,此番GPT-4o更新的是“ 创意写作能力 ”,官方说法是:
o1核心贡献者Karina Nguyen对此做了进一步解释:
而在大模型竞技场的创意写作分榜上,可以看到新版4o确实有明显的提升,分数从上个版本的1365提升到了1402。
至于实际效果,我们简单测试了一下,看看你能给打个几分:
重返第一,但4o
除了在总榜上为OpenAI重夺第一,新版4o在体现具体能力的各个分榜上亦有提升。
在创意写作方面,从第2位升至第1位;
在代码能力方面,从第2位升至第1位;
在数学能力方面,从第4位升至第3位;
在困难任务方面,从第2位升至第1位。
并且在风格控制之后,新版4o依然位居首位。
风格控制旨在让榜单分数更真实地反映模型解决问题的能力,避免模型靠漂亮的格式、增加回答长度刷分。
总胜率热图显示,新版4o对上此前登顶的Gemini-Exp-1114,胜率为;对上Claude 3.5 Sonnet,胜率为;对上5月版本的4o,更是在的情况下都能取胜。
嗯,看上去很强很不错,但还是那句话……是4o。
结合今日份DeepSeek的大新闻——,不少网友直接在奥特曼“新的好模型来了”的推文下贴脸嘲讽起来:
简而言之就是:o1满血版今年上线传得满城风雨,现在2024年都只剩下40几天了,OpenAI你暗搓搓更新个4o是闹哪样!
还有人试图总结OpenAI的更新模式:
嗯,才不管你期待的是什么呢╭(╯^╰)╮
另外,还有网友拿新4o的生成结果去做了测试,结果系统还是当场判断出了100%AI写的:
图源: