但这波靠的是4o OpenAI重夺竞技场第一

作者： 2024年11月21日科技浏览

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

OpenAI开发者日新加坡站今天启幕，果不其然，ChatGPT又出手了：

Gemini刚在竞技场头把交椅上坐了不到一周，最新版ChatGPT轻轻一更新，第一再次易主。

对， 还不是o1满血版，而是新版4o 。

具体来说，此番GPT-4o更新的是“ 创意写作能力 ”，官方说法是：

o1核心贡献者Karina Nguyen对此做了进一步解释：

而在大模型竞技场的创意写作分榜上，可以看到新版4o确实有明显的提升，分数从上个版本的1365提升到了1402。

至于实际效果，我们简单测试了一下，看看你能给打个几分：

重返第一，但4o

除了在总榜上为OpenAI重夺第一，新版4o在体现具体能力的各个分榜上亦有提升。

在创意写作方面，从第2位升至第1位；

在代码能力方面，从第2位升至第1位；

在数学能力方面，从第4位升至第3位；

在困难任务方面，从第2位升至第1位。

并且在风格控制之后，新版4o依然位居首位。

风格控制旨在让榜单分数更真实地反映模型解决问题的能力，避免模型靠漂亮的格式、增加回答长度刷分。

总胜率热图显示，新版4o对上此前登顶的Gemini-Exp-1114，胜率为；对上Claude 3.5 Sonnet，胜率为；对上5月版本的4o，更是在的情况下都能取胜。

嗯，看上去很强很不错，但还是那句话……是4o。

结合今日份DeepSeek的大新闻——，不少网友直接在奥特曼“新的好模型来了”的推文下贴脸嘲讽起来：

简而言之就是：o1满血版今年上线传得满城风雨，现在2024年都只剩下40几天了，OpenAI你暗搓搓更新个4o是闹哪样！

还有人试图总结OpenAI的更新模式：

嗯，才不管你期待的是什么呢╭(╯^╰)╮

另外，还有网友拿新4o的生成结果去做了测试，结果系统还是当场判断出了100%AI写的：

图源：

声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。
本文地址：https://m.szsrsrpdianzi.com/keji312/8509.html

相关文章