OpenAI发布GPT-5!这是一篇很主观的解读...

凌晨1点,OpenAI 终于发布了万众期待的 GPT-5。

距离 GPT-4 发布,已经过去整整两年半了。我还清晰记得那是2023年的3月14号,距离我从大厂离开还不到一周时间。那个时刻,对AI的兴奋和热情完全掩盖了面对未知前路的恐惧。

在这两年多里,OpenAI其实已经发布了十多个不同的模型(包括什么4o、4.1、4.5、o1、o3、o4……模型名字快赶上显卡厂商了)。

但这次,他们终于喊出了GPT-5的名号。

所以,它到底有什么新变化?值不值得你切换?Claude 4.1 是不是要下岗了?

在展开介绍之前,我们先来看看一个小乌龙:

世界顶级AI公司也能做出这种PPT?

在发布会的图表里,OpenAI展示了一个模型评估的对比:

你看这个数字,52.8 比 69.1 还高,你信吗?

而且,这个错误还不止一次

我服了这个草台班子的世界。

我合理怀疑,这PPT要是让GPT-5自己来做,可能反而更靠谱。

GPT-5 三个版本,立刻上线?

OpenAI这次一口气发布了三个版本的GPT-5 API:GPT-5、GPT-5 Mini、GPT-5 Nano

官网内提供的版本估计也就用这几个大小不一的模型做些小改造。OpenAI官方说是所有用户今天都能用上GPT5。

但截至我写文章时,ChatGPT官网还是老样子,没更新。

反倒是我在Cursor里已经能用上 GPT-5 了,OpenAI:你是不是舔Cursor舔猛了?

这里插播个有趣的小故事,其实OpenAI是Cursor最早的投资者之一,但是随着Claude模型能力的增强,Cursor逐渐和Anthropic变得眉来眼去,经常有深度交流和联合发布了。但随着现在Anthropic出了个和Cursor正面竞争的Claude Code,这三者的关系又迎来了有趣的变数,敌人的敌人,再次成了朋友。“自适应思考”:抄了Claude的作业?

这次GPT-5最大的变化之一,是加入了自适应思考能力:

也就是说,模型会根据你的问题,动态决定要不要深度思考、思考多久。

这听起来很先进,你不需要纠结选GPT-4o还是o3还是o4-mini之类的模型了,但实际上……

早在 Claude 的 CEO 就提出过类似的理念 —— 让模型既能快速直觉(系统一),又能深度推理(系统二),而不是二选一。Claude模型从3.7开始也就是这么设计的。

所以OpenAI这波,多少有点跟随者的味道。

发布会最大重点:全力压注编程能力

发布会超过一半时间都在讲「编程能力」和「Agent执行」。

请来了 Cursor 的 CEO 现场演示

实测代码修改、网页生成、Agent 多步骤推理

你从这个重点方向也能看出:

OpenAI很清楚,现在Anthropic靠 Claude 在API市场上抢走了大量写代码的用户和收入。

一组数据告诉你,现在OpenAI真有点急

OpenAI 总年收入:约 125 亿美元

Anthropic 总年收入:约 50 亿美元(其中API收入已反超OpenAI)

而且 Anthropic 的 API 收入中,显然主要来自写代码的用户(Cursor、Github Copilot等)。

这也是 OpenAI 为什么在 GPT-5 上要主打「编程」,它是真想在API市场和Anthropic刚一刚。

GPT-5 vs Claude 4.1,代码实测结果来了

我也挑了发布会里两个 GPT-5 展示案例,复制了 Prompt,用 Claude 4.1 在 Cursor 中重跑了一遍。

✅ 案例1:学习法语的卡牌游戏网站

Create a beautiful, highly interactive web app for my partner, an English speaker, to learn French.\nTrack her daily progress.\nUse a highly engaging theme.\nInclude a variety of activities (e.g., flashcards, quizzes, etc.).\nOne activity should be a snake-style game in which the snake is replaced by a mouse and the apples are replaced by cheese. Each time the mouse eats a piece of cheese, play a voice-over that introduces a new French word so she can practice pronunciation while playing.\nMake it controllable with the arrow keys.\nThink before answering. Render everything in canvas.

GPT-5 演示的效果很不错,多个卡牌、页面抽卡逻辑也在线。

但我用 Claude 4.1 复现时,发现页面结构也基本一致,只是交互有点小bug。

结论:表现接近,GPT-5略强,但不是质变。

✅ 案例2:生成创业公司财务看板

Please create a finance dashboard for my Series D startup, which makes digital fidget spinners for Al agents.\n\nThe target audience is the CFO and c-suite, to check every day and quickly understand how things are going. It should be beautifully and tastefully designed, with some interactivity, and have clear hierarchy for easy focus on what matters. Use fake names for any companies and generate sample data.\nMake it colorful!\n\nUse Next.js and tailwind CSS.

GPT-5 的可视化仪表盘做得很精致。

但 Claude 4.1 给出的交互式图表也几乎一样,甚至细节上更有设计感。

结论:不分上下,我个人更偏爱 Claude 的审美。

那GPT-5到底强在哪?值不值得用?

OpenAI官方当然是放了一堆Benchmark,什么AIME数学 100%,SWE-Bench 74.9%……

但我想说句实话:

这些Benchmark的价值越来越低了。

高强度数理逻辑对普通人来说没意义;从98.4%提升到99%,对真实使用体验没多少帮助;用户更关心的是它是否能帮我写得更好、写得更自然。

最后

GPT-5说实话是有点令人失望了,更像是一次 GPT-4.6 式的升级。

或者,也许,我们再也不应该以2022年11月的ChatGPT、2023年3月的GPT-4那种发布的震撼级别来要求OpenAI了。

OpenAI在那刻时刻就已经完成了他们石破天惊的历史使命,把大语言模型和训练方法带给了全世界。现在模型能力的升级已经进入了深水区,也许我们后面真的只能一次次看到挤牙膏式的性能提升,或者成本降低。

可惜,AGI还没来

幸好,AGI还没来



下一篇:没有了