思考 AI 变革的框架：平台迁移、软件进化与 AGI

OpenAI 发布了 GPT-4o 和很酷的语音交互，谷歌发布了包括 AI 搜索在内的一系列新产品，微软把 AI 和 Windows 进行了更深度的整合，同时对整个技术栈进行改造，即将召开的苹果发布会想必也会重点讲 AI。

生成式 AI 无疑是革命性的，但这种变革是什么层面的，我们应该如何理解这种变革？

我觉得有三种思考框架：

平台的迁移
软件形态革命
通往 AGI 之路

平台的迁移

最保守的理解是把它看作一次平台迁移，就像之前的 PC、互联网、移动互联网那样。我们期待的 AI-native 应用大爆发就是这个思路，“把所有 app 重做一遍”、“相比 GPT-5，我更期待 super app” 等论点，也是在此框架下，用移动互联网的生态进行类比。

就目前的落地场景来看，一方面它在那些有明确对错标准且容易检验的领域日渐成熟，比如生成代码、SQL命令等，另一方面它在那些没有明确对错之分的领域也得到广泛应用，比如创意写作、头脑风暴、情感陪伴、绘图等。

大厂会持续用 AI 为自家产品助力，可能是增加新功能，例如 Photoshop 的 generative fill，或者是改进现有功能，比如各种客服机器人的解决方案。创业公司则把大厂做得不好的某些垂直场景剥离出来进行优化，比如 Answer.AI 等。也会涌现出之前没有的场景，比如文字生成图片、音乐等。

即便是理解成平台迁移，目前也仍处于早期阶段。AI 产品的渗透率还不高，最流行的 ChatGPT 手机端的日活大概在一千万，这个数字与全球每天使用手机的四亿人比起来还非常小，而主流的社交或短视频产品的渗透率可能都超过 50%，想象中的 App Store 那样的繁荣生态也尚未出现。

人们还在努力改造这项新技术，发明新工具，使得它能够适应我们现在的工作和生活方式。未来随着新工具的广泛使用，我们的生活和工作方式就会去适应工具，被工具塑造。

软件形态革命

比尔盖茨说他一生中只见过两次具有革命性的技术演示，一次是图形用户界面（GUI），一次是 ChatGPT. 这不禁让人觉得 AI 带来的变革也许不仅仅是平台迁移。

In my lifetime, I’ve seen two demonstrations of technology that struck me as revolutionary… the GUI and ChatGPT.
— Bill Gates

从人机交互角度看，早期人们使用命令行的方式与计算机交互，后来演变成使用图形用户界面与电脑和智能手机交互，这大大扩展了软件的使用范围。通过图形界面，人们可以更直观得了解手机可以做的事，并且通过点击界面上的各种元素完成任务。当然，任何一个任务的完成都需要有人编写相应的软件作为支撑，比如银行、外卖、打车、订酒店等。

大模型的通用能力增强，是否意味着 AI 能自动化大多数任务，我们只要动动嘴，电脑就能搞定一切？

谁更有可能实现这一图景？操作系统厂商。

微软的 Copilot Runtime 已经具备了这个雏形。尽管现在还不是，但不难想象它具备这种潜力——开发者基于 OS 提供的 AI SDK 开发功能（以 agent 的形式），OS 负责提供跟用户交互的通用界面，并且这种界面是对话式的。

这种思考框架下第一个问题就是，agent 真的能做到如此智能以至于能够自动化日常生活中很复杂的任务吗？

更大的问题是可发现性。如果只是给用户一个通用的界面，用户知道可以用它来做什么吗？

当然，这种担心也许是习惯了现有产品形态的人的惯性思维罢了。如果它什么都能做，那可发现性就不再是问题了。

通往 AGI 之路

所有想法里最引人遐想的就是生成式 AI 最终能带给世界 AGI。

可 AGI 是什么，我们如何定义 AGI？

We believe our research will eventually lead to artificial general intelligence, a system that can solve human-level problems.
— OpenAI

什么是“可以解决人类级别的问题”的系统呢？在各种为人类设计的考试中取得优异的成绩算不算？

GPT-4 scores

Sam Altman 在最近的一次访谈里提到他想法的转变——他认为 AGI 的实现不会是一个转折点，而是一个持续的过程。

也就是说，其实我们没办法判断人工智能是否到达了 AGI。

AGI 并不是一个技术，而是一个概念，它用来指代一切我们尚未实现的东西。

相信现在多数人都认为 LLM 还没有人类意义上的“理解”能力。随着参数规模扩大，是否有一天它能够具备这种能力呢？有的人认为可能，有的人认为肯定不可能，还有的人认为根本不重要，只要它表现得足够有理解能力就可以了。

这种思考框架最大的问题不是打造 AGI 过于困难，而是没有明确的目标，我们不确定想要打造的东西究竟是什么。所以最终就变成你怎么对待风险的问题——这也是以 Ilya 为代表的“希望慢下来”一派和以 Altman 为代表的“继续加速”一派出现争执的根源。

这篇文章非但没有答案，反而提出了更多问题🤦‍♂️

但我想当下许多关于 AI 的问题的答案只能是“我们还不知道，再观察一下看看”。

保持耐心，继续学习，继续提问。