OpenAI 发布了 GPT-4o 和很酷的语音交互,谷歌发布了包括 AI 搜索在内的一系列新产品,微软把 AI 和 Windows 进行了更深度的整合,同时对整个技术栈进行改造,即将召开的苹果发布会想必也会重点讲 AI。

生成式 AI 无疑是革命性的,但这种变革是什么层面的,我们应该如何理解这种变革?

我觉得有三种思考框架:

平台的迁移

最保守的理解是把它看作一次平台迁移,就像之前的 PC、互联网、移动互联网那样。我们期待的 AI-native 应用大爆发就是这个思路,“把所有 app 重做一遍”、“相比 GPT-5,我更期待 super app” 等论点,也是在此框架下,用移动互联网的生态进行类比。

就目前的落地场景来看,一方面它在那些有明确对错标准且容易检验的领域日渐成熟,比如生成代码、SQL命令等,另一方面它在那些没有明确对错之分的领域也得到广泛应用,比如创意写作、头脑风暴、情感陪伴、绘图等。

大厂会持续用 AI 为自家产品助力,可能是增加新功能,例如 Photoshop 的 generative fill,或者是改进现有功能,比如各种客服机器人的解决方案。创业公司则把大厂做得不好的某些垂直场景剥离出来进行优化,比如 Answer.AI 等。也会涌现出之前没有的场景,比如文字生成图片、音乐等。

即便是理解成平台迁移,目前也仍处于早期阶段。AI 产品的渗透率还不高,最流行的 ChatGPT 手机端的日活大概在一千万,这个数字与全球每天使用手机的四亿人比起来还非常小,而主流的社交或短视频产品的渗透率可能都超过 50%,想象中的 App Store 那样的繁荣生态也尚未出现。

人们还在努力改造这项新技术,发明新工具,使得它能够适应我们现在的工作和生活方式。未来随着新工具的广泛使用,我们的生活和工作方式就会去适应工具,被工具塑造。

软件形态革命

比尔盖茨说他一生中只见过两次具有革命性的技术演示,一次是图形用户界面(GUI),一次是 ChatGPT. 这不禁让人觉得 AI 带来的变革也许不仅仅是平台迁移。

In my lifetime, I’ve seen two demonstrations of technology that struck me as revolutionary… the GUI and ChatGPT.
— Bill Gates

从人机交互角度看,早期人们使用命令行的方式与计算机交互,后来演变成使用图形用户界面与电脑和智能手机交互,这大大扩展了软件的使用范围。通过图形界面,人们可以更直观得了解手机可以做的事,并且通过点击界面上的各种元素完成任务。当然,任何一个任务的完成都需要有人编写相应的软件作为支撑,比如银行、外卖、打车、订酒店等。

大模型的通用能力增强,是否意味着 AI 能自动化大多数任务,我们只要动动嘴,电脑就能搞定一切?

谁更有可能实现这一图景?操作系统厂商。

微软的 Copilot Runtime 已经具备了这个雏形。尽管现在还不是,但不难想象它具备这种潜力——开发者基于 OS 提供的 AI SDK 开发功能(以 agent 的形式),OS 负责提供跟用户交互的通用界面,并且这种界面是对话式的。

Microsoft Agent

这种思考框架下第一个问题就是,agent 真的能做到如此智能以至于能够自动化日常生活中很复杂的任务吗?

更大的问题是可发现性。如果只是给用户一个通用的界面,用户知道可以用它来做什么吗?

当然,这种担心也许是习惯了现有产品形态的人的惯性思维罢了。如果它什么都能做,那可发现性就不再是问题了。

通往 AGI 之路

所有想法里最引人遐想的就是生成式 AI 最终能带给世界 AGI。

可 AGI 是什么,我们如何定义 AGI?

We believe our research will eventually lead to artificial general intelligence, a system that can solve human-level problems.
— OpenAI

什么是“可以解决人类级别的问题”的系统呢?在各种为人类设计的考试中取得优异的成绩算不算?

GPT-4 scores

Sam Altman 在最近的一次访谈里提到他想法的转变——他认为 AGI 的实现不会是一个转折点,而是一个持续的过程。

也就是说,其实我们没办法判断人工智能是否到达了 AGI。

AGI 并不是一个技术,而是一个概念,它用来指代一切我们尚未实现的东西。

相信现在多数人都认为 LLM 还没有人类意义上的“理解”能力。随着参数规模扩大,是否有一天它能够具备这种能力呢?有的人认为可能,有的人认为肯定不可能,还有的人认为根本不重要,只要它表现得足够有理解能力就可以了。

这种思考框架最大的问题不是打造 AGI 过于困难,而是没有明确的目标,我们不确定想要打造的东西究竟是什么。所以最终就变成你怎么对待风险的问题——这也是以 Ilya 为代表的“希望慢下来”一派和以 Altman 为代表的“继续加速”一派出现争执的根源。


这篇文章非但没有答案,反而提出了更多问题🤦‍♂️

但我想当下许多关于 AI 的问题的答案只能是“我们还不知道,再观察一下看看”。

保持耐心,继续学习,继续提问。