ChatGPT 一直让交互方式保持很单纯的文字输入,我们知道这样对用户要求高,新用户有门槛,会写提示词的用户可以用到很强大的功能,而普通用户只能做个信息查询。

我一直在想它们为什么没有针对场景优化,做一个用户熟悉的 UI,让用户把高级功能用起来?

之前我的答案是,他们都是模型公司,靠卖模型赚钱,产品只是一个展示模型能力的窗口,公司主要精力都花在基础模型研发上,没有精力打磨产品,尤其是一个个场景去做。

但是这两家公司都招了很牛的产品经理,要说他们没有想到这一层,我是不太相信。

相对而言,豆包走了另一条路。它围绕聊天界面建造了很多 GUI 界面。

例如豆包的写作模块,系统给出一系列模版,用户做选择填空,系统拼接成完整的提示词。

豆包写作助手

这种像填表单一样的操作方式用户更熟悉,降低了学习门槛,但有没有弊端呢?或者说,用一个单纯简洁的文字输入界面有没有什么好处呢?

我现在越来越觉得聊天式界面牺牲了一部分易学性,换来了无限的灵活性。

这种界面的灵活性上限就是语言的上限,比所有 GUI 加起来提供的灵活性都多。尽管现在的AI 未必能满足我们所有要求,但是至少我们能提出所有要求。这是个通用系统,它能覆盖所有场景。而通用性,是人们对于AI的一个很重要的预期。

人们对于 AI 的另一个预期是个性化。这也能通过聊天式界面实现。同一种诉求两个人的表达会有微妙的差别,AI 会理解这些差别,并给予有差别的回复,这就是个性化的一个体现。

那为什么看似更易学的设计不利于通用性和个性化呢?

我们现在已经很习惯的软件设计,是把用户需求标准化和归一化了,所有用户都是按照产品经理和设计师提前计划好的路径和方式在使用产品。

这就意味着一个 App 只能聚焦一个或几个场景,不可能做到真正通用。用户对于诉求的表达被 UI 组件限制,相应的软件给用户的回应也无法真正个性化。这并不是否定优秀 App 覆盖面程度之广和个性化程度之深,但和一个通用 AI 助手相比,后者显然要在通用性和个性化上取得更大的进展才行。

我们觉得门聊天式界面槛高,因为我们从未这样用过软件,从未认真学习语言中的细微差别。

聊天式界面牺牲了一部分易学性,换来了无限的灵活性。

再回到这句话。

当我们说牺牲了易学性,其实是指「这样的 UI 我们不熟悉,不容易一下子用好」。假如一个刚出生的小孩子,同时面对这两种 UI,她完全有可能觉得聊天式 UI 更符合直觉,更易学。

这是我目前的思考,也许过段时间后会产生新的想法。