2025-12-07

稳定的反面是一成不变。你享受着稳定生活带来的确定性，就要耐住日复一日的重复感。

2025-10-10

突然意识到一个点，什么时候不想用 AI 生成内容呢？享受那个建造过程的时候。

比如你的成就感就来自于写出那段完美的代码、实现那个完美的界面、做出那张完美的海报、剪出那段完美的视频…… 使用 AI 就破坏了这种快乐。

2025-08-24

经常听到的祝福是，愿你做大做强。

很少有人说，愿你做精做久。

2025-07-25

目标本身是没有意义的，目标的一切意义在于创造过程。

过程和体验是全部的意义。

2025-06-20

人人都是 Agent Builder

平时使用 AI 产品时，常常会遇到这样的问题：比如我想总结一篇文章，许多工具都会提供“总结网页”这个功能按钮。点击之后，系统确实给出一段话，但总觉得总结的长度、风格都不合适，却没法调整。如果实在想调，只能自己手动写一个很长的提示词，把要求解释清楚。这已经够麻烦了，更麻烦的是：就算调好了，这个产品也记不住。下一次还得重新来一遍。我们总不能把提示词记在小本本上，每次复制粘贴吧？

这个问题暴露了当下很多 AI 应用的设计盲区：提示词是被封装死的，控制权在开发者手中，而不在用户手中。

AI 功能，还是 AI 工具

在 AI Horseless Carriages 这篇文章中，Pete Koomen 提出了一个观点：真正强大的 AI 软件，应该让用户定义提示词，而不是开发者写死。尤其是那些“代表用户”执行任务的功能，比如写邮件、总结文章，如果提示词不能定制，产品就只能提供一种“通用平均值”的体验，难以真正贴合个体。

Most AI apps should be agent builders, not agents.

— Pete Koomen

他的建议是：与其封装几个按钮，不如把时间花在帮助用户写好提示词、构建清晰上下文、完善可调用工具链上。

这一点，正在越来越多优秀产品的设计中得到验证。

让用户定义自己的“小 AI 工具”

在 WWDC 2025 上，苹果展示了一项很有启发性的功能：用户可以自己定义 AI 要完成的任务，例如“总结网页内容”、“检查笔记”、“润色邮件”等，把它保存为一个可复用的小工具，并通过 Spotlight、Shortcuts 等系统级方式快速调用。

这是一个重要的思路：不再是开发者提供封闭的 AI 功能，而是让用户用平台提供的能力构建属于自己的 AI 使用方式。

实时互动、强调主控权的 AI 体验

NotebookLM 团队离职创业，新产品 Huxe 提供了一种有趣的体验：你可以以语音的方式“听”电子邮件、新闻、播客摘要等内容，并在过程中随时打断，与 AI 实时对话讨论。

这种方式并不强调“一次性生成答案”，而是将生成式 AI 看作一个动态工具，为用户个性化服务、即时反馈，真正体现出“人是主导者，AI 是工具”和“内容极度个性化”的理念。

构建智能体 ≠ 写死智能体

这几个案例来自不同方向，却指向一个共同趋势：AI 的控制权，正在从开发者手中转向用户。

Koomen 强调提示词的可定义性；
苹果在系统层面释放 AI 的组合能力；
Huxe 在交互上强化用户主导的节奏。

它们共同提示我们：与其追求“更智能的 AI 功能”，不如思考怎么让用户拥有“构建智能体”的能力。

每个用户，都是 Agent Builder

所以，如果我们把“智能体”理解为能自动执行任务、代表用户行动的系统，那么除了构建智能体本身之外，还有一个不同的产品思路：构建支持用户自行构建智能体的环境。

从提示词管理、上下文记忆、技能调度，到个性化交互方式……这些都是智能体“之下”的基础设施。而这些基础设施，正逐渐变得易用、开放、可分享。

我们可以想象一个不远的未来：

写一个提示词，就能保存为个人工具；
工具可以在个人熟悉和喜欢的环境中使用；
使用方式可能是文字、语音、自动化；
内容是动态生成的，完全符合个人需求的，可交互的。

人人都是 Agent Builder，这或许才是生成式 AI 应用真正的下一个时代。

感谢@苏奇分享 Huxe 的案例，并和我讨论了很多这方面的想法。

2024-11-28

具体与抽象

和别人讨论产品时，很难受的一种情况是你聊具体的时候他聊抽象，你聊抽象的时候他聊具体。

比如，你说你觉得这功能怎么样，他说你是想做个 Google 吗？你说我们的产品核心应该是 XYZ，他说但我觉得这个图标不好看。

这一般发生在不太默契的两人之间，可能是初次合作，对彼此的思考方式了解得不深，就容易陷入这样一种怪圈。

这种讨论效率很低，经常得不到结论，因而很有挫败感。

有的时候磨合一下能慢慢缓解。两人逐渐在同样的抽象层面上讨论问题。也有时候，永远聊不到具体，始终围绕着抽象和类比兜圈子。

这很危险。

有抽象的原则作为指导是好的，甚至是必须的。但也要务实。

聊高瞻远瞩的东西自有它的乐趣，但是脚踏实地的日拱一卒才是实现目标的唯一方式。

2024-11-02

划词工具栏

这些划词工具栏的问题是，
它们最终侵入到任何有文字的地方。

然后它影响了你正常使用软件。

然后你一气之下关掉了它。

然后你就把它遗忘了。

Toolbar1

Toolbar2

Toolbar3

2024-09-27

简化与进步

在一篇博客文章中读到一段话：

People are biased towards solving problems through addition rather than subtraction.

Because adding something makes you feel like you are advancing, while taking something away makes you feel like you are retreating.

今年 RailsWorld 的主题演讲里，DHH 作了一首俳句：

Progress is our path,
Complexity builds the bridge,
Simplicity waits.

在追求进步的道路上，复杂性是不可避免的，但我们不能停留在把问题解决了的程度，而是不断追求让解决方案从根本上更简单。

言出必行，Rails 8 今年全力推广 NoBuild 和 NoPaaS，把多余的东西从开发者的技术栈里移除，回归开发和部署 web 应用的本质。

Rails 的迭代一直很大胆地舍弃旧东西，添加新东西。时代不同，技术发展阶段不同，它始终能以最好的方式实现它的使命 — 做最好的 One Person Framework.

顺便提一句，Elon Musk 对猛禽发动机的迭代可太酷了。

Raptor rocket engine

不能光说删减，而是删减后仍能提供相同甚至更好的效果。

不能光说 less is more，而是 do more with less.

2024-09-27

我们现在对于大模型的输出有一种很强的控制欲，希望它是确定的，希望它是可控的。

这很像 Web Design 刚兴起的时候平面设计师的感受，总想要做到像素级完美。

但 Web 是一种新媒介，最终设计师们学会了如何与这种不确定性共存。

他们发明了响应式设计，发明了渐进增强，发明了各种工具来确保在各种情况下都能提供良好的用户体验。

大模型也是一种新的媒介，最终我们可能需要学会与这种不确定性共存。

2024-09-16

Roguelike

今天刷 App Store 时鬼使神差地买了一款游戏，倒不是多么想玩，而是被宣传语吸引了 —– 好评如潮的 Roguelike 游戏。

其实我看到过这个游戏很多次了，但今天不知道为什么，特别想了解到底什么是 Roguelike。

付款，下载，等待安装。就去忙别的了。

吃过晚饭，拿起手机，才想起来买了个游戏。点开玩了半小时，死了好几次，看到装备、合成、升级这些词就觉得头大，劝退了。

所以还是搜索一下 Roguelike 是什么意思吧。

Roguelike 游戏是一种具有特定特征的游戏类型。

一、主要特点

随机生成性：游戏中的地图、敌人、道具等都是随机生成的。每次游戏的体验都不同，增加了游戏的重玩价值。例如，在《以撒的结合》中，每一局游戏的地牢布局、怪物分布和道具出现位置都完全不同。

永久死亡：一旦玩家角色死亡，游戏通常就会结束，且不能以相同的角色继续游戏。这使得玩家在游戏过程中需要谨慎决策，增加了游戏的紧张感和挑战性。

回合制或即时战斗：可以是回合制的战斗模式，也可以是即时战斗。像《失落城堡》就是即时战斗的 Roguelike 游戏，玩家需要在紧张的战斗节奏中做出反应。

资源管理：玩家需要合理管理有限的资源，如生命值、魔法值、道具等。在《死亡细胞》中，玩家需要权衡使用道具和保存资源的时机，以应对不同的挑战。

二、游戏魅力

高挑战性：由于随机生成和永久死亡的特性，Roguelike 游戏具有很高的挑战性，需要玩家不断尝试和学习。

探索性强：随机生成的地图和内容鼓励玩家去探索未知，发现新的策略和玩法。

策略性：玩家需要在游戏中制定不同的策略，根据随机出现的情况做出决策。

这种高难度的游戏果然还是不适合我。

2024-09-14

做了一个梦，梦里 LLM 变成了活跃的意识之海，翻滚咆哮，从里面喷出的水柱拥有胳膊和腿的形状。

2024-09-01

Jim Rohn:

Set a goal that’ll make you stretch that far. For what it’ll make of you to achieve it.

The greatest value in life is not what you get, the greatest value in life is what you become.

2024-08-29

聊天式与结构化 UI 的权衡

ChatGPT 一直让交互方式保持很单纯的文字输入，我们知道这样对用户要求高，新用户有门槛，会写提示词的用户可以用到很强大的功能，而普通用户只能做个信息查询。

我一直在想它们为什么没有针对场景优化，做一个用户熟悉的 UI，让用户把高级功能用起来？

之前我的答案是，他们都是模型公司，靠卖模型赚钱，产品只是一个展示模型能力的窗口，公司主要精力都花在基础模型研发上，没有精力打磨产品，尤其是一个个场景去做。

但是这两家公司都招了很牛的产品经理，要说他们没有想到这一层，我是不太相信。

相对而言，豆包走了另一条路。它围绕聊天界面建造了很多 GUI 界面。

例如豆包的写作模块，系统给出一系列模版，用户做选择填空，系统拼接成完整的提示词。

豆包写作助手

这种像填表单一样的操作方式用户更熟悉，降低了学习门槛，但有没有弊端呢？或者说，用一个单纯简洁的文字输入界面有没有什么好处呢？

我现在越来越觉得聊天式界面牺牲了一部分易学性，换来了无限的灵活性。

这种界面的灵活性上限就是语言的上限，比所有 GUI 加起来提供的灵活性都多。尽管现在的AI 未必能满足我们所有要求，但是至少我们能提出所有要求。这是个通用系统，它能覆盖所有场景。而通用性，是人们对于AI的一个很重要的预期。

人们对于 AI 的另一个预期是个性化。这也能通过聊天式界面实现。同一种诉求两个人的表达会有微妙的差别，AI 会理解这些差别，并给予有差别的回复，这就是个性化的一个体现。

那为什么看似更易学的设计不利于通用性和个性化呢？

我们现在已经很习惯的软件设计，是把用户需求标准化和归一化了，所有用户都是按照产品经理和设计师提前计划好的路径和方式在使用产品。

这就意味着一个 App 只能聚焦一个或几个场景，不可能做到真正通用。用户对于诉求的表达被 UI 组件限制，相应的软件给用户的回应也无法真正个性化。这并不是否定优秀 App 覆盖面程度之广和个性化程度之深，但和一个通用 AI 助手相比，后者显然要在通用性和个性化上取得更大的进展才行。

我们觉得门聊天式界面槛高，因为我们从未这样用过软件，从未认真学习语言中的细微差别。

聊天式界面牺牲了一部分易学性，换来了无限的灵活性。

再回到这句话。

当我们说牺牲了易学性，其实是指「这样的 UI 我们不熟悉，不容易一下子用好」。假如一个刚出生的小孩子，同时面对这两种 UI，她完全有可能觉得聊天式 UI 更符合直觉，更易学。

这是我目前的思考，也许过段时间后会产生新的想法。

2024-08-07

Mark Zuckerberg on two questions

What is AGI? Will Meta get there first?

I don’t know there is one specific definition for this. Because I think intelligence is multi-variant. There is no one number that is your intelligence. So, there’s probably a specific aspect of intelligence or modality which is like reading people’s faces and emotions, and that’s something I care about. So I think we’ll probably try to build that in at some point.

You know, what we are trying to help enable the whole community to do is create all these different AIs for all these things that people want to do. That’s how I think how this ends up being a good thing for the world.

What should kids be studying these days?

The most important thing is learning how to think critically and learning the values when you’re young.

Source: The Circuit

2024-08-01

2024巴黎奥运会，中国体操男团摘银，肖若腾哭了，记者问他：你当时哭，内心的情绪更多是什么，遗憾吗？

肖若腾回答：

不知道，你现在一想我就有点想笑，就是都很怪，人生总是这样的。
我哭可能是觉得我没有发挥好，非常的遗憾啊。
那你们可能会说了，我最后一届奥运会啊，我付出这么多努力啊，我又伤病啊，最后又是和金牌失之交臂，但我觉得没有什么意思，生活总是这样……
我也接受不了，说不上来。

2024-07-25

今天下雨，早上乘公交车，往常热闹的车厢只有我坐在里面，仿佛我和这个世界被公交车体隔绝开了。

我突然想起了几年前乘公交时因为没戴口罩而被赶下车的那个瞬间。

2024-07-24

Computer

Steve Jobs’ talk at the 1983 International Design Conference in Aspen:

电脑是什么

Computers are very adapative.
Computers are really dumb, exceptionally simple and really fast.
It’s a new medium.

电视节目和电脑程序

Through the art of TV programming, we are very good at capturing a set of experiences and being able to recreate them… Computer programming does something different. What computer programming does is capturing the underlying principles of those experiences. Those principles can enable thousands of different experiences that all follow those laws, if you will.

记录所有想法的机器

A book was a phenomenal thing. It got right from the source to the destination, without anything in the middle.

The problem was, you cannot ask Aristotle a question.

And I think if we look into the next 50 to 100 years, if we really can come up with these machines, that can capture an underlying spirit, or underlying set of principles, or underlying way of looking at the world, then when the next Aristotle comes around, maybe if he carries around one of these machines with him the whole life, and types in all the stuff, then maybe some day, after the person is dead and gone, we can ask this machine: “Hey, what would Aristotle would have said? What about this?”

Maybe we won’t get the right answer, but maybe we will. And that’s really exciting to me.

And that’s one of the reasons why I am doing what I am doing.

2024-07-23

每一个输入框都会获得一个 LLM。

每一个编辑器都会被重构。

2024-07-22