AI Agent 专题 - Agent Interface 的纸上谈兵

token 不够怎么办？工程实践赶来凑。

Posted Aug 5, 2025 Updated Aug 11, 2025

By Jakob He

6 min read

一个好的agent interface 能够很大程度的减少幻觉带来的影响。

agent interface的重要性，不亚于模型支持的token数量。

在无限token到来之前，我们总要尝试用一些工程能力来规避科学难题，比如幻觉，比如token的限制。

在这样的大环境下，社区滋生了一系列适用于ai的interface 能力，并且全员一拥而上的拾柴火。

Stream output
Bi-directional state synchronization
Generative UI and structured messages
Human-in-the-loop

这些尝试，都是为了让ai与人类交互的时候更显自然。

AG-UI

目前ai的一个大限制是，屏幕，鼠标。AI 再智能，也无法脱离这些传统软件的input output设备。那么如何透过屏幕，传递一些特定的信息呢？无非就是文字，表单，表格，超链接，按钮，这些万变不离其宗的软件元素。

你有更好的选择吗？即使是黑镜这种科幻剧里，人与系统的交互还停留在按钮层面，只不过屏幕不停的在突破限制，从平面到空间，从厚到薄，如此这般。

或许理想中的交互是没有交互，机器人跟你磨合到一定程度后，通过你的微表情和心理微变化来判断你的需求。就像剧里黑帮大佬的贴身手下，总能在老大的一个微表情后准确的执行“杀”，或者“不杀”的指令一样。

但是今天，为了能让ai在企业中，更好的控制流程（比如在需要的时候生成一个按钮，或者其他表单元素），更好的获得人的反馈（比如在决定是否要把上下文保存为长期记忆时），还是非常的依赖页面元素。

在这样的需求和环境下，出现了AG-UI的项目。

本质上，AG-UI是一个协议，能够根据特定的需求，直接在会话框里生成交互模块。

比如AI正在执行一个方法，它会出现一个执行方法名，成功失败后，会有对应的状态更新。

比如我在流程的某一步需要人类的approve，它会生成一个approve的按钮。

这样很明确的指向，增加了我们对流程的控制，减少了跳脱工作流的可能性。

这个视频很好的解释了一切：

但是，还不够

但是我觉得，这是在尝试用软件思维来解决ai的交互问题。agui终将被淘汰。agui用的是协议，用的是共识，比如agent提出问句时候，以某种特定的格式输出给前端。

这歌方案侧面反应了ai的局限性，ai对客户端的环境不可感。若，ai是服务端的大语言模型，同时还能把触手伸向每个客户端，感知客户端环境，运行状态，系统，摄像头，那么如此丰富的上下文足以让ai释放出更多能力。

比如当对话的用户用的是windows时，为了解答用户的问题，它可以现编译一个exe文件，以人类看得懂的图例来展示问题。

万神殿

万神殿动画片里的ai就具备这样的能力，ta们不仅仅是一个运行在服务端的模型，ta们看起来更像是活在互联网里的精灵。

主角父亲的ai直接能够在屏幕上敲出表情包；作为一个实体，主角父亲的ai能够在不同计算机里传输，不同算力的计算机给予他不同程度的能力。因催斯汀。

token的抽象

token作为感知上下文的能力，将来必定是兵家必争之地，当无限token出现时，万神殿的ai就能够实现。我的第一个请求，系统就会把我的一生，我运行的客户的操作系统源码，摄像头的所有记录，都作为token给到模型，模型基于如此巨大的信息量作为上下文，能够给到我契合我的需求的答案，像个善解人意的姐姐一样，很多话不必说她就懂。

或许这样的ai就是Deep Thought，而这个终极问题的答案就是42。

半人马座α星

这样的ai不适合跟人类一起工作，不适合处理所谓公司workflow这种事情，ta应该把自己上传到u盘里，用光信号的方式把自己发往半人马座α星。

ai, agent

ai agent

This post is licensed under CC BY 4.0 by the author.