Post

AI Agent 专题 - Agent Interface 的纸上谈兵

token 不够怎么办?工程实践赶来凑。

AI Agent 专题 - Agent Interface 的纸上谈兵

一个好的agent interface 能够很大程度的减少幻觉带来的影响。

agent interface的重要性,不亚于模型支持的token数量。

在无限token到来之前,我们总要尝试用一些工程能力来规避科学难题,比如幻觉,比如token的限制。

在这样的大环境下,社区滋生了一系列适用于ai的interface 能力,并且全员一拥而上的拾柴火。

  • Stream output
  • Bi-directional state synchronization
  • Generative UI and structured messages
  • Human-in-the-loop

这些尝试,都是为了让ai与人类交互的时候更显自然。

AG-UI

目前ai的一个大限制是,屏幕,鼠标。AI 再智能,也无法脱离这些传统软件的input output设备。那么如何透过屏幕,传递一些特定的信息呢?无非就是文字,表单,表格,超链接,按钮,这些万变不离其宗的软件元素。

你有更好的选择吗?即使是黑镜这种科幻剧里,人与系统的交互还停留在按钮层面,只不过屏幕不停的在突破限制,从平面到空间,从厚到薄,如此这般。

或许理想中的交互是没有交互,机器人跟你磨合到一定程度后,通过你的微表情和心理微变化来判断你的需求。就像剧里黑帮大佬的贴身手下,总能在老大的一个微表情后准确的执行“杀”,或者“不杀”的指令一样。

但是今天,为了能让ai在企业中,更好的控制流程(比如在需要的时候生成一个按钮,或者其他表单元素),更好的获得人的反馈(比如在决定是否要把上下文保存为长期记忆时),还是非常的依赖页面元素。

在这样的需求和环境下,出现了AG-UI的项目。

本质上,AG-UI是一个协议,能够根据特定的需求,直接在会话框里生成交互模块。

比如AI正在执行一个方法,它会出现一个执行方法名,成功失败后,会有对应的状态更新。

比如我在流程的某一步需要人类的approve,它会生成一个approve的按钮。

这样很明确的指向,增加了我们对流程的控制,减少了跳脱工作流的可能性。

这个视频很好的解释了一切:

但是,还不够

但是我觉得,这是在尝试用软件思维来解决ai的交互问题。agui终将被淘汰。agui用的是协议,用的是共识,比如agent提出问句时候,以某种特定的格式输出给前端。

这歌方案侧面反应了ai的局限性,ai对客户端的环境不可感。若,ai是服务端的大语言模型,同时还能把触手伸向每个客户端,感知客户端环境,运行状态,系统,摄像头,那么如此丰富的上下文足以让ai释放出更多能力。

比如当对话的用户用的是windows时,为了解答用户的问题,它可以现编译一个exe文件,以人类看得懂的图例来展示问题。

万神殿

万神殿动画片里的ai就具备这样的能力,ta们不仅仅是一个运行在服务端的模型,ta们看起来更像是活在互联网里的精灵。

主角父亲的ai直接能够在屏幕上敲出表情包;作为一个实体,主角父亲的ai能够在不同计算机里传输,不同算力的计算机给予他不同程度的能力。因催斯汀。

token的抽象

token作为感知上下文的能力,将来必定是兵家必争之地,当无限token出现时,万神殿的ai就能够实现。我的第一个请求,系统就会把我的一生,我运行的客户的操作系统源码,摄像头的所有记录,都作为token给到模型,模型基于如此巨大的信息量作为上下文,能够给到我契合我的需求的答案,像个善解人意的姐姐一样,很多话不必说她就懂。

或许这样的ai就是Deep Thought,而这个终极问题的答案就是42。

半人马座α星

这样的ai不适合跟人类一起工作,不适合处理所谓公司workflow这种事情,ta应该把自己上传到u盘里,用光信号的方式把自己发往半人马座α星。

This post is licensed under CC BY 4.0 by the author.