AI Agent 专题 - Agent Interface 的纸上谈兵
token 不够怎么办?工程实践赶来凑。
一个好的agent interface 能够很大程度的减少幻觉带来的影响。
agent interface的重要性,不亚于模型支持的token数量。
在无限token到来之前,我们总要尝试用一些工程能力来规避科学难题,比如幻觉,比如token的限制。
在这样的大环境下,社区滋生了一系列适用于ai的interface 能力,并且全员一拥而上的拾柴火。
- Stream output
- Bi-directional state synchronization
- Generative UI and structured messages
- Human-in-the-loop
这些尝试,都是为了让ai与人类交互的时候更显自然。
AG-UI
目前ai的一个大限制是,屏幕,鼠标。AI 再智能,也无法脱离这些传统软件的input output设备。那么如何透过屏幕,传递一些特定的信息呢?无非就是文字,表单,表格,超链接,按钮,这些万变不离其宗的软件元素。
你有更好的选择吗?即使是黑镜这种科幻剧里,人与系统的交互还停留在按钮层面,只不过屏幕不停的在突破限制,从平面到空间,从厚到薄,如此这般。
或许理想中的交互是没有交互,机器人跟你磨合到一定程度后,通过你的微表情和心理微变化来判断你的需求。就像剧里黑帮大佬的贴身手下,总能在老大的一个微表情后准确的执行“杀”,或者“不杀”的指令一样。
但是今天,为了能让ai在企业中,更好的控制流程(比如在需要的时候生成一个按钮,或者其他表单元素),更好的获得人的反馈(比如在决定是否要把上下文保存为长期记忆时),还是非常的依赖页面元素。
在这样的需求和环境下,出现了AG-UI的项目。
本质上,AG-UI是一个协议,能够根据特定的需求,直接在会话框里生成交互模块。
比如AI正在执行一个方法,它会出现一个执行方法名,成功失败后,会有对应的状态更新。
比如我在流程的某一步需要人类的approve,它会生成一个approve的按钮。
这样很明确的指向,增加了我们对流程的控制,减少了跳脱工作流的可能性。
这个视频很好的解释了一切:
但是,还不够
但是我觉得,这是在尝试用软件思维来解决ai的交互问题。agui终将被淘汰。agui用的是协议,用的是共识,比如agent提出问句时候,以某种特定的格式输出给前端。
这歌方案侧面反应了ai的局限性,ai对客户端的环境不可感。若,ai是服务端的大语言模型,同时还能把触手伸向每个客户端,感知客户端环境,运行状态,系统,摄像头,那么如此丰富的上下文足以让ai释放出更多能力。
比如当对话的用户用的是windows时,为了解答用户的问题,它可以现编译一个exe文件,以人类看得懂的图例来展示问题。
万神殿
万神殿动画片里的ai就具备这样的能力,ta们不仅仅是一个运行在服务端的模型,ta们看起来更像是活在互联网里的精灵。
主角父亲的ai直接能够在屏幕上敲出表情包;作为一个实体,主角父亲的ai能够在不同计算机里传输,不同算力的计算机给予他不同程度的能力。因催斯汀。
token的抽象
token作为感知上下文的能力,将来必定是兵家必争之地,当无限token出现时,万神殿的ai就能够实现。我的第一个请求,系统就会把我的一生,我运行的客户的操作系统源码,摄像头的所有记录,都作为token给到模型,模型基于如此巨大的信息量作为上下文,能够给到我契合我的需求的答案,像个善解人意的姐姐一样,很多话不必说她就懂。
或许这样的ai就是Deep Thought,而这个终极问题的答案就是42。
半人马座α星
这样的ai不适合跟人类一起工作,不适合处理所谓公司workflow这种事情,ta应该把自己上传到u盘里,用光信号的方式把自己发往半人马座α星。