本文核心内容来源于视频:https://www.douyin.com/video/7529703060969508130, 并对其中部分内容做了修订,建议先观看视频,文字内容作为补充。
这两年大模型飞速发展,语言理解和逻辑推理能力越来越强大,但你是否也发现了一个问题:尽管这些模型能“说”得非常漂亮,它们却很难“做”事情。比如,让大模型写个代码没问题,但让它保存到文件里?还的你动手,更别说部署了。这就是大模型最本质的限制——它无法直接感知和改变外部环境。
接下来,我将带你深入理解如何利用工具赋能大模型,构建具备“感官”和“行动力”的智能体 ( Agent ),详细讲解 ReAct
与 Plan-and-Execute
两种主流的 Agent 设计模式,并以实例代码演示如何从0开始构建一个简单的 Agent,让你对 Agent 的构建原理了然于心。
大模型的局限:无法感知与行动
先来看一个简单例子:你让 GPT-4o 帮你写一个贪吃蛇游戏,它确实能生成一份不错的代码。但写完后呢?它无法把代码写入本地文件、也不能运行程序、更不会自己浏览项目目录。哪怕你已经有了一些代码,想让它“接着改”,也只能手动复制粘贴。
换句话说,大模型是“盲”和“瘫”的,它不知道外部世界发生了什么,也无法改变它,除非你主动告诉它一切。