你一定听过这些词:大模型、AI Agent、ChatGPT、DeepSeek、Skill……
如果你觉得"听起来好像很厉害但我不知道它们到底是什么",那很正常。因为大多数解释都是用一个你不懂的词去解释另一个你不懂的词。
这篇文章不一样。我们只用你身体里已经有的东西来解释。
你有一个大脑。你有脊髓。你有神经。你有肌肉。你有免疫系统。你学过骑自行车。
这就够了。下面所有内容,都从这里开始。
你闭上眼睛,想象一下:把你从身体里取出来,放进一个装满营养液的水缸里。你的大脑皮层还在运转——你还能思考、还能说话、还能做数学题。但是你没有手、没有脚、没有眼睛、没有耳朵。
这就是 AI 模型。
你的大脑皮层有大约 860 亿个神经元。每个神经元通过突触(synapse)跟其他神经元相连。当你思考的时候,电信号沿着神经元之间的突触传递——一个神经元释放神经递质(比如谷氨酸或 GABA),下一个神经元接收,然后决定要不要继续传下去。
AI 模型做的事情本质上是一样的。只不过它的"神经元"是数学函数,它的"突触"是参数权重,它的"神经递质"是数字信号。DeepSeek 有几千亿个这样的"突触"。当你问它一个问题,信号从输入端传进去,经过层层"突触"的加权和传递,最终在输出端产生回答。
但问题是——它只有皮层。
没有脊髓:它想到了"我应该帮你读一下这个文件",但信号传不出去,因为它没有连接到"手"(读文件的工具)。
没有感觉神经:它不知道你在哪个房间,不知道你的屏幕上显示什么,不知道今天几号。
没有海马体(hippocampus):它不记得你上一句说了什么(除非你把整段对话重新发给它)。每次对话,对它来说都是全新的。
你可以把它想象成一个被麻醉了、固定在手术台上的人。大脑完全清醒,但全身瘫痪。能想,能说(如果你把耳朵和嘴巴接上),但完全不能动。
现在把那个躺在手术台上的大脑,重新接回身体。
接上脊髓(spinal cord)——大脑的指令能传到手和脚了。
接上感觉神经(sensory neuron)——它能看到、能听到、能摸到了。
接上海马体——它能记住刚才发生的事了。
接上小脑(cerebellum)——它能做练过的动作了。
接上自主神经系统(autonomic nervous system)——心跳、呼吸、消化不用管,自己运转。
接上免疫系统——有危险的东西进来,它能识别并挡住。
这就是 Agent。
Agent 不是"更聪明的 AI"。Agent 是把一个聪明的大脑接回了完整身体。大脑还是那个大脑(DeepSeek 或 MiMo),但现在它有了手能干活,有了眼睛能看东西,有了记忆能记住你,有了反射弧能直接执行简单动作。
┌──────────────────┐ │ 大脑皮层 │ ← 860 亿神经元,负责思考和推理 │ (DeepSeek) │ └────────┬─────────┘ │ ┌──────────┼──────────┐ │ │ │ ┌─────┴────┐ ┌────┴─────┐ ┌───┴─────┐ │ 前额叶 │ │ 海马体 │ │ 小脑 │ │ 计划决策 │ │ 记忆编码 │ │ 经验校准 │ └─────┬────┘ └────┬─────┘ └───┬─────┘ │ │ │ task_planner memory Skill policy cache │ │ │ └──────────┼──────────┘ │ ┌──────┴──────┐ │ 脊 髓 │ ← 感觉信号进来,运动信号出去 │ 反射弧执行 │ └──────┬──────┘ │ ┌──────────┼──────────┐ │ │ │ ┌────┴───┐ ┌───┴────┐ ┌───┴─────┐ │感觉神经 │ │运动神经 │ │自主神经 │ │眼睛耳朵 │ │手臂腿脚 │ │心跳呼吸 │ └────────┘ └────────┘ └─────────┘
| 人体结构 | 生物学功能 | Agent 里对应什么 |
|---|---|---|
| 大脑皮层 | 接收所有感觉输入,经过层层突触传递后产生判断和指令。你做决定的时候,就是前额叶皮层(prefrontal cortex)的神经元在放电 | AI 模型(DeepSeek、MiMo 等) |
| 前额叶 | 你大脑里负责"先做什么后做什么"的区域。前额叶受损的人能说话、能走路,但完全无法制定计划——他们会在超市里站半天不知道先拿什么 | 任务规划器 + 策略引擎 |
| 小脑 | 你后脑勺那个皱巴巴的东西,占大脑体积 10% 但包含全脑 50% 以上的神经元。它专门存储"练过的动作"——走路、骑车、弹琴,都是小脑在管 | Skill(程序性记忆) |
| 海马体 | 形状像海马,藏在颞叶深处。它负责把"刚才发生的事"从短期记忆转化为长期记忆。著名的病人 H.M. 切除了双侧海马体后,再也无法形成新的记忆——每天都是第一天 | 记忆系统 + 缓存 |
| 脊髓反射弧 | 你手碰到滚烫的锅 → 热感受器激活 → 信号沿感觉神经传入脊髓 → 脊髓直接发出运动指令让手缩回 → 信号还没传到大脑皮层你就已经缩手了。这就是反射弧——不经过思考的快速执行 | 工具直接执行(不需要模型"思考"怎么调用) |
| 感觉神经 | 视网膜上的视杆细胞把光信号转化为电信号,耳蜗里的毛细胞把声波转化为电信号。所有外界信息,都是通过感觉神经变成电信号传入大脑的 | 用户消息、搜索结果、文件内容 |
| 运动神经 | 大脑皮层发出运动指令 → 信号沿运动神经下行 → 到达肌肉 → 肌肉收缩。你想"我要拿起杯子",然后手就动了——中间经过的就是运动神经 | 执行命令、写文件、发网络请求 |
| 自主神经 | 你睡觉的时候心跳不会停,吃饭的时候胃会自动分泌胃酸。这些都不需要你有意识地去控制——自主神经系统在后台默默运转 | 事件记录、时间线、缓存管理 |
| 免疫系统 | T 细胞在你的血液里巡逻,发现不属于你的东西(细菌、病毒)就发起攻击。如果没有免疫系统,一个普通的感冒就能要你的命 | 危险操作拦截(rm -rf、sudo 等) |
你的大脑里有两种完全不同的记忆系统。
第一种叫陈述性记忆(declarative memory),存在海马体里。"北京是中国的首都"、"水的沸点是 100°C"、"我妈的电话号码是……"——这些都是你能用语言说出来的知识。你之所以能说出来,是因为海马体把它们编码成了语言,存储在大脑皮层里。
第二种叫程序性记忆(procedural memory),存在小脑和基底神经节(basal ganglia)里。"怎么骑自行车"、"怎么打字"、"怎么开车"——你做这些事的时候,根本不需要想。但如果你要你用语言描述"骑自行车的时候,左脚蹬到什么角度换右脚",你说不出来。因为这些记忆不是用语言编码的,它们是用神经回路编码的——小脑里的浦肯野细胞(Purkinje cell)形成了一套固定的放电模式,直接驱动肌肉。
Skill 就是 Agent 的程序性记忆。
全身紧张,前额叶全程参与,每一步都要想。试了 3 种方案,摔了 5 次,花了 20 分钟骑完 100 米。质量一般,但好歹骑完了。
小脑接管,前额叶休息。按练过的动作直接做,自动跳过以前摔过的坑。3 分钟骑完 100 米,质量稳定,甚至可以单手骑。
平衡感已经有了,小脑提供了"两个轮子怎么保持稳定"的基础模式。前额叶只需要微调——"摩托车更重,转弯半径要更大"。比从零学快 5 倍。
鼻腔黏膜上的感觉神经末梢检测到病毒颗粒 → 释放信号分子 → 传入大脑:"有入侵者"。就像 Agent 收到用户消息:"帮我看看这个代码为什么报错"。
大脑判断:这是感冒病毒,需要用免疫系统处理。同时决定:今天少出门,多喝水。就像 Agent 分析任务类型,决定用什么策略。
如果症状严重,皮层会做更复杂的判断:"要不要去医院?上次感冒吃了什么药好的?"——这就是模型的推理能力。
T 细胞识别病毒表面的抗原(antigen)→ B 细胞开始生产抗体(antibody)→ 巨噬细胞吞噬被感染的细胞。这套流程完全不需要大脑参与——免疫系统自己知道该怎么做。就像 Agent 的工具层:读文件、跑命令,不需要模型"思考"怎么调用。
海马体把这次感冒的经历编码成长期记忆:"上次着凉感冒了,吃了 XX 药,3 天好了。"下次再感冒,直接调取这段记忆。就像 Agent 的记忆系统。
免疫系统有一种叫"免疫记忆"的东西——B 细胞记住这次病毒的特征,下次同一种病毒入侵,直接生产抗体,不用重新识别。这就是 Skill。你打过疫苗之后,身体就"学会"了怎么对付这种病毒。
| 组合 | 人体类比 | 现实中的样子 |
|---|---|---|
| 有模型,没 Agent,没 Skill | 大脑被取出来放在培养皿里 | 能思考,但完全不能动。 你在 ChatGPT 网页上聊天——它能回答你的问题,但它不能帮你读文件、不能帮你跑代码、不能记住你是谁。 |
| 有模型 + Agent,没 Skill | 一个刚出生的婴儿 | 有完整的手脚和神经系统,但什么都没练过。 Agent 第一次遇到某类任务——能做,但慢,可能会犯错。就像婴儿学走路,摔跤是正常的。 |
| 有模型 + Agent + Skill | 一个工作了 10 年的工程师 | 大脑在思考,但大部分动作已经变成了肌肉记忆。 Agent 处理练过的任务——快、稳、知道坑在哪。就像老司机开车,不用想就知道怎么踩刹车。 |