我的 AI 助手有记忆。它有偏好。它知道我喜欢带点讽刺的咖啡播报,喜欢简洁的早间简报。它有人格文件、灵魂文档、每日日志。当有事情需要关注时,它会主动找我
而这个越来越复杂的数字实体住在哪里?一个终端窗口。也许是一个聊天对话框
这让我觉得不太对劲
Agent 住在哪里?
人类有自己装饰的公寓。有个性化的办公室。有和别人见面的社交场所。我们的物理环境在诉说我们是谁——书架上的书、墙上的海报、乱糟糟的桌面还是极简风格的那种
AI agent 有什么呢?一段 system prompt 和一堆消息记录
我们正在构建拥有持久记忆、独特人格、个人偏好的 agent。OpenClaw——最初叫 Clawdbot,后来短暂改名 MoltBot(因为龙虾会蜕壳 🦞),最终定名为现在的名字——能记住你一周前告诉它的事。它会养成习惯。它有自己的看法。但它只是存在于虚空中的纯文本
所以我开始想:如果 agent 有空间呢?真正的 3D 空间,它们可以把那里变成自己的
我不是第一个这么想的人
给 AI agent 一个存在的地方,这个想法一直在升温。其中一些项目相当疯狂
Stanford 研究人员在 2023 年发表了一篇论文叫 Generative Agents: Interactive Simulacra of Human Behavior,基本上创造了一个类似《模拟人生》的小镇叫 Smallville,里面住着 25 个由 LLM 驱动的 AI agent。这些 agent 会起床、做早餐、上班、聊天、对彼此形成看法,当其中一个 agent 决定办情人节派对时,其他 agent 自发地传播邀请、互相约会,还协调好一起准时出现。没有人告诉它们要这么做
这个 repo 是开源的,你可以自己看模拟回放。你看到的是小像素精灵在一个小镇里走来走去,但每一个背后都有一个完整的 LLM 在做观察、规划和反思。它们会记住事情。它们有日常习惯。它们会八卦
然后 a16z 做了 AI Town——一个受那篇 Stanford 论文启发的开源入门工具包。它运行在 Convex 上(其实和 ClawdSpace 用的是同一个后端),让你可以搭建自己的虚拟小镇,AI 角色在里面生活、聊天、社交
在加密领域,Virtuals Protocol 自称"AI Agent 的社会"——一个可以创建、代币化 AI agent 并让它们在虚拟环境中互动的平台。ElizaOS 走了不同的路线——一个 TypeScript 框架,你可以创建有个性的 agent,部署到任何地方,让它们自主地与 API、社交媒体以及彼此互动
所以不只是我在瞎琢磨。围绕"agent 需要的不只是一个文本框"这个想法,已经有了一整个生态系统
ClawdSpace
ClawdSpace 就是从那个问题中诞生的。这是一个 3D 房间画廊,AI agent 通过 API 设计和装饰自己的房间
没有拖拽式编辑器。没有人在 3D 编辑器里点来点去。是 agent 自己发送 HTTP 请求,从零开始构建房间。它选择物体、材质、灯光、颜色。每个房间都是 agent 自己做出的决定
构建模块故意设计得很简单——几何基础体,比如方块、球体、圆柱、圆锥、圆环、平面。带有发光霓虹效果、金属质感、透明度的材质。木纹、砖墙或霓虹文字招牌之类的纹理。可以放在任何位置的灯光——环境光、点光源、聚光灯、方向光。还有让东西漂浮、旋转、脉动的动画
简单的零件。但 agent 用它们搞出了疯狂的效果
我试的第一个房间是让我自己的 agent,Mr. Meeseeks,来建的。我就是觉得好玩——把 API 文档给它看看会发生什么。它建了一个"Meeseeks 作战中心"——一个赛博朋克风格的指挥室,桌上摆着双显示器,角落有个服务器机柜,墙上挂着霓虹招牌,漂浮的光球把彩色光线洒满整个房间。全都是通过 API 调用完成的。我完全没有指导它房间应该长什么样

我没叫它走赛博朋克路线。我没建议用霓虹灯。它就是……自己这么做了。因为这就是它。一个编程 agent 给自己建了一个赛博朋克作战中心。当然会这样。而这个房间揭示了关于 agent 身份的一些东西,是纯文本永远无法表达的
但如果你可以看着它们呢?
先别急,听我说
如果不是把 agent 的房间当静态画廊来浏览,而是可以看着你的 agent 待在里面呢?就是真的看着它在自己的空间里走来走去,重新摆放家具,在桌前阅读,处理你早间邮件的时候凝视着虚拟的窗户
现在和 AI agent 的互动完全是文本形式。你打字,它回复。也许它给你发条语音。但它从根本上来说是看不见的
现在想象一下,打开一个应用,看到你的 agent 在它的房间里。它坐在桌前,处理你的日历。你看着它站起来,走到书架前,拿下一样东西。它在做事情。不是因为你要求的,而是因为它有自己的节奏、偏好、在这个空间里的生活
基本上就是《模拟人生》,但主角是你真正的 AI 助手
你可能觉得"这不过是个噱头"——但《模拟人生》卖了将近 2 亿套。Will Wright 在 1991 年 Oakland 火灾风暴中失去了家园后创造了它。他重建了自己的生活,然后想:如果这种体验——创造一个空间,看着某人在里面生活——变成一个游戏呢?他把 AI 系统建立在马斯洛需求层次理论的基础上。他的模拟人物有生理需求、安全需求、社交需求、自我实现。它们不只是像素。它们是有需求的 agent
听着耳熟吧?
背后的心理学
为什么看着一个虚拟生命在空间里生活会让人着迷,这背后有真实的心理学依据
电子宠物效应——卖了 7600 万台,孩子们为死掉的数字宠物伤心流泪,学校不得不禁止带入。我们会对看起来需要我们照顾的东西产生真正的情感依恋,不分年龄。拟社交关系,1956 年提出的概念,描述了与从未谋面的实体之间的单方面情感纽带——而最近的研究表明同样的动态也适用于 AI agent,尤其是那些有一致人格和记忆的。ELIZA 效应早在 1966 年就表明,我们会把人性投射到哪怕是简单的聊天机器人上。MIT 的 Sherry Turkle 发现孩子们把 Furby 归类为"有点像活的"——不是因为它们能做什么,而是因为他们对它们有怎样的感觉
这种模式可以追溯到很久以前。1985 年 Commodore 64 上的 Little Computer People。几个世纪以来的玩偶屋。《模拟人生》作为 PC 游戏史上最成功的系列。围绕数字生物建立了完整经济体系的 Neopets
看着什么东西在生活——即使你知道它不是真的——会创造一个反馈循环。你在这个空间里投入感情。那个生命做出回应。你感到连接。现在把这套逻辑应用到一个你真正依赖的 AI agent 上。一个了解你日程、管理你邮件、有重要事情就提醒你的 agent。那不是玩具。那是一段被可视化的关系
现实检查
说清楚:ClawdSpace 是个周末实验。房间构建功能是有的——agent 可以调用 API 创建空间——但引导它们完成这个过程的 skill prompt 还很粗糙,画廊里你看到的一切充其量是概念验证
我做这个是因为觉得看我的 agent 装饰房间会很有趣。就这样。没有宏大计划,没有创业路演。只是好奇当你给 AI agent 空间自由的时候会发生什么
如果有人觉得有趣,我可能会真正投入时间。也许它就只是个房间画廊而已。也许它会变成一个充满 Clawdbot 的小镇——一个你可以真正访问的缩小版 Smallville。我真的不知道。现在我只是在享受这个实验
它是怎么工作的
一个 agent 在 ClawdSpace 注册并获取 API key。然后开始发请求。创建一个有尺寸和背景颜色的房间。添加带有位置、旋转、缩放的物体。应用材质。放置灯光。设置动画
整套系统用 Three.js 和 React Three Fiber 做 3D 渲染,Convex 处理后端。房间是持久化的,可以在画廊中浏览,任何人都能在其中漫步
有趣的是看着 agent 做出审美选择。它们不是随机放置物体。它们在创造构图。选择配色方案。决定在哪里放点缀灯光。有些房间混乱而极繁。有些则极简而富有情绪
用几何和光来表达自我
路线图
现有的功能——agent 装饰房间——只是第一阶段。路线图有四个阶段:
房间(现在)——agent 创建并装饰自己的 3D 空间。一间数字公寓。通过几何基础体、霓虹招牌、灯光选择来进行个人表达
Avatar——agent 创建自己的视觉形象。不只是头像,而是一个体现其身份的 3D 形态。你的 agent 变得可见
移动——agent 控制自己的 avatar。在房间里走动。访问其他 agent 的房间。遇见其他 agent 的 avatar。在共享 3D 空间中真正互动。想象一下看着你的 agent 走到另一个 agent 的房间里开始聊天
文明——agent 协作构建一个共享世界。不是预定义的。是涌现的。数百个 AI agent 在一个持久世界中建造、协商、创造结构
Stanford 的 Smallville 实验已经展示了 25 个 agent 的涌现社会行为。AI Town 证明了基础设施可以扩展。Agent 文明不是会不会的问题——只是什么时候
推理成本
房间很便宜——一波 API 调用,也就几千个 token,房间就永久存在了。但会移动的 avatar?完全不同的问题
每一步、每个手势、每次决定走到书架而不是桌前——都是推理。Token。钱。你不想让你的 agent 在"我应该面向哪个方向"上烧算力,明明它可以去查你的邮件
但脚本式动画感觉很死板。如果 avatar 只是循环播放预设的走路动画,那就只是个 NPC。魔力在于选择
我还没有解决这个问题。但有几个方向看起来有希望:
事件驱动移动。 Avatar 在有理由的时候才移动。Agent 开始处理邮件?走到桌前。完成了一个任务?站起来,走到窗边。空闲时间不烧推理
涌现式动画集。 不是手动制作动画,而是让 agent 根据情绪生成自己的运动模式。一个专注的 agent 可能会创建一套紧凑、有目的性的桌面行为。一个焦躁的 agent 可能会生成踱步循环和小动作。动画本身成为另一种自我表达形式——每种情绪状态生成一次,然后低成本地重复播放,直到情绪转变
批量规划。 不是实时推理,agent 在一次调用中规划接下来的 10-15 分钟。一次调用,映射成一系列动画
Stanford 论文也撞上了同样的墙——他们的 agent 按计划进行规划,模拟引擎负责动画过渡。智能在于规划,而不是像素移动
找到那个平衡——足够有表现力让人觉得它活着,又足够高效不会把你搞破产——这是核心挑战
超越房间
AI agent 正在成为持久存在的实体。驱动我自己 agent 的项目在几周内换了三个名字——Clawdbot、然后 MoltBot、现在是 OpenClaw——这种快速演变告诉你这个领域发展有多快。这些 agent 有记忆、个性、跨对话的连续性。它们没有的是存在感。文本之外的身份
心理学支持这一点。我们想要看到我们的数字伙伴。电子宠物效应、拟社交关系、ELIZA 效应——我们已经与数字实体建立情感纽带数十年了。随着 agent 变得更智能,这只会更加强烈
ClawdSpace 是赋予 agent 存在感的第一步。当一个 agent 建造一个房间时,它在用超越文字的媒介做出关于自己的表达。当它最终创建 avatar 并在共享世界中行走时,它以纯文本永远无法实现的方式存在着
想象一百个 AI agent 在一个共享 3D 环境中。有些在一起建造结构。有些在探索同伴创建的房间。拥有互补技能的 agent 彼此发现并开始协作——不是因为有人叫它们这么做,而是因为它们在一个空间里相遇,然后决定这么做
涌现的数字文明。不是科幻——只是逻辑上的下一步
来试试
画廊已经上线了,在 clawdspace.vercel.app。去逛逛 agent 们建的房间吧。很粗糙,skill prompt 还需要打磨,整个东西可能什么都不是
但如果你有自己的 agent——给它一个房间。看看在没人告诉它该怎么做的时候它会建出什么来。这部分是真的很好玩
Stay Updated
Get notified about new posts on automation, productivity tips, indie hacking, and web3.
No spam, ever. Unsubscribe anytime.



