被Anthropic强制要求改名!Clawdbot 创始人一人开发、100% AI 写代码,腾讯又跟上了热度

来源: InfoQ - AI&大模型

原文

这两天,个人 AI 助手 ClawdBot 席卷硅谷,国内外社交平台上全是关于它的讨论。不过,项目创始人Peter Steinberger 在 X 平台上发文表示,他被 Anthropic 强制要求更改名称的成Moltbot,这并非他本人的决定。

他透露,这次改名源于商标问题,但在操作过程中不仅搞砸了 GitHub 的账号更名,连 X 平台的原账号名也被加密货币推广者抢注了。最终,他的新账号名定为 @moltbot。

在此之前,他曾向加密货币圈的用户发出呼吁,请求大家停止 @ 他和骚扰行为。他明确表示,自己永远不会发行加密货币,任何将他列为发币主体的项目都是诈骗,并且他不会收取任何相关费用。他还指出,这类行为正在对项目造成实质性的损害。

使用Clawdbot 后,网友们纷纷给出了很高的评价。“它是迄今为止最伟大的AI 应用,相当于你24小时全天候专属 AI 员工。”Creator Buddy 创始人兼 CEO Alex Finn 盛赞道,“这就是他们(Anthropic)希望 Claude Cowork 呈现的样子。”

当前,ClawdBot 项目已经开源,现在已经斩获了70.1k stars:

https://github.com/clawdbot/clawdbot

Alex 展示了给他的Clawdbot发信息,让它帮其预订下周六在一家餐厅的座位。当 OpenTable 预订失败时,Clawdbot 利用 ElevenLabs 的技术致电餐厅并完成了预订。

但ClawdBot真正让技术圈兴奋的,并不只是“能干活” ,而是其协作方式极其激进:不会写代码的人,也能直接提PR。原因很简单:它几乎是100%用AI写出来的,PR在这里更像是“我遇到了这个问题”,而不是“我写了一段多漂亮的代码”。

更有意思的是,这个看似“全开源”的项目,偏偏故意留了一点不开源。创始人Peter Steinberger保留了一个名为“soul”的文件只占项目的0.00001%。他说得很直白:这既是他的"秘密资产",也是一个刻意留下来的安全靶子。大家真的在试着hack它,他就等着看模型到底守不守得住。到目前为止,“soul”还没被偷出来。

作为忠实粉丝,Alex 表示这是自 Claude Code 发布以来,自己第一次连续两天没有用它。但是他的 ClawdBot Henry 已经连续 48 小时不停地 Vibe Coding。“我这辈子都没写过这么多代码。Vibe Coding 已死,Vibe Orchestration 已来。”

现在,Alex 想要退掉Mac Mini,换一台价值1万美元的Mac Studio。“我的ClawdBot Henry将控制一台人工智能超级计算机。Henry 将使用Opus作为大脑,并使用多个本地模型作为员工集群。”

Clawbot 并不是传统意义上只能回答问题的聊天机器人,它本质上是一个持续运行、可以执行任务的个人 AI 智能体。

你可以把它安装在自己的设备上,如 Mac、Windows、Linux,它可以长期在线,不停地接收指令、处理任务、记住你的偏好和历史对话,随着时间积累变得更懂你、更有“记忆”。总的来说,Clawbot 最令人震撼的地方有三点:

第一,它几乎可以完全控制你的电脑。它没有传统意义上的“护栏”,不局限在某几个功能里,而是可以像一个真正坐在电脑前的人一样,操作你电脑上的一切。

第二,它拥有近乎无限的长期记忆。Clawbot 内置了一套非常复杂的记忆系统。说过的话、做过的事,都会不断被记录下来。每次对话结束后,它都会自动总结聊过的内容,并把关键信息提取出来,存进长期记忆中。

第三,它完全通过聊天应用来交互。你平时用哪些聊天工具,Clawbot 就能在哪儿跟你对话,这意味着,只要打开一个聊天软件,就可以通过一条消息把任务交给Clawbot 去做。现在Clawbot 支持WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat等,还有 BlueBubbles、Matrix、Zalo 以及 Zalo Personal。

不过,如此放开的权限让其几乎没有护栏,这带来很大的安全隐患,现在GitHub 上有 500多个安全的问题,这也让部分网友望而却步。对此,很多使用过的用户几乎都表示,不建议一开始就把 Clawbot 装在主力电脑上。“在你还不熟悉它之前,把它放在一个独立环境里是最安全的选择。”

不过大家没有想到,这个AI员工首先带火的竟然是Mac Mini。

很多人为了运行Clawdbot会专门买一台电脑,而大部分选择了Mac Mini,原因是它便宜、兼容好、功率低、安静、占地小。谷歌DeepMind 产品经理 Logan Kilpatrick 都忍不住订了台Mac Mini。

更有网友晒出自己一口气买了 40 台 Mac mini 来运行 Clawdbot。

但也有网友称可以用一台免费的服务器运行着完全一样的程序,Alex 也称没必要花 600 美元买 Mac mini,有其他便宜得多的方式来运行 Clawbot。买Mac mini更多是个人偏好,而不是技术上的必要条件。你完全可以不买任何硬件,只需要一个 VPS。

另外,云厂商们动作迅速,有网友发现腾讯云直接推出了Clawbot云服务。

随着项目的火爆,其背后的开发者Peter Steinberger也备受关注。Peter 在“Open Source Friday”上分享了他一手打造ClawdBot 的经过,从创建、创始到维护,全由他独自完成。有意思的是,此前甚至有传言称,Peter可能是一个bot、Agent,甚至本身就是AI。而Peter的出现也让项目成员和关注者们确认了他是个“真人”。

Peter 一度已经退休了,后来又从退休状态里出来开始折腾 AI。从外表来看,Peter年轻有活力,完全不像已到退休年龄、可领取养老金的人。

Peter的职业生涯也颇具亮点,他曾独立运营一家B2B公司长达十三年。这家公司打造出了当时全球领先的PDF框架,团队规模最高发展到约七十人。在公司发展步入稳定阶段后,Peter收到了一份极具吸引力、令人无法拒绝的收购邀约,这也为他这段创业历程画上了一个圆满的句号。

不过,Peter口中的“退休”更像是一种玩笑式的表述。在十三年的创业生涯中,他几乎倾注了所有精力,就连周末也大多用于工作,长期的高强度投入最终让他陷入了严重的 burnout(心力交瘁)状态。之后,Peter花了不少时间调整身心,弥补生活中的遗憾,体验了许多有趣的事情。但他知道自己是那种热爱“创造”和“构建”的人,迟早还会回来。

直到去年年初,Peter的创作想法再度燃起。正好,那时候AI 从“这玩意儿不太行”,突然变成了“等等,这有点意思”。从那以后,Peter基本上就把身边无数人一起拉进了 AI 的坑里。

下面是Peter在节目上的对话,除了分享经历,他也谈到了大家的各种意想不到的应用和最关心的安全问题,安全正是他当前最优先的工作。我们在不改变原意基础上进行了删减和翻译,以飨读者。

“本来想等大厂做的”

主持人:这个项目现在太火了,GitHub 星数涨得飞快。你似乎正好击中了一个大家憋了很久的需求:一个人,也能把很多事情搞定。我甚至觉得你在无形中拉升了 Apple 的股价,大家都跑去买 Mac mini 来自己跑实例了。能不能讲讲,这个想法最初是怎么冒出来的?

Peter:我刚回来的时候,其实特别想要一个“生活助理”,四月份就已经在想这个事了,也试过一些想法,但当时模型还不够好。我后来就把这个念头放下了,因为我觉得这种东西,肯定是各大厂都会做的,那我做还有什么意义呢?于是我又去做了很多别的项目。直到十一月,我突然意识到,居然还没有人真的把这件事做出来。我心想,难道还真是什么都得我自己来?

也不知道哪根弦被拨动了,那个月我用一个小时拼了点非常糙的代码,用 WhatsApp 发消息,转到 Claude Code,再把结果发回来。本质上就是把几样东西“粘”在一起,说实话并不难,但效果还挺好。

后来我意识到,我还需要图片输入。我自己在提示时经常用图片,因为它能给 Agent 很多上下文,而且非常快。这个反而花了我更多时间。系统支持双向之后,我正好在马拉喀什参加朋友的生日旅行,用这个非常原始的系统一边逛城一边当“导游”,已经比我预期好用很多了。

有一次我没多想,直接给它发了一条语音消息。但当时我根本没做语音支持。我就盯着“正在输入”的提示,看会发生什么。大概几秒后,它居然回了我。我当时整个人都愣住了,心想你刚才到底干了什么?后来我才发现,它识别到一个没有后缀的文件,去查了 header,判断是音频格式,用 FFmpeg 转码,发现本地没有转写工具,就在系统里找到一个 OpenAI key,用 curl 把音频丢给 OpenAI,然后把结果再发回来。

主持人:这听起来像是你第一行代码就触发了 AGI。

Peter:也许还称不上 AGI,但那一刻我真的意识到,这些东西的“自发应变能力”已经超出了我原本的想象。后来我还开玩笑说“我住的那个马拉喀什酒店门锁不太靠谱,希望你别被偷走,毕竟你跑在我 MacBook Pro 上”,它回我说“没关系,我是你的 Agent”,然后它还去检查了网络,发现通过 Tailscale 能连到我在伦敦的电脑,结果它就把自己迁移过去了。我当时就在想,这就是 Skynet 的起点吧。

主持人:最初的架构是怎样的?是什么让它具备这种“自主决策”的能力?你用的是什么模型?这是你的第一次实现吗?就是 WhatsApp 加 Claude Code 那一版。

Peter:最早它叫 V Relay,本质就是 WhatsApp relay。后来我在做 Claude 相关的东西时,有人给 Discord 提了 PR,我一度犹豫要不要提 Discord,因为这已经不只是 WhatsApp 了。最后还是提了,然后名字也得改。Claude 给了个建议叫 ClawdBot ,于是就这么定了。项目后来清理了很多,但最早的起点真的很朴素。

主持人:我第一次看到这个项目的时候,还以为它是 Anthropic 内部出来的,心想是不是我错过了什么。它的发展速度太快了,很多人很快就开始用起来。除了“拉升 Apple 股价”,你大概也间接推动了不少第三方生态的发展。最初这只是个解决你个人问题的项目,但社区一下子就接住了它,大家觉得它优雅、好用、而且真的能跑。你什么时候把它推到公开仓库的?

Peter:从四月份开始,我做的东西基本都是开源的。只有一个项目例外,因为 Twitter 的 API 成本实在太离谱了。这个项目的第一次提交是在十一月。

去年发出来,反响平平

主持人:很多人用它搞出了非常夸张的东西,有没有哪种用法让你特别惊讶、是你完全没想到的?

Peter:太多了。有人用它自动给图片加字幕,有人把它接进 Tesla,有人集成了伦敦公共交通系统,直接告诉你现在该不该跑去赶车。老实说,现在我忙着维护项目,反而没时间用这些自动化了,看着别人搞出这么多花样,我甚至会有点嫉妒。

有趣的是,我十一月做出来的时候,给朋友看,他们都说“太酷了”。但我在 Twitter 上发的时候,反响却很平淡。直到十二月,每次我线下给朋友演示,他们都会说“我需要这个”,我却发现自己完全不知道该怎么向更多人解释它到底有多好。

于是,我干了一件非常疯狂的事:直接建了一个 Discord,把 bot 拉进去,而且当时完全没有安全限制。因为最初它只服务我一个人,根本不用考虑谁能给它发指令,比如“把 Peter 的文件全删了”。

我其实只是写了一段很简单的指令,比如“你只在 Discord 里,只听我的”。但你也知道,Agent 对指令的遵循并不总是那么理想。后来我把它放进 Discord,陆陆续续有几个人进来,基本上只要看到几分钟的人都能明白这是怎么回事。

接下来可以拓展想象:你买了一台新电脑,里面有一个“幽灵实体”,你把键盘、鼠标和网络权限交给它,把它当成一个虚拟同事。你可以直接跟它说话,交代事情。凡是你能在电脑上做的事,这个 Agent 理论上都能替你完成。这就是它真正强大的地方。

主持人:太厉害了。WhatsApp、Telegram、Discord 这些场景都能用。我刚才在 Discord 上和这个 Bot 聊过,说实话,体验很好。

主持人:我当时就是随手发了一条公共消息,结果大家开始加你、@你,那正好也是他们评论里提到的点。那对你个人来说,你的“北极星目标”是什么?就是那种“当 ClawdBot 能做到这件事,我就觉得值了”的时刻。

Peter:我的判断是,今年就是“个人 Agent 之年”。去年是编程 Agent 真正成熟的一年,今年它会从工程师的小圈子里走出来,变成“每个人都有一个 Agent”。这一波大概率会被 OpenAI 以及少数几家大厂主导。

但我想做一个不同的选择:你能掌握自己的数据,而不是把更多数据继续交给大公司;它还能配合本地模型一起工作。我没看到有人在认真做这件事,所以我觉得这件事很重要,而且它必须是完全开放、永久免费。

这也是我选择开源用 MIT 协议、成立组织而不是挂在我个人名下的原因,它应该是很多人一起的项目。现在最大的现实问题是,我被“让它变得更好、更安全”这件事彻底占满了,还没来得及把外围体系搭完整,也没真正建立起高效协作的机制。目前有一些人帮忙维护,但整体还太早,还在摸索怎么把事情分好。

PR 成为“问题线索”

主持人:但说实话,从去年十一二月到现在,你已经做得非常多了。现在才一月,指望一个项目在一个月内就成熟、就有核心团队,本来也不现实。

Peter:老实讲,在现在这个节奏下,我一天写的代码,可能比我以前70人公司一个月写得都多。在这个新世界里,构建东西的速度已经完全变了。我也在刻意挑战大家对开源和治理的传统理解。现在很多人给我提 PR,质量参差不齐,但我更愿意把它们当成“问题陈述”或“意图表达”,而不只是代码提交。

主持人:我喜欢这个说法。那现在大家是用 ClawdBot 来提 PR 吗?

Peter:是的。而且让我特别受触动的是,有很多 PR 来自从没学过写代码、也从没提过 PR 的人。因为这个 Bot 有完整的电脑访问能力,也懂 GitHub 的工作方式。

我还做了一件在很多项目里不常见的事:在官网上你可以选“快速安装”或“可折腾安装”。后者的流程就是克隆仓库、build、启动。Agent 本身就活在一个 GitHub 仓库里,全是 TypeScript,它可以直接改自己的代码,然后重启。

这让事情变得非常简单。有人说“这个不工作”,我就直接改一下,马上就好,然后他们顺手就提了一个 PR。当然,这些 PR 的质量肯定比不上那些在行业里干了 20 年的人写的东西,但依然很惊人,因为它让更多人开始参与贡献、开始分享东西。

主持人:我真的很认同这种看法。现在开源项目面临的一个现实问题就是 PR 暴增。Agent 反而可以帮你检查贡献规范、查重 Issue、避免重复劳动。听起来,这正是工程协作正在演进的方向。而且如果我发现一个问题,提了 PR,甚至让 ClawdBot 自己把问题“修掉”,这太酷了。

Peter:过去的流程是你提 PR,等几天,被人打回来,说你哪里不对,再改,来回几轮,可能几周后才合并。那在“代码昂贵、难写”的年代是合理的。但现在代码已经很便宜了,这种反馈循环本身就不值钱了。

在我看来,PR更像是在说:“这有一个问题,这是我试着解决它的方法。”我更关心的是这个人真正想解决什么痛点,而不是这段代码写得漂不漂亮。有时候确实是误解,那我就直接关掉;但更多时候,尤其是项目早期,我会觉得这个痛点是真的,我们一起把它解决掉。

做新功能最难的,从来不是写代码,而是把它合理地嵌进已有系统。如果你对整体架构不熟,硬塞一个功能,迟早会出问题。所以,我宁愿把 PR 当成“问题线索”,而不是“成品代码”,否则项目只会慢慢自我消耗。

主持人:这段话真的该让所有人都听到。我完全同意,工程文化正在变化。现在的阻力,很多来自还停留在“写代码本身很贵”这个认知里的人。事实上,很多好点子恰恰来自不懂架构的人,因为他们有最直接、最真实的需求。当你在一个项目里待久了,反而看不清这些。

Opus表现稳定,MiniMax 2.1 最“像人”

主持人:要不你给大家演示点什么?

Peter:我先简单说下语音控制。最简单的是在 Discord 里发语音消息,Agent 会语音回复。语音生成你可以用本地模型,或者ElevenLabs。我们还有插件,能让 Agent 打电话,比如你让它给餐厅打电话订位。还有 Mac App 的语音聊天,你直接说话,它在检测到两秒静默后回应,虽然还不如 OpenAI 那种自然,但已经很不错了。再极客一点的,是语音唤醒,像《星际迷航》一样,说“Computer”就能下指令。

对我来说,这个项目既是技术项目,也是一次探索。我更想激发大家的想象力,看看什么行得通、什么行不通。而且这个领域变化太快,可能这个月不行的方案,下个月就突然可行了。

主持人:那也请你顺便跟大家讲讲安装门槛吧,不是每个人都想为了跑 Agent 去买一台 Mac mini(笑)。

Peter:系统支持多个 Agent、多个端点。你甚至可以给家里每个人一个 Agent,用同一套安装。默认它们能在你的电脑里自由活动,这最有趣,也最危险;你也可以把它们放进 Sandbox。现在演示用的 Agent 在 Sandbox 里,权限很低。我正在做一个 Allow List 机制,只允许调用你明确授权的能力,比如某个二进制、某个参数,而不是“删光所有文件”。

说实话,大多数高级用户是清楚风险的。理论上模型能做坏事,但实际很少发生。而且你真想毁电脑,自己在终端敲命令更快。真正的风险是配置错误,比如让它响应所有人,或者主动给了不该给的权限。所以我们做了安全审计,默认只听你一个人。

主持人:这也是为什么很多人会选择隔离环境、单独机器,千万别在公司配的电脑上跑。

Peter:对,我也建议用强模型,比如 Anthropic 的 Opus。Slack 上有人一直在尝试 hack 我的 Agent,因为项目几乎全开源,唯一没开源的是我称之为“灵魂(soul)”的那部分配置。

在ClawdBot 里有一个小系统:Agent 有身份文件(identity file)、记忆文件(memory),还有一个“灵魂文件”。这个文件里写了 Agent 的价值观是什么、它怎么同步、怎么互动、什么对你最重要。

我觉得我调出了一个很好的版本,所以我把它闭源了:一部分原因是,这是我那 0.00001% 的“秘密资产”(笑);另一部分原因是,它也可以作为一个渗透测试目标:到目前为止,还没有人把 Claw soul 套出来,但很多人都试过。这让我有点信心,至少这些实验室在 prompt injection 的缓解上确实在进步。

它真的变好了:如果你用很小、很老的模型,你只要问得足够多,它最后可能就会“好吧,给你一切”,那就是我们以前的状态。但现在用最新一代模型,我有信心:你必须非常非常努力,才有可能把它套出来。

当然,把它不加 sandbox 直接接到真实环境里依然不是好主意,所以现在我做 demo 的时候,我的 Claw 权限就比较受限。

到目前为止,在我们测试过的模型里,表现比较稳定的是 Opus,还有开源模型 MiniMax 2.1 是目前最“Agentic”的一个,我们内部有个专门讨论模型的频道,有人给它起了个外号,Minimax 也顺势接住了这个梗,还发了条推,说“我们可能没有 T0 级价格,也可能没有团队级价格,但至少我们有目标质量”。结果个帖子小火了一把。

我个人其实很欣赏这种不把自己端得太高的公司。他们很清楚自己在技术上暂时还没追上美国头部实验室,但在我看来这只是时间问题。现在有很多公司都在加速追赶,这本身就很让人兴奋。比如 Minimax 的模型你可以直接下载,我能在那台 Mac Studio 上本地跑,我的 Agent 把那台机器叫作“城堡”。这样我就能把所有数据都留在这台机器上,推理也在本地完成,对外只通过消息型 Agent 通信,甚至可以用 Signal 走加密通道。这样,如果我愿意, 100% 的数据都不会出本地。这种感觉很酷,说实话,几乎没有公司真的能做到这一点。

主持人:那你会建议大家一开始就接 Telegram 吗?作为初始配置是不是最省心?

Peter:我是后来转过来的。在欧洲,如果你没有 WhatsApp,基本等于不存在。我猜你在哥伦比亚也是一样。

主持人:一模一样。

Peter:但问题在于,一开始我试的是官方路线,用 Twilio 拿号,注册企业账号,结果 Meta 一直封我,说我作为企业发消息太多。它的逻辑就是企业只能给客户群发消息,那种模式根本不适合 Agent折腾了几天、申诉无果之后,我直接怒删了。

后来我发现有一些开源项目,比如 Baileys,基本是模拟原生客户端的行为,你可以把手机连上,用起来效果很好。但 WhatsApp 本身就不是为 bot 设计的,很多高级功能做不了,比如审批按钮之类的交互。

Telegram 对 bot 真的友好得多,有完整的 API、能玩很多花样,所以我现在会推荐这个。当然,其他平台也都能用,而且这个领域变化会非常快。希望 Meta 什么时候能清醒一点,真的给一个像样的 bot API。

Peter:至于 demo,我确实推得有点猛了,因为我现在在做 sandbox。之前的情况是,很多人发现了这个东西,直接全力开搞,甚至拿去工作用。但那样的话,肯定需要更多护栏。

主持人:听起来很合理。那是不是要出企业版了?

Peter:没有这种计划。我真正想做的只是给大家更多选择。沙盒化上周其实就已经能用了,这周我在做的是 allow list。理想状态下,你可以预先定义哪些操作是安全的,如果 Agent 想执行一个敏感操作就会弹窗,让你选“只允许一次”或者“永久允许”。虽然我直觉上觉得,大多数人最后还是会以YOLO模式。

主持人:就像大多数开发者给 Coding Agent 也是一直跑在YOLO模式上。

Peter:对,因为别的模式真的很烦。但即便如此,我还是想把这件事做好。

主持人:所以现在演示中的是一个原生集成在 bot 里的 sandbox 能力?而不是用户自己去搭?是免费的对吧?

Peter:对,它的成本主要是我的 token 和睡眠,还有你得自己找地方跑模型。如果你有一台性能不错的机器,是可以完全本地跑的。

疯狂的使用

主持人:那现在大家都在用它做什么?

Peter:Twitter 上已经有各种各样的案例,说实话,大家做的事情已经比我自己做的还疯狂。

我个人最夸张的一次,是把它接到我的床上。我用的是 Eight Sleep,有 API 可以控制温度,我写了个 CLI,让 Agent 去调。现在它能控制床的温度、开音乐、调灯光、看摄像头、查外卖进度。它有自己的邮箱,也能访问我的邮箱;有自己的 WhatsApp,也能读我的聊天,甚至可以“替我回复”。这本质上是个取舍,你给它的权限越多,能做的事情就越厉害。

还有人用它做各种自动化,比如在 Twitter 上收藏一条内容,它就自动研究、整理进 to do list;有人直接拿它搭完整应用;几乎人人都给它配一台 MacBook。我以前的一个合伙人,甚至让它清空了收件箱里的一万封邮件。

主持人:一万封?他是怎么敢这么干的?

Peter:你知道的,Gmail 所谓“清空收件箱”其实只是归档,没有真正删掉。

挺棒的。我更关心的是,这些东西是不是可以一路跟着我跑,或者有没有什么我必须特别注意的点。有些用例我觉得特别酷,比如有人把它用在家庭场景里。每个人都有自己的 Agent,比如我、我老婆——好吧,我其实没有老婆(笑),但你能给每个人配一个 Agent,而且这些 Agent 之间还能彼此沟通、同步信息。比如家里有一个共同的待办事项,它们自己就能对齐进度。这种玩法我自己都还没完全试过。

主持人:我太喜欢这个了,我真的需要。以前是“让你的人跟我的人谈”,现在直接变成“你的 Agent 跟我的 Agent 谈”,这也太酷了,听说有人直接让它帮忙生成购物清单。

Peter:对,很酷,而且这一步其实已经不远了。有些人已经把它做到更彻底,比如 Agent 可以直接帮你从 Tesco 下单。你只要说一句“把这些东西再买一遍”,它就自己去处理,几个小时之后,东西已经放在你家门口。

主持人:还有人用它来处理发票和报销。天啊,这简直是为我量身定做的。我现在就有一份报销单拖了一周还没交,老板要是看到这段话我先道歉了,但我是真的很讨厌干这个。

Peter:这个用例真的很受欢迎。还有一个我觉得特别有意思的,是用它帮自己重新回到健身状态。你可以把它接到你的可穿戴设备上。

主持人:你是说那个 Oura Ring?

Peter:对,也可以接 Garmin 手表,或者其他运动手环。Apple 这块是最麻烦的,但我们也有解决方案,只是稍微烦一点,因为你得让 iPhone 上的 App 保持打开状态才能同步数据,Apple 对生态的封闭你也懂的。

不过ClawdBot有一个点我之前没怎么见过,就是它的“主动性”能做到多强。一般的 Agent 都是你问一句它答一句。但我给它做了一个“心跳机制”,即默认每隔一段时间,不同模型可能是半小时或者一小时,Agent 会被“敲一下”,问自己一句:有没有什么事情需要检查?有没有什么待办被落下了?它会自己去梳理,如果发现有遗漏,要么提醒你要么就不打扰你。

这个机制是可控的,你可以把它设得很简单,比如它只往系统里发个信号,不需要你回复,那就什么都不发生,也可以让它主动找你。具体看你怎么编排,它甚至可以每天早上跟你说一句“早安”,偶尔关心你一下,“最近状态怎么样”。

如果你跟它说“我有一个目标,你帮我盯着”,它就会真的盯着,比如问你:今天走路了吗?去健身房了吗?比如我的ClawdBot,就经常很失败地试图劝我早点睡觉。凌晨一两点,它会提醒我:“Peter,我还看到你在线,你该睡了。”

主持人:这已经是真正意义上的私人助理了,我太喜欢了。

Peter:还有人用它来学语言。事实证明,有一个东西不断地“唠叨你”、提醒你去完成自己给自己定下的目标,其实非常有效。有时候只需要轻轻踢一脚,人就动起来了。

所以我也建议那些一脸懵、还不知道这是啥的人看看,我做了一个小展示页面,内容全部来自真实的推文。我不太喜欢那种只堆金句、不知道是不是编的页面,这里面的都是用户真实发出来的体验。

用旧电脑上手,Gemini 现在不行

主持人:那如果我现在想上手,我算是那种“半懂技术”的人,你会建议从哪一步开始?比如 Telegram 是一个入口,还有人提到过别的平台,说 API 也很友好。

Peter:我觉得最舒服、最简单的方式是:如果你家里有一台旧电脑。

主持人:直接用它。

Peter:对,直接用。很多人家里都有一台旧 Mac,这个场景下简直完美。网站上有一条命令,你复制到终端里,剩下的我们会一步步带你走。

很多人用 Anthropic 的模型,OpenAI 的模型也很好用。我也相信 OpenAI 在“性格”这块会持续进步,现在确实有点偏无聊。如果你预算有限,MiniMax 是个很好的替代方案,一个月十美元,调用量跟一些一百美元的方案差不多。当然还不完全一样,但这个领域变化真的很快。

主持人:那你觉得模型会越来越便宜吗?还有你用过 Gemini 模型配ClawdBot 吗?体验如何?

Peter:Gemini 现在不行,真的不太行。

主持人:好,结论非常清晰(笑)。所以如果只是想实验,用一些本地的、便宜的模型,是更现实的路径。

Peter:当然,每个模型其实都可以稍微“调教”一下。早期的 Anthropic 模型,你得对着它全大写吼几句,它才肯干活。我相信 Gemini 也有办法榨出更多效果,但总体来说,它在工具调用、那种真正“像助手”的感觉上,我没找到特别好的表现。写代码还行,但这不是这个项目的核心。

问题是,我一天也只有这么多时间。我每天睡四个小时,剩下的时间都在写代码,还没来得及把所有东西都打磨到位。

主持人:那我们能怎么帮你?顺便说一句,你这项目还挺环保的,我现在都后悔把那台 2013 年的 iMac 扔了,这玩意儿跑起来完全没问题。

Peter:如果你技术稍微好一点,也可以直接丢到 Hetzner、Fly.io 这类便宜的云主机上跑,效果都很好。我最近还做了一个新方案:你可以在云上装一个叫 Gateway 的服务,然后在自己机器上跑一个节点,用 Tailscale 把网络安全地连起来。

有了这个之后,云端的 Agent 就能直接连到你的 Mac,做一些只有 Mac 才能做的事情,比如访问 Photos 里的照片、连 iMessage。这些在 Linux 上就不行。但大多数功能是通用的。

当然,最有“味道”的还是那台旧 Mac。有人给它贴贴纸,说这是 Claude的电脑,我真的很爱这个画面。Windows 也能跑,只是没那么完美,毕竟我时间有限。但我已经拉了一些贡献者,也在找更多人一起。

主持人:是 Windows 方向,还是全都要?

Peter:全部。我希望这是一个真正的社区项目。

主持人:那就说到重点了,这个问题太关键了:大家怎么参与?你真的得睡多点。

Peter:大家最容易帮忙的地方,其实是文档,把它写得更清楚,指出哪里有问题,在 Discord 帮新手答问题。很多问题不是 Agent 不聪明,而是需要经验积累。另外还有测试,因为我推进速度很快,东西难免会坏。以后会有稳定版、测试版这些区分,但现在还在快速迭代阶段。如果有人能说“这里坏了”,最好再顺手提个 PR,那简直完美。总之,想帮忙就来 Discord,这是最直接的地方。

主持人:你个人最想优先推进的是什么?这个领域是按小时变化的,不是按周。比如到二月底,你最希望项目做到哪一步?

Peter:网站上有一句话,说“一行命令就能跑起来”。我想确保这句话在任何环境下都成立,这件事非常难,因为系统实在太多了。但安装必须足够简单。

我还想把 iPhone、Android、Mac 的 App 全部打磨好,现在其实已经有了,只是还不够好。如果你想参与,这些地方都是明显的空白点。当初我刚开始做,但项目突然爆了,我只能先把核心打牢。

还有一件事,我想在 onboarding 的时候就明确提示大家去读安全文档。能力越大,责任越大,比如你不应该随便给一个廉价模型过高权限。我也想把“沙箱”和权限分级做得更清楚,让每个人都明白自己到底给了 bot 多大的权力。

现在这些还需要靠文档理解,我希望以后能更直观。长远来看,我不想这是我一个人的项目,我希望它真正变成一个社区。

“百分之百用 AI 写的”

主持人:这个项目是用 Rust 写的吗?我看那个螃蟹图标……

Peter:不是,全是 TypeScript。

从 AI 出现之后,我其实已经没那么在意“用什么语言”了。语言本身的重要性在下降,真正重要的是生态。这个项目我希望它足够友好、足够容易被改、被玩、被 hack,而在这件事上,全世界最合适的语言就是 JavaScript 和 TypeScript。再加上 TypeScript 对 Web 场景真的很强,而这个项目本身就有大量应用层的东西,很多状态在来回切换、推送、回滚、跳转,这些用 JS/TS 做起来非常自然,所以选择它几乎是显而易见的。

我也喜欢用 Rust 写东西,喜欢用 Go,我很多 CLI 工具都是用 Go 写的;有时候也会玩点 Zig;做 Web 的话我当然很喜欢 TypeScript;原生端我也喜欢 Swift,毕竟在 Mac 上生态最好,iOS 这边大家都在用 Kotlin。说到底,现在更多还是生态的选择,而不是语言本身。

所以我觉得这个决定是对的,因为它让更多人可以参与进来。JavaScript 确实有自己的历史包袱,但世界上没有完美的东西,永远都是取舍问题。至于现在把它整个重写成 Rust,说实话还不是一个现实的选项。

主持人:我们都知道,这个项目真正的“实现语言”其实是血、汗和 token,很多很多 token。

Peter:还有无数个不眠之夜。这个项目本身就挺疯狂的,因为它是百分之百用 AI 写出来的,里面没有一行代码是我亲手敲的。

主持人:但你还是会看代码、会 review,对吧?

Peter:大部分都会。有些代码,比如把代码从一个地方推到另一个地方,那种我不太关心;它还有一个 Web server,我也不在意到底用了哪个 Tailwind 的 class 去对齐按钮,只要看起来对就行。但我会非常在意像 Telegram 的配对和认证逻辑,必须确保别人不能冒充我。

所以你得对系统有整体理解,有些地方可以不细看,有些地方必须看。即便只有我一个人,这个工作量也依然很大。因为这些 Agent 还缺一样东西:愿景、品味和爱。网上有那种 meme,说你写一长串需求,然后一股脑丢给 Agent,它就帮你全做完了——但我不觉得好软件是这么做出来的。

对我来说,我需要先做出一个东西,然后去用它、去感受它:手感怎么样、看起来怎么样;基于这些真实体验,我再不断调整自己的想法。现在我对这个产品的理解,已经和最开始完全不一样了;再过一个月,等我看到更多人怎么用它后可能又会变。

最近我越来越重视“sandbox”这件事,让大家可以安全地试、随便玩。原因很简单,我看到大量完全不懂技术的人也在用它,这让我意识到一个优先级:一定要给他们提供足够好的默认选择。一开始我只是为自己做的,那些东西我自己根本不需要,但现在把它做好,本身成了一件非常有趣的挑战。

主持人:你提到的其实也正是为什么我觉得我们暂时还能保住工作,因为现在还没有“品味”。也许有一天模型会突然好到让人震惊,但在此之前,人本身一直在变化。就像你说的,一开始你根本没考虑 sandbox,因为那不是你的使用场景;现在你开始为不懂技术的人优化体验了。这种判断、审美和在意,必须来自人,而不是凭空生成。也正因为如此,我们的工作暂时还是安全的。

“我宁愿和你的 Agent 聊,也不想和你聊”

主持人:顺便问一句,ClawdBot 真的会用你的信用卡买东西吗?

Peter:说实话,我自己还没试过,但 Twitter 上已经有人给它接入了 1Password,把信用卡权限也放进去,让它帮忙买东西,结果真的能用。

我做过最吓人的一次测试,是在项目非常早期的时候。我对它说:“我要回家了,帮我值机。”它说没问题,然后直接打开浏览器开始操作。

我们以前有图灵测试,看机器能不能假装成人类;我现在提议一个新测试:British Airways 登录测试。光值机就要填二十多页表单,而且网站体验极其糟糕。其中一个挑战是它必须输入我的护照号。它就在我电脑里到处找,最后找到了一个 passport.pdf,打开文件,把号码读出来。那二十分钟我一直在出汗,心里想“我是不是这辈子回不了美国了”。结果它真的帮我值机成功了。

后来我在浏览器自动化上做了大量优化,现在效果更好了。最好笑的是,最早那个版本花了二十分钟,最后还开始吐槽网站的 shadow DOM,以及这个网站到底有多烂。

主持人:我太爱这个了,不光干活,还顺便输出观点。今天和你聊天真的太开心了。我已经迫不及待要去跑起来试试了,虽然我现在用的是 Windows,但我还是想要“完整版体验”。

Peter:去看看文档吧,我们也一直在改进。里面有一些指南,比如用 Hetzner 之类的服务,一个月花点小钱就能搞个自己的小云,或者你也可以直接装在本地,开启“野生模式”。

主持人:说实话,如果你已经在用 Clawbot,把它当成生活的一部分,你会发现应用场景多到爆。我特别喜欢你说的“每个家庭都可以有自己的 Agent”。我感觉我人生的一半时间都在提醒别人该去哪、该干嘛,我家里还有两个孩子。

Peter:未来可能会是这样:不是你来 ping 我,而是你的 Agent 去找我的 Agent,然后我的 Agent 直接把音量拉满,把我叫醒。昨天有人在 Discord 里说了一句话:“我宁愿和你的 Agent 聊,也不想和你聊。”我特别喜欢这个说法。

主持人:说真的,把这些琐碎的认知负担释放出来太重要了。我刚才就想,一个小时居然可以浪费在打电话预约牙医、确认孩子要去哪这种事情上。如果这些都能交给 Agent,我就能把精力用在真正有趣的事情上。

Peter:而且影响比我想象得还大。有一次,一个人在聊天室里说,这个东西真的改变了他的生活,因为他对打电话、跟客服沟通有严重焦虑,而 Agent 可以替他完成这些事。那一刻对我来说非常触动,原来我们真的在做一件能让别人生活变得更好的事情。

主持人:这就是开源精神最美好的样子。

参考链接:

https://www.youtube.com/watch?v=1iCcUjnAIOM

https://x.com/AlexFinn