文章作者、来源：硅星GenAI “每当我读到那些科技高度发达的科幻社会，总会看到两个共同的支柱：一个是 AGI，另一个是某种模拟系统，帮助这个社会预判风险、指引方向。我不会在五年前说出这番话，但今天我确实相信，我们已经站在了真正构建这个模拟的起点上。” 说这话的人叫 Joon Sung Park——斯坦福大学计算机科学文章作者、来源：硅星GenAI “每当我读到那些科技高度发达的科幻社会，总会看到两个共同的支柱：一个是 AGI，另一个是某种模拟系统，帮助这个社会预判风险、指引方向。我不会在五年前说出这番话，但今天我确实相信，我们已经站在了真正构建这个模拟的起点上。” 说这话的人叫 Joon Sung Park——斯坦福大学计算机科学

Simile 创始人：别让 AI 装人了，没用

来源：MetaEra

2026/06/24 09:21

阅读时长 13 分钟

AI$0.02234-6.44%

AGI$0.00444-7.76%

如需对本内容提供反馈或相关疑问，请通过邮箱 [email protected] 联系我们。

文章作者、来源：硅星GenAI

“每当我读到那些科技高度发达的科幻社会，总会看到两个共同的支柱：一个是 AGI，另一个是某种模拟系统，帮助这个社会预判风险、指引方向。我不会在五年前说出这番话，但今天我确实相信，我们已经站在了真正构建这个模拟的起点上。”

说这话的人叫 Joon Sung Park——斯坦福大学计算机科学博士，人机交互与自然语言处理方向研究者，2023 年凭借“Generative Agents”论文（即 Smallville 实验）在 AI 领域一举成名，随后创立 Simile，担任联合创始人兼 CEO。

Simile 是一家应用 AI 实验室，核心目标是用 AI Agent 大规模模拟人类行为与社会。联合创始人阵容颇为强大：Percy Liang 是斯坦福基础模型研究中心（CRFM）负责人，Micah Bernstein 是斯坦福 HCI 组研究员。公司战略合作方是全球顶级调研机构盖洛普（Gallup），已签约的客户涵盖 CVS 等财富 500 强企业。

这期播客由风投背景的主持人对 Park 进行深度专访，话题从 Smallville 实验的诞生讲到 Simile 的商业落地，再到他们对“用模拟解答人类社会最难命题”的长野心。内容信息量极大，涉及模型架构、数据方法论、客户案例、准确性评估以及超越商业的社会科学愿景。

本文编译自红杉的播客专访《Simulating Humans at Scale: Simile's Joon Sung Park》。

以下是完整编译：

1 Smallville：一个会自发办情人节派对的虚拟小镇

故事从 2023 年 4 月的斯坦福开始。

Park 和他的团队做了一个后来被广泛引用的实验，代号Smallville——一个由 25 个 AI Agent 组成的虚拟小镇。每个 Agent 有自己的身份设定，可以每天早晨起床、按时上班、发展人际关系。团队的核心观察是：大语言模型在训练数据中编码了大量人类行为模式，只要从正确的角度“探测”，就能得到令人惊讶的逼真微观行为。

实验中最震动他们的一幕，发生在情人节前夜。

一位名叫 Isabella 的咖啡馆老板 Agent，在没有任何预设指令的情况下，自发决定举办一场情人节派对。她主动准备食材，逐一邀请顾客。到了情人节当天，咖啡馆里涌来了一群 Agent，其中一位叫 Klaus 的，收到邀请后顺带约了自己的暗恋对象一起赴约。

“非常超现实，”Park 说，“这些行为完全是自发涌现的，我们没有编程让他们这么做。”

2 从论文到公司：一条被需求推着走的路

Smallville 并不是 Park 研究模拟的起点，而更像是多年探索后水到渠成的爆发点。

早在 2020 年，GPT-3 尚未正式发布，Park 就参与撰写了斯坦福那份奠基性的《基础模型：机遇与风险》报告。2022 年，他发表了Social Simulacra论文——用 AI 模拟 Reddit 社区，这是 Smallville 的直接前身。彼时他们搭建了一个讨论“匹兹堡旅游景点”的虚拟社区，结果 AI 角色们不只讨论景点，还开始互相邀约共同规划旅行。那一刻，Park 意识到这件事的潜力已经超越了学术范畴。

Smallville 论文发表后，两类完全不同的人同时找上了门：社会科学家希望在这个平台上跑 RCT（随机对照实验），而财富 500 强的高管们在看完演示后问的是：“我们能用这个做市场研究吗？”

有了真实需求，团队开始严肃验证：他们用自研架构和模型，测试能否以足够高的准确率还原真实用户的行为——最终达到了85% 的预测准确率。这个数字，让他们有底气在 2023 年下半年正式成立 Simile。

3 为什么直接问 Claude 不够用？

一个自然的疑问是：难道不能直接告诉 Claude “你是一个 35 岁、住在海岸城市的女性”，让它模拟出真实的人吗？

Park 的回答直指现有大模型的核心盲区：Say-Do Gap（言行差距）。

现有前沿模型的训练数据，几乎全部是人类说过的话——文章、评论、对话、社交媒体——而非人类真实的行为。两者之间存在显著的鸿沟。一个人在问卷里表达的政治倾向，和他真实投票行为之间，可能差距悬殊。

Simile 弥补这个差距的方式，不是问结构化问题，而是收集叙事性数据。他们不问“你的政治倾向是什么”，而是问：“告诉我你的人生故事——你在哪里长大？你一生中做过哪些艰难的决定？” 这类深层叙事，才能搭建起“态度”到“行为”之间真正可靠的桥梁。

Park 打了一个精准的比喻：现有前沿模型像CPU——单一、超强、极度理性；而 Simile 需要的模型更像GPU——并行、多样、充满人性的局限与矛盾。前者的目标是超级智能，后者的目标是尽可能像一个真实的、普通的人。

4 CVS 案例：用 15 分钟访谈，回答无限个问题

Simile 的第一个标杆客户是 CVS——美国最大的连锁药店。

合作的起点，是 CVS 负责“消费者洞察”的高级副总裁读到了 Park 团队的验证论文。CVS 的调研长期被两个瓶颈困住：每次问卷的问题数量有限，而且无法模拟“一个决策在整个市场中引发的二阶影响”。

合作流程是这样运转的：CVS 告知目标人群（比如 30 到 45 岁的女性健康消费者），Simile 通过战略合作方 Gallup 触达这批真实用户，用一次15 分钟的高效访谈采集关键数据，然后基于这些数据构建对应的 AI Agent 群体。之后，CVS 的研究人员可以通过 SaaS 平台随时向这些 Agent 提问——而问题的范围，远远超出最初那份问卷。

CVS 看到这个系统后，提出了一个更大的想象：他们坐拥 9000 万用户数据，能不能用这些内部数据来进一步微调 Simile 的模型，让模拟更加精准？这开启了一场关于如何合规使用企业数据的深度对话，也指向了 Simile 商业模式最具价值的一层——用真实企业数据强化模拟能力。

5 模拟有多准？误差是敌人还是价值？

Simile 用“总变差距离（TVD）”来量化模拟的准确性。TVD 低于 0.15，他们认为结果可以支撑真实决策。这个指标同时覆盖定量问答和 RCT 结果预测。

但更有意思的，是 Park 对“误差”本身的重新定义。

他把模拟分为两类。第一类是收敛型模拟：比如模拟社交网络，必然会涌现出“枢纽节点”（类似 Google PageRank 的幂律分布），这类宏观结论对基础误差有天然的容忍度，跑很多次结果都趋于一致。第二类是发散型模拟：比如模拟选举——同一套参数跑 100 次，可能给出截然不同的结果。

发散听起来像是系统的缺陷，但 Park 认为恰恰相反。发散本身就是信息：它展示的是可能的未来光谱，让决策者看到不同路径的概率分布，从而为多种情境同时做好准备。Simile 用 Bootstrap 置信度来呈现这种不确定性——跑 100 次，告诉你有多少次结果倒向 A，有多少次倒向 B。

6 最终的野心：人类社会的哈勃望远镜

商业应用只是起点。Park 和他的联合创始人 Percy Liang 的真正野心，在于用这套系统回答人类最难的那些问题。

他们谈到了宏观经济学（货币政策会如何传导到真实消费者行为？银行挤兑的触发机制是什么？）、气候变化（多国集体行动困境如何打破？）、政治学（民主体制崩溃前有哪些可识别的早期信号？）。他们甚至问：一战是否不可避免？

Percy 的比喻令人印象深刻：最伟大的科学突破，往往始于一次伟大的测量。哈勃望远镜彻底改变了人类对宇宙的理解——而模拟，可以成为人类社会的哈勃望远镜。

Park 相信，这个领域做对了，有望诞生诺贝尔奖。他援引了经济学家托马斯·谢林（Thomas Schelling）的故事——谢林当年用极度简化的 Agent 模型，揭示了种族隔离如何从个体的微小偏好中自发涌现，最终获得诺贝尔奖。而今天，我们手中的 Agent 已远比那时复杂与真实。

市场机遇

Gensyn实时价格 (AI)

$0.02234

$0.02234$0.02234

-2.95%

USD

Gensyn (AI) 实时价格图表

CHZ一周暴涨28%！2022年的暴跌会重演吗？

上MEXC 0费率多空双向布局，涨跌皆有应对之策！

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。