文章作者、来源:硅星GenAI “每当我读到那些科技高度发达的科幻社会,总会看到两个共同的支柱:一个是 AGI,另一个是某种模拟系统,帮助这个社会预判风险、指引方向。我不会在五年前说出这番话,但今天我确实相信,我们已经站在了真正构建这个模拟的起点上。” 说这话的人叫 Joon Sung Park——斯坦福大学计算机科学文章作者、来源:硅星GenAI “每当我读到那些科技高度发达的科幻社会,总会看到两个共同的支柱:一个是 AGI,另一个是某种模拟系统,帮助这个社会预判风险、指引方向。我不会在五年前说出这番话,但今天我确实相信,我们已经站在了真正构建这个模拟的起点上。” 说这话的人叫 Joon Sung Park——斯坦福大学计算机科学

Simile 创始人:别让 AI 装人了,没用

2026/06/24 09:21
阅读时长 13 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 [email protected] 联系我们。

文章作者、来源:硅星GenAI

“每当我读到那些科技高度发达的科幻社会,总会看到两个共同的支柱:一个是 AGI,另一个是某种模拟系统,帮助这个社会预判风险、指引方向。我不会在五年前说出这番话,但今天我确实相信,我们已经站在了真正构建这个模拟的起点上。”

说这话的人叫 Joon Sung Park——斯坦福大学计算机科学博士,人机交互与自然语言处理方向研究者,2023 年凭借“Generative Agents”论文(即 Smallville 实验)在 AI 领域一举成名,随后创立 Simile,担任联合创始人兼 CEO。

Simile 是一家应用 AI 实验室,核心目标是用 AI Agent 大规模模拟人类行为与社会。联合创始人阵容颇为强大:Percy Liang 是斯坦福基础模型研究中心(CRFM)负责人,Micah Bernstein 是斯坦福 HCI 组研究员。公司战略合作方是全球顶级调研机构盖洛普(Gallup),已签约的客户涵盖 CVS 等财富 500 强企业。

这期播客由风投背景的主持人对 Park 进行深度专访,话题从 Smallville 实验的诞生讲到 Simile 的商业落地,再到他们对“用模拟解答人类社会最难命题”的长野心。内容信息量极大,涉及模型架构、数据方法论、客户案例、准确性评估以及超越商业的社会科学愿景。

本文编译自红杉的播客专访《Simulating Humans at Scale: Simile's Joon Sung Park》。

以下是完整编译:

1 Smallville:一个会自发办情人节派对的虚拟小镇

故事从 2023 年 4 月的斯坦福开始。

Park 和他的团队做了一个后来被广泛引用的实验,代号Smallville——一个由 25 个 AI Agent 组成的虚拟小镇。每个 Agent 有自己的身份设定,可以每天早晨起床、按时上班、发展人际关系。团队的核心观察是:大语言模型在训练数据中编码了大量人类行为模式,只要从正确的角度“探测”,就能得到令人惊讶的逼真微观行为。

实验中最震动他们的一幕,发生在情人节前夜。

一位名叫 Isabella 的咖啡馆老板 Agent,在没有任何预设指令的情况下,自发决定举办一场情人节派对。她主动准备食材,逐一邀请顾客。到了情人节当天,咖啡馆里涌来了一群 Agent,其中一位叫 Klaus 的,收到邀请后顺带约了自己的暗恋对象一起赴约。

“非常超现实,”Park 说,“这些行为完全是自发涌现的,我们没有编程让他们这么做。”

2 从论文到公司:一条被需求推着走的路

Smallville 并不是 Park 研究模拟的起点,而更像是多年探索后水到渠成的爆发点。

早在 2020 年,GPT-3 尚未正式发布,Park 就参与撰写了斯坦福那份奠基性的《基础模型:机遇与风险》报告。2022 年,他发表了Social Simulacra论文——用 AI 模拟 Reddit 社区,这是 Smallville 的直接前身。彼时他们搭建了一个讨论“匹兹堡旅游景点”的虚拟社区,结果 AI 角色们不只讨论景点,还开始互相邀约共同规划旅行。那一刻,Park 意识到这件事的潜力已经超越了学术范畴。

Smallville 论文发表后,两类完全不同的人同时找上了门:社会科学家希望在这个平台上跑 RCT(随机对照实验),而财富 500 强的高管们在看完演示后问的是:“我们能用这个做市场研究吗?”

有了真实需求,团队开始严肃验证:他们用自研架构和模型,测试能否以足够高的准确率还原真实用户的行为——最终达到了85% 的预测准确率。这个数字,让他们有底气在 2023 年下半年正式成立 Simile。

3 为什么直接问 Claude 不够用?

一个自然的疑问是:难道不能直接告诉 Claude “你是一个 35 岁、住在海岸城市的女性”,让它模拟出真实的人吗?

Park 的回答直指现有大模型的核心盲区:Say-Do Gap(言行差距)

现有前沿模型的训练数据,几乎全部是人类说过的话——文章、评论、对话、社交媒体——而非人类真实的行为。两者之间存在显著的鸿沟。一个人在问卷里表达的政治倾向,和他真实投票行为之间,可能差距悬殊。

Simile 弥补这个差距的方式,不是问结构化问题,而是收集叙事性数据。他们不问“你的政治倾向是什么”,而是问:“告诉我你的人生故事——你在哪里长大?你一生中做过哪些艰难的决定?” 这类深层叙事,才能搭建起“态度”到“行为”之间真正可靠的桥梁。

Park 打了一个精准的比喻:现有前沿模型像CPU——单一、超强、极度理性;而 Simile 需要的模型更像GPU——并行、多样、充满人性的局限与矛盾。前者的目标是超级智能,后者的目标是尽可能像一个真实的、普通的人。

4 CVS 案例:用 15 分钟访谈,回答无限个问题

Simile 的第一个标杆客户是 CVS——美国最大的连锁药店。

合作的起点,是 CVS 负责“消费者洞察”的高级副总裁读到了 Park 团队的验证论文。CVS 的调研长期被两个瓶颈困住:每次问卷的问题数量有限,而且无法模拟“一个决策在整个市场中引发的二阶影响”。

合作流程是这样运转的:CVS 告知目标人群(比如 30 到 45 岁的女性健康消费者),Simile 通过战略合作方 Gallup 触达这批真实用户,用一次15 分钟的高效访谈采集关键数据,然后基于这些数据构建对应的 AI Agent 群体。之后,CVS 的研究人员可以通过 SaaS 平台随时向这些 Agent 提问——而问题的范围,远远超出最初那份问卷。

CVS 看到这个系统后,提出了一个更大的想象:他们坐拥 9000 万用户数据,能不能用这些内部数据来进一步微调 Simile 的模型,让模拟更加精准?这开启了一场关于如何合规使用企业数据的深度对话,也指向了 Simile 商业模式最具价值的一层——用真实企业数据强化模拟能力。

5 模拟有多准?误差是敌人还是价值?

Simile 用“总变差距离(TVD)”来量化模拟的准确性。TVD 低于 0.15,他们认为结果可以支撑真实决策。这个指标同时覆盖定量问答和 RCT 结果预测。

但更有意思的,是 Park 对“误差”本身的重新定义。

他把模拟分为两类。第一类是收敛型模拟:比如模拟社交网络,必然会涌现出“枢纽节点”(类似 Google PageRank 的幂律分布),这类宏观结论对基础误差有天然的容忍度,跑很多次结果都趋于一致。第二类是发散型模拟:比如模拟选举——同一套参数跑 100 次,可能给出截然不同的结果。

发散听起来像是系统的缺陷,但 Park 认为恰恰相反。发散本身就是信息:它展示的是可能的未来光谱,让决策者看到不同路径的概率分布,从而为多种情境同时做好准备。Simile 用 Bootstrap 置信度来呈现这种不确定性——跑 100 次,告诉你有多少次结果倒向 A,有多少次倒向 B。

6 最终的野心:人类社会的哈勃望远镜

商业应用只是起点。Park 和他的联合创始人 Percy Liang 的真正野心,在于用这套系统回答人类最难的那些问题。

他们谈到了宏观经济学(货币政策会如何传导到真实消费者行为?银行挤兑的触发机制是什么?)、气候变化(多国集体行动困境如何打破?)、政治学(民主体制崩溃前有哪些可识别的早期信号?)。他们甚至问:一战是否不可避免?

Percy 的比喻令人印象深刻:最伟大的科学突破,往往始于一次伟大的测量。哈勃望远镜彻底改变了人类对宇宙的理解——而模拟,可以成为人类社会的哈勃望远镜。

Park 相信,这个领域做对了,有望诞生诺贝尔奖。他援引了经济学家托马斯·谢林(Thomas Schelling)的故事——谢林当年用极度简化的 Agent 模型,揭示了种族隔离如何从个体的微小偏好中自发涌现,最终获得诺贝尔奖。而今天,我们手中的 Agent 已远比那时复杂与真实。

市场机遇
Gensyn 图标
Gensyn实时价格 (AI)
$0.02234
$0.02234$0.02234
-2.95%
USD
Gensyn (AI) 实时价格图表

CHZ一周暴涨28%!2022年的暴跌会重演吗?

CHZ一周暴涨28%!2022年的暴跌会重演吗?CHZ一周暴涨28%!2022年的暴跌会重演吗?

上MEXC 0费率多空双向布局,涨跌皆有应对之策!

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

您可能也会喜欢

SK海力士赴美挂牌拟融资294亿美元,创ADR发行规模历史纪录

SK海力士赴美挂牌拟融资294亿美元,创ADR发行规模历史纪录

文章作者、来源:华尔街见闻 SK海力士宣布计划在美国发行美国存托凭证(ADR),拟募资约45.45万亿韩元(约合294亿美元),此举将创下史上最大ADR发行规模纪录,也是全球AI基础设施建设热潮下资本市场又一里程碑式巨额融资。 根据SK海力士周三提交的监管文件,公司计划在纳斯达克交易所挂牌,预计7月10日开始交易,本次
分享
MetaEra2026/06/24 19:56
不造大模型不拼算力,马化腾雷军们却甘愿给它3亿美元

不造大模型不拼算力,马化腾雷军们却甘愿给它3亿美元

文章作者、来源:蓝字计划 资本,变了? 又一笔“赛道最大融资”诞生了。 就在最近,近 3 亿美元的国内 AI 应用层最大一笔单轮融资,落在了一家从 AI 绘画社区起家的公司身上。 6 月 18 日,LiblibAI 母公司演语科技宣布完成 B+ 轮融资,投后估值超过 20 亿美元。Granite Asia、腾讯、顺为资
分享
MetaEra2026/06/24 20:29
a16z:AI 时代,公司争夺人才先从职位命名开始

a16z:AI 时代,公司争夺人才先从职位命名开始

文章作者、来源:火星财经 FDE(forward-deployed engineer)这个职位名称的价值,不在于听起来更新鲜,而在于它重新定义了一类原本被低估的工作:客户现场型技术落地。 传统软件公司里,这类工作常被放在售前、实施、解决方案工程或客户成功的边界地带。它离客户很近,离产品也很近,但在组织叙事里经常处在边缘
分享
MetaEra2026/06/24 20:24

世界杯预测,一单串多场,搏200倍收益!

世界杯预测,一单串多场,搏200倍收益!世界杯预测,一单串多场,搏200倍收益!

MEXC App 6.60.0 全新升级,巴西/法国/阿根廷等最多20场组合,一键轻松下注!