研究基础与可信度论证

15 篇顶级论文证明 LLM 社会仿真可行——我们的产品在此基础上更进一步。

85%

个体还原准确率

Stanford 2024

6/7

摇摆州预测正确

FlockVote 2024

态度误差上限

Verasight 2026

10K+

智能体规模验证

清华 2025

LLM 社会仿真：已被验证的方法

全球顶级研究机构的实证论文

里程碑研究

Stanford2024

1,052 人深度访谈 → AI 孪生，GSS 准确率 85%

研究团队对 1,052 名真实个体进行 2 小时深度访谈，用 LLM 构建每人的数字孪生。在美国最权威的社会调查 General Social Survey 上，AI 智能体复现受访者回答的准确率达 85%——接近真人两周后重新回答自己问题的一致性水平。

首次在千人规模上严格验证"AI 能否代替真人回答调查"——来自全球排名第一的 AI 实验室。

Stanford2023

25 个智能体自主组织社会活动，展现涌现行为

25 个 LLM 智能体在模拟小镇中自主组织情人节派对、传播消息、建立新关系。人类评估者认为 AI 智能体的回答比"扮演该角色的真人"更像那个角色。

证明 LLM 智能体不仅能回答问题，还能产生真实的社会动态——从"问一个AI"到"运行一个AI社会"。

FlockVote2024

正确预测 2024 美国大选 7 个摇摆州中 6 个

基于 LLM 智能体的微观模拟正确预测了七个摇摆州中六个的选举结果。研究者可以直接"采访"AI 选民，理解投票逻辑。

LLM 社会仿真在真实高风险场景中最有力的验证之一。

清华大学2025

万级智能体、500 万次交互，复现 4 个已知社会实验

AgentSociety 为超过 10,000 个智能体生成社会生活，模拟了 500 万次交互。成功复现了舆论极化、煽动性信息传播、全民基本收入政策效应、及自然灾害冲击的影响。

证明 LLM 社会仿真在万级规模下仍然有效——我们 172K 架构的直接参照。

精度与可行性验证

Verasight2025-26

2,000 人多轮验证：常见态度问题总体误差 < 4%

对 2,000 名美国成年人的多轮验证发现，常见政治态度问题的总体误差可控制在 4 个百分点以内。误差最低的问题（低至 2.5%）是具有强烈人口统计关联的态度问题。

政策态度预测是 LLM 仿真目前最成熟、最可靠的应用领域——恰好是我们"政策预演"的核心场景。

MIT Media Lab2025

百万级仿真：纽约 840 万智能体，成本仅数百美元

通过"LLM 原型 (Archetypes)"方法实现百万级仿真。纽约市 840 万智能体成功重现劳动参与和出行模式。新西兰政府已用同一框架模拟 500 万公民。

证明我们的"原型聚类 + LLM"架构在百万级别可行且经济。

巴西/皇家学会2024

LLM 跨党派捕捉公民政策偏好，增强民主决策

在巴西 2022 年总统大选实验中，微调的 LLM 捕捉到超越简单左右分类的政策立场细微差异。LLM 增强后的概率样本比未增强的更准确。

直接证明 LLM 可以作为公民的政策偏好代理——我们"政策预演"产品的学术理论基础。

消费行为仿真

智能体展现品牌忠诚形成、价格敏感性差异等真实模式，验证产品定价测试场景。

arXiv:2510.18155, 2025

ICML 2025 学术定位

多机构联合确认：LLM 社会仿真是有前途的研究方法。共识已从"能不能做"转向"如何做更好"。

Anthis et al., ICML 2025

我们的差异化优势

为什么我们的新加坡数字孪生比"通用LLM + 简单prompt"更准

🎯

人口统计校准 vs 纯 Prompt

Research: Park et al. (2024) 发现仅用人口统计描述的 prompt 方法会产生更大的种族和意识形态偏差。Verasight (2026) 报告子群体误差膨胀到 10%，最小群体可达 30%。

Our edge: 172,173 个合成居民基于人口普查数据，通过 IPF + 高斯 Copula 在种族×年龄×性别×规划区×收入×教育×住房多维联合分布上经过卡方检验和 KL 散度验证。"碧山区 42 岁华族 PME 男性"在统计上是真实存在的画像，不是 LLM 随意编造的角色。

🇸🇬

本地知识注入 vs 通用世界知识

Research: NAACL 2025 发现通用 LLM 在文化多样性语境下产生刻板或过度自信的回答。Silicon Sampling 研究确认人口统计+上下文的组合 prompt 效果最优。

Our edge: RAG 管线从 Reddit r/singapore、HardwareZone EDMW、国会 Hansard 辩论记录、REACH 公众咨询中持续采集。当 AI 居民回答关于 CPF 或 HDB 的问题时，参考的是新加坡社区中真实存在的争议和论点——不是全球泛化知识。

🎲

VS+RP 方法 vs 直接回答

Research: LLM 直接回答存在系统性偏差——回答更同质化、更正面、缺乏真人的多样性和矛盾性（Zhang & Xu 2025, Sociological Methods & Research）。

Our edge: LLM 不直接"回答"问题，而是作为分析师估算该画像人群的回答概率分布，然后通过采样产生最终选择。从架构层面缓解同质化偏差和社会期望偏差。

🌐

群体交互 vs 独立问答

Research: AgentSociety (清华 2025) 证明只有智能体之间存在交互才能复现舆论极化等涌现现象。Chuang et al. (NAACL 2024) 发现网络中交互后出现意见碎片化，与社会科学经典发现一致。

Our edge: 社会模拟引擎运行 7 天 3 轮演进：Day 1 冷反应（纯新闻刺激）→ Day 4 同侪影响（住房×年龄聚类的社区多数意见注入）→ Day 7 回音室效应（强社会压力 + 全国趋势）。智能体按住房类型和年龄分层聚类，每轮注入上一轮的社区意见分布，捕捉口口相传、立场极化、中立群体流向等单次 prompt 无法模拟的动态。

🔄

持续校准 vs 一次性快照

Research: Verasight 报告 LLM 在训练数据丰富领域（政治）表现远好于稀疏领域（品牌）。MIT AgentTorch 实践证明持续回测校准是保持准确性的关键。

Our edge: 每次客户使用产品做仿真，如果分享了真实调研结果，我们就获得一条校准数据。这是通用 LLM 永远无法获得的反馈闭环——因为它们没有我们的客户场景数据。

预测领域：置信度分级

哪些能预测、哪些要谨慎、哪些做不了——诚实公示

高置信度研究充分支撑，误差可控

政策态度预测

不同人群对政府政策的支持/反对分布、情绪强度、关键争议点。政策态度与人口统计强相关（年龄×种族×收入×教育→态度），我们的合成人口在这些维度上经过严格校准。

"CPF 最低提取年龄从 55 调整到 58，各年龄段和收入层的接受度如何？"

价值观与社会态度调查

不同群体对社会议题的态度分布。Park et al. 2024 的 GSS 85% 准确率本质上就是价值观和社会态度调查。新加坡多族群社会让这种关联更加明显。

"对 LGBTQ 权利扩展的支持率，在不同宗教和年龄群体中如何分布？"

中等置信度方向性信号可靠，精确数值需验证

产品概念与定价敏感度

消费偏好与人口统计的关联弱于政策态度。但当产品特征与人群特征有明确关联时（如 Halal 食品对马来族、乐龄保健对 60+），预测仍然可靠。定位：在真人测试前筛选掉 80% 的不靠谱方案。

"这款住院保险定价 $199 vs $249，不同收入层和年龄段的购买意愿差异？"

传播与叙事效果预测

对文本的情绪反应和传播行为是复杂的。但在"这段话会不会在某个群体中引起反感"这个层面，LLM 已经能提供有用的预警信号。

"这条涨价公告用方案 A vs B 的措辞，在低收入群体中引发的负面情绪差异？"

需谨慎当前方法局限，不建议作为决策依据

具体行为频率

LLM 训练数据中没有细粒度的行为-画像映射。Verasight 已验证品牌认知和具体消费习惯的预测误差显著高于态度预测。

"碧山居民多久去一次 Giant 超市"

极端少数群体的精确量化

LLM 系统性地低估极端立场和少数意见，有内在的"趋向共识"偏差。

"新加坡反疫苗群体的确切比例"

个体级别的精确预测

Park et al. 2024 的 85% 是群体级别的统计指标。单个个体上存在不可消除的随机性。

"张先生具体会选 A 还是 B"

论文引用

15 篇核心论文，来自 Stanford、MIT、清华等顶级机构

[1]Park, J.S., et al. (2024). "Generative Agent Simulations of 1,000 People." arXiv:2411.10109. Stanford & Google DeepMind.

[2]Park, J.S., et al. (2023). "Generative Agents: Interactive Simulacra of Human Behavior." UIST '23 (ACM). Stanford & Google Research.

[3]Argyle, L.P., et al. (2023). "Out of One, Many: Using Language Models to Simulate Human Samples." Political Analysis 31(3). BYU.

[4]"FlockVote: LLM-Empowered Agent-Based Modeling for Election Prediction." arXiv:2512.05982, 2024.

[5]Piao, J., et al. (2025). "AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents." arXiv:2502.08691. Tsinghua University.

[6]"Scaling LLM-Guided Agent Simulations to Millions." AAMAS 2025. MIT Media Lab.

[7]Hidalgo, C.A., et al. (2024). "Large language models as agents for augmented democracy." Royal Society Phil. Trans.

[8]Horton, J.J. (2023). "Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus?" NBER Working Paper.

[9]Anthis, J.R., et al. (2025). "Position: LLM Social Simulations Are a Promising Research Method." ICML 2025.

[10]Verasight (2025-2026). "Synthetic Omnibus Survey" White Paper Series. Morris et al.

[11]Chuang, Y.-S., et al. (2024). "Simulating Opinion Dynamics with Networks of LLM-based Agents." NAACL 2024.

[12]Cao, Y., et al. (2025). "Specializing Large Language Models to Simulate Survey Response Distributions." NAACL 2025.

[13]Zhang, S. & Xu, J. (2025). "Generative AI Meets Open-Ended Survey Responses." Sociological Methods & Research.

[14]"LLM-Based Multi-Agent System for Simulating and Analyzing Marketing and Consumer Behavior." arXiv:2510.18155, 2025.

[15]"Evaluating Silicon Sampling: LLM Accuracy in Simulating Public Opinion." Conference Paper, 2025.