研究基础与可信度论证

15 篇顶级论文证明 LLM 社会仿真可行——我们的产品在此基础上更进一步。

85%
个体还原准确率
Stanford 2024
6/7
摇摆州预测正确
FlockVote 2024
4%
态度误差上限
Verasight 2026
10K+
智能体规模验证
清华 2025
01

LLM 社会仿真:已被验证的方法

全球顶级研究机构的实证论文

里程碑研究

Stanford2024

1,052 人深度访谈 → AI 孪生,GSS 准确率 85%

研究团队对 1,052 名真实个体进行 2 小时深度访谈,用 LLM 构建每人的数字孪生。在美国最权威的社会调查 General Social Survey 上,AI 智能体复现受访者回答的准确率达 85%——接近真人两周后重新回答自己问题的一致性水平。

首次在千人规模上严格验证"AI 能否代替真人回答调查"——来自全球排名第一的 AI 实验室。
Stanford2023

25 个智能体自主组织社会活动,展现涌现行为

25 个 LLM 智能体在模拟小镇中自主组织情人节派对、传播消息、建立新关系。人类评估者认为 AI 智能体的回答比"扮演该角色的真人"更像那个角色。

证明 LLM 智能体不仅能回答问题,还能产生真实的社会动态——从"问一个AI"到"运行一个AI社会"。
FlockVote2024

正确预测 2024 美国大选 7 个摇摆州中 6 个

基于 LLM 智能体的微观模拟正确预测了七个摇摆州中六个的选举结果。研究者可以直接"采访"AI 选民,理解投票逻辑。

LLM 社会仿真在真实高风险场景中最有力的验证之一。
清华大学2025

万级智能体、500 万次交互,复现 4 个已知社会实验

AgentSociety 为超过 10,000 个智能体生成社会生活,模拟了 500 万次交互。成功复现了舆论极化、煽动性信息传播、全民基本收入政策效应、及自然灾害冲击的影响。

证明 LLM 社会仿真在万级规模下仍然有效——我们 172K 架构的直接参照。

精度与可行性验证

Verasight2025-26

2,000 人多轮验证:常见态度问题总体误差 < 4%

对 2,000 名美国成年人的多轮验证发现,常见政治态度问题的总体误差可控制在 4 个百分点以内。误差最低的问题(低至 2.5%)是具有强烈人口统计关联的态度问题。

政策态度预测是 LLM 仿真目前最成熟、最可靠的应用领域——恰好是我们"政策预演"的核心场景。
MIT Media Lab2025

百万级仿真:纽约 840 万智能体,成本仅数百美元

通过"LLM 原型 (Archetypes)"方法实现百万级仿真。纽约市 840 万智能体成功重现劳动参与和出行模式。新西兰政府已用同一框架模拟 500 万公民。

证明我们的"原型聚类 + LLM"架构在百万级别可行且经济。
巴西/皇家学会2024

LLM 跨党派捕捉公民政策偏好,增强民主决策

在巴西 2022 年总统大选实验中,微调的 LLM 捕捉到超越简单左右分类的政策立场细微差异。LLM 增强后的概率样本比未增强的更准确。

直接证明 LLM 可以作为公民的政策偏好代理——我们"政策预演"产品的学术理论基础。
消费行为仿真
智能体展现品牌忠诚形成、价格敏感性差异等真实模式,验证产品定价测试场景。
arXiv:2510.18155, 2025
ICML 2025 学术定位
多机构联合确认:LLM 社会仿真是有前途的研究方法。共识已从"能不能做"转向"如何做更好"。
Anthis et al., ICML 2025
02

我们的差异化优势

为什么我们的新加坡数字孪生比"通用LLM + 简单prompt"更准

🎯

人口统计校准 vs 纯 Prompt

Research: Park et al. (2024) 发现仅用人口统计描述的 prompt 方法会产生更大的种族和意识形态偏差。Verasight (2026) 报告子群体误差膨胀到 10%,最小群体可达 30%。
Our edge: 172,173 个合成居民基于人口普查数据,通过 IPF + 高斯 Copula 在种族×年龄×性别×规划区×收入×教育×住房 多维联合分布上经过卡方检验和 KL 散度验证。"碧山区 42 岁华族 PME 男性"在统计上是真实存在的画像,不是 LLM 随意编造的角色。
🇸🇬

本地知识注入 vs 通用世界知识

Research: NAACL 2025 发现通用 LLM 在文化多样性语境下产生刻板或过度自信的回答。Silicon Sampling 研究确认人口统计+上下文的组合 prompt 效果最优。
Our edge: RAG 管线从 Reddit r/singapore、HardwareZone EDMW、国会 Hansard 辩论记录、REACH 公众咨询中持续采集。当 AI 居民回答关于 CPF 或 HDB 的问题时,参考的是新加坡社区中真实存在的争议和论点——不是全球泛化知识。
🎲

VS+RP 方法 vs 直接回答

Research: LLM 直接回答存在系统性偏差——回答更同质化、更正面、缺乏真人的多样性和矛盾性(Zhang & Xu 2025, Sociological Methods & Research)。
Our edge: LLM 不直接"回答"问题,而是作为分析师估算该画像人群的回答概率分布,然后通过采样产生最终选择。从架构层面缓解同质化偏差和社会期望偏差。
🌐

群体交互 vs 独立问答

Research: AgentSociety (清华 2025) 证明只有智能体之间存在交互才能复现舆论极化等涌现现象。Chuang et al. (NAACL 2024) 发现网络中交互后出现意见碎片化,与社会科学经典发现一致。
Our edge: 社会模拟引擎运行 7 天 3 轮演进:Day 1 冷反应(纯新闻刺激)→ Day 4 同侪影响(住房×年龄聚类的社区多数意见注入)→ Day 7 回音室效应(强社会压力 + 全国趋势)。智能体按住房类型和年龄分层聚类,每轮注入上一轮的社区意见分布,捕捉口口相传、立场极化、中立群体流向等单次 prompt 无法模拟的动态。
🔄

持续校准 vs 一次性快照

Research: Verasight 报告 LLM 在训练数据丰富领域(政治)表现远好于稀疏领域(品牌)。MIT AgentTorch 实践证明持续回测校准是保持准确性的关键。
Our edge: 每次客户使用产品做仿真,如果分享了真实调研结果,我们就获得一条校准数据。这是通用 LLM 永远无法获得的反馈闭环——因为它们没有我们的客户场景数据。
03

预测领域:置信度分级

哪些能预测、哪些要谨慎、哪些做不了——诚实公示

高置信度研究充分支撑,误差可控
政策态度预测
不同人群对政府政策的支持/反对分布、情绪强度、关键争议点。政策态度与人口统计强相关(年龄×种族×收入×教育→态度),我们的合成人口在这些维度上经过严格校准。
"CPF 最低提取年龄从 55 调整到 58,各年龄段和收入层的接受度如何?"
价值观与社会态度调查
不同群体对社会议题的态度分布。Park et al. 2024 的 GSS 85% 准确率本质上就是价值观和社会态度调查。新加坡多族群社会让这种关联更加明显。
"对 LGBTQ 权利扩展的支持率,在不同宗教和年龄群体中如何分布?"
中等置信度方向性信号可靠,精确数值需验证
产品概念与定价敏感度
消费偏好与人口统计的关联弱于政策态度。但当产品特征与人群特征有明确关联时(如 Halal 食品对马来族、乐龄保健对 60+),预测仍然可靠。定位:在真人测试前筛选掉 80% 的不靠谱方案。
"这款住院保险定价 $199 vs $249,不同收入层和年龄段的购买意愿差异?"
传播与叙事效果预测
对文本的情绪反应和传播行为是复杂的。但在"这段话会不会在某个群体中引起反感"这个层面,LLM 已经能提供有用的预警信号。
"这条涨价公告用方案 A vs B 的措辞,在低收入群体中引发的负面情绪差异?"
需谨慎当前方法局限,不建议作为决策依据
具体行为频率
LLM 训练数据中没有细粒度的行为-画像映射。Verasight 已验证品牌认知和具体消费习惯的预测误差显著高于态度预测。
"碧山居民多久去一次 Giant 超市"
极端少数群体的精确量化
LLM 系统性地低估极端立场和少数意见,有内在的"趋向共识"偏差。
"新加坡反疫苗群体的确切比例"
个体级别的精确预测
Park et al. 2024 的 85% 是群体级别的统计指标。单个个体上存在不可消除的随机性。
"张先生具体会选 A 还是 B"
04

论文引用

15 篇核心论文,来自 Stanford、MIT、清华等顶级机构

[1]Park, J.S., et al. (2024). "Generative Agent Simulations of 1,000 People." arXiv:2411.10109. Stanford & Google DeepMind.
[2]Park, J.S., et al. (2023). "Generative Agents: Interactive Simulacra of Human Behavior." UIST '23 (ACM). Stanford & Google Research.
[3]Argyle, L.P., et al. (2023). "Out of One, Many: Using Language Models to Simulate Human Samples." Political Analysis 31(3). BYU.
[4]"FlockVote: LLM-Empowered Agent-Based Modeling for Election Prediction." arXiv:2512.05982, 2024.
[5]Piao, J., et al. (2025). "AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents." arXiv:2502.08691. Tsinghua University.
[6]"Scaling LLM-Guided Agent Simulations to Millions." AAMAS 2025. MIT Media Lab.
[7]Hidalgo, C.A., et al. (2024). "Large language models as agents for augmented democracy." Royal Society Phil. Trans.
[8]Horton, J.J. (2023). "Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus?" NBER Working Paper.
[9]Anthis, J.R., et al. (2025). "Position: LLM Social Simulations Are a Promising Research Method." ICML 2025.
[10]Verasight (2025-2026). "Synthetic Omnibus Survey" White Paper Series. Morris et al.
[11]Chuang, Y.-S., et al. (2024). "Simulating Opinion Dynamics with Networks of LLM-based Agents." NAACL 2024.
[12]Cao, Y., et al. (2025). "Specializing Large Language Models to Simulate Survey Response Distributions." NAACL 2025.
[13]Zhang, S. & Xu, J. (2025). "Generative AI Meets Open-Ended Survey Responses." Sociological Methods & Research.
[14]"LLM-Based Multi-Agent System for Simulating and Analyzing Marketing and Consumer Behavior." arXiv:2510.18155, 2025.
[15]"Evaluating Silicon Sampling: LLM Accuracy in Simulating Public Opinion." Conference Paper, 2025.
© 2026 Digital Twin Studio — 新加坡合成人口仿真平台