系统介绍

17万+ 个数学严谨的 AI 市民孪生智能体,两种使用模式,三种仿真方法。以下是我们如何做到的、为什么可信、以及技术难度在哪里。

01

为什么不能直接问大模型?

通用大模型做社会调研的三大致命问题

问题一:一致性偏差。直接问大模型"新加坡人支持这个政策吗?",100 次问 100 次都是同一个答案。没有多样性,无法反映真实社会的意见分布。
解决:语言化采样(Verbalized Sampling, VS)。我们不让模型选一个答案,而是输出概率分布(如"支持 60%,反对 30%,中立 10%"),然后按概率随机抽样。同一个画像,每次运行得到不同回答——就像真人一样。多样性提升 1.6-2.1 倍。
问题二:社会期望偏差。让大模型角色扮演("你是一个 25 岁的马来族女性"),模型会给出"政治正确"的答案,系统性高估进步立场。
解决:重构提示词(Reformulated Prompting, RP)。我们不说"你是这个人",而是"这个人会怎么回答?"——第三人称中性框架。模型变成观察者而非角色扮演者。社会期望偏差降低约 34%。
问题三:有常识,没有人口结构。大模型知道"新加坡华族约占 76%"这类 Wikipedia 级别的聚合统计,但它没有真正的人口结构——不知道联合分布("55 岁华族男性住 HDB 4-Room 月入 $4,000"这个组合有多常见)、不知道条件概率(P(住 Condo | 月入>$15K) 具体是多少)、也无法保证逐个生成 1,000 人后整体分布匹配人口普查。它有常识,但没有微观数据。
解决:172,173 个合成智能体,基于人口普查微观数据重建联合概率分布。IPF(迭代比例拟合)在 age × gender × ethnicity × planning area 四维空间上精确匹配 Census 边际分布;贝叶斯网络保证属性间的条件依赖(education → income → housing);验证门控要求 SRMSE < 0.10,否则合成失败重跑。不是"大致差不多"——是数学保证的人口结构还原。
VS 方法:Zhang et al. (2025) "Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity," arXiv:2510.01171. RP 方法:Argyle et al. (2023) "Out of One, Many: Using Language Models to Simulate Human Samples," Political Analysis 31(3).
02

合成人口:数学上如何保证代表性?

从人口普查到 172K 个独特的 AI 市民

生成流程(4 步)

1
IPF 拟合
用 Deming-Stephan 迭代比例拟合算法,在 4,704 个单元格(21 年龄段 × 2 性别 × 4 种族 × 28 规划区)上拟合人口普查边际分布。数学保证:最小化 KL 散度(Csiszar 1975 I-投影定理)。
2
贝叶斯网络采样
用有向无环图(DAG)建模属性之间的条件概率:P(收入|教育,年龄) × P(住房|收入) × P(婚姻|年龄,性别)。每张条件概率表来自 GHS 2025 官方数据。属性不是独立生成的——一个 60 岁 HDB 3-Room 居民,更可能是中学学历、月入 $2,000-3,000。
3
高斯 Copula
连续变量(大五人格、风险偏好、社会信任)通过 Gaussian Copula 生成,保留变量间相关性(如外向性↔开放性正相关 r=0.25,尽责性↔神经质负相关 r=-0.30)。基于 Sklar 定理(1959)。
4
校准 + k-匿名
贪心交换法校准边际分布至 |P_合成 - P_普查| < 1/N。对所有准标识符组合强制 k≥5 匿名性(Sweeney 2002),防止个体可识别。

每个 Agent 的属性(39 字段 + NVIDIA 叙事人格)

人口统计6
年龄 · 性别 · 种族 · 规划区 · 居住身份 · 年龄段
经济6
月收入 · 收入段 · 教育 · 职业 · 行业 · 雇主类型
住房2
住房类型(HDB 1-5房/EC/公寓/独栋)· 收入段
家庭3
婚姻状况 · 家庭ID · 家庭角色
健康1
健康状态
人格 & 态度9
大五人格(O/C/E/A/N)· 风险偏好 · 政治倾向 · 社会信任 · 宗教虔诚
生活状态3
人生阶段 · 存活状态 · 数据来源
NVIDIA 叙事人格(8 个文本维度)每人约 3,000 字
个人画像 · 职业人格 · 文化背景 · 运动偏好 · 艺术品味 · 旅行风格 · 美食偏好 · 兴趣爱好 — 由 NVIDIA Nemotron 模型基于结构化属性生成,每个 agent 拥有独一无二的叙事身份
"Jie 是一个超级有条理的 21 岁年轻人,白天研究社区健康,晚上沉迷 K 歌,收集流浪筷子当纪念品,永远在担心辣油淋得不够完美。"

验证方法(4 重检验)

卡方检验
每个人口变量的边际分布 vs 普查目标,p > 0.05 通过
KL 散度
衡量合成分布与真实分布的信息损失,D_KL → 0 为最优
SRMSE
标准化均方根误差,< 0.05 优秀 / < 0.10 良好 / < 0.20 可接受
Cramer's V
验证变量间关联强度:年龄×教育 > 0.3,种族×规划区弱关联
硬约束:性别/种族/年龄/家庭规模 SRMSE < 0.10,否则合成失败,必须重跑。
数据来源:Population Trends 2025、GHS 2025、Key Household Income Trends 2025、MOM Labour Force Survey 2025、HDB Key Statistics 2024/25、Population in Brief 2025。所有边际约束来自新加坡政府官方统计,不是 LLM 猜测。
03

模式 A:社会模拟(7 天多轮 ABM)

基于 Agent-Based Modeling 的多轮意见动力学仿真

不是一次性问答,而是模拟真实社会中政策发布后 7 天内的意见演化过程。系统基于 Agent-Based Modeling(ABM)框架,运行 3 轮仿真,每轮注入递增的社会影响因子,捕捉经典社会科学中的信息级联(Bikhchandani et al. 1992)、群体极化(Sunstein 2002)和回音室效应(Jamieson & Cappella 2008)。

三轮演进模型

R1
Day 1 — 冷反应(Information Exposure)
智能体仅接收客观事实(政策内容、政府理由、公众顾虑),无同侪信号。模拟真实世界中"刚看到新闻"的初始态度形成。每个 agent 基于自身人口画像独立输出 5 级 Likert 量表回答(+2 强烈支持 → -2 强烈反对),记录选择和推理链。这一轮建立基线分布。
R2
Day 4 — 同侪影响(Social Influence Injection)
计算 Day 1 各聚类的意见分布,然后注入社会上下文:"你的社交圈中,约 X% 支持、Y% 反对。一位 [邻居/同事/亲戚] 说了这句话……"。聚类键为 housing_type × age_tier(如 hdb_mid_senior、private_young),每个聚类独立计算多数意见。模拟的是小世界网络中的局部影响传播(Watts & Strogatz 1998)——人们主要受到社会经济地位相似的人群影响。
R3
Day 7 — 回音室 + 最终决策(Echo Chamber Convergence)
使用 Day 4 更新后的聚类统计,注入更强社会压力:"几乎所有你认识的人都支持/反对""社交媒体上 #话题 在 TikTok/Reddit 趋势榜""政府召开发布会重申立场"。对分裂聚类额外注入反面引用,模拟信息交叉暴露。输出最终立场——捕捉 Noelle-Neumann (1974) 沉默螺旋理论中的从众压力效应。

意见动力学分析指标

极化指数 σ
全体意见得分的标准差。Day 1→Day 7 σ 上升 = 群体极化加剧(Sunstein 2002)
回音室强度
聚类内标准差均值。σ_within 下降 = 同质化加强,回音室形成
意见迁移率
Day 1→Day 7 立场改变的 agent 比例。典型值 15-30%,与社会心理学实验一致
净流向
向支持方向移动 vs 向反对方向移动的 agent 数差值,揭示总体舆论趋势

底层技术栈

1
Verbalized Sampling (VS)LLM 不选一个答案,而是输出概率分布 P(choice|persona, context),然后蒙特卡洛采样。消除模式坍缩(Zhang et al. 2025, arXiv:2510.01171),多样性提升 1.6-2.1 倍。同一画像、不同 run 得到不同回答——像真人一样。
2
Reformulated Prompting (RP)第三人称中性框架:"这个人会怎么回答?"而非"你是这个人"。模型变成观察者而非角色扮演者,社会期望偏差降低约 34%(Argyle et al. 2023, Political Analysis)。
3
人口聚类(Demographic Clustering)按 housing_type × age_tier 构建 12 个社会经济聚类(hdb_small/mid/large × young/mid/senior + private × 3)。每个聚类独立计算意见分布,作为下一轮的社会信号源。基于社会同质性原理(McPherson et al. 2001, "Birds of a Feather")。
4
分层抽样(Stratified Sampling)从 172K 中按 Neyman 分配在 age × gender 10 层中按比例抽样。保证样本人口结构匹配全国分布,可按种族/收入/住房/教育等 8 维度筛选目标受众。
5
并发仿真引擎20 路 asyncio 并发调用 DeepSeek LLM。每轮 N 个 agent,3 轮 = 3N 次 LLM 调用。指数退避重试(最多 5 次)。200 人样本约 15 分钟完成全部 3 轮(600 次 LLM 调用)。
6
NVIDIA Nemotron-70B 质量评分每个回答独立发送给 Reward Model 评分。> -5 高质量,-5~-15 可接受,< -15 标记低质量。非阻塞管线——评分失败不中断仿真。用于过滤幻觉回答和质量异常。
7
交叉分析 + 意见轨迹追踪按年龄/收入/种族/住房交叉分析。独特功能:追踪每个 agent 的 3 轮意见轨迹(如 +1→+2→+2 "坚定支持" 或 0→-1→-2 "被说服反对"),输出"意见旅程"叙事。

A/B 因果推断

同一批 agent,两个不同政策方案(Context A vs Context B),各跑完整 7 天 3 轮。双比例 z 检验计算统计显著性(p < 0.05),输出效应量(百分点差异)。因为控制了人口结构变量(同一批 agent),只改变政策变量——满足 Rubin (1974) 因果推断框架中的反事实条件:同一"个体"在两个处理条件下的结果差异。

学术参考:Bikhchandani et al. (1992) "A Theory of Fads, Fashion, Custom, and Cultural Change as Informational Cascades," JPE; Sunstein (2002) "The Law of Group Polarization," JPP; Watts & Strogatz (1998) "Collective dynamics of small-world networks," Nature; Noelle-Neumann (1974) "The Spiral of Silence," J. Communication; McPherson et al. (2001) "Birds of a Feather: Homophily in Social Networks," Ann. Rev. Sociology; Rubin (1974) "Estimating Causal Effects of Treatments," JASA.
典型场景:政策预演(CPF 提取年龄调整)、选举预测(GE2025)、社会态度调查(死刑/377A/种族和谐)、危机影响评估(GST 上调对各收入群体的影响)。每次仿真输出完整的 7 天意见演化曲线、聚类极化分析、和个体意见轨迹。
04

模式 B:调研模式

本体驱动的 AI 市场调研引擎 — 从需求对话到统计推断的全自动化流程

Sophie 是一个本体驱动(Ontology-driven)的 AI 调研引擎,而非简单的对话机器人。底层由 6 张知识图谱表(行业本体、话题图谱、情境事实库、受众预设、探测模板、问卷模式库)支撑,通过 RAG(Retrieval-Augmented Generation)管线将领域知识注入每一轮对话,确保问卷设计的专业性与一致性。

六阶段研究流程

1
本体引导探索基于 6 大行业(政府/金融/医疗/零售/地产/通用)× 51 个预定义话题的知识图谱,Sophie 通过多阶段探测模板(probe templates)引导用户锁定研究方向。每个话题关联 35+ 条情境事实(context facts),自动注入 LLM prompt,提供新加坡本地化的领域上下文。
2
智能问卷生成基于 5 种调查模式库(Likert 量表、多选、排序、开放题、联合分析),Sophie 自动生成结构化问卷。支持上传已有问卷(PDF/Word/文本),通过 LLM 解析抽取问题、选项与目标受众。所有问题通过 VS(Verbalized Sampling)格式化——要求模型输出概率分布而非单一答案。
3
多维受众配置8 维人口统计学筛选器(年龄、性别、住房类型、收入、种族、教育、婚姻状况、人生阶段),直接映射 172K agent 数据库的分层抽样框架。系统提供 10 组预设受众配置,覆盖常见细分场景。SQL 级实时计数确保样本代表性。
4
试点验证(n=20)小样本预运行用于验证三个维度:(1) 问题措辞的清晰度——检查理解偏差;(2) 选项覆盖度——检测选项遗漏;(3) 回答质量——通过 NVIDIA Nemotron-70B Reward Model 评分。零成本迭代,修改后即时重跑。
5
大规模并发仿真20 路并发 LLM 调用引擎,支持 1,000 / 2,000 / 5,000 / 20,000 样本量。每个 agent 的 prompt 包含完整人口统计画像 + VS 概率输出指令 + RP 第三人称框架。1,000 agent 约 3-5 分钟完成。实时 WebSocket 进度推送。
6
统计分析与推断输出层包含:(1) 频率分布与置信区间;(2) 多维交叉表(demographics × responses);(3) 个体级引用追溯——每条回答可回溯到具体 agent 画像;(4) NVIDIA 质量评分分布;(5) 样本充足性检验。支持一键扩大样本量进行效力分析(power analysis)。

核心技术栈

本体知识库
6 张 Supabase 表:行业→话题→事实的三层图谱 + 受众预设 + 探测模板 + 调查模式
RAG 管线
每轮对话实时检索相关话题事实,注入 system prompt,消除 LLM 幻觉
VS+RP 仿真
概率化输出 + 第三人称框架,解决一致性偏差和社会期望偏差
NVIDIA 评分
Nemotron-70B Reward Model 对每条回答评分,自动标记低质量样本
分层抽样
基于人口统计分层的概率抽样,确保样本对新加坡人口的代表性
并发引擎
20 路异步 LLM 调用 + WebSocket 实时进度推送

联合分析 (Conjoint Analysis)

基于选择导向联合分析(Choice-Based Conjoint, CBC)方法论(Green & Srinivasan, 1990)。将产品/方案分解为多个属性维度(价格、功能、品牌等),生成正交属性组合,每个 agent 在多组 profile 对中做偏好选择。通过条件 Logit 模型估计各属性的部分效用值(part-worth utilities),输出:各方案的市场偏好份额、按收入/年龄/住房类型的细分偏好、agent 级别的选择理由追溯。适用于产品概念测试、定价弹性研究和市场份额预测。

方法论参考

Green & Srinivasan (1990). Conjoint Analysis in Marketing. Journal of Marketing, 54(4).

Lewis et al. (2004). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS.

Haines (2014). Product Management. McGraw-Hill — Stage-gate survey design framework.

Louviere et al. (2000). Stated Choice Methods. Cambridge University Press — Discrete choice experiments.

Cochran (1977). Sampling Techniques. Wiley — Stratified random sampling theory.

适用场景:政策预研 · 市场调研 · 产品概念测试 · 品牌感知 · 定价策略 · 竞品对比 · 舆情预判 · 选举民调。
05

质量保障与 Backtest

用真实历史数据验证系统准确度

我们用 7 个已有真实结果的历史事件来检验系统。核心原则:AI 的 context 中绝不包含被验证调查的结果——模型必须独立预测,不能"抄答案"。可以引用其他事件的数据作为参考锚定(如用 GE2020 数据锚定 GE2025 预测),但不可以引用被验证事件的结果。

2.7pp2023 总统选举优秀
2.9pp2050 净零碳排优秀
4.3ppGST 涨至 9%良好
6.2pp2025 大选合理
7.0pp死刑态度合理
9.3pp种族和谐偏差较大
14.4pp377A 废除显著偏差
MAE = Mean Absolute Error(平均绝对误差). 越低越好。 pp = 百分点.

已知偏差(诚实披露)

社会期望偏差

LLM 训练数据偏向西方进步价值观。敏感议题上系统性高估"进步"立场(377A +21.6pp)。保守共识议题偏差较小。

负面放大 + 中立压缩

互联网数据过度代表冲突。种族和谐低估正面看法 13.4pp。同时 LLM 倾向"强迫"表态,压缩中立选项(377A 中立:真实 36% vs 模型 17.9%)。

系统提供方向性信号,不是精确预测。适合回答"哪些人群更可能反对?""主要顾虑是什么?"——而非"精确支持率是 47.3%"。
06

技术栈

支撑系统运行的核心技术

AI 对话: Sophie(DeepSeek LLM 驱动)
仿真 LLM: DeepSeek Chat · temp 0.7 · VS+RP
质量模型: NVIDIA Nemotron-70B Reward
人口合成: IPF + Bayesian Network + Copula
统计验证: 卡方 + KL 散度 + SRMSE + Hellinger
前端: Next.js 14 + TypeScript + Tailwind
仿真引擎: Python · 20 路并发 · 指数退避重试
数据库: Supabase PostgreSQL · 172K agents
Digital Twin Studio · Singapore · 合成人口仿真平台