系统介绍

17万+ 个数学严谨的 AI 市民孪生智能体，两种使用模式，三种仿真方法。以下是我们如何做到的、为什么可信、以及技术难度在哪里。

为什么不能直接问大模型？

通用大模型做社会调研的三大致命问题

✗ 问题一：一致性偏差。直接问大模型"新加坡人支持这个政策吗？"，100 次问 100 次都是同一个答案。没有多样性，无法反映真实社会的意见分布。

✓ 解决：语言化采样（Verbalized Sampling, VS）。我们不让模型选一个答案，而是输出概率分布（如"支持 60%，反对 30%，中立 10%"），然后按概率随机抽样。同一个画像，每次运行得到不同回答——就像真人一样。多样性提升 1.6-2.1 倍。

✗ 问题二：社会期望偏差。让大模型角色扮演（"你是一个 25 岁的马来族女性"），模型会给出"政治正确"的答案，系统性高估进步立场。

✓ 解决：重构提示词（Reformulated Prompting, RP）。我们不说"你是这个人"，而是"这个人会怎么回答？"——第三人称中性框架。模型变成观察者而非角色扮演者。社会期望偏差降低约 34%。

✗ 问题三：有常识，没有人口结构。大模型知道"新加坡华族约占 76%"这类 Wikipedia 级别的聚合统计，但它没有真正的人口结构——不知道联合分布（"55 岁华族男性住 HDB 4-Room 月入 $4,000"这个组合有多常见）、不知道条件概率（P(住 Condo | 月入>$15K) 具体是多少）、也无法保证逐个生成 1,000 人后整体分布匹配人口普查。它有常识，但没有微观数据。

✓ 解决：172,173 个合成智能体，基于人口普查微观数据重建联合概率分布。IPF（迭代比例拟合）在 age × gender × ethnicity × planning area 四维空间上精确匹配 Census 边际分布；贝叶斯网络保证属性间的条件依赖（education → income → housing）；验证门控要求 SRMSE < 0.10，否则合成失败重跑。不是"大致差不多"——是数学保证的人口结构还原。

VS 方法：Zhang et al. (2025) "Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity," arXiv:2510.01171. RP 方法：Argyle et al. (2023) "Out of One, Many: Using Language Models to Simulate Human Samples," Political Analysis 31(3).

合成人口：数学上如何保证代表性？

从人口普查到 172K 个独特的 AI 市民

生成流程（4 步）

IPF 拟合

用 Deming-Stephan 迭代比例拟合算法，在 4,704 个单元格（21 年龄段 × 2 性别 × 4 种族 × 28 规划区）上拟合人口普查边际分布。数学保证：最小化 KL 散度（Csiszar 1975 I-投影定理）。

贝叶斯网络采样

用有向无环图（DAG）建模属性之间的条件概率：P(收入|教育,年龄) × P(住房|收入) × P(婚姻|年龄,性别)。每张条件概率表来自 GHS 2025 官方数据。属性不是独立生成的——一个 60 岁 HDB 3-Room 居民，更可能是中学学历、月入 $2,000-3,000。

高斯 Copula

连续变量（大五人格、风险偏好、社会信任）通过 Gaussian Copula 生成，保留变量间相关性（如外向性↔开放性正相关 r=0.25，尽责性↔神经质负相关 r=-0.30）。基于 Sklar 定理（1959）。

校准 + k-匿名

贪心交换法校准边际分布至 |P_合成 - P_普查| < 1/N。对所有准标识符组合强制 k≥5 匿名性（Sweeney 2002），防止个体可识别。

每个 Agent 的属性（39 字段 + NVIDIA 叙事人格）

人口统计6

年龄 · 性别 · 种族 · 规划区 · 居住身份 · 年龄段

经济6

月收入 · 收入段 · 教育 · 职业 · 行业 · 雇主类型

住房2

住房类型（HDB 1-5房/EC/公寓/独栋）· 收入段

家庭3

婚姻状况 · 家庭ID · 家庭角色

健康1

健康状态

人格 & 态度9

大五人格（O/C/E/A/N）· 风险偏好 · 政治倾向 · 社会信任 · 宗教虔诚

生活状态3

人生阶段 · 存活状态 · 数据来源

NVIDIA 叙事人格（8 个文本维度）每人约 3,000 字

个人画像 · 职业人格 · 文化背景 · 运动偏好 · 艺术品味 · 旅行风格 · 美食偏好 · 兴趣爱好 — 由 NVIDIA Nemotron 模型基于结构化属性生成，每个 agent 拥有独一无二的叙事身份

"Jie 是一个超级有条理的 21 岁年轻人，白天研究社区健康，晚上沉迷 K 歌，收集流浪筷子当纪念品，永远在担心辣油淋得不够完美。"

验证方法（4 重检验）

卡方检验

每个人口变量的边际分布 vs 普查目标，p > 0.05 通过

KL 散度

衡量合成分布与真实分布的信息损失，D_KL → 0 为最优

SRMSE

标准化均方根误差，< 0.05 优秀 / < 0.10 良好 / < 0.20 可接受

Cramer's V

验证变量间关联强度：年龄×教育 > 0.3，种族×规划区弱关联

硬约束：性别/种族/年龄/家庭规模 SRMSE < 0.10，否则合成失败，必须重跑。

数据来源：Population Trends 2025、GHS 2025、Key Household Income Trends 2025、MOM Labour Force Survey 2025、HDB Key Statistics 2024/25、Population in Brief 2025。所有边际约束来自新加坡政府官方统计，不是 LLM 猜测。

模式 A：社会模拟（7 天多轮 ABM）

基于 Agent-Based Modeling 的多轮意见动力学仿真

不是一次性问答，而是模拟真实社会中政策发布后 7 天内的意见演化过程。系统基于 Agent-Based Modeling（ABM）框架，运行 3 轮仿真，每轮注入递增的社会影响因子，捕捉经典社会科学中的信息级联（Bikhchandani et al. 1992）、群体极化（Sunstein 2002）和回音室效应（Jamieson & Cappella 2008）。

三轮演进模型

Day 1 — 冷反应（Information Exposure）

智能体仅接收客观事实（政策内容、政府理由、公众顾虑），无同侪信号。模拟真实世界中"刚看到新闻"的初始态度形成。每个 agent 基于自身人口画像独立输出 5 级 Likert 量表回答（+2 强烈支持 → -2 强烈反对），记录选择和推理链。这一轮建立基线分布。

Day 4 — 同侪影响（Social Influence Injection）

计算 Day 1 各聚类的意见分布，然后注入社会上下文："你的社交圈中，约 X% 支持、Y% 反对。一位 [邻居/同事/亲戚] 说了这句话……"。聚类键为 housing_type × age_tier（如 hdb_mid_senior、private_young），每个聚类独立计算多数意见。模拟的是小世界网络中的局部影响传播（Watts & Strogatz 1998）——人们主要受到社会经济地位相似的人群影响。

Day 7 — 回音室 + 最终决策（Echo Chamber Convergence）

使用 Day 4 更新后的聚类统计，注入更强社会压力："几乎所有你认识的人都支持/反对""社交媒体上 #话题在 TikTok/Reddit 趋势榜""政府召开发布会重申立场"。对分裂聚类额外注入反面引用，模拟信息交叉暴露。输出最终立场——捕捉 Noelle-Neumann (1974) 沉默螺旋理论中的从众压力效应。

意见动力学分析指标

极化指数 σ

全体意见得分的标准差。Day 1→Day 7 σ 上升 = 群体极化加剧（Sunstein 2002）

回音室强度

聚类内标准差均值。σ_within 下降 = 同质化加强，回音室形成

意见迁移率

Day 1→Day 7 立场改变的 agent 比例。典型值 15-30%，与社会心理学实验一致

净流向

向支持方向移动 vs 向反对方向移动的 agent 数差值，揭示总体舆论趋势

底层技术栈

Verbalized Sampling (VS) — LLM 不选一个答案，而是输出概率分布 P(choice|persona, context)，然后蒙特卡洛采样。消除模式坍缩（Zhang et al. 2025, arXiv:2510.01171），多样性提升 1.6-2.1 倍。同一画像、不同 run 得到不同回答——像真人一样。

Reformulated Prompting (RP) — 第三人称中性框架："这个人会怎么回答？"而非"你是这个人"。模型变成观察者而非角色扮演者，社会期望偏差降低约 34%（Argyle et al. 2023, Political Analysis）。

人口聚类（Demographic Clustering） — 按 housing_type × age_tier 构建 12 个社会经济聚类（hdb_small/mid/large × young/mid/senior + private × 3）。每个聚类独立计算意见分布，作为下一轮的社会信号源。基于社会同质性原理（McPherson et al. 2001, "Birds of a Feather"）。

分层抽样（Stratified Sampling） — 从 172K 中按 Neyman 分配在 age × gender 10 层中按比例抽样。保证样本人口结构匹配全国分布，可按种族/收入/住房/教育等 8 维度筛选目标受众。

并发仿真引擎 — 20 路 asyncio 并发调用 DeepSeek LLM。每轮 N 个 agent，3 轮 = 3N 次 LLM 调用。指数退避重试（最多 5 次）。200 人样本约 15 分钟完成全部 3 轮（600 次 LLM 调用）。

NVIDIA Nemotron-70B 质量评分 — 每个回答独立发送给 Reward Model 评分。> -5 高质量，-5~-15 可接受，< -15 标记低质量。非阻塞管线——评分失败不中断仿真。用于过滤幻觉回答和质量异常。

交叉分析 + 意见轨迹追踪 — 按年龄/收入/种族/住房交叉分析。独特功能：追踪每个 agent 的 3 轮意见轨迹（如 +1→+2→+2 "坚定支持" 或 0→-1→-2 "被说服反对"），输出"意见旅程"叙事。

A/B 因果推断

同一批 agent，两个不同政策方案（Context A vs Context B），各跑完整 7 天 3 轮。双比例 z 检验计算统计显著性（p < 0.05），输出效应量（百分点差异）。因为控制了人口结构变量（同一批 agent），只改变政策变量——满足 Rubin (1974) 因果推断框架中的反事实条件：同一"个体"在两个处理条件下的结果差异。

学术参考：Bikhchandani et al. (1992) "A Theory of Fads, Fashion, Custom, and Cultural Change as Informational Cascades," JPE; Sunstein (2002) "The Law of Group Polarization," JPP; Watts & Strogatz (1998) "Collective dynamics of small-world networks," Nature; Noelle-Neumann (1974) "The Spiral of Silence," J. Communication; McPherson et al. (2001) "Birds of a Feather: Homophily in Social Networks," Ann. Rev. Sociology; Rubin (1974) "Estimating Causal Effects of Treatments," JASA.

典型场景：政策预演（CPF 提取年龄调整）、选举预测（GE2025）、社会态度调查（死刑/377A/种族和谐）、危机影响评估（GST 上调对各收入群体的影响）。每次仿真输出完整的 7 天意见演化曲线、聚类极化分析、和个体意见轨迹。

模式 B：调研模式

本体驱动的 AI 市场调研引擎 — 从需求对话到统计推断的全自动化流程

Sophie 是一个本体驱动（Ontology-driven）的 AI 调研引擎，而非简单的对话机器人。底层由 6 张知识图谱表（行业本体、话题图谱、情境事实库、受众预设、探测模板、问卷模式库）支撑，通过 RAG（Retrieval-Augmented Generation）管线将领域知识注入每一轮对话，确保问卷设计的专业性与一致性。

六阶段研究流程

本体引导探索 — 基于 6 大行业（政府/金融/医疗/零售/地产/通用）× 51 个预定义话题的知识图谱，Sophie 通过多阶段探测模板（probe templates）引导用户锁定研究方向。每个话题关联 35+ 条情境事实（context facts），自动注入 LLM prompt，提供新加坡本地化的领域上下文。

智能问卷生成 — 基于 5 种调查模式库（Likert 量表、多选、排序、开放题、联合分析），Sophie 自动生成结构化问卷。支持上传已有问卷（PDF/Word/文本），通过 LLM 解析抽取问题、选项与目标受众。所有问题通过 VS（Verbalized Sampling）格式化——要求模型输出概率分布而非单一答案。

多维受众配置 — 8 维人口统计学筛选器（年龄、性别、住房类型、收入、种族、教育、婚姻状况、人生阶段），直接映射 172K agent 数据库的分层抽样框架。系统提供 10 组预设受众配置，覆盖常见细分场景。SQL 级实时计数确保样本代表性。

试点验证（n=20） — 小样本预运行用于验证三个维度：(1) 问题措辞的清晰度——检查理解偏差；(2) 选项覆盖度——检测选项遗漏；(3) 回答质量——通过 NVIDIA Nemotron-70B Reward Model 评分。零成本迭代，修改后即时重跑。

大规模并发仿真 — 20 路并发 LLM 调用引擎，支持 1,000 / 2,000 / 5,000 / 20,000 样本量。每个 agent 的 prompt 包含完整人口统计画像 + VS 概率输出指令 + RP 第三人称框架。1,000 agent 约 3-5 分钟完成。实时 WebSocket 进度推送。

统计分析与推断 — 输出层包含：(1) 频率分布与置信区间；(2) 多维交叉表（demographics × responses）；(3) 个体级引用追溯——每条回答可回溯到具体 agent 画像；(4) NVIDIA 质量评分分布；(5) 样本充足性检验。支持一键扩大样本量进行效力分析（power analysis）。

核心技术栈

本体知识库

6 张 Supabase 表：行业→话题→事实的三层图谱 + 受众预设 + 探测模板 + 调查模式

RAG 管线

每轮对话实时检索相关话题事实，注入 system prompt，消除 LLM 幻觉

VS+RP 仿真

概率化输出 + 第三人称框架，解决一致性偏差和社会期望偏差

NVIDIA 评分

Nemotron-70B Reward Model 对每条回答评分，自动标记低质量样本

分层抽样

基于人口统计分层的概率抽样，确保样本对新加坡人口的代表性

并发引擎

20 路异步 LLM 调用 + WebSocket 实时进度推送

联合分析 (Conjoint Analysis)

基于选择导向联合分析（Choice-Based Conjoint, CBC）方法论（Green & Srinivasan, 1990）。将产品/方案分解为多个属性维度（价格、功能、品牌等），生成正交属性组合，每个 agent 在多组 profile 对中做偏好选择。通过条件 Logit 模型估计各属性的部分效用值（part-worth utilities），输出：各方案的市场偏好份额、按收入/年龄/住房类型的细分偏好、agent 级别的选择理由追溯。适用于产品概念测试、定价弹性研究和市场份额预测。

方法论参考

Green & Srinivasan (1990). Conjoint Analysis in Marketing. Journal of Marketing, 54(4).

Lewis et al. (2004). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS.

Haines (2014). Product Management. McGraw-Hill — Stage-gate survey design framework.

Louviere et al. (2000). Stated Choice Methods. Cambridge University Press — Discrete choice experiments.

Cochran (1977). Sampling Techniques. Wiley — Stratified random sampling theory.

适用场景：政策预研 · 市场调研 · 产品概念测试 · 品牌感知 · 定价策略 · 竞品对比 · 舆情预判 · 选举民调。

质量保障与 Backtest

用真实历史数据验证系统准确度

我们用 7 个已有真实结果的历史事件来检验系统。核心原则：AI 的 context 中绝不包含被验证调查的结果——模型必须独立预测，不能"抄答案"。可以引用其他事件的数据作为参考锚定（如用 GE2020 数据锚定 GE2025 预测），但不可以引用被验证事件的结果。

2.7pp2023 总统选举优秀

2.9pp2050 净零碳排优秀

4.3ppGST 涨至 9%良好

6.2pp2025 大选合理

7.0pp死刑态度合理

9.3pp种族和谐偏差较大

14.4pp377A 废除显著偏差

MAE = Mean Absolute Error（平均绝对误差）. 越低越好。 pp = 百分点.

已知偏差（诚实披露）

社会期望偏差

高

LLM 训练数据偏向西方进步价值观。敏感议题上系统性高估"进步"立场（377A +21.6pp）。保守共识议题偏差较小。

负面放大 + 中立压缩

中

互联网数据过度代表冲突。种族和谐低估正面看法 13.4pp。同时 LLM 倾向"强迫"表态，压缩中立选项（377A 中立：真实 36% vs 模型 17.9%）。

系统提供方向性信号，不是精确预测。适合回答"哪些人群更可能反对？""主要顾虑是什么？"——而非"精确支持率是 47.3%"。

技术栈

支撑系统运行的核心技术

AI 对话: Sophie（DeepSeek LLM 驱动）

仿真 LLM: DeepSeek Chat · temp 0.7 · VS+RP

质量模型: NVIDIA Nemotron-70B Reward

人口合成: IPF + Bayesian Network + Copula

统计验证: 卡方 + KL 散度 + SRMSE + Hellinger

前端: Next.js 14 + TypeScript + Tailwind

仿真引擎: Python · 20 路并发 · 指数退避重试

数据库: Supabase PostgreSQL · 172K agents

Digital Twin Studio · Singapore · 合成人口仿真平台