(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210685225.X
(22)申请日 2022.06.14
(71)申请人 武汉烽火技术服务有限公司
地址 430205 湖北省武汉市东湖新 技术开
发区高新四路6号1号楼1 1层
申请人 武汉大学
(72)发明人 魏明 杨林涛 陈琪美 胡记伟
张磊 曾勇 薛建军 余军
(74)专利代理 机构 武汉智权专利代理事务所
(特殊普通 合伙) 42225
专利代理师 何伟
(51)Int.Cl.
G06F 30/20(2020.01)
G06Q 10/04(2012.01)
G06F 111/08(2020.01)G06F 111/10(2020.01)
G06F 119/02(2020.01)
(54)发明名称
一种关于纵向数据的因果效应估计方法及
装置
(57)摘要
本发明涉及数据分析与挖掘领域, 具体涉及
一种关于纵向数据的因果效应估计方法及装置,
包括构建包含观测变量的因果关系图, 并生成对
应的仿真数据集, 将仿真数据集的样本输入待训
练的预测模型中, 获取模型参数; 从原始样本中
抽样创建多个副本, 采用训练好的预测模型模拟
潜在暴露、 潜在时依性混杂和潜在结果, 有效调
整时依性混杂的干扰; 并根据副本中潜在暴露和
潜在结果输入到边缘结构 模型中, 估计出暴露的
因果效应。 本发明基于蒙特卡罗的思想, 模拟出
在不同暴露值的潜在结果, 较好地解决了纵向数
据中时依性 混杂的问题, 尽可能无偏估计数据中
暴露的因果效应 。
权利要求书3页 说明书8页 附图3页
CN 115081206 A
2022.09.20
CN 115081206 A
1.一种关于纵向数据的因果效应估计方法, 其特 征在于, 其包括 步骤:
基于因果图中的所有观测变量构建仿真数据集;
根据所述仿真数据集构建时变暴露、 时依性混杂以及结果的预测模型;
根据所述预测模型与所述仿真数据集, 创建多个副本并模拟潜在暴露、 潜在时依性混
杂和潜在结果;
使用所述多个副本的合并数据对所述潜在暴露和潜在结果进行建模以获得每个边际
因果效应的估计值。
2.如权利要求1所述的一种关于纵向数据的因果效应估计方法, 其特征在于, 所述根据
所述仿真数据集构建时变暴露、 时依性混杂以及结果的预测模型, 包括 步骤:
根据第一公式构建所述预测模型;
所述第一公式为:
G(E[Lt|At‑1,Lt‑1,V; a])=a0·At‑1+a1·Lt‑1+a2T·V+a3,
G(E[At|At‑1; b])=b0·At‑1+b1,
其中,
t=0,1,2,...,T, G( ·)表示所述预测模型的连接函数且根据变量概率分布而确定, G
(E[Lt|At‑1,Lt‑1,V; a])表示时依性混杂的连接函 数, G(E[At|At‑1; b])表示时变 暴露的连接函
数,
表示结果的连接函数, At表示在时刻t所测量的暴露,
表示在时刻
0,1,…,t观测到的暴露, Lt表示在时刻t所测量的混杂,
表示在时刻0,1, …,t观测到的混
杂, V表示基线混杂, Y表示在t>T时测量的结果, a、 a0、 a1、 a2、 a3表示关于时依性混杂Lt的模型
系数, b、 b0、 b1表示关于时变暴露At的模型系数, c、 c0、 c1、 c2、 c3表示结果Y的模型系数。
3.如权利要求2所述的一种关于纵向数据的因果效应估计方法, 其特征在于, 所述根据
所述预测模型与所述仿真数据集, 创建多个副本并模拟潜在暴露、 潜在时依性混杂和潜在
结果, 包括 步骤:
根据所述仿真数据集中基线混杂V、 在时刻0所测量的混杂L0和基线暴露A0的概率分布
创建多个和所述仿真数据集相同的副本;
基于蒙特卡罗统计模拟方法, 根据所述仿真数据集中基线混杂V、 在时刻0所测量的混
杂L0和基线暴露A0的概率分布, 依次模拟副本中V ′、 L0′和A0′, 以保证副本中所有的非时依
性混杂、 基线混杂和基线暴露的概率分布服从所述仿真数据集中相应变量的概率分布且使
基线暴露与基线混杂彼此独立。
4.如权利要求2或3任一项所述的一种关于纵向数据的因果效应估计方法, 其特征在
于, 所述根据所述预测模型与所述仿真数据集的副本模拟潜在暴露和潜在结果的数据集,
包括步骤:
基于所述预测模型的模型参数和多个副本中的基线混杂V ′、 L0′和基线暴露A0′模拟潜
在时变暴露At′、 潜在时依性混杂Lt′以及潜在结果Y ′以使所述潜在时变暴露不受所述潜在
时依性混杂的影响。
5.如权利要求4所述的一种关于纵向数据的因果效应估计方法, 其特征在于, 所述使用
所述多个副本的合并数据对所述潜在暴露和潜在结果进行建模以获得每个边际因果效应
的估计值, 包括 步骤:权 利 要 求 书 1/3 页
2
CN 115081206 A
2基于第二公式对所述潜在时变暴露上的潜在结果构建边 缘结构模型;
提取所述边缘结构模型中的系数向量并将所述系数向量作为所述潜在时变暴露因果
效应的估计值;
所述第二公式为:
其中,
表示潜在时变暴露, Y ′表示潜在结果, α表示模型
中
系数向量, α0表示边缘结构模型的截距系数, E[ ·]表示预测变量的期望 。
6.一种关于纵向数据的因果效应估计装置, 其特 征在于, 其包括:
仿真数据集构建模块, 其用于根据因果图中的所有观测变量构建仿真数据集;
预测模型构建模块, 其用于根据所述仿真数据集构建时变暴露、 时依性混杂以及结果
的预测模型;
模拟潜在结构模块, 其用于根据所述预测模型与所述仿真数据集, 创建多个副本并模
拟潜在暴露、 潜在时依性混杂和潜在结果;
因果效应计算模块, 其用于使用所述多个副本的合并数据对所述潜在暴露和潜在结果
进行建模以获得每 个边际因果效应的估计值。
7.如权利要求6所述的一种关于纵向数据的因果效应估计装置, 其特征在于, 所述预测
模型构建模块还用于:
根据第一公式构建所述预测模型;
所述第一公式为:
G(E[Lt|At‑1,Lt‑1,V; a])=a0·At‑1+a1·Lt‑1+a2T·V+a3,
G(E[At|At‑1; b])=b0·At‑1+b1,
其中,
t=0,1,2,...,T, G( ·)表示所述预测模型的连接函数且根据变量概率分布而确定, G
(E[Lt|At‑1,Lt‑1,V; a])表示时依性混杂的连接函 数, G(E[At|At‑1; b])表示时变 暴露的连接函
数,
表示结果的连接函数, At表示在时刻t所测量的暴露,
表示在时刻
0,1,…,t观测到的暴露, Lt表示在时刻t所测量的混杂,
表示在时刻0,1, …,t观测到的混
杂, V表示基线混杂, Y表示在t>T时测量的结果, a、 a0、 a1、 a2、 a3表示关于时依性混杂Lt的模型
系数, b、 b0、 b1表示关于时变暴露At的模型系数, c、 c0、 c1、 c2、 c3表示结果Y的模型系数。
8.如权利要求7所述的一种关于纵向数据的因果效应估计装置, 其特征在于, 所述模拟
潜在结构模块还用于:
根据所述仿真数据集中基线混杂V、 在时刻0所测量的混杂L0和基线暴露A0的概率分布
创建多个和所述仿真数据集相同的副本;
基于蒙特卡罗统计模拟方法, 根据所述仿真数据集中基线混杂V、 在时刻0所测量的混
杂L0和基线暴露A0的概率分布, 依次模拟副本中V ′、 L0′和A0′, 以保证副本中所有的非时依
性混杂、 基线混杂和基线暴露的概率分布服从所述仿真数据集中相应变量的概率分布且使
基线暴露与基线混杂彼此独立。
9.如权利要求7或8任一项所述的一种关于纵向数据的因果效应估计装置, 其特征在
于, 所述模拟 潜在结构模块还用于:权 利 要 求 书 2/3 页
3
CN 115081206 A
3
专利 一种关于纵向数据的因果效应估计方法及装置
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:46:00上传分享