(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210640643.7
(22)申请日 2022.06.08
(71)申请人 河海大学
地址 210024 江苏省南京市 鼓楼区西康路1
号
(72)发明人 张鹏程 陈豪 丁亮 张婧玉
邓继
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
专利代理师 孟红梅
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 50/02(2012.01)
G06V 10/762(2022.01)
G06V 10/764(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于样本失衡的深度学习矿产资源分类预
测方法及系统
(57)摘要
本发明提出了一种基于样本失衡的深度学
习矿产资源分类预测方法及系统, 本发明将研究
区分为矿床区、 成矿远景区和背景区, 若成矿远
景区中存在化探数据异常的区域, 则能够间接说
明该区域具有较高的矿化概率且表现出与已知
矿床的化探数据特征相似性更高。 利用深度学习
的方式来分析并确定成矿远景区内化探数据异
常的区域, 然后将已知矿床区和所得化探异常区
两者的空间数据特征视为神经网络的学习对象,
用于习得化探数据与矿化之间的客观 规律。 为了
防止神经网络对背景区的空间数据特征过拟合
等问题, 引入损失权重和惩罚损失对传统的交叉
熵损失函数做出改进。 本发明能够在较少的矿靶
区地球化学数据中找出矿化规律 以在新的地球
化学数据中预测矿化 概率。
权利要求书3页 说明书7页 附图3页
CN 114997501 A
2022.09.02
CN 114997501 A
1.一种基于样本失衡的深度学习矿产资源分类预测方法, 其特 征在于, 包括如下步骤:
步骤1: 经由地理位置信息和地球化学 元素信息形成矿 靶区地质图像数据;
步骤2: 将研究区域分为矿床区、 成矿远景区和背景区;
步骤3: 通过变分自编码器分析成矿远景区内化探数据的特征分布并确定成矿远景区
内化探数据异常的区域, 若成矿远景区中存在化探数据异常的区域, 则将该区域的类别标
记为与其距离最近的矿床区类别相同;
步骤4: 将矿床区和所 得化探异常区的样本进行 数据增强;
步骤5: 构造卷积神经网络模型, 用于学习化探数据与矿化之间的规律, 为防止神经网
络模型对背景区的空间数据特征产生过拟合以及优化网络模型学习化探数据的成矿特征,
引入损失权 重和惩罚损失改进传统 交叉熵损失函数;
步骤6: 将训练样本数据输入到神经网络模型中进行迭代, 然后更新神经网络的参数;
步骤7: 将训练好的网络模型对待预测区域的化探数据进行矿化概率预测, 生成该区域
矿产资源的概 率预测分布图。
2.根据权利要求1所述的一种基于样本失衡的深度学习矿产资源分类预测方法, 其特
征在于, 所述步骤1中的地理位置信息包括已知 矿靶区的经纬度坐标, 地球化学元素信息包
括已知矿靶区的各种地球化学元素的含量; 在Arc GIS软件中输入地理位置信息和地球化学
元素信息, 经 过基于地学统计的克 里金插值法, 最终得到已知矿 靶区域的地质图像。
3.根据权利要求1所述的一种基于样本失衡的深度学习矿产资源分类预测方法, 其特
征在于, 所述步骤2中利用ArcGIS软件对化探数据进行迭代自组织聚类, 选取已知矿床区为
聚类中心, 将研究区域分为成矿远景区和背景区, 成矿远景区占研究面积的A%, 成矿远景
区中包含已知矿床区; 背景区占研究面积的(10 0‑A)%, A为预设的占比。
4.根据权利要求1所述的一种基于样本失衡的深度学习矿产资源分类预测方法, 其特
征在于, 所述 步骤3包括如下步骤:
步骤31: 将 成矿远景区拆分为若干个正方形区域, 每个区域的化探数据X从矩阵格 式展
开为n维向量[x1,x2,…,xn], xa∈(0,1),a=1,2, …,n, 假定成矿远景区化探数据的各种属
性特征满足隐藏空间的概 率分布z;
步骤32: 用神经网络构造一个编码器qΦ, Φ为训练参数, 编码器以变分推断的方式产生
i维的均值向量M=[ μ1, μ2, ..., μi]和i维的标准差向量N=[σ1, σ2, ..., σi], 由这两个向量可
表示一个混合高斯分布qΦ(z|X)用于逼近隐藏空间的概率分布z; 然后在分布qΦ(z|X)上随
机采样, 生成化探数据的隐含特征向量
eps为满足均值为0方差为1的i维
随机数向量;
步骤33: 用神经网络构造一个解码器pθ, θ 为训练参数, 解码器的作用是用隐含特征向量
γ生成数据
并且使得
尽可能的与X相似;
步骤34: 为了使编码器qΦ所得的分布qΦ(z|X)逼近概率分布z和提高解码器pθ重构隐含
特征向量γ为 化探数据X的几率, 构建损失函数
步骤35: 使用成矿远景区的数据以最小化损失函数为目标训练编码器qΦ和解码器pθ;
步骤36: 训练结束后, 依次排查成矿远景区各区域的化探数据, 若某个区域的重构交叉权 利 要 求 书 1/3 页
2
CN 114997501 A
2熵
的值低于平均值, 表示该区域的数据被
重构的几率较小, 空间数据特 征也和周围区域相异, 视为 化探异常区域;
步骤37: 将化探异常区与其距离最近的已知矿床区视为具有高度相似的空间数据特
征。
5.根据权利要求1所述的一种基于样本失衡的深度学习矿产资源分类预测方法, 其特
征在于, 所述 步骤4包括如下步骤:
步骤41: 将地质图像转 为数字矩阵x0;
步骤42: 创建一个与地质图像宽高尺寸、 通道数和数据类型相同的数字矩阵x1, 矩阵x1
的每一个元 素为随机数值且服从正态分布;
步骤43: 令y1=x0+x1, 将数字矩阵y1转为图像数据格式即得到新的地质图像。
6.根据权利要求1所述的一种基于样本失衡的深度学习矿产资源分类预测方法, 其特
征在于, 所述 步骤5包括如下步骤:
步骤51: 构造卷积神经网络模型, 模型的数据输入格式为c ×h×w的矩阵, c代表地球化
学数据的图像通道个数, 每个通道包含一种化探元素的信息, 总共c个化探信息, h、 w代表图
像的高和宽, 卷积神经网络的数据输出格式为代 表着各个矿型或背景区的概 率向量;
步骤52: 数据集的各类样本 标签分别为i, 共有 I类样本, 各类训练样本总数量 分别为ni,
训练样本总数量为
每一类样本在训练过程中的损失权重
样本数量较多的类别对应的权 重较小, 使得网络在推断时不会 对该类样本过拟合;
步骤53: 样本xi, i为其对应的标签, 通过神经网络输出得到的向量为P=[p1, p2, ...,
pI], 取出其标签i对应的概率pi, pi∈(0, 1], 令
该项表示交叉熵, 交叉熵
越
小则神经网络的输出结果越靠近对应标签i 的分布, 令
该项表示信
息熵, 信息熵
越小则数据P的分布不确定性就越低, 令
该项表示样
本xi的惩罚损失;
步骤54: 神经网络的损失函数为m个样本的平均惩罚损失, m为同一批次的训练样本数,
以最小化损失函数为目标训练神经网络可有效防止网络模型对背景区的空间数据特征产
生过拟合以及优化网络模型 学习复杂化探数据的成矿特 征。
7.根据权利要求1所述的一种基于样本失衡的深度学习矿产资源分类预测方法, 其特
征在于, 所述步骤7中得到训练好的网络模型后, 将需要预测的矿区化探数据输入到系统
中, 通过滑动窗口算法, 得到每个窗口区的成矿概率, 最 终形成整个矿区的成矿概率预测分
布图。
8.一种基于样本失衡的深度学习矿产资源分类预测系统, 其特 征在于, 包括:
预处理模块, 用于经由地理位置信息和地球化学 元素信息形成矿 靶区地质图像数据;
分区模块, 用于将研究区域分为矿床区、 成矿远景区和背景区;
化探异常区识别模块, 用于通过变分自编码器分析成矿远景区内化探数据的特征分布
并确定成矿远景区内化探数据异常的区域, 若成矿远景区中存在化探数据异常的区域, 则
将该区域的类别标记为与其距离最近的矿床区类别相同;
数据增强模块, 用于将矿床区和所 得化探异常区的样本进行 数据增强;权 利 要 求 书 2/3 页
3
CN 114997501 A
3
专利 基于样本失衡的深度学习矿产资源分类预测方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:58:22上传分享