石油物探  2022, Vol. 61 Issue (2): 213-223  DOI: 10.3969/j.issn.1000-1441.2022.02.003
0
文章快速检索     高级检索

引用本文 

孙卫涛, 曹宏, 杨志芳, 等. 人工地震数据指纹特征点识别和自动标签化方法[J]. 石油物探, 2022, 61(2): 213-223. DOI: 10.3969/j.issn.1000-1441.2022.02.003.
SUN Weitao, CAO Hong, YANG Zhifang, et al. Identification and automatic tagging of dactylogram minutiae in seismic data[J]. Geophysical Prospecting for Petroleum, 2022, 61(2): 213-223. DOI: 10.3969/j.issn.1000-1441.2022.02.003.

基金项目

国家重点研发计划项目(2018YFA0702501, 2019YFC0605504)、国家自然科学基金项目(41874137, 42074144)、中国石油天然气集团有限公司“十三五”基础研究项目(2018A-3306)和CNPC“十四五”前沿储备技术研究课题(2021DJ3502)共同资助

第一作者简介

孙卫涛(1975—), 男, 博士, 副研究员, 主要研究方向为复杂介质波动理论和算法研究、计算生物学理论和方法等, 近年来主要从事可解释深度学习算法及其应用、高性能计算等领域的研究。Email: sunwt@tsinghua.edu.cn

文章历史

收稿日期:2021-03-10
人工地震数据指纹特征点识别和自动标签化方法
孙卫涛1,2, 曹宏3, 杨志芳3, 晏信飞3    
1. 清华大学航天航空学院, 北京 100084;
2. 清华大学周培源应用数学研究中心, 北京 100084;
3. 中国石油集团勘探开发研究院, 北京 100083
摘要:地震勘探是探测地下油气资源的重要方法之一, 利用人工地震剖面数据多种特征识别储层结构、岩性、物性等是地球物理勘探的关键问题。随着数据量的增大, 对地震数据进行降维和信号特征编码成为快速处理和分析地震资料的重要方向。由于手工标记拾取地震数据特征耗时费力、效率不高, 而且不同人员往往会产生不同的解释结果, 为此, 基于地震剖面数据与人类指纹之间存在的相似性特征, 提出了地震数据指纹特征点提取和自动标签化方法。该方法通过识别地震剖面数据间断、分叉等特征点, 从海量地震剖面数据中提取存储量小、信息丰富的指纹特征点, 并实现指纹特征点阵列(dactylogram minutiae array, DMA)编码算法。实际三维地震数据体处理结果表明, 指纹特征点和DMA编码可以将数据存储量降低2个数量级, 同时, 编码本身包含特征点位置、方位角等信息, 能够将编码从一维字符串恢复为二维特征点矩阵, 并重构出地震剖面的特征点分布。勘探区域地下结构和含油气情况决定了地震数据指纹特征点的分布, 因此特征点具有唯一性特点。利用指纹特征点匹配算法可以在三维数据体中自动实现相似特征的标签化, 为深度学习提供大量训练数据集合。基于指纹特征点识别和自动标签化算法具有大规模数据降维和标准化编码能力, 适合于快速生成人工智能算法的训练数据, 能够进一步挖掘现有数据中的信息, 为地震数据处理提供新的数据资料特征。
关键词地震数据    指纹特征点    自动标签化    数据降维    数据特征编码    图像处理    自动拾取    
Identification and automatic tagging of dactylogram minutiae in seismic data
SUN Weitao1,2, CAO Hong3, YANG Zhifang3, YAN Xinfei3    
1. School of Aerospace Engineering, Tsinghua University, Beijing 100084, China;
2. Zhou Pei-Yuan Center for Applied Mathematics, Tsinghua University, Beijing 100084, China;
3. Geophysical Department, RIPED, PetroChina, Beijing 100083, China
Abstract: Seismic exploration is one of the most important methods for detecting underground oil and gas resources.The main challenge it faces is the identification of the reservoir structure, lithology, physical properties, and other parameters by using various features of artificial seismic profile data.Traditional data acquisition and storage methods record time-domain signals on all data tracks.With the increase in the data collection area, data storage and computational capabilities become an inevitable limitation.Therefore, dimension reduction and signal feature coding have become essential to achieve the fast processing and analysis of seismic data.The feature extraction method based on manual marking and picking up is time-consuming and inefficient, and the results are affected by human factors.On the other hand, the parameterized modeling method is usually only effective for some special datasets, which reduces the performance of large-scale data processing.Based on the similarity between two-dimensional seismic profile data and human fingerprints, this paper proposes a method for extracting dactylogram minutiae (DM) from seismic data and automatic labeling techniques.By identifying discontinuous and branching features in seismic profile data, the method extracts DM from massive seismic profile data with less storage capacity requirements and richer information.The distribution of seismic DM is determined by the underground structure and the oil and gas contents in the exploration area.Therefore, the feature points are unique and can reflect the reservoir structure and petrophysical characteristics.The algorithm based on DM recognition and automatic labeling is characterized by large-scale data reduction and standardized coding, which is suitable for the rapid generation of training data for artificial intelligence algorithms.The algorithm can also mine useful information from existing data and provide additional data features for seismic data processing.
Keywords: seismic data    dactylogram minutiae    automatic labeling    data dimension reduction    data feature coding    image processing    automatic picking    

地震剖面数据特征提取的研究由来已久[1-4], 其目标是提取地震数据中尽可能多的有效信息, 包括信号振幅、频率、衰减等, 通过数学、物理建模方法建立特征和储层参数(速度、孔隙度、泥质含量等)之间的联系, 实现对油气藏的识别。由数据特征提取空间看, 现有模型大致可以归结为3类: 时间域的信号振幅强弱和传播速度特征[4-5]、频率域的信号频率成分和振幅强弱特征[6-7]以及波形函数域(小波、曲波)的系数分布特征[8-9]

第一类特征直接反映地层结构和岩性的特点。在地层波阻抗界面上, 波场发生反射和透射, 检波器通常会记录到反射波。反射信号的振幅强弱与地层反射系数有关, 并且还与波场传播的方位角度、偏移距以及地层深度有关, 常常用于反演储层信息[10-11]。与此同时, 地震反射信号在空间上的连续性还揭示了地质结构的形态。地震数据处理的一个关键目标是从地震剖面中发现有地质意义的特征, 包括利用同相轴识别断层、不整合面、油气藏地质结构, 主要适用于具有较好地层结构特征的含油气储层, 但在具有多样性和复杂特征的储层(如信噪比较低的深层致密岩石储层, 厚度薄、规模小的碎屑岩储层等)处理中面临挑战。

第二类特征反映地层对不同频率信号的响应。利用傅里叶变换方法将时间域信号变换为频率域信号, 根据信号所含不同频率成分的分布情况, 在不同频率条件下分析信号所含地质信息。由于某些特定频率对地层结构特征具有更高的敏感性, 因此可以在该频率信号中获取更多信息[12-13]。此外, 地震数据中信号和噪声如果出现在不同的频率分量上, 通过频率域滤波可以实现消除噪声、提高信号质量的目的[14]

第三类特征可以在小波系数空间反映地层对信号的响应。小波变换(WT)是一种对信号进行分解并分析频率成分随时间变化特征的方法。与傅里叶变换相比, 该类特征允许对非平稳信号的成分进行分析。小波系数具有稀疏性, 可以实现对信号的压缩, 同时反映地震信号在传播过程中不同频率成分随时间(传播路径上的地层特征)的变化情况[15-16]

地震剖面是接收器记录的信号, 主要包含振幅、相位和频率等信息。这些信息是信号本身的特征, 其时空变化受到地下储层介质物理属性(孔隙度、饱和度、岩性等)的影响。通过适当的信号处理方法, 可以从剖面中提取出波速、密度等储层地质和地球物理属性。由此可知, 由剖面直接提取的是信号本身特征(振幅、相位、频率等), 需要基于地球物理模型和数学建模, 通过信号处理方法得到具有物理意义的地下储层属性。由于地质构造、岩石属性、孔隙流体属性等影响因素不同, 导致产生不同的地震数据特征[17]。对于特定储层来说, 希望获得尽可能多的地震信号特征。

在传统地震剖面处理中, 一般使用振幅、相位、频率等特征。但是, 随着新技术的发展, 人们发现地震剖面信号中还蕴含着其它丰富信息(如地震信号指纹特征点), 这些信息尚未被充分挖掘, 其优点(例如数据量小、包含信息丰富等)也未得到充分利用。近年来, 基于对地震数据纹理属性的研究进展迅速[18-20], 在数据来源和质量相对固定的情况下, 通过纹理特征深入挖掘现有数据信息, 已经成为传统振幅、频率等特征的有力补充。与地震剖面上的振幅、相位、频率等传统特征一样, 指纹特征点是信号本身的特征, 需要通过地球物理模型和数学建模, 得到有明确的物理意义或地质意义的地震属性。

本文提出了基于地震剖面数据“指纹特征点”(dactylogram minutiae)的特征提取方法, 研究如何在海量地震数据中提取含有重要储层信息的数据特征。这种特征具有大规模数据降维和标准化编码能力, 适用于人工智能学习算法, 也被用来识别地球内部信息[21]。研究基于地震剖面数据指纹特征点识别算法和指纹特征点阵列(DMA)编码算法, 实现了高压缩率(数据量降低2个数量级)数据降维和高信息量编码技术, 其目标旨在识别提取地震剖面上最具代表性特征点, 提高海量数据特征提取效率; 同时算法获得的DMA特征包含了同相轴不连续点、分叉点等关键特征的全部信息, 为储层参数识别的人工智能算法提供了自动标签化数据集合。

一般而言, 在研究地震剖面特征时, 通常把储层属性跟这些特征直接建立联系。比如, 当孔隙含气体时, 地震剖面信号会出现“亮点”, 振幅发生明显变化。在研究中常常会把信号特征等同于储层地震属性。但是对于新型的信号特征(如指纹特征点), 尚未明确其与储层地震属性之间的直接关系, 因此还无法直接从指纹特征点的分布特征上直接“读出”对应的储层属性及其地质意义。但是, 这并不意味着指纹特征点没有物理意义或地质含义。相反, 对这些新型地震剖面特征背后蕴含的丰富地震属性的深入挖掘, 能够推动地球物理和数学建模领域的新发展, 并不断发现其应用价值。基于丰富的指纹分析方法和人工智能算法, 有望实现基于地震剖面数据指纹特征点的储层参数直接识别, 为海量数据地质结构的自动提取提供基础。

1 方法原理 1.1 地震数据的指纹特征点识别和空间分布

人类指纹是由脊线和谷线交错分布形成的纹路(图 1a), 其几何结构由个体遗传信息决定, 到目前为止, 世界上还不曾发现有两个人的指纹完全相同, 因此可以作为人类个体身份识别的特征。指纹特征点是指指纹脊线的分叉点、不连续间断点等特殊几何结构, 这些特征点具有唯一性特点, 通常被用作指纹识别的基本特征。指纹识别可以看作是一个特征点集的匹配问题[22], 在给定误差限制下, 搜索两个点集中对应点配对数最大的最优匹配。

图 1 人类指纹(a)及地震数据剖面(b)示意

地震剖面由地下地质结构反射信号的同相轴形成(图 1b), 具有数值上正负交错的复杂数据线条分布特征。地震数据特征点也具有唯一性特点, 其同相轴是由勘探区域地层的地下结构和含油气情况所决定, 可以作为该地区油气分布的识别特征。

对比地震剖面和指纹数据图可以看出, 地震数据剖面的信号特征与人类指纹的特征既存在差异, 也具有许多相似性。主要差异包括:

1) 指纹往往是弧线, 围绕中心点形成涡旋结构; 叠后地震数据主要以水平方向为平行轴, 按照顺序依次排列分布;

2) 指纹的“脊”和“沟”纹理相对光滑, 叠后地震数据往往具有高频毛刺;

3) 指纹的“脊”和“沟”连续性相对较好, 叠后地震数据水平同相轴间断较多。

重要的相似性主要包括:

1) 两者都存在连续的数据纹理曲线;

2) 两者都存在纹路不连续间断点和分叉点等特征。

基于这些相似性, 可以利用指纹特征点识别技术实现对地震数据的降维和编码处理。

指纹识别分析算法由来已久[23-24], 其中主流方法都是基于对指纹特征点的二维空间分布特征, 而非直接分析指纹的线条分布。人类指纹并非是完整连续的同心圆环, 而是存在大量的非连续局部特征点, 包括间断、分叉等。这些特征点的空间分布构成了代表人类个体的独有特征数据。这些指纹特征点的类型繁多, 其中最主要的特征点可以用图 1a所示的局部结构表示。

与之相类似, 我们发现地震剖面上也存在大量的间断、分叉等局部特征点(图 1b)。这些特征点源于地下油气储层对地震波传播信号的干扰, 由储层的岩石属性、油气含量和分布特征决定, 因此也代表了勘探区域的储层个体独有特征。但是, 现有主要地震数据处理方法(傅里叶变换、小波变换等)无法提取出这些典型局部特征, 需要研究新的地震数据特征提取方法。

1.2 地震剖面数据指纹特征点拾取

地震数据DMA拾取通常包括图像增强、分割、二值化和细化阶段, 进而得到由单像素宽度脊线形成的数据图像。图像增强是为了使图像更加清晰, 便于进一步操作, 通过图像增强提高信号波峰和波谷对比度, 去除孤立噪声散点, 有利于保持数据识别的精度。为了提高图像质量, 我们采用了高斯对数拉普拉斯滤波器。首先, 使用快速傅里叶变换(FFT)将图像变换到频域; 然后, 在相对较小的区域内增加主导频率的振幅; 最后利用逆FFT(IFFT)将图像重新变换回空间域。另一种图像增强方法是通过计算剖面图像数据的局部密度实现, 定义一个l×l的子窗口, 利用子窗口在剖面数据矩阵上进行扫描, 并计算当前窗口位置的数据值之和, 并将整个剖面的数据密度归一化形成密度级别矩阵, 然后对密度级别矩阵进行填补局部空洞和去除孤立噪点图形处理操作, 形成较为连贯和光滑的数据剖面, 为后续拾取指纹特征点提供方便。

数据分割是为了提高特征点拾取效率。一般来说, 对于每个地震剖面, 人们更关心含特殊地质构造的区域。缺少有效同相轴的区域将被排除在搜索范围外, 进而得到有效搜索区域的边界; 同时, 对于数据量巨大的剖面, 可以将数据分割成子区域, 在子区域内分别搜索特征点, 提高处理效率。

二值化在信号特征提取的过程中是一个非常重要的步骤, 地震数据是浮点型矩阵, 剖面同相轴强度在不同位置是不同的。但是, 对于识别数据不连续点和分叉点来说, 二值化数据剖面已经包含了足够的信息。二值化过程将浮点数据转换为0或1数值, 保证提供足够的数据信息, 并使数据处理更加方便, 提高了确定性。通常具有正值的目标信号赋予1, 具有负值的信号赋予0, 实际计算中常常利用阈值方法来实现二值化。

地震数据细化是一个去除同相轴的冗余像素的过程, 直到轴线宽度降为一个像素。该步骤可以采用一种迭代并行法, 在完整数据剖面上, 算法将每个小图像窗口中的冗余像素标记下来, 经过多次窗口扫描, 最终去除所有标记为冗余的像素。然后利用图像处理形态学过滤变薄的地震数据同相轴, 去除噪声孤立点。

对地震剖面进行特征点拾取是至关重要的一步。对比人类指纹特征点提取过程, 可以利用计算机图像处理算法和间断点、分叉识别算法来生成地震剖面特征点分布图。得到细化数据后, 利用交叉数的概念提取标记指纹特征点。一般来说, 对于每个3×3像素窗口, 如果中心像素为1并且恰好有3个邻居像素为1(交叉数为3), 那么该中心像素是一个分支点(图 2a); 如果中心像素为1, 且只有1个邻居像素为1(交叉数为1), 则中心像素为间断点(图 2b)。

图 2 地震剖面数据的分叉特征点(a)和不连续特征点(b)示意

图 3给出了地震数据经过处理后的特征曲线和不连续间断点、分叉特征点分布。在标记数据指纹特征点的同时, 细化数据剖面的脊线都被赋予一个唯一的标识, 以便进一步操作。

图 3 地震剖面上特征曲线及不连续间断点、分叉特征点分布 a 原始地震剖面; b 细化后的地震剖面; c 不连续间断点(实心圆点)和脊线方位角度(箭头)分布

图 3c中, 箭头代表细化脊线的方位角变化, 每一条脊线都有一系列独特的方位角变化值, 构成一个代表该脊线的唯一特征向量。利用像素窗口扫描数据剖面, 可以实现脊线方位角的识别算法。首先, 定义5×5方位角矩阵(图 4), 利用该矩阵在数据剖面上进行像素扫描, 方位角矩阵与像素窗口的“与”操作可以得到矩阵中心像素点及其附近像素组成的图线方位角, 通过地震剖面数据的特征点识别和脊线方位角特征向量, 我们把连续的信号数据图转换为离散的特征点分布图, 实现数据特征点降维。

图 4 细化数据脊线方位角矩阵

由特征点分布图可以发现, 在毛刺多的信号部分, 特征点较为密集; 在低频光滑信号部分, 特征点较为稀疏; 同时, 在信号幅度较大的地方, 特征点往往延伸范围也较大。这表明特征点不是随机分布, 而是与信号的频率、振幅及时空变化特征等相关联。因此, 特征点的分布包含了原始信号的频率、振幅等属性信息。

1.2.1 地震剖面数据指纹特征点匹配

给定两组地震数据剖面, 指纹特征点匹配算法用来判断对应两组特征点是否具有相似性。算法包括两个步骤: 对齐和匹配。对齐是指将两组数据剖面中对应特征点平移和旋转过程。给定两组数据剖面, 从每个剖面中任选一个特征点, 计算与两个特征点相关的特征点集合相似性。如果相似性大于阈值, 则将每一组特征点平移旋转到一个新的坐标系, 其原点在选定的特征参考点, 其坐标轴与参考点的所在脊线方位重合。匹配是指获得两组对齐的特征点集之后, 计算特征点对的相似性系数。

与特征点相关联的细化同相轴可以表示为一系列离散点(x1, x2, …, xn)组成的“山脊”。从参考特征点开始, 沿每条“山脊”每隔长度L取样一个点, 其中的L的数值可以取为“山脊”线之间的平均间隔。两组脊线特征点相似性系数S0定义为:

$ S_{0}=\frac{\sum\limits_{i=1}^{m} x_{i} X_{i}}{\sqrt{\sum\limits_{i=1}^{m} x_{i}^{2} X_{i}^{2}}} $ (1)

式中: xiXi是两组数据剖面上特征点的坐标; m是特征点的数量。如果相似度得分大于预先设定的阈值(如0.8), 则进行特征点的对齐, 否则继续匹配下一对脊线特征点。

在特征点的对齐步骤中, 对于每组数据剖面特征点集合, 将所有特征点相对于参考特征点进行平移和旋转, 计算公式如下:

$ \left[\begin{array}{l} x_{i} \\ y_{i} \\ \theta_{i} \end{array}\right]=\boldsymbol{R}\left[\begin{array}{l} x_{i}-x_{0} \\ y_{i}-y_{0} \\ \theta_{i}-\theta_{0} \end{array}\right] $ (2)

式中: (x0, y0, θ0)表示参考特征点的位置和方位角; R是旋转矩阵。

$ \boldsymbol{R}=\left[\begin{array}{ccc} \cos \theta & -\sin \theta & 0 \\ \sin \theta & \cos \theta & 0 \\ 0 & 0 & 1 \end{array}\right] $ (3)

该方法使用了之前计算得到特征点方位角度, 由于方位角度已经与每个特征点的坐标一起计算并保存, 因此节省了计算时间。

对于地震剖面上两个数据窗口进行特征点匹配时, 算法复杂度是计算效率的一个重要体现。设窗口数据集I中包含M个特征点, 窗口数据集J中包含N个特征点。算法第一个步骤从IJ中任意各选一个参考特征点进行对齐操作, 这一对特征点各自关联的两个同相轴长度一般不相同, 设其中较短同相轴的长度为L, 数据剖面上同相轴平均间距为d, 则特征点对齐步骤的计算复杂度为O(M×N×L/d)。已对齐特征点的相似度计算见公式(1), 设相似度大于预先设定阈值的部分占比例p(p < 1)。在算法第二个步骤中对这些相似度较大的特征点进行旋转, 并对旋转后的数据集进行特征点匹配, 其计算复杂度为O(p×M×N)。在引入特征点类型后(分叉点、不连续点等), 在第一步骤中对相同类型的特征点进行对齐, 计算复杂度降低至O(m×n×L/d), 其中m < M是数据集I中某类型特征点数, n < N是数据集J中同一类型特征点数。

1.2.2 地震剖面数据指纹特征点数据降维/标准化编码方法

利用地震剖面指纹特征点, 可以实现一维“指纹特征点阵列”压缩编码。在对地震剖面数据进行特征点识别之后, 得到了二维空间的“指纹特征点”离散分布数据。该数据仍需要进行进一步编码, 进而得到“指纹特征点阵列”。

这里给出了一种标准化的地震数据特征点阵列格式(Compact seismic data minutiae array, 简称CoSDMA)编码压缩格式, 该格式包含地震数据所有特征点的类型、位置和角度信息。首先, 定义一个方位角矩阵, 该矩阵包含特征点所在位置的角度, 即特征点在细化同相轴上的切向方位角。对应于每个角度, 我们定义了从1到8共计8个数字, 代表不同方位角(图 5)。

图 5 特征点方位角矩阵(括号中的数字代表不同方位角数值)

在地震数据剖面上, 搜索特征点的时候需要定义一个数据窗口, 该窗口的大小根据需要可以变化, 最大窗口可以包括整个剖面。特征点位置包含数字1到3, 分别代表该处特征点的属性。特征点属性1表示细化同相轴脊线的不连续端点, 2表示分叉点, 3表示脊线发生剧烈角度变化(通过角度变化阈值来定义)的转折点。每个特征点都具有独特的方位角度, 该角度表示特征点沿脊线切线方向的走向。因此, 每个特征点包括位置、属性和方位角3个特征。

每个特征点的属性可以是从1到3的3种不同类型, 同时, 每一种类型的特征点都可以具有从1到8的8个方位角。因此, 对于任意特征点, 可以具有24种属性和方位角组合。为了唯一定义一个特征点, 同时便于特征点数据编码和压缩, 我们定义了一个属性/方位角的编码表(图 6)。

图 6 地震剖面数据特征点编码表

根据编码表规则, 数据特征点可能的24种属性/方位角组合可以用24个字母表示, 这样就可以实现特征点矩阵的信息编码。地震剖面局部数据窗口中特征点可以表示为图 7

图 7 局部地震剖面数据特征点编码示意

为进一步减少数据存储量, 我们定义了特征点二维矩阵到一维阵列的映射规则。对于二维矩阵, 我们将每一列特征点编码字母前后串连, 形成一维数组。同时, 如果在特征点之间存在空白的数据位, 我们用字母Z表示。

基于图 6定义的规则, 可以将“指纹特征点”序列转换为由A-Z字母组成的一维阵列。以图 7的特征点为例, 可以表示为图 8所示的编码数据串。

图 8 地震剖面数据特征点一维编码数据

编码进一步精简为: Q2EZAWXNOHKRDCBA-IGPZ4JZSJQAMQIGXZGX, 其中字符串的Q2表示出现连续2个Q字符, Z4表示出现连续4个Z。这样, 不但可以去除冗余的数据信息, 保留了特征点的全部数据, 而且还保留了特征点之间的相对位置信息。

为了将CoSDMA编码反转恢复为地震剖面特征点二维矩阵, 需要知道数据窗口的长度和宽度信息; 同时, 为了保证CoSDMA编码在操作过程中不会发生意外错误, 还加入了校验机制, 将编码长度保存至编码本身; 另外, 我们也希望保存CoSDMA编码压缩率信息。因此, 在字符串编码头部增加了一个特殊数据块, 记录数据编码窗口大小、编码长度和编码压缩率信息。该数据块的格式是Y*Y#YY%|, 其中第一个Y后面的*是指数据窗口行数, 第二个Y后面的#是指数据窗口列数, 第三个Y后面的是指编码长度, 第四个Y后面的%代表编码压缩率, 最后的竖线|表示头部数据块的分隔符号。例如Y800Y401Y1650Y177是指数据窗口有800行, 401列, 编码长度1650, 编码压缩率为177倍。

图 7所示特征点编码是一个包含35个字母的字符串, 与原来二维5×8数据块相比, 数据存储量降低明显, 从80个数值(40个特征点属性+40个方位角值)降低到只有35个数值, 在稀疏特征点情况下, 该编码压缩率可以进一步提高。

1.3 地震数据剖面指纹特征点匹配和自动标签化

地震数据分析中运用深度学习方法需要解决两个关键技术问题: 数据和算法。地震数据属于一种时空数据, 可以很方便地表示为数据图片。运用深度学习的方法可以帮助我们分析处理这些图片, 找到其中的规律。深度学习的效果很大程度上取决于数据数量和质量。地震数据的体量非常巨大, 数据的差异性很强。例如, 不同储层得到的数据性质可能存在很大的差别, 相同储层在不同测线上接收到的信号也存在差异, 因此给数据匹配和识别带来困难。

地震数据的深度学习质量问题主要体现在带有标签的数据十分有限, 地震数据的标签远比人脸和数字图片要困难, 而且需要大量的专家经验。克服标签数据的不足主要有两个办法, 一个是数据扩充(data augmentation), 包括人工合成数据; 另一个办法是运用无监督学习方法, 这相当于把标签数据的困难转嫁到了算法上。我们提出了一种利用半监督方法自动获取地震剖面标签化数据的方法。

针对地震数据剖面地质特征提取问题, 首先将地震数据表示成指纹特征点, 然后运用半监督学习和指纹特征点匹配算法, 找出地震数据中具有相似指纹点特征的局部地震数据特征。所谓半监督学习是指在剖面上通过人工交互, 识别出我们认为较为明显的一个局部特征, 之后由指纹点识别算法在全部剖面数据中自动识别出相同指纹特征的数据区域, 并自动将这一类数据生成具有相同标签的数据集。

在此基础上, 我们可以对解决无监督学习中缺少标签数据的问题, 利用自动生成的标签数据集训练深度神经网络, 从中提取地质特征并对海量数据的地质结构进行识别和预测。

该算法的关键点在于将地震数据表示成指纹特征点数据体, 然后运用半监督指纹识别算法找出图片中具有相似性的结构。对于三维数据体, 第一步需要通过人工交互方式, 在指纹特征点数据切片上选择一个具有明显地质结构特征的区域, 提取该区域的指纹特征点, 然后利用指纹点识别算法, 在整个数据剖面上识别出具有类似特征的区域。由于不同数据剖面代表不同测线位置, 因此对地质结构的信号反映也不完全相同。在不同剖面上识别地质结构特征, 其指纹特征点分布并不会完全吻合, 因此需要定义一个表征指纹点识别相似度的量。在前文指纹特征点识别相似度基础上, 进一步定义一个相似度判断准则。

A, B分别表示两个不同的指纹特征点分布, 其中A图有m个特征点, 其坐标表示为(xi, yi), i=1, 2, …, m, B图中有n个特征点, 坐标表示为(Xj, Yj), j=1, 2, …, n。在对特征点进行平移和旋转后, AB图中的特征点得到了最大程度匹配。尽管如此, 匹配特征点之间仍然不会完全吻合, 相互之间存在一定距离。为了评价特征点的匹配程度, 定义相似度S为:

$ S=\frac{\sum\limits_{i=1}^{m} S_{i} \sum\limits_{j=1}^{n} S_{j}}{m n} $ (4)
$ S_{i}=\left\{\begin{array}{l} 1-\frac{d_{i}}{D}, d_{i}>\frac{D}{2} \\ 1, d_{i} \leqslant \frac{D}{2} \end{array}\right. $ (5)
$ \begin{gathered} d_{i}=\min \left[\sqrt{\left(x_{i}-X_{j}\right)^{2}+\left(y_{i}-Y_{j}\right)^{2}}\right] \\ j=1, 2, \cdots, n \end{gathered} $ (6)

式中: SiA图中特征点i的匹配程度; di是特征点i与对应匹配点的最小距离; D是特征点匹配的判断距离阈值(D=15), 当di < D时认为两个特征点i, j存在匹配关系; SjB图中特征点j与其它特征点的匹配程度。

通过指纹特征点匹配算法模块, 实现了三维数据特征点匹配和地质特征点半监督标签数据识别。该算法需要输入的三维数据体包括: ①地震指纹点三维数据; ②地震特征点方位角三维数据; ③地震数据同相轴细化三维数据; ④三维地震叠后数据体。其中前面三个数据体可以通过本文提出的算法生成。

2 测试分析 2.1 地震数据剖面指纹特征点拾取和编码

对实际地震数据进行了测试计算。为了便于清楚地说明算例效果, 这里截取了一个具有断层结构的数据剖面, 数据单道样点数为800, 共401道, 剖面见图 9a

图 9 地震剖面数据特征点分布示意 a 地震数据剖面; b 数据细化图和指纹特征点分布(红色圆圈表示不连续间断点, 绿色正方形表示分叉点, 蓝色三角形表示方位角突变点)

对整体剖面特征点进行了CoSDMA编码计算, 矩阵大小为800×401=320800, 数据量为800×401=320800。如果采用float型数值格式来存储的话, 64位编译器下每个float型变量占用4个字节(byte), 320800个float数据共占用1283200字节, 即1.22MB。整个剖面共有693个特征点(图 9b), 包括239个“脊线”端点, 221个分支点和233个方位角突变点, 采用CoSDMA编码后, 得到地震数据DMA编码, 编码长度为3371位, 编码中每个英文和数字占一个字节(byte), 3371位编码占3371字节, 即3.3KB。因此, 指纹特征点编码算法的编码率为1283200/3371=381倍, 经过特征点识别后的有效数据量约占原始数据的0.26%, 数据存储量降低了约两个数量级。常规数据无损压缩算法(如霍夫曼算法和LZW算法)一般可以将数据压缩到原来的1/2~1/4, 有损压缩算法压缩率约为1/10。由此可见, 当对较大数据量进行编码时, CoSDMA编码算法压缩率具有明显优势。

需要指出的是, 虽然CoSDMA编码对地震剖面信号来说是一种有损压缩算法, 但是其包含全部特征点空间分布信息, 如剖面特征点的维度、特征点之间的间隔、特征点类型和特征点方位角度等。这些信息完全存储在CoSDMA编码中, 足够将编码从一维字符串恢复为二维特征点矩阵, 并完全可重构出地震剖面的特征点分布。因此, 对于剖面特征点分布来说, CoSDMA编码是一种无损压缩算法, 能够完全恢复指纹特征点。

2.2 地震剖面断层特征指纹特征点自动标签化

针对某区块三维地震数据体(图 10), 对其中的断层地震特征进行了指纹特征点识别、CoSDMA编码和自动标签化。该数据体的inline数据道范围为100~200, Xline数据道范围为1~400, 每一道采样点数为801。

图 10 某区块三维地震数据体示意(部分)

首先对Xline剖面上的断层地震特征进行了识别。将参考剖面选为第80个剖面(断层结构明显的剖面), 利用人工交互窗口选择位于地震道采样点200附近的地层不连续特征, 窗口大小为100×100像素。待搜索目标剖面范围选为80~100, 目标匹配窗口大小为100×100。在inline剖面上, DMA编码压缩率最大达到约95倍, 平均压缩率达到73;在Xline剖面上, 编码压缩率最大达到约115倍, 平均压缩率约97;在水平切片上, 编码压缩率最大达到约200倍, 平均压缩率达到79。

当完成目标剖面80的特征点识别后, 依次进行下一个目标剖面的匹配扫描, 在给定目标剖面中, 当目标数据窗口的特征点相似度S大于预先设定阈值(这里选择S>0.68)时, 认为该窗口内部的指纹特征点与参考窗口内特征点满足匹配相似条件, 将该窗口内对应的特征点分布、细化同相轴和地震信号保存下来, 作为后续深度学习网络训练标签化数据集。

对参考剖面80上的断层不连续面地震特征进行半监督标签化, 生成断层特征点标签集(图 11)和对应原始数据剖面标签集(图 12)。

图 11 目标剖面断层结构地震特征集(143个指纹特征点)标签示意
图 12 目标剖面断层结构地震信号特征集(143个地震信号特征)标签示意

从半监督自动生成的标签化数据可以看出, 以参考剖面人工选择的断层地震特征为对象, 通过指纹特征点匹配和识别算法, 可以在海量数据中自动寻找并搜集与参考特征近似的地震信号特征局部数据, 并生成标签化数据集。同时, 通过肉眼观察可以发现, 标签数据集中的各个数据图(图 12)并非是完全一样的, 各个数据图与参考图之间的相似度通过匹配度S衡量, 较大的S值对应很好的匹配, 反之则差异大一些。

需要注意的是, 在深度学习算法中, 完全一致的标签数据集数据并非是一种优势, 反而会带来算法的局限性, 比如过拟合、泛化能力弱等。相反, 标签集中数据的多样性可以增加学习算法的鲁棒性, 这是由于多样化的数据特征可以提高算法的泛化能力。本质上说, 深度学习是一种插值算法, 而不是外推算法, 当训练集中标签数据能够覆盖更多情况时, 其插值能力(即预测能力)能得到更大的提升。因此, 在半监督方法生成地质体地震特征数据标签集时, 通过对匹配度S参数的调整, 可以改善深度学习算法的效果。

综上所述, 从二维地震数据剖面出发, 经过①指纹特征点识别; ②特征点标记一维化; ③生成指纹特征点阵列3个步骤, 可以实现地震特征数据的降维、编码, 并生成“指纹特征点阵列”(DMA)数据。该数据比原始数据存储量极大降低, 同时包含特征点的全部信息, 可以用于识别储层结构特征, 自动生成标签化数据集合。

地震数据指纹特征点的优点在于:

1) 极大压缩了地震数据的冗余信息, 降低了数据量, 提高了数据处理能力;

2) 实现地震信号属性特征的编码, 得到了地震剖面DMA数据结构;

3) 数据结构形式简单, 数据编码序列内容丰富, 蕴含了代表地质特征的地震数据信号属性;

4) DMA数据结构易于通过成熟的生物信息学方法处理, 极大丰富了地震数据资料处理的手段, 实现了多个领域方法的交叉融合。

DMA编码为发现储层属性和油气分布内在“基因”编码提供了一个新手段, 是对传统储层识别方法的有益补充, 其主要特点在于该方法通过地震指纹特征点数据体的匹配来识别断层特征, 无需直接在原始数据体上进行计算, 因此无论是加载数据还是处理数据, 都避免了直接读取海量原始数据, 极大降低了对系统内存的要求; 对数据存储的要求也极大降低, 提高了处理过程的便捷性, 满足便携式工作轻量级设备的需求; 由于该处理方法无需直接面对原始地震数据, 因此可以避免不必要的数据接触, 提高数据资料的保密性。

3 结论

基于地震剖面与人类指纹的相似性, 本文提出了人工地震数据指纹特征点的定义方法, 并对地震数据指纹特征点识别提取、编码压缩算法和自动标签化方法进行了研究。对实际数据的应用分析发现: ①地震数据体指纹特征点与剖面信号特征结构具有对应关系, 通过对特征点匹配, 可以实现自动生成海量数据的半监督标签化数据集; ②指纹特征点是对地质结构地震特征的间接体现, 通过特征点的位置和方位角信息匹配分析, 可以实现对断层等地质结构的特征标签化; ③特征点标签化数据集的数据图之间并非完全一样, 这是由于数据剖面本身信号特征之间存在差异, 同一个地质结构体在空间的延展变化, 引起标签数据的多样性, 指纹特征点匹配度S能够定量反映这种差异; ④对基于同相轴拓扑关系的数据分析可以在经过降维、编码的指纹特征点数据体上进行, 后者对存储空间的需求更少, 而且不直接接触原始数据, 可以提高保密性, 并利于在更广范围内寻求新型数据处理方法; ⑤地震数据指纹特征点与地质结构地震特征之间存在相关性, 通过对地震数据特征点的半监督识别与匹配方法, 能够实现自动生成海量数据体地质特征的标签化地震特征集合; ⑥地震数据指纹特征点编码使数据存储量降低两个数量级。上述特点表明, 地震数据指纹特征点对三维数据体自动标签化过程具有优势, 能够为机器学习算法快速提供大量特征训练数据, 是一种极具潜力的海量地震数据特征存储和处理的新方法。

参考文献
[1]
BOIS P. Some comments on the application of pattern recognition to oil and gas exploration[J]. Geoexploration, 1982, 20(1): 147-159.
[2]
BOIS P. Autoregressive pattern recognition applied to the delimitation of oil and gas reservoirs[J]. Geophysical Prospecting, 1980, 28(4): 572-591. DOI:10.1111/j.1365-2478.1980.tb01243.x
[3]
CHEN C H. Seismic pattern recognition[J]. Geoexploration, 1978, 16(1): 133-146.
[4]
O'DOHERTY R E, ANSTEY N A. Reflection on amplitudes[J]. Geophysical Prospecting, 1971, 19(3): 430-458. DOI:10.1111/j.1365-2478.1971.tb00610.x
[5]
何兵红, 方伍宝, 刘定进, 等. 基于波动方程转换的时间域多尺度全波形反演速度建模[J]. 石油物探, 2019, 58(2): 229-236.
HE B H, FANG W B, LIU D J, et al. Velocity building by multi-scale full waveform inversion with time-domain wave equation transform[J]. Geophysical Prospecting for Petroleum, 2019, 58(2): 229-236. DOI:10.3969/j.issn.1000-1441.2019.02.008
[6]
唐文榜, 李宗杰, 吴华, 等. 浅谈地震数据采集中的反射波高频成分[J]. 石油物探, 2020, 59(6): 831-843.
TANG W B, LI Z J, WU H, et al. Discussion on high-frequency components of seismic reflection wave in seismic acquisition[J]. Geophysical Prospecting for Petroleum, 2020, 59(6): 831-843. DOI:10.3969/j.issn.1000-1441.2020.06.001
[7]
GHOSAL D, JUHLIN C. Estimation of dispersion attributes at seismic frequency—A case study from the frigg-delta reservoir, north sea[J]. Journal of Geophysics and Engineering, 2018, 15(5): 1799-1810. DOI:10.1088/1742-2140/aabb35
[8]
ALI A, CHEN S C, SHAH M. Continuous wavelet transformation of seismic data for feature extraction[J]. SN Applied Sciences, 2020, 2(11): 1835-1846. DOI:10.1007/s42452-020-03618-w
[9]
陈文超, 陈昕, 王伟, 等. 基于波形特征稀疏化建模的地震信号表示理论与方法[J]. 石油物探, 2018, 57(1): 39-44.
CHEN W C, CHEN X, WANG W, et al. Seismic signal analysis based on waveform diversity enable sparse representation[J]. Geophysical Prospecting for Petroleum, 2018, 57(1): 39-44. DOI:10.3969/j.issn.1000-1441.2018.01.005
[10]
WARNER M, GUASCH L. Adaptive waveform inversion: Theory[J]. Geophysics, 2016, 81(6): R429-R445. DOI:10.1190/geo2015-0387.1
[11]
JAIMES-OSORIO LE, MALCOLM A, GHOLAMI A. Amplitude variation with offset inversion using acoustic-elastic local solver[J]. Geophysics, 2020, 85(3): R251-R262. DOI:10.1190/geo2019-0108.1
[12]
BEN-HADJ-ALI H, OPERTO S, VIRIEUX J. An efficient frequency-domain full waveform inversion method using simultaneous encoded sources[J]. Geophysics, 2011, 76(4): R109-R124. DOI:10.1190/1.3581357
[13]
AHMAD S S, WEIBULL W W, BROWN R J, et al. Observations and suggested mechanisms for generation of low-frequency seismic anomalies: Examples from the johan sverdrup field, central north sea norwegian sector[J]. Geophysics, 2019, 84(1): B1-B14. DOI:10.1190/geo2018-0144.1
[14]
妥军军, 王晓涛, 窦强峰, 等. 准噶尔盆地石炭系低频信号处理技术[J]. 石油地球物理勘探, 2020, 55(增刊1): 20-24.
TUO J J, WANG X T, DOU Q F, et al. Research and application of the processing method for carboniferous low-frequency signals, Junggar basin[J]. Oil Geophysical Prospecting, 2020, 55(S1): 20-24.
[15]
ZHANG R, DENG Z. A depth variant seismic wavelet extraction method for inversion of poststack depth-domain seismic data[J]. Geophysics, 2018, 83(6): R569-R579. DOI:10.1190/geo2017-0816.1
[16]
LI H, GREENHALGH S, CHEN S, et al. A robust q estimation scheme for adaptively handling asymmetric wavelet spectrum variations in strongly attenuating media[J]. Geophysics, 2020, 85(4): V345-V354. DOI:10.1190/geo2019-0442.1
[17]
孙成禹, 尚新民, 石翠翠, 等. 影响地震数据相位特征的因素分析[J]. 石油物探, 2011, 50(5): 444-454.
SUN C Y, SHANG X M, SHI C C, et al. Analysis of influence factors on phase characteristics on seismic data[J]. Geophysical Prospecting for Petroleum, 2011, 50(5): 444-454. DOI:10.3969/j.issn.1000-1441.2011.05.004
[18]
蔡涵鹏, 胡浩炀, 吴庆平, 等. 基于叠前地震纹理特征的半监督地震相分析[J]. 石油地球物理勘探, 2020, 55(3): 504-509.
CAI H P, HU H Y, WU Q P, et al. Semisupervised seismic facies analysis based on prestack seismic texture[J]. Oil Geophysical Prospecting, 2020, 55(3): 504-509.
[19]
冯小英, 杨延辉, 左银卿, 等. 敏感属性与参数反演融合定量预测煤体结构[J]. 石油地球物理勘探, 2019, 54(5): 1115-1122.
FENG X Y, YANG Y H, ZUO Y Q, et al. Coal structure quantitative prediction with sensitive-attribute and parameter-inversion fusion[J]. Oil Geophysical Prospecting, 2019, 54(5): 1115-1122.
[20]
唐杰, 张文征, 梁雨薇, 等. 自适应数据驱动的紧框架微地震数据随机噪声压制[J]. 石油地球物理勘探, 2019, 54(5): 954-961.
TANG J, ZHANG W Z, LIANG Y W, et al. A random-noise suppression approach with self-adaptive data-driven tight frame for microseismic data[J]. Oil Geophysical Prospecting, 2019, 54(5): 954-961.
[21]
徐鹏深, 滕云田, 于子叶, 等. 基于信号指纹的地磁异常识别算法[J]. 地震学报, 2018, 40(1): 79-88.
XU P S, TENG Y T, YU Z Y, et al. Electromagnetic anomaly identification algorithm based on signal fingerprinting[J]. Acta Seismologica Sinica, 2018, 40(1): 79-88.
[22]
LI P, YANG X, CAO K, et al. An alignment-free fingerprint cryptosystem based on fuzzy vault scheme[J]. Journal of Network and Computer Applications, 2010, 33(3): 207-220. DOI:10.1016/j.jnca.2009.12.003
[23]
JAIN A, LIN H, BOLLE R. On-line fingerprint verification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(4): 302-314. DOI:10.1109/34.587996
[24]
RATHA N K, KARU K, SHAOYUN C, et al. A real-time matching system for large fingerprint databases[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1996, 18(8): 799-813. DOI:10.1109/34.531800