岩性油气藏  2017, Vol. 29 Issue (5): 127-133       PDF    
×
主成分分析与模糊识别在岩性识别中的应用
马峥1, 张春雷2, 高世臣1     
1. 中国地质大学(北京)数理学院, 北京 100083;
2. 北京中地润德石油科技有限公司, 北京 100083
摘要: 表征复杂岩性的测井曲线之间的相似度较高,在岩性识别过程中存在着大量信息冗余,造成测井曲线具有一定的模糊性与相关性,干扰识别过程,导致识别效果不理想。以苏里格气田苏东41-33区块马家沟组五段碳酸盐岩测井数据为例,采用一种基于主成分分析与模糊识别相结合的方法解决了这一难题。该方法首先提取声波时差(AC)、自然伽马(GR)、光电吸收截面指数(Pe)、补偿中子(CNL)、补偿密度(DEN)、深侧向电阻率(RLLD)等对岩性变化反映比较敏感的测井曲线参数,通过主成分分析构建出3个综合变量Y1Y2Y3,再采用模糊识别方法对研究区的岩性进行识别。与传统识别方法相比,主成分分析与模糊识别相结合的岩性识别方法能有效消除特征曲线间的模糊性与相关性,并使岩性识别的正确率达到86%,是一种实用且有效的识别复杂岩性的方法,具有一定的推广和应用价值。
关键词: 模糊识别      主成分分析      岩性识别      测井参数      苏里格气田     
Lithology identification based on principal component analysis and fuzzy recognition
MA Zheng1, ZHANG Chunlei2, GAO Shichen1     
1. School of Science, China University of Geosciences, Beijing 100083, China;
2. Beijing Zhongdirunde Petroleum Technology Co. Ltd, Beijing 100083, China
Abstract: It is not ideal that characterization the complex lithology is disturbed by logging curves, which are redundancies in high similarity logging parameters. Based on principal component analysis(PCA) and fuzzy recognition, to solve this problem, a method was adopt to identify the complex lithology, and verified by carbonate rocks logging data of from fifth member of Majiagou Formation in Sudong 41-33 blocks of Sulige gasfileld. The complex lithology identification methods chose six logging curves of AC, GR, Pe, CNL, DEN, RLLD firstly, which are sensitive to lithology change, then construct three comprehensive variables Y1, Y2, Y3 by principal component analysis, and finally identify lithology by fuzzy recognition method. Compared with traditional identification methods, the method eliminate the fuzziness and correlation effectively, and the accuracy rate is reached up to 86%. It is a practical and effective method of complex lithology identification, and has certain popularization and application value.
Key words: fuzzy recognition      principal component analysis      lithology identification      well logging curve      Sulige gasfilelds     
0 引言

岩性识别是测井储层评价的重要工作之一,是油藏描述、地层评价、实时钻井监控、储层参数求解及储层评价的基础。传统的岩性识别方法有岩屑录井、钻井取心及测井资料解释等,然而岩屑依赖于录井的质量,钻井取心又很难做到对油田中测井剖面地层的完整描述[1-2]。随着测井技术的发展,丰富的测井信息逐渐引起研究人员的重视,综合运用各种测井资料可以更快速、更准确地获取地层岩性信息[3]。由于各类岩性在测井参数上没有明显的区分界限,因此岩性与测井曲线参数之间的关系往往具有模糊性;同时由于各测井曲线间存在着大量的信息冗余,导致其相关性较高,因此仅运用测井曲线资料难以全面而准确地识别岩性。近几年来,随着机器学习的发展,国内外越来越多的机器学习方法被引入到测井解释中[4]。Baldwin等[5]利用神经网络进行岩性识别,但由于神经网络具有黑盒效应,因此无法控制与分析模型的中间过程[6-7];Al-Anazi等[8]利用支持向量机进行岩性分类,但支持向量机须要寻找最优的分界样本,而模型参数及边界样本的选择均会影响识别效果[9]。为解决这一系列难题,本次研究采取基于主成分分析与模糊识别相结合的方法进行岩性识别,主成分分析采取降维的思想,通过正交变换,尽可能损失少的信息,把原有的多个测井曲线变量综合为少数的正交变量,从而简化数据结构,解决测井曲线间信息冗余带来的难题[10],并对下一步的岩性分析起到关键性的作用;模糊识别通过引入隶属度的概念,能够克服传统模式识别方法对类型划分不准确的缺点。在苏里格气田苏东41-33区块测井数据基础上,将识别结果与支持向量机(Support Vector Machine,SVM)、K最近邻分类(K-NearestNeighbor,KNN)、模糊识别等方法进行对比与分析,发现主成分分析与模糊识别相结合的方法可提高岩性识别的准确性。

1 方法原理

主成分分析是一种数据分析方法,其中心思想是从多个无序的原始特征中计算出一组按重要性从大到小排列的新特征,它们是原有特征的线性组合,且相互之间不相关。主成分分析不但可以用作特征的降维,还可以用来消除数据噪声,简化数据结构[11]

x1, x2, …xpp个原始特征,样本数为n,构成n × p维样本矩阵x;设新特征为Yi,其中i = 1, …, pYi是这些原始特征的线性组合;为避免数量级和量纲的影响,对样本进行了标准化处理,估算出样本协方差并进而构筑p × p维的协方差矩阵如下

$ {\mathop{\rm cov}} \left( {{x_i}, {x_j}} \right) = \frac{{\sum\nolimits_{i, j = 1}^n {\left( {{x_i} - \overline {{x_i}} } \right)\left( {{x_j} - \overline {{x_j}} } \right)} }}{{n - 1}} $ (1)

$ C = \left[{\begin{array}{*{20}{c}} {{cov}\left( {{x_1}, {x_1}} \right)}&{{\rm{cov}}\left( {{x_1}, {x_2}} \right)}& \cdots &{{\rm{cov}}\left( {{x_1}, {x_p}} \right)}\\ {{cov}\left( {{x_2}, {x_1}} \right)}&{{\rm{cov}}\left( {{x_2}, {x_2}} \right)}& \cdots &{{\rm{cov}}\left( {{x_2}, {x_p}} \right)}\\ \vdots&\vdots &{}& \vdots \\ {{cov}\left( {{x_p}, {x_1}} \right)}&{{\rm{cov}}\left( {{x_p}, {x_2}} \right)}& \cdots &{{\rm{cov}}\left( {{x_p}, {x_p}} \right)} \end{array}} \right] $ (2)

式中:cov(xi, xj)为估算的样本协方差;$ {\overline {{x_i}} } $为第i个特征的均值;C为协方差矩阵。

先求解协方差矩阵C的特征方程,得到特征值λ1, λ2, …λp以及特征向量α1, …, αp;再根据所求特征值大小对λi进行排序,即λ1λ2 ≥ … ≥ λp,其中λ1为∑最大的特征值,同时也是主成分的方差,方差值越大对总方差的贡献也越大,αiλi对应的特征向量;之后,用累计方差贡献率来选择合适的主成分数目k,一般当累计方差贡献率达到85%以上时($ \sum\nolimits_{i = 1}^k {{\lambda _i}/\sum\nolimits_{i = 1}^p {{\lambda _i} > 85\% } } $),此时的主成分个数k即为最佳的变量个数;最后,根据公式Y = ATx将样本投影到主成分方向上,Y1 = α1Tx称作第一主成分,Y2= α2Tx称作第二主成分,以此类推。其中αi为如下矩阵

$ {\alpha _1} = \left[{\begin{array}{*{20}{c}} {{\alpha _{11}}}\\ {{\alpha _{21}}}\\ \vdots \\ {{\alpha _{p1}}} \end{array}} \right], {\alpha _2} = \left[{\begin{array}{*{20}{c}} {{\alpha _{12}}}\\ {{\alpha _{22}}}\\ \vdots \\ {{\alpha _{p2}}} \end{array}} \right], \cdots, {\alpha _p} = \left[{\begin{array}{*{20}{c}} {{\alpha _{1p}}}\\ {{\alpha _{2p}}}\\ \vdots \\ {{\alpha _{pp}}} \end{array}} \right] $ (3)

式中:α1, α2αpλ1, λ2λp对应的特征向量。

用于岩性识别的测井曲线具有模糊性(样本属性),这种模糊性会降低传统识别方法的有效性,导致识别效果不理想。模糊数学是研究和处理具有模糊性现象的一种数学方法,模糊性在不同类型间没有明确的区分界限[12]。模糊识别就是利用模糊数学的思想来识别岩性,通过引入隶属度的概念,根据样本与类别间的隶属度来判别岩性,不仅计算简单、运算速度快,而且消除了测井曲线的模糊性,提高了岩性识别结果的可信度。

设样本集X ={x1, x2, …, xN},其中xi = (xi1, xi2, …xip),p为样本特征数。样本集分为K类,将样本集划分为两部分,一部分作为训练样本,另一部分作为测试样本。利用训练样本确定K个类的初始聚类中心M ={m1, m2, …, mk},mj表示每个类的中心。μij为第i个样本对第j类的隶属度,也代表样本与类别之间的相似度,可采用欧式距离或高斯函数作为相似度指标。N个样本与K个类别可以计算出一个N × K的隶属度矩阵,并根据隶属度最大原则确定样本的最终分类[13]

2 岩性及测井参数特征 2.1 研究区概况

实验数据来自鄂尔多斯盆地苏里格中区与东区交界处的苏里格气田苏东41-33区块,目的层为马五段。根据测井和录井参数资料分析结果,研究区地层的岩石类型主要分为石灰岩、白云质灰岩、泥质灰岩、白云岩、灰质白云岩、泥质白云岩、泥岩等7种(图 1);含气储集层的岩性主要为灰质白云岩和白云质灰岩等。岩性的多样性及复杂性给解释带来很大困难,因此岩性的解释是研究区储集层评价的关键环节,有效地识别这几类碳酸盐岩岩性,对区块的油气储层预测具有重要的意义。

下载eps/tif图 图 1 苏东41-33区块53-09井马五段测、录井参数 Fig. 1 Log and logging parameters of Ma 5 carbonates in well 53-09 in Sudong 41-33 block
2.2 岩性测井特征

选取6种对碳酸盐岩岩性反映敏感的测井曲线,即声波时差(AC)、自然伽马(GR)、光电吸收截面指数(Pe)、补偿中子(CNL)、补偿密度(DEN)、深侧向电阻率(RLLD), 统计不同岩性的测井响应平均值及方差(表 1),梳理各岩性的测井参数特征。石灰岩自然伽马较低,光电吸收截面指数较高;白云岩自然伽马较低,通常小于30 API,补偿中子通常大于5%,光电吸收截面指数较低;泥岩自然伽马较高,其值为87~177 API不等,补偿中子通常高于35%,声波时差较高;泥质白云岩由于含泥的特点,自然伽马较高,通常大于30 API,并随着泥质含量的增加而有所增大;其他测井曲线的平均值均介于泥岩和白云岩的特征值之间;同理,白云质灰岩、泥质灰岩、灰质白云岩,也具有与泥质白云岩相似的性质。

下载CSV 表 1 苏东41-33区块马五段不同岩性的测井响应平均值和方差 Table 1 Mean and variance of logging response of Ma 5 carbonates in Sudong 41-33 block

利用表 1中的6种测井曲线对训练样本集进行模糊识别。识别过程中,采用Provorova等[14]使用的遗传算法优化岩性与测井曲线间的权重参数,当识别率达到一定精度时,记录此时的权重。权重越高说明该测井曲线对这类岩性识别的重要程度越高,6种类型测井曲线的权重和为1(表 2)。从表 2可以看出,苏东41-33区块马五段补偿中子权重值在各岩性中均偏低,而声波时差、自然伽马、光电指数的权重值均偏高,说明其在岩性识别中的重要程度较高。

下载CSV 表 2 苏东41-33区块马五段测井曲线中不同岩性权重统计 Table 2 Logging weights of Ma 5 carbonates in Sudong 41-33 block
2.3 参数敏感性分析

从大量测井曲线中优选出的对岩性相对较敏感的6条测井曲线,它们之间仍存在大量的相关性和模糊性,其主要原因有以下3个方面:① 从测井原理来讲,测井曲线间本身就存在着一定的信息冗余;② 不同岩性可能会产生相同的测井曲线响应,因此存在一定的模糊性;③ 不同井之间的环境不同,以及实际测量过程中各种干扰因素的影响,均产生一定的相关性与模糊性。

二维交会图[15]可以直观地揭示出测井曲线间的相关性与模糊性。以声波时差-自然伽马及声波时差-补偿中子交会图为例(图 2),来研究其相关性与模糊性。从图 2可以看出,此时的测井曲线不能有效地区分出所有岩性,大量样本点处于重叠混杂的状态,各测井曲线中不同岩性的取值区域重叠,各岩性无法通过交会图区分开,这些现象均说明测井数据中存在着大量的信息重叠和冗余,因此仅利用测井曲线并不能很好地识别样本的岩性。

下载eps/tif图 图 2 苏东41-33区块44-20井马五段GR-ACCNL-AC交会图 Fig. 2 GR-AC & CNL-AC crossplots of well 44-20 in Sudong 41-33 block
3 主成分分析及选择

为解决测井曲线间相关性及模糊性问题,首先对原数据进行主成分分析,将大量具有相关性的变量进行降维处理,以得到不相关的综合变量。为消除数量级和量纲的影响,需要提前对原数据进行标准化,之后再计算标准化后的数据协方差矩阵,求出各主成分的特征值λi(i = 1, 2…6) 以及各主成分的方向,再根据所求结果,计算出各主成分的单一贡献率及累计贡献率。从表 3可以看出,主成分Y1的贡献率最高,为61%,主成分Y6的贡献率最低,只有3%。当选取前3个主成分(Y1, Y2Y3)时,累计贡献率已经达到93%,业内一般认为累计贡献率达到85%时就可以对样本进行有效区分。因子负荷载代表原始测井曲线信息有多少信息成分被包含进新的主成分中,正值为正相关,负值为负相关。从表 4可以看出,第一主成分Y1的测井曲线因子负荷载非常高,达到0.92,几乎包含了样本中的所有属性信息,尽管深侧向电阻率的负荷载在Y1中只有0.36,但其在Y2中却高达0.85,因此不同主成分间会对同一曲线的负荷载进行相互补充。由于Y4, Y5Y6中仍存在少量的因子负荷载,因此降维可能会造成少量的信息损失。

下载CSV 表 3 苏东41-33区块马五段主成分贡献率 Table 3 Principal component contribution rate of Ma 5 carbonates in Sudong 41-33 block
下载CSV 表 4 苏东41-33区块马五段因子负荷载 Table 4 Factor loading of Ma 5 carbonates in Sudong 41-33 block

根据主成分分析结果,绘制出主成分(Y1, Y2Y3)之间的二维交会图(图 3)。从图 3可以看出,各类样本有了明显的区分界限,泥岩、白云质灰岩、石灰岩、泥质白云岩等分布界线清晰,泥质灰岩、白云岩、灰质白云岩等也可在交会图中看到一定的分布规律。与图 2中大量样本混杂重叠的现象相比,图 3中的交会图已经可以进行粗略的人工区分,这说明利用主成分分析有利于解决样本变量间存在大量相关性的问题。通过观察图 3中每类样本的分布,可以看到多数样本围绕该类的中心分布,比较容易识别,然而,分散在不同岩性交界处的样本极易错分,识别难度较大,因此如何正确识别边界处的样本是提升方法效率的关键。

下载eps/tif图 图 3 苏东41-33区块马五段主成分交会图 Fig. 3 Principal components crossplots of Ma 5 carbonates in Sudong 41-33 block
4 算法应用及对比

在主成分分析基础上,利用模糊识别的方法对样本集进行训练,建立算法模型。再选取苏东41-33区块中z22井测井数据作为测试样本进行岩性识别验证,将识别结果与支持向量机SVM,KNN和模糊识别等方法[16-17]进行对比分析,建立每种识别方法的混淆矩阵,利用混淆矩阵计算正确率、误判率、Kappa系数等评价指标[18-19](表 5)。评价结果显示,KNN与SVM的正确率均较低,分别为62%与64%;仅用模糊识别方法识别出岩性的正确率为72%,较KNN与SVM稍有提高;主成分分析与模糊识别相结合的识别方法效果最好,正确率为86%。引入主成分分析后,模糊识别的正确率提升了14%。

下载CSV 表 5 苏东41-33区块马五段各识别方法对比 Table 5 Identification method comparison of Ma 5 carbonates in Sudong 41-33 block

对比主成分分析前、后的模糊识别混淆矩阵(表 6),可以看出使用主成分分析技术对数据进行预处理之后,几乎每种岩性识别的正确率都有了显著提升,其中白云质灰岩提升了24%,泥质灰岩提升了15%,灰质白云岩提升了43%,泥质白云岩提升了15%,白云岩提升了14%,泥岩提升了7%。

下载CSV 表 6 苏东41-33区块z22井马五段主成分分析前、后模糊识别混淆矩阵 Table 6 Fuzzy identification confusion matrix of Ma 5 carbonates before and after principal component analysis of well z22 in Sudong 41-33 block
5 结论

(1) 测井曲线间的相关性干扰了岩性识别的过程,增加了岩性识别的难度。以苏里格气田东区苏东41-33区块测井数据为例,采用主成分分析方法,构建了3个正交的主成分,解决了测井曲线间的相关性问题;交会图的对比结果证实了主成分分析这种降维方法能使样本间的区分界线更加明显。

(2) 用于岩性识别的测井曲线具有模糊性,这种模糊性会降低传统识别方法的有效性,导致识别效果不理想。用模糊识别的方法,通过引入隶属度的概念,可以有效消除测井曲线的模糊性,提高岩性识别的可靠程度。

(3) 主成分分析与模糊识别相结合的岩性识别方法消除了测井曲线参数间的相关性和模糊性,与传统的岩性识别方法相比,该方法将复杂碳酸盐岩岩性识别的正确率提高了14%。

参考文献
[1]
佘刚, 马丽娟, 徐永发, 等. 油砂储层特征及测井评价方法研究——以柴达木盆地干柴沟地区为例. 岩性油气藏, 2015, 27(6): 119–124.
SHE G, MA L J, XU Y F, et al. 2015. Reservoir characteristics of oil sands and logging evaluation methods:a case study from Ganchaigouarea, Qaidam Basin. Lithologic Rservoirs, 2015, 27(6): 119-124.
[2]
包强, 张婷, 张晓东, 等. 岩石相测井识别技术在阿姆河右岸A区的应用. 天然气工业, 2013, 33(11): 51–55.
BAO Q, ZHANG T, ZHANG X D, et al. 2013. Application of logging lithofacies identification technology in block A of the Right Bank of the Amu-Darya River. Natural Gas Industry, 2013, 33(11): 51-55. DOI:10.3787/j.issn.1000-0976.2013.11.009
[3]
张大权, 邹妞妞, 姜杨, 等. 火山岩岩性测井识别方法研究——以准噶尔盆地火山岩为例. 岩性油气藏, 2015, 27(1): 108–114.
ZHANG D Q, ZOU N N, JIANG Y, et al. 2015. Logging identification method of volcanic rock lithology:a case study from volcanic rock in Junggar Basin. Lithologic Rservoirs, 2015, 27(1): 108-114.
[4]
王庆如, 李敬功. 碳酸盐岩气藏储量参数测井评价方法. 岩性油气藏, 2013, 25(6): 98–102.
WANG Q R, LI J G. 2013. Logging evaluation method of reserve parameters of carbonate gas reservoir. Lithologic Rservoirs, 2013, 25(6): 98-102.
[5]
BALDWIN J L, BATEMAN R M, WHEATLEY C L. 1990. Application of a neural network to the problem of mineral identification from well logs. Log Analyst, 1990, 3(5): 279-293.
[6]
单敬福, 陈欣欣, 赵忠军, 等. 利用BP神经网络法对致密砂岩气藏储集层复杂岩性的识别. 地球物理学进展, 2015, 30(3): 1257–1263.
SHAN J F, CHEN X X, ZHAO Z J, et al. 2015. Identification of complex lithology for tight sandstone gas reservoirs sase on BP neural net. Progress in Geophysics, 2015, 30(3): 1257-1263. DOI:10.6038/pg20150335
[7]
张国英, 王娜娜, 张润生. 基于主成分分析的BP神经网络在岩性识别中的应用. 北京石油化工学院学报, 2008, 16(3): 43–46.
ZHANG G Y, WANG N N, ZHANG R S. 2008. Application of principal component analysis and BP neural network in identifying lithology. Journal of Beijing Institute of Petro-chemical Technology, 2008, 16(3): 43-46.
[8]
AL-ANAZI A, GATES I D. 2010. On the capability of support vector machines to classify lithology from well logs. Natural Resources Research, 2010, 19(2): 125-139. DOI:10.1007/s11053-010-9118-9
[9]
于代国, 孙建孟, 王焕增, 等. 测井识别岩性新方法——支持向量机方法. 大庆石油地质与开发, 2005, 24(5): 93–95.
YU D G, SUN J M, WANG H Z, et al. 2005. A new method for logging lithology identification-SVM. Petroleum Geology & Oilfield Development in Daqing, 2005, 24(5): 93-95.
[10]
胡红, 曾恒英, 梁海波, 等. 基于主成分分析和学习矢量化的神经网络岩性识别方法. 测井技术, 2015, 39(5): 586–590.
HU H, ZENG H Y, LIANG H B, et al. 2015. Lithology identification based on principal component analysis and learning vector quantization neural network. Well Logging Technology, 2015, 39(5): 586-590.
[11]
杨兆栓, 林畅松, 尹宏, 等. 主成分分析在塔中地区奥陶系鹰山组碳酸盐岩岩性识别中的应用. 天然气地球科学, 2015, 26(1): 54–59.
YANG Z S, LIN C S, YIN H, et al. 2015. Application of principal component analysis in carbonate lithology identification of the Ordovician Yingshan formation in Tazhong area. Natural Gas Geoscience, 2015, 26(1): 54-59.
[12]
刘璐, 吴成茂. 模糊局部均值聚类分割法改进及其应用. 计算机工程与设计, 2015, 36(12): 3365–3369.
LIU L, WU C M. 2015. Improvement and application of fuzzy local mean clustering segmentation method. Computer Engineering and Design, 2015, 36(12): 3365-3369.
[13]
李洁, 高新波, 焦李成. 基于特征加权的模糊聚类新算法. 电子学报, 2006, 34(1): 89–92.
LI J, GAO X B, JIAO L C. 2006. A new feature weighted fuzzy clustering algorithm. Chinese Journal of Electronics, 2006, 34(1): 89-92.
[14]
PROVOROVA I, PARSHUTIN S, PROVOROVS S. 2009. Usin genetic algorithm to optimize weights in data mining task. Scientific Journal of Riga Technical University, Computer Sciences, 2009, 40(1): 123-128.
[15]
张涛, 莫修文. 基于交会图与模糊聚类算法的复杂岩性识别. 吉林大学学报(地球科学版), 2007, 37(增刊2): 109–113.
ZHANG T, MO X W. 2007. Complex lithologic identification based on cross plot and fuzzy clustering algorithm. Journal of Jilin University(Earth Science Edition), 2007, 37(Suppl 1): 109-113.
[16]
DUBOIS M K, BOHLING G C, CHAKRABARTI S. 2007. Comparison of four approaches to a rock facies classification problem. Computers and Geosciences, 2007, 33(5): 599-617. DOI:10.1016/j.cageo.2006.08.011
[17]
王瑞, 朱筱敏, 王礼常. 用数据挖掘方法识别碳酸盐岩岩性. 测井技术, 2012, 36(2): 197–201.
WANG R, ZHU X M, WANG L C. 2012. Using data mining to identify carbonate lithology. Well Logging Technology, 2012, 36(2): 197-201.
[18]
HSIE B Z, LEWIS C, LIN Z S. 2005. Lithology identification of aquifers from geophysical well logs and fuzzy logic analysis:Shuilin area, Taiwan. Computers & Geosciences, 2005, 31(3): 263-275.
[19]
DONG S, WANG Z, ZENG L. 2016. Lithology identification using kernel Fisher discriminant analysis with well logs. Journal of Petroleum Science and Engineering, 2016, 143: 95-102. DOI:10.1016/j.petrol.2016.02.017