﻿ 天然气管道黑色粉末粒度分布模型评价研究
 西南石油大学学报(自然科学版)  2018, Vol. 40 Issue (4): 177-186

1. 西南石油大学经济管理学院, 四川 成都 610500;
2. 中国石油化工股份有限公司天然气分公司, 北京 朝阳 100029;
3. 中国石油西南油气田分公司, 四川 成都 610000;
4. 西南石油大学石油与天然气工程学院, 四川 成都 610500

Assessment of Particle Size Distribution Models for Black Powders in Natural Gas Pipelines
QIN Yunsong1,2 , ZHANG Jijun1, AN Jianchuan3, HUANG Xin2, ZHENG Da4
1. School of Economics and Management, Southwest Petroleum University, Chengdu, Sichuan 610500, China;
2. SINOPEC Gas Company, Chaoyang, Beijing 100029, China;
3. Southwest Oil and Gas Field, PetroChina, Chengdu, Sichuan 610000, China;
4. School of Oil & Gas Engineering, Southwest Petroleum University, Chengdu, Sichuan 610500, China
Abstract: Understanding the particle size distribution (PSD) of black powders in natural gas pipelines is critical to resolving the black powder issue. There are now many PSD models available; however, there is a lack of established methods for assessing them. In this study, seven common PSD models were assessed for their goodness of fit and prediction capacities, on the basis of black powder data of a real natural gas pipeline, by employing assessment indexes such as SRMSE, R2, and IAIC as well as a confusion matrix and ROC curve. The results showed that the log-normal model not only is capable of both concentrated and even distribution, but also exhibits better goodness of fit. In addition, the log-normal model is capable of effective prediction in the full range of particle sizes (0.30~7.25 μm). Therefore, it is the PSD model with the most comprehensive prediction capability.
Key words: natural gas pipeline     black powder     PSD model     confusion matrix     ROC curve

1 颗粒流场常用PSD模型

2 PSD模型评价指标

2.1 拟合优度

(1) $m\left( {{F_1}, {F_2}} \right) = 0 \Leftrightarrow {F_1} = {F_2}$

(2) $m \left (F_{1}, F_{2} \right)\geqslant 0$$m越大，和F_{2}差距就越大。 因此，对样本总体F_0，以F_n表示样本{X_{1}$$X_{2}$$，\ldots， X_{n}}的经验分布，选取F^{*} \in{\psi_{0}}，使之满足  m\left( {{F_n}, {F^ * }} \right) = \mathop {\min }\limits_{F \in {\psi _0}} m\left( {{F_n}, F} \right) (4) 又由Glivenko-Cantelli定理可知，{F_n}一定收敛到F_{0}，则m\left( {{F_n}, {F^ * }} \right)较小时接受H_{0}，即认为给定的分布族中的分布拟合观测数据可以接受。 在实际应用中，度量函数m可由参数模型的一些性质参数替代，如和方差(S_{\text{SSE}})、均方差(S_{\text{MSE}})、均方根误差({S_{{\rm{RMSE}}}})和确定系数(R^2)等[25]，本文选取最为常用的S_{\text{RMSE}}$$R^2$作为拟合优度评价指标。此外，为检验模型是否有出现过度拟合的情况，本文还引入赤池信息量准则($I_{\text{AIC}}$)[26]对附加拟合参数施加惩罚以比较模型拟合的质量。

 $S_{\text{RMSE}} = \sqrt{\sum \limits_{i = 1}^{n} \dfrac{\left (x_{i}-\hat x_{i} \right)^{2}}{n-k}}$ (5)

$x_i$$\hat x_{i}—颗粒尺寸的观测值和预测值； n—样本数； k—模型中的参数个数。 {S_{{\rm{RMSE}}}}最小的模型被认为是拟合效果最好的模型。 确定系数(也称判定系数)R^{2}的计算公式为  {R^2} = \dfrac{{{S_{{\rm{ESS}}}}}}{{{S_{{\rm{TSS}}}}}} = 1 - \dfrac{{{S_{{\rm{RSS}}}}}}{{{S_{{\rm{TSS}}}}}} = 1 - \dfrac{{\sum\limits_{i = 1}^n {{{\left( {{x_i} - {{\hat x}_i}} \right)}^2}} }}{{\sum\limits_{i = 1}^n {{{\left( {{x_i} - {{\bar x}_i}} \right)}^2}} }} (6) 式中： {S_{{\rm{ESS}}}}—回归平方和； S_{\text{RSS}}—残差平方和； {S_{{\rm{TSS}}}}—总离差平方和； \bar x—颗粒尺寸观测值的平均值。 R^{2}的取值范围为[0, 1]，R^{2}越接近1，说明模型的拟合效果越好。 赤池信息量准则(最小信息准则)由赤池弘次提出，它通过对附加拟合参数施加惩罚以评价模型拟合情况，其计算方法为  I_{\text{AIC}}=2k-2 \ln L 式中： k—模型中的独立参数个数； L—模型的极大似然函数。 AIC准则建立在熵的概念基础上，可用以权衡所估计模型的复杂度以及判定模型拟合数据的优良性。根据该准则，应在备选模型中选择I_{\text{AIC}}值最小的模型。 2.2 预测能力 参数模型的预测能力由观测值与模型预测值之间的差异决定。由于在对天然气管道黑色粉末颗粒PSD分析中，人们通常更关心颗粒尺寸的分布范围(而非某颗粒的确切尺寸值)，本文使用混淆矩阵对各分布模型的预测能力进行判断。 混淆矩阵是数据分析和数据科学领域常用的一种可视化的分类效果示意图，它以矩阵的形式对数据按真实类别和预测结果进行汇总[27] 图 1展示了一个二分类问题的混淆矩阵结构，其中，C_{\text{TP}}$$C_{\text{FP}}$$C_{\text{FN}}$$C_{\text{TN}}$分别为对应类型样本的数量，以$C_{\text{TP}}$$C_{\text{FP}}$$C_{\text{FN}}$$C_{\text{TN}}组合运算得到的准确率(R_{\text{ACC}})、敏感性(R_{\text{TP}})、误报率(R_{\text{FP}})、缺失率(R_{\text{FN}})和特异性(R_{\text{TN}})等参数均为无因次量，这些参数即为评判模型预测能力的指标。  图1 二元分类混淆矩阵结构 Fig. 1 The confusion matrix of binary classify 为了避免可能的人为因素对分类器造成不利影响，本文选择硬分类器对各模型的计算结果进行分类，并引入受试者工作特性曲线——ROC曲线(Receiver Operating Characteristic Curve)进行进一步的数据分析。 ROC曲线[28]出现于20世纪70年代，最早用于雷达目标检测领域，在医学研究领域得到了长足的发展[29-30]，随后在识别模式、数据挖掘、机器学习等领域广泛应用。ROC曲线评估方法以其得天独厚的优势逐渐取代了经典的性能评估方法，作为一种规范成为评估分类器算法性能和比较不同分类器性能的主要工具[31]。本文取各模型分类结果中的R_{\text{FP}}$$R_{\text{TP}}$指标分别作为横、纵坐标，将各模型转换成二维ROC曲线图中的点进行描述，从而实现使用ROC曲线对模型预测能力进行评价。

3 基于实际管道颗粒尺寸数据的PSD模型研究 3.1 数据说明

 图2 天然气管道固体颗粒粒度分布[32] Fig. 2 The particles size distribution from a real natural gas pipeline[32]
 图3 随机抽取的4组子样本 Fig. 3 Four random subsamples
3.2 拟合优度计算结果

7个分布模型的拟合优度计算结果如表 2所示。

 图5 各模型预测能力ROC图(基于样本1) Fig. 5 The ROC analysis of predictive ability for the models(Based on sample 1)
 图6 各模型预测能力ROC图（基于样本2） Fig. 6 The ROC analysis of predictive ability for the models(Based on sample 2)
 图7 各模型预测能力ROC图(基于样本3) Fig. 7 The ROC analysis of predictive ability for the models (Based on sample 3)
 图8 各模型预测能力ROC图(基于样本4) Fig. 8 The ROC analysis of predictive ability for the models (Based on sample 4)

4 结语

(1) 拟合优度方面，当样本数据呈现出颗粒粒度明显集中的情况(大部分颗粒尺寸聚集在一个小的分布区间上)，高斯、韦伯、对数拉普拉斯分布和冈伯茨等模型占优；对样本呈现分布较为均衡的情况，R-R、对数正态分布和幂律模型占优。若缺乏样本数据(即对管道颗粒分布情况未知)，对数正态模型因为其兼具描述集中分布和平均分布的能力而更具优势。

(2) 各分布模型的预测能力与其所应用的粒径范围有很大关系。幂律分布模型和对数拉普拉斯模型在粒径较小[0.30 μm，1.24 μm)时具有较强的预测能力。在中等粒径[1.24 μm，3.00 μm)时，对数正态分布模型处于一枝独秀的局面。在较大粒径[3.00 μm，7.25 μm]时，对数正态分布的表现仍然优异，同时，R-R模型也凸显出较强的预测能力。由于对数正态模型是本文所给定条件下唯一一个适用于所有样本和粒径范围的有效模型，因此，认为对数正态模型是综合预测能力最强的模型。

(3) 根据具体的应用环境，各分布模型都有各自的优越性和局限性。针对本文天然气管道黑色粉末，综合两个方面的评价结果，对数正态模型是相对较优的PSD模型，但仍应根据具体的情况，如粒径(斯托克斯数)范围，样本具体信息等进行合理的选择，在样本量允许的情况下选取多种模型进行试算是较为理想的方法。

 [1] EIA. International energy outlook 2017[R/OL]. (2017-9-14)[2017-9-15]. US Energy Information Administration: USA. [2] BALDWIN R. The characteristics of black powder in gas pipelines and how to combat the problem[J]. Corrosion Prevention & Control, 2000, 47(4): 95-102. [3] SHERIK A M. Black powder in gas transmission pipelines[M]//REVIE W R. Oil and gas pipelines: Integrity and safety handbook. John Wiley & Sons, Inc. 2015: 423-436. [4] SHERIK A M, EL-SAADAWY E. Erosion of control valves in gas transmission lines containing black powder[J]. Mater. Perform, 2013, 52(5): 70-73. [5] KHAN T S, AL-SHEHHI M S. Review of black powder in gas pipelines-An industrial perspective[J]. Journal of Natural Gas Science & Engineering, 2015, 25: 66-76. doi: 10.1016/j.jngse.2015.04.025 [6] HOEKSTRA A J, DERKSEN J J, AKKER H E A V D. An experimental and numerical study of turbulent swirling flow in gas cyclones[J]. Chemical Engineering Science, 1999, 54(13-14): 2055-2065. doi: 10.1016/s0009-2509-(98)00373-x [7] MOGHADASI J, MÜLLER-STEINHAGEN H, JAMIALAHMADI M, et al. Theoretical and experimental study of particle movement and deposition in porous media during water injection[J]. Journal of Petroleum Science & Engineering, 2004, 43(3-4): 163-181. doi: 10.1016/j.petrol.-2004.01.005 [8] CROWE C T. Review-numerical models for dilute gasparticle flows[J]. Asme Transactions Journal of Fluids Engineering, 1982, 104(3): 297-303. doi: 10.1115/1.3241835 [9] 黄诗嵬. 天然气集输管道弯头冲蚀磨损研究[D]. 成都: 西南石油大学, 2016. HUANG Shiwei. Study on erosion wear at the elbow of gas-gathering lines[D]. Chengdu: South West Petroleum University, 2016. http://cdmd.cnki.com.cn/Article/CDMD-10615-1016098722.htm [10] KHAROUA N, ALSHEHHI M, KHEZZAR L. Prediction of black powder distribution in junctions using the discrete phase model[J]. Powder Technology, 2015, 286: 202-211. doi: 10.1016/j.powtec.2015.07.045 [11] KHAROUA N, ALSHEHHI M, KHEZZAR L. Effects of fluid flow split on black powder distribution in pipe junctions[J]. Advanced Powder Technology, 2016, 27(1): 42-52. doi: 10.1016/j.powtec.2015.07.045 [12] BAYAT H, RASTGO M, ZADEH M M, et al. Particle size distribution models, their characteristics and fitting capability[J]. Journal of Hydrology, 2015, 529: 872-889. doi: 10.1016/j.jhydrol.2015.08.067 [13] 薛毅, 陈丽萍. 统计建模与R软件[M]. 北京: 清华大学出版社, 2007. XUE Yi, CHEN Liping. Statistical modeling and R software[M]. Beijing: Tsinghua University Press, 2007. [14] 张泉. 北京地区大气颗粒物粒度分布特征与多环芳烃含量[D]. 北京: 北京大学, 2011. ZHANG Quan. The particle size distribution and polycyclic aromatic hydrocarbons of atmospheric particulates in the beijing area[D]. Beijing: Peking University, 2011. http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=Y2023098 [15] 万益, 黄薇薇, 郑成航, 等. 湿式静电除尘器喷嘴特性[J]. 浙江大学学报(工学版), 2015, 49(2): 336-343. WAN Yi, HUANG Weiwei, ZHENG Chenghang, et al. Spray characteristics of wet electrostatic precipitator[J]. Journal of Zhejiang University (engineering Science), 2015, 49(2): 336-343. doi: 10.3785/j.issn.1008-973X.-2015.02.021 [16] BRYANT G, MARTIN S, akin BUDI A, et al. Accurate measurement of small polydispersities in colloidal suspensions[J]. Langmuir, 2003, 19(3): 15-16. doi: 10.1021/-la026636g [17] 郑钢镖, 康天合, 柴肇云, 等. 运用Rosin-Rammler分布函数研究煤尘粒径分布规律[J]. 太原理工大学学报, 2006, 37(3): 317-319. ZHENG Gangbiao, KANG Tianhe, CHAI Zhaoyun, et al. Research on distribution regularity of coal dust using rosin-rammler distribution function[J]. Journal of Taiyuan University of Technology, 2006, 37(3): 317-319. doi: 10.-3969/j.issn.1007-9432.2006.03.018 [18] ULUSOY U, IGATHINATHANE C. Particle size distribution modeling of milled coals by dynamic image analysis and mechanical sieving[J]. Fuel Processing Technology, 2016, 143: 100-109. doi: 10.1016/j.fuproc.2015.11.007 [19] HEINTZENBERG J. Properties of the log-normal particle size distribution[J]. Aerosol Science and Technology, 1994, 21(1): 46-48. doi: 10.1080/02786829408959695 [20] KOZUBOWSKI T J, PODGÓRSKI K. Log-laplace distributions[J]. Internat. Math. J, 2003, 3(4): 467-495. [21] 李睿, 肖明, 李志浩, 等. 粒径呈幂律分布的颗粒气体中的速度分布特性[J]. 华中师范大学学报(自然科学版), 2014, 48(1): 49-52. LI Rui, XIAO Ming, LI Zhihao, et al. The properties of velocity distributions in granular gases with a powe-law size distribution[J]. Journal of Huazhong Normal University (natural Sciences), 2014, 48(1): 49-52. doi: 10.19603/j.-cnki.1000-1190.2014.01.010 [22] GROUT H, TARQUIS A M, WIESNER M R. Multifractal analysis of particle size distributions in soil[J]. Environmental Science & Technology, 1998, 32(32): 1176-1182. doi: 10.1021/es9704343 [23] SANG I H, LEE K P, DONG S L, et al. Models for estimating soil particle-size distributions[J]. Soil Science Society of America Journal, 2002, 66(4): 1143-1150. doi: 10.2136/sssaj2002.1143 [24] SCLOVE S L. Application of model-selection criteria to some problems in multivariate analysis[J]. Psychometrika, 1987, 52(3): 333-343. doi: 10.1007/bf02294360 [25] 段晓君, 王正明. 基于选择准则的参数模型评价方法[J]. 国防科技大学学报, 2003, 25(3): 62-65. DUAN Xiaojun, WANG Zhengming. Parametric model evaluation based on the selection criterion[J]. Journal of National University of Defense Technology, 2003, 25(3): 62-65. doi: 10.3969/j.issn.1001-2486.2003.03.015 [26] 刘璋温. 赤池信息量准则AIC及其意义[J]. 数学的实践与认识, 1980(3): 64-72. LIU Zhangwen. Akaike's information criterion (AIC) and its significance[J]. Mathematics in Practice and Theory, 1980(3): 64-72. [27] 米爱中, 张盼. 一种基于混淆矩阵的分类器选择方法[J]. 河南理工大学学报(自然科学版), 2017, 36(2): 116-121. MI Aizhong, ZHANG Pan. A method of classifier selection based on confusion matrix[J]. Journal of Henan Polytechnic University (Natural Science), 2017, 36(2): 116-121. doi: 10.16186/j.cnki.1673-9787.2017.02.019 [28] FAWCETT T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2005, 27(8): 861-874. [29] SWETS J A. ROC analysis applied to the evaluation of medical imaging techniques[J]. Investigative Radiology, 1979, 14(2): 109-121. doi: 10.1097/00004424-197903000-00002 [30] METZ C E. ROC methodology in radiologic imaging[J]. Investigative Radiology, 1986, 21(9): 720-733. doi: 10.-1097/00004424-198609000-00009 [31] 孙长亮. 基于ROC曲线的ATR算法性能评估方法研究[D]. 长沙: 国防科技大学, 2006. SUN Changliang. Study of ATR algorithm performance evaluation method based on ROC curve[D]. Changsha: National University of Defense Technology, 2006. http://cdmd.cnki.com.cn/Article/CDMD-90002-2007140037.htm [32] 许乔奇, 姬忠礼, 刘刚, 等. 高压天然气管道内颗粒物在线检测结果校正方法[J]. 过程工程学报, 2012, 12(5): 870-875. XU Qiaoqi, JI Zhongli, LIU Gang, et al. Experimental research on online determination technology of particles in high pressure natural gas pipeline[J]. The Chinese Journal of Process Engineering, 2012, 12(5): 870-875. [33] 骆名剑. 基于ROC的分类算法评价方法[D]. 武汉: 武汉科技大学, 2005. LUO Mingjian. Research of classification algorithm evaluation based on ROC[D]. Wuhan: Wuhan University of Technology, 2005. http://cdmd.cnki.com.cn/Article/CDMD-11915-2006031243.htm