石油物探  2022, Vol. 61 Issue (2): 205-212  DOI: 10.3969/j.issn.1000-1441.2022.02.002
0
文章快速检索     高级检索

引用本文 

肖立志. 机器学习数据驱动与机理模型融合及可解释性问题[J]. 石油物探, 2022, 61(2): 205-212. DOI: 10.3969/j.issn.1000-1441.2022.02.002.
XIAO Lizhi. The fusion of data-driven machine learning with mechanism models and interpretability issues[J]. Geophysical Prospecting for Petroleum, 2022, 61(2): 205-212. DOI: 10.3969/j.issn.1000-1441.2022.02.002.

第一作者简介

肖立志(1962—), 男, 博士, 教授, 博士生导师, 主要从事地球物理测井、核磁共振理论与仪器、油气人工智能方面的科学研究和教学工作。Email: xiaolizhi@cup.edu.cn

文章历史

收稿日期:2021-12-06
机器学习数据驱动与机理模型融合及可解释性问题
肖立志1,2,3    
1. 中国石油大学(北京)人工智能学院, 北京 102249;
2. 中国石油大学(北京)地球物理学院, 北京 102249;
3. 中国石油大学(北京)非常规油气教育部国际合作联合实验室, 北京 102249
摘要:回顾了油气人工智能研究进展, 分析其面临的一些关键问题。将油气人工智能研究分成两个层级, 即学术型油气人工智能研究和工业级油气人工智能研究, 两者面临不同的问题和挑战。对于学术型油气人工智能应用场景, 主要是关心算法及其相关理论应用, 着重于解决智能点的局部问题; 对于工业级人工智能应用场景, 更多的要关心数据治理、数据集、平台、多源多尺度多模态数据融合建模、数据驱动与机理模型融合建模以及机器学习模型的可解释性等问题。针对数据驱动与机理模型融合问题, 提出3种途径, 即算法融合、评价方法融合、数据集融合, 并给出实验验证。针对油气人工智能模型的可解释性问题, 指出工业级油气人工智能必须具有可解释性, 并提出初步解决方案, 包括建模前、建模中、建模后的多级解释模型。最后, 作者认为, 探寻工业级人工智能理论和应用场景发展之路, 必须厘清人工智能时代"物理世界"、"数字世界"、"人类认知世界"、"机器认知世界"和"机器正在改造的世界"之间的互动关系。
关键词人工智能    机器学习    地球物理勘探    数据驱动    机理模型    融合    可解释性    
The fusion of data-driven machine learning with mechanism models and interpretability issues
XIAO Lizhi1,2,3    
1. College of Artificial Intelligence, China University of Petroleum, Beijing 102249, China;
2. College of Geophysics, China University of Petroleum, Beijing 102249, China;
3. Key Laboratory of Unconventional Oil and Gas, Ministry of Education, China University of Petroleum, Beijing 102249, China
Abstract: Research of oil and gas artificial intelligence can be divided into two levels, academic and industrial research, which faces different problems and challenges.Academic oil and gas artificial intelligence application scenarios are mainly concerned with algorithms and their related theoretical applications, focusing on solving the local problems of intelligent points.Industrial-grade artificial intelligence applications are mainly concerned with data sets, platforms, multi-source multi-scale data fusion modeling, data-driven and mechanism model fusion modeling, and machine learning model explanatory issues.In this study, three suggestions are put forward for data-driven and mechanism model fusion: algorithm fusion, evaluation method fusion and data set fusion, and experimental verification is given.In view of the problems of oil and gas artificial intelligence models, the author illustrates that industrial-grade oil and gas artificial intelligence must be explanatory and puts forward some preliminary solutions, including multi-level interpretation, pre-modeling, in-modeling, and post-modeling.Finally, the author suggests that, to explore the development of industrial-grade artificial intelligence theory and application scenarios, we must clarify the interaction between the "physical world, " "digital world, " "the world recognized by humans, " "the world recognized by machines, " and "the world in which machines are being transformed."
Keywords: artificial intelligence    machine learning    geophysical prospecting    data driven    mechanism model    fusion    explanatory    

以大数据、机器学习、超强算力为基础的新一代人工智能是具有全局性变革和颠覆性潜力的技术体系, 正在改变人类社会生产生活的方方面面, 也不可逆转地改变着科学研究的问题域和范式。

石油石化行业涉及上游领域勘探开发生产环节的离散工业和中、下游领域储运管网及炼油化工环节的流程工业, 受到绿色环保节能等社会环境制约和降本增效提质等经营目标不断优化的强大驱动, 对新科技、新理念始终保持高度开放的态度。同时, 石油石化行业科技含量高、专业知识成熟、技术标准完备、人员素质好、有一定的信息化和自动化基础、历史数据丰富且实时更新迅速, 客观上为新一代人工智能应用提供了良好条件。但是, 油气工业的惯性发展模式是基于严格的专业技术分工来取得规模化效率, 面对数字经济时代对基于信息技术赋能作用获取多样化效率的发展模式, 其长期形成的数据壁垒、信息孤岛以及小样本、少标签的数据形态和对可解释性及高准确度的客观要求, 使“试错式”数据驱动的人工智能在油气行业的规模化及流程性落地应用有其严酷的挑战和滞后效应。

随着数字化转型在各行各业全面展开, 基于数据驱动的深度学习在石油石化行业受到高度重视, 近两年油气人工智能项目及应用成果大幅度增加, 油气物联网、数字孪生、云平台、数据治理、知识管理、协同研究、智能油气田、智能采油厂、智能管网、智能炼厂等应用场景的研究不断深化, 推广力度也越来越大。总体来看, 石油石化行业成熟度高、业务逻辑复杂、专业分工细致、安全运行严格, 局部智能点的选取和推广比较容易, 但是, 如果想要真正按照数字化转型的目标要求, 通过开放共享, 实现全流程智能化以及闭环优化控制, 行业转型和智能化发展之路还很漫长。

本文首先介绍油气人工智能研究进展及面临的若干关键问题, 然后针对这些问题, 提出油气人工智能分层级研究体系、机理模型与数据驱动融合的方法与途径以及对油气人工智能模型可解释性问题的认识与建议。

1 油气人工智能研究进展与关键问题

我们将石油石化领域的人工智能理论、技术、方法及应用统称为油气人工智能。2018年, 中国石油大学(北京)成立人工智能学院, 以满足石油石化对人工智能人才培养和科学研究的迫切需求, 通过人工智能与石油石化多学科的交叉融合来布局科学研究、培养创新人才。将地质地球物理、石油工程、管网集输以及炼制和化工等石油石化领域各个学科与人工智能交叉融合来赋能升级, 形成油气人工智能的理论、技术、方法及应用场景, 得到行业内外的广泛关注。三年来, 油气人工智能方向在读本科生、硕士生、博士生接近200名, 而企业订单式委托培养油气人工智能研究生并深度参与培养方案的制定和实施, 则加快了油气人工智能复合型人才培养模式的形成与推广。

在我们承担的中国石油战略合作项目“物探、测井、钻完井人工智能理论与应用场景关键技术研究”实施过程中, 逐步形成油气人工智能概念及其问题域和研究范式。我们认识到, 在油气人工智能应用场景研究中, 需要分成两个层级来展开: ①学术型油气人工智能应用场景研究; ②工业级油气人工智能应用场景研究。前者是个体的、离散的、局部的智能点的研究, 相对比较容易选取、推广并见到效果; 后者到了工业级, 涉及到全局、整体、实时动态一系列问题, 包括数据来源、数据集、数据湖、数据治理及数据生态、算法、平台及应用场景与闭环优化控制等。

学术型油气人工智能应用场景研究, 可以追溯到建院前许多老师的大量分散性探索。在中国石油项目里, 我们整合全校80余位教师参与其中, 完成并实现包括物探、测井、钻完井、开采、管道检测及设备维护等数十个具体应用场景, 涉及到对智能点问题的理解与定义、数据的准备、神经网络的构建、模型评价等一系列基本步骤, 这些均收录在即将出版的《油气人工智能理论与应用场景》中。

工业级油气人工智能应用场景则要困难得多, 面临全流程、贯通式的优化和闭环控制, 最终希望能够通过数字孪生和全流程可视化来实现智能决策及目标管理。基于对业务逻辑的理解提出流程级顶层设计, 对未来智能化目标的实施、运维及效益将产生巨大影响。而数据问题, 包括数据完备性、数据感知、数据治理及数据生态建设, 则变得尤为重要。石油石化行业长期以来所遵循的严格专业技术分工取得规模化效率的发展模式, 面对数据驱动人工智能的规模化和流程级推广应用获取多样性效率的发展模式时, 对人工智能模型部署不可避免地提出高准确性和可解释性的严格要求。

通过对工业级油气人工智能应用场景底层逻辑及关键环节的仔细梳理, 我们提出其面临且必须解决的几个关键问题。①数据治理及数据集构建。没有良好的数据治理体系和数据标准, 没有合理的数据集, 基于数据驱动的机器学习建立人工智能模型便不可能达成, 这个问题至今尚未引起足够重视。②多源多尺度多模态数据建模。来源广泛、时空跨度大、多种模态并存是油气行业数据的基本特征, 在传统的机理模型研究范式中, 多源多尺度多模态是难以处理的, 缺少必要的工具。而机器学习研究范式则提供了可能。③数据驱动与机理模型的深度融合。实践告诉我们, 在油气行业, 光靠数据驱动是不够的, 换个角度说, 过去长时间研究积累下来的领域知识和机理模型, 是我们认识世界的重要成果, 也是未来发展的重要基础。让数据驱动与机理模型深度融合, 不仅是一个实践问题, 也是尚未完全解决的理论问题。④油气人工智能模型的可解释性问题。包括可解释性的定义、可解释性问题的来源、以及如何解决可解释性问题等。对于前两个问题, 我将另行专门讨论, 本文主要针对数据驱动与机理模型深度融合以及可解释性问题提出一些初步看法和建议。

2 机器学习数据驱动与机理模型的融合之路

地球物理及岩石物理科学研究积累了大量领域知识和机理模型, 它们以物理模型及其表征参数之间的数学关系来表示, 构成地球物理和岩石物理知识体系, 成为解决地球物理和岩石物理问题的基础。基于此, 根据输入及相关约束条件, 利用已经建立的物理模型和领域知识或者函数关系, 即可得到期望的输出结果, 这是经长期积累而建立起来的确定性研究范式。

当输入与输出之间的映射关系未知或过于复杂, 上述确定性范式便可能失效。此时, 如果有足够多的数据及标签, 通过数据驱动的机器学习便可以建立起新型映射关系, 形成新的研究范式。这种新型映射关系即是基于数据及其标签体系训练好的神经网络模型, 它涉及到训练集和测试集的构建、神经网络模型的构建、模型评价的准则与方法以及一整套迭代学习的过程。利用训练好的神经网络模型, 作为新的映射关系, 完成输入到输出的映射(图 1)。这种网络模型的基本规则其实很简单, 它是一系列线性运算加非线性激活函数的组合。但随着神经元的增加, 其内部发生的过程和量值变化很快就会超出人的可认知范围, 在迭代过程中我们并不知道里面发生了什么, 所以, 通常将这样的模型训练过程及形成的模型叫做黑盒。随着神经网络越来越深、越来越大, 一个深度神经网络可能有几千万、几十亿个参数, 这样的参数体系远远超出个人的认知与控制范围, 由此产生一系列包括可解释性在内的后续复杂问题。

图 1 机理模型(a)和数据模型(b)的研究范式

数据驱动机器学习的基本流程, 从数据集开始, 利用对损失函数的最小化来对构建的深度数据网络进行训练, 再利用训练好的深度神经网络模型, 来实现对输入数据的映射, 起到预知或者认知的作用。这样的学习过程, 可以应用到实际问题的各个环节, 它可以是具体的智能点, 也可以放大到流程中。如果应用场景处于动态流程中, 可以利用新产生的数据及标签, 通过不断迭代、优化、升级, 形成完整闭环, 提高模型的准确性和适应性。

机理模型与数据模型两种研究范式的对比如图 1所示。机理模型解决问题的过程, 包括理论假设、在理论假设基础上得到近似表达式, 继而得到近似解, 然后, 在实践中检验, 得到具体而确切的输入输出之间的映射关系。进一步说, 由领域知识确定的机理模型方法, 有明确的物理模型, 或者是设定假设和理论模型, 通过数学方法建立物理模型各表征参数之间的关系。在实际应用中, 比如在地球物理中, 可能会遇到的问题包括但不限于: 难以充分考虑真实地质体的复杂性; 研究对象无法建立物理模型、无法用参数来描述的情景; 难以确定表征参数之间的关系。数据驱动的研究范式, 试图通过数据挖掘来迭代优化, 得到全优解, 由基于观测数据的机器学习来发现输入输出之间的关联关系, 被认为可以得到更普遍形式的解决方案。原理上, 机器学习方法在一堆貌似没有关系或者隐约有关系的、但很难定量描述的参量之间, 通过数据驱动来建立比较确切的关系模型。通常认为, 它更适用于复杂地质的研究, 因为不需要进行任何假设, 因而有更强的普适性, 而且它可以脱离物理模型, 进行纯数据的分析研究。

2019年《Science》上发表了一篇重要综述文章, 讨论固体地球科学中数据驱动的机器学习, 其中有领域知识与机器学习研究范式的对比, 并分析了机器学习在地球科学数据分析的自动化、正反演模拟、新发现的应用场景及方向, 很有启发性[1]。YU等[2]和JIA等[3]对深度学习在地球物理中的应用进行了系统深入的介绍。

以地球物理测井为例, 有很好的机理模型和数学基础, 可以单独进行数学建模, 分别发展了完整的正反演理论和方法[4-6]。但是, 当将两种或者多种不同来源、不同尺度、不同模态的数据进行结合时, 如前所述, 通常会遇到问题。利用人工智能, 多源多尺度多模态数据融合就不再是问题, 从这个角度说, 数据驱动的研究范式使多源、多尺度、多模态地球物理数据的应用方式发生了根本性变化和突破性进展。

YU等[2]归纳了地球物理多个领域的基本研究范式, 即机理模型和数据驱动。2019年《Nature》上发表了一篇重要综述, 提出物理模型与数据驱动机器学习相结合, 对人工智能地球物理未来发展很有启发意义[7]。研究过程中, 我们同样认识到, 单一路线或者单种范式已经很难实现油气人工智能研究目标, 更合理的途径和方向应该是数据驱动和机理模型的有机结合。很多学者已经开展了单独的机器学习及其与机理模型融合的研究[8-19]

面对油气藏以及油气井的各种数据, 首先需要分析数据的基本特征。在地球物理测井领域, 各种观测方法、仪器及获得的数据是经过长期发展完善而沉淀下来的。这些数据的来源和物理意义非常明确, 而且, 利用近似响应方程在一定范围内具有比较好的可行性。其次, 每一种地球物理测井数据, 都有很高的价值, 不可或缺, 也无法替代, 而且往往数据量大、数据类型多, 数据更新速度快。时间序列和深度序列可以相互转化, 其在本质上相通。地球物理测井问题具有复杂性, 且为欠定的。无论欠定或超定, 都要面对多解性问题。另外一个是模糊性, 表现在油气储层常常很难用参数去描述、表征。例如渗透率问题, 面对非均质性和各向异性以及尺度效应, 即使是用张量, 也难以描述和表征。孔隙结构的表述缺少表征方式和依据。此外, 如噪声及数据采集过程等引起的不确定性问题等, 在地球物理测井领域处处存在, 是数据的基本特征。模糊性、多解性、不确定性, 很容易达到机理模型应用的边界, 导致有人戏称“地球物理是科学的不科学”, 也就是说, 尽管我们用严格的机理模型非常科学地研究地球物理问题, 但面对实际应用时, 得到的结论却未必科学、有效。

过去研究工作积累了丰富的领域知识和机理模型, 这些领域知识和机理模型, 在一定范围内解决了地球物理应用中的多数问题。而当前地球物理探测领域数据驱动的机器学习, 面临小样本、少标签的数据问题。少标签的原因, 部分是因为数据昂贵、价值很高, 所以不可能有很多标签。在这种情况下, 如何有效应用机器学习?很多团队试图将机理模型与数据模型结合起来。然而, 如何“结合”, 学者们在不同的方向展开探索。

数据驱动建模全流程都可嵌入领域知识及机理模型, 实现包括在深度神经网络模型结构设计上嵌入领域知识、在模型评价环节嵌入领域知识、建立新型损失函数使正则项的权重保持动态平衡等方法。以此为基础, 提出一些代表性模型, 包括硬约束投影(HCP)、理论引导的卷积神经网络(TgCNN)、理论引导的神经网络(TgNN)等。这些结合方式, 均旨在快速寻找全局最优解[8-11](图 2)。图 2中, 纯数据驱动机器学习的寻优路径用白色三角符号表示, 显然, 其结果并未达到真正的全局最优。加入软约束后的寻优路径用蓝色菱形符号表示, 虽然比纯数据驱动效果好, 但还是没有收敛到全局最优点。加入硬约束的模型寻优路径用黄色五角星符号表示, 最终可以到达全局最优点。该图较好地表达了不同结合方法的寻优收敛过程以及添加机理模型约束的意义和作用。采用该方法进行地球物理领域知识及机理模型与数据驱动的融合, 实际效果好。

图 2 领域知识机理模型与数据驱动融合改变迭代路径和最优解

我们发现, 领域知识及机理模型与数据驱动融合的另一个有价值的方向是通过机理模型构建数据集。在研究油气人工智能应用场景过程中, 比如物探、测井、钻完井的机器学习应用场景, 我们遇到的最大挑战, 其实不是算法, 而是数据集的构建。在地球探测有监督机器学习中, 最主要的工作量往往用在数据集及标签体系的构建上。

建议采用3种方式实现机理模型和数据驱动的融合: ①在构建数据集时添加领域知识, 对输入数据进行物理约束, 搭建模型时将机理模型得到的参数作为输入, 机理模型生成数据添加到数据集作为训练集和测试集; ②在深度神经网络隐层中添加领域知识约束, 例如修改隐藏层结构, 根据机理模型增加一些中间输出变量, 修改损失函数的构建方式等; ③在输出时添加领域知识约束, 通过对地球物理或者岩石物理知识的应用, 对输出参数作出符合领域知识的判断和挑选。我们重点关注将领域知识和机理模型加入数据集, 使其包括实测数据和正演数据, 解决实测数据少和标签少的问题。利用正演模型生成数据集, 在物探、测井等各个方面都有广阔前景。伍新明等在地震资料反演和成像方面数据集构建时采用正演模拟。我们在地球物理测井反演方面, 充分考虑地质和岩石物理约束, 综合井筒、储层、测量仪器等正演生成数据集, 全面利用现有领域知识和机理模型, 将这种正演数据集融合到实测数据集, 在数据空间充分考虑其标签体系的平衡和完备等问题, 构建方向性辅助工具。

以此为基础, 尝试岩石物理领域知识约束的多尺度多任务地球物理测井机器学习应用, 在数据集、标签、模型搭建、模型评价、迭代过程等各个环节充分发挥领域知识和机理模型的引导和约束作用。深度神经网络采用残差神经网络, 在损失函数的构建中加入硬约束, 包括响应方程约束、储层参数间的物理约束、地球物理测井数据间的物理约束, 构成总的损失函数。对模型的网络结构及抗噪性进行测试, 结果表明, 在不同环节加入机理模型对训练过程和结果模型会产生不同的影响。在数据集中加入领域知识和机理模型, 会丰富数据类型及其分布形式, 从而能够有效提高数据驱动的准确性和收敛性。

3 可解释性问题

在学术型及工业级油气人工智能应用场景研究实践中, 涉及需要做出高可靠决策判断的石油石化行业, 或者要求决策合规的油气勘探领域, 数据驱动的人工智能模型难以规模化部署的原因之一是决策的透明度和结果的可解释性。所以, 使油气人工智能系统的行为对行业专家更透明、更易懂、更可信, 对石油石化行业人工智能研究及规模化部署应用非常重要, 这触及到了人工智能理论的边界和共性核心难题。

机器学习在固体地球科学中的应用主要有3个方面[1], 即自动化、正反演模拟、新现象的发现。相应地, 我们归纳出可解释性问题的表现形式有: ①作为自动化工具, 机器学习模型面临可靠性、准确性及稳定性的要求, 可解释性意味着潜在故障容易被检测到, 便于查找根本原因并提供修复方法; ②作为正反演模拟工具, 机器学习模型面临行业规范及标准的要求, 例如定井位, 涉及到后续一系列作业和投资及审批流程, 可解释性是一项强制性要求; ③作为发现新现象的研究工具, 机器学习模型必然面临人类逻辑关系的追问, 对于多源多尺度多模态的地质地球物理数据, 可能存在极其复杂的内在模式, 当深度神经网络性能超越旧模型时, 意味着可能发现了新的现象或者新的知识, 此时, 可解释性则是揭示新知识新现象的必要方式。

语义上, “解释”是指“在观察的基础上, 合理地说明事物变化的原因、事物之间的联系或事物发展的规律”。而“可解释性”则是指“用可理解的术语和方式向人类提供解释的能力”, 可理解的术语, 应该来自与任务相关的领域知识或根据任务所需要的相关常识。谷歌科学家给出可解释性的一个定义: Interpretation is the process of giving explanation to Human。可解释性是人对人、人对自然建立信任的最底层和最基本的需求。有了可解释性, 人们才有可能建立安全感和可操控感。

人类理性发展历程表明, 如果一个判断或者决策是可以被解释的, 那么, 更容易确定其应用边界, 更容易评估其风险, 更容易知道在什么场合、在多大程度上可以被信赖, 进一步来说, 更容易增进共识、减少风险、不断改进和完善。这是“以人为中心”的一种基本思维模式, 也是人类最成熟、最具共识、最可信赖的思维模式。通用人工智能成熟以后, 这种思维模式是否继续有效?未来会不会演化出“以机器为中心”的思维模式?

机器学习可解释性, Explanatory, 或者Interpretability, 是人工智能理论最热门的研究领域之一, 但进展缓慢。深度神经网络机器学习, 尽管已经完胜世界围棋冠军, 图像识别、语音识别也接近满分, 人们对这些应用场景的震撼之余也抱有极大的戒备之心。原因在于, 尚不存在一种可以从人类角度理解人工智能模型的决策机制和过程, 不知道依据什么, 以及什么时候会出错。这也是目前数据驱动机器学习模型尚难以部署到一些对性能要求高的关键领域的主要原因, 比如石油石化行业的关键环节以及全流程。

总体来说, 基于深度学习的人工智能是一个较新的议题, 人类对其很多理论问题尚缺少深入认识。依靠简单网络规则和强大算力完成的巨大运算量, 沉淀为一个个严密黑盒, 超出了现有逻辑可以掌控和解释的范围, 不可能用函数形式或逻辑关系来表达或理解。

可解释性与领域知识密切相关, 应该在领域范围解决。从这个意义上说, 可能难以找到对人工智能可解释性问题的自动和通用的答案。或许, 对机器学习需要重构新的逻辑体系, 实现数据驱动的可解释性; 重建人与人工智能模型之间的互信逻辑及规范标准, 量化模型的可信任度和信任边界。一种现实可行的有限目标, 是对机器学习过程进行分解, 从而分阶段解决可解释性问题。比如, 建模前的可解释性, 涉及数据的预处理和数据展示的方法; 建模中的可解释性, 即建立具备可解释性的机器学习神经网络模型; 建模后的可解释性, 即利用可解释性方法, 对具有黑箱性质的深度学习模型输出做出符合人类逻辑准则的解释。最后一条通道, 也许是通过机理模型与数据驱动的深度融合, 为机器学习模型提供可解释性的路径, 判据即边界, 解决可解释性问题。而最后一条, 则又将陷入“以人为中心”的思维模式和思维边界。

4 认识与讨论

在对机理模型与数据驱动融合的讨论中, 我们已经看到, 第一, 以大数据、深度学习和超强算力为基础的新一代人工智能已经不可逆转地改变了科研范式。无论是学术型应用场景, 还是工业级应用场景, 包括地球物理探测及石油石化行业在内的问题域和研究方法已经发生巨大变化。第二, 数据驱动已经成为油气勘探开发及地球物理探测数据分析自动化、正反演模拟以及发现隐含在数据中的新现象、新规律的重要工具。第三, 油气人工智能应用场景研究和应用实践表明, 数据治理、多源多尺度多模态建模、机理模型与数据驱动融合以及可解释性是工业级油气人工智能及人工智能地球物理规模化应用的4个关键问题。数据治理更多的是实践性问题, 但多源多尺度多模态建模、机理模型与数据驱动融合和可解释性问题, 则是实践与理论兼而有之的问题。第四, 领域知识机理模型的范式可以与数据驱动范式相融合而产生新范式, 尤其在小样本、少标签的应用场景中, 将发挥重要作用。第五, 机理模型与数据驱动融合的途径和技术措施可以多种多样, 其中涉及到的理论基础, 如数学本质等, 仍有待进一步深入研究。

《华为数据之道》一书中, 提出物理世界、数字世界、人类认知世界及机器认知世界的“四个世界”划分方法[20]。我们经过改进提出一个更加细化的分类体系, 如图 3所示。

图 3 在“四个世界”中探寻人工智能理论和应用场景发展的认识论和方法论

图 3左下方是我们面对的物理世界。按照传统观点, 物理世界是“真实的”和“唯一的”。但是, 面对不断发展和完善的虚拟现实及增强现实, 对物理世界的“真实性”和“唯一性”可能需要重新定义。传统上, 我们用分析法或者归纳法认识物理世界, 形成确定性认知模式, 建立了领域知识和机理模型体系。具体到个人对物理世界的认识, 是丰富多彩、简单明了的, 它取决于我们自身的知识、智力、经验, 以及时代的总体科技水平。

现在, 通过数据驱动的机器学习来认识并改造物理世界。以大数据为基础, 采用各种算法, 形成新的研究范式和认识论。物理世界的万事万物先映射到数字世界, 再进行认知, 形成数据驱动的机器认知模型, 依此进行决策和行动。机器认知的物理世界, 强烈依赖用于训练的数据集。数据集的建造, 通常都缺失责任标识, 由此可能产生一系列不可预知的后果。如何增强责任标识, 基于人类已有的领域知识和机理模型, 通过正演模拟产生的数据集会有较好的帮助。

图 3右下方是数字世界, 通过对物理世界的全方位感知来构建物理世界的数字孪生。数字世界的构建不可避免会涉及到稳定性、阶段性、完备性、确定性以及可解释性等需要面对的一系列重大问题。每一个点都需要进行深入研究, 油气人工智能、人工智能地球物理等领域, 面临着几乎同样的深层次问题。而迄今各个领域的人工智能理论和应用场景关键技术研究, 还只是一个开端。已经取得的应用成效具有分散性和局部性特点, 尚未从根本上突破传统范式。

5 结束语

通过上述讨论, 针对不同目标和挑战, 我们将油气人工智能分成两个层级, 即学术型油气人工智能应用场景研究和工业级油气人工智能应用场景研究。对于学术型油气人工智能, 主要关心算法及其相关理论基础, 着重于解决智能点局部问题; 而对于工业级油气人工智能, 更多的是关心数据集、平台、多源多尺度数据融合建模、数据驱动与机理模型融合建模以及机器学习模型的可解释性等问题。针对数据驱动与机理模型融合问题, 提出3种途径, 即算法融合、评价方法融合、数据集融合, 并得到实验验证。针对油气人工智能模型的可解释性问题, 作者认为, 工业级人工智能模型必须具有可解释性, 解决方案包括建模前、建模中、建模后的多级解释模型。在实践中我们逐步认识到, 工业级人工智能理论和应用场景的长足进步, 必须厘清人工智能时代“物理世界”、“数字世界”、“人类认知世界”、“机器认知世界”以及“机器正在改造的世界”之间的互动关系。工业级人工智能的变革性和颠覆性赋能, 必须要有正确的认识论和方法论。

致谢: 2021年11月25日作者应邀在江苏省地球物理学会学术年会做主题报告“探寻数据驱动与机理模型融合之路”, 以此为基础形成本文。中国石油天然气集团公司-中国石油大学(北京)战略合作项目“物探、测井、钻完井人工智能理论与应用场景关键技术研究”对相关研究提供经费支持, 博士生邵蓉波依据报告多媒体材料帮助整理文字, 在此一并致谢!
参考文献
[1]
BERGEN K J, JOHNSON P A, de HOOP M V, et al. Machine learning for data-driven discovery in solid earth geosciences[J]. Science, 2019, 363(6433): 1-10.
[2]
YU S, MA J. Deep learning for geophysics: Current and future trends[J]. Reviews of Geophysics, 2021, 59. DOI:10.1029/2021RG000742
[3]
JIA Y, MA J. What can machine learning do for seismic data processing? An interpolation application[J]. Geophysics, 2017, 82(3): V163-V177. DOI:10.1190/geo2016-0300.1
[4]
肖立志. 测井曲线多解性-兼谈测井仪器设计思路及解释工作方法[J]. 石油普查测井, 1984, 6: 21-26.
XIAO L Z. Multi-solution of logs: Discussion on the tool design and interpretation methodology of well logging[J]. Well Logging for Petroleum Survey, 1984, 6: 21-26.
[5]
肖立志. 测井资料最优化解释的理论问题[J]. 石油物探, 1988, 27(2): 81-90.
XIAO L Z. Theory for the optimum interpretation of well logging[J]. Geophysical Prospecting for Petroleum, 1988, 27(2): 81-90.
[6]
金振武, 肖立志. 试论反演理论在测井解释中的应用[J]. 地球物理测井, 1989, 13(6): 31-38.
JIN Z W, XIAO L Z. A tentative comment on the application of inverse theory at log interpretation[J]. Geophysical Well Logging, 1989, 13(6): 31-38.
[7]
REICHSTEIN M, CAMPS-VALLS G, STEVENS B, et al. Learning and process understanding for data-driven earth system science[J]. Nature, 2019, 566(7743): 195. DOI:10.1038/s41586-019-0912-1
[8]
CHEN Y, ZHANG D. Well log generation via ensemble long short-term memory(enlstm) network[J]. Geophysical Research Letters, 2020, 47(23): 1-9.
[9]
CHEN Y, ZHANG D. Physics-constrained deep learning of geomechanical logs[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(8): 5932-5943. DOI:10.1109/TGRS.2020.2973171
[10]
CHEN Y, ZHANG D. Theory-guided deep-learning for electrical load forecasting(TgDLF) via ensemble long short-term memory[J]. Advances in Applied Energy, 2021, 1: 1-15.
[11]
CHEN Y, HUANG D, ZHANG D, et al. Theory-guided hard constraint projection(HCP): A knowledge-based data-driven scientific machine learning method[J]. Journal of Computational Physics, 2021, 445: 110624. DOI:10.1016/j.jcp.2021.110624
[12]
WANG N, ZHANG D, CHANG H, et al. Deep learning of subsurface flow via theory-guided neural network[J]. Journal of Hydrology, 2020, 584: 1-19.
[13]
BI Z, WU X, GENG Z, et al. Deep relative geologic time: A deep learning method for simultaneously interpreting 3-D seismic horizons and faults[J]. Journal of Geophysical Research: Solid Earth, 2021, 126: 1-24.
[14]
GENG Z, WU X, SHI Y, et al. Deep learning for relative geologic time and seismic horizons[J]. Geophysics, 2020, 85(4): WA87-WA100. DOI:10.1190/geo2019-0252.1
[15]
WU X, FOMEL S. Automatic fault interpretation with optimal surface voting[J]. Geophysics, 2018, 83(5): O67-O82. DOI:10.1190/geo2018-0115.1
[16]
WU X, FOMEL S. Least-squares horizons with local slopes and multigrid correlations[J]. Geophysics, 2018, 83(4): IM29-IM40. DOI:10.1190/geo2017-0830.1
[17]
WU X, GENG Z, SHI Y, et al. Building realistic structure models to train convolutional neural networks for seismic structural interpretation[J]. Geophysics, 2020, 85(4): WA27-WA39. DOI:10.1190/geo2019-0375.1
[18]
WU X, HALE D. Horizon volumes with interpreted constraints[J]. Geophysics, 2015, 80(2): IM21-IM33. DOI:10.1190/geo2014-0212.1
[19]
WU X, LIANG L, SHI Y, et al. Faultseg3-d: Using synthetic data sets to train an end-to-end convolutional neural network for 3-d seismic fault segmentation[J]. Geophysics, 2019, 84(3): IM35-IM45. DOI:10.1190/geo2018-0646.1
[20]
华为公司数据管理部. 华为数据之道[M]. 北京: 机械工业出版社, 2020: 1-298.
Huawei Department of Data Management. Enterprise Data at Huawei[M]. Beijing: China Machine Press, 2020: 1-298.