闭环全生命周期管理系统中知识集成与语义标注

引用本文

桑成, 程健, 史一明. 闭环全生命周期管理系统中知识集成与语义标注[J]. 计算机应用, 2017, 37(6): 1728-1734.DOI: 10.11772/j.issn.1001-9081.2017.06.1728. 复制到剪切板

SANG Cheng, CHENG Jian, SHI Yiming. Knowledge integration and semantic annotation in closed-loop lifecycle management system[J]. Journal of Computer Applications, 2017, 37(6): 1728-1734. DOI: 10.11772/j.issn.1001-9081.2017.06.1728. 复制到剪切板

基金项目

国家自然科学基金资助项目（11575182）

通信作者

桑成, sc615@mail.ustc.edu.cn

作者简介

桑成(1992-), 男, 安徽明光人, 硕士研究生, 主要研究方向:闭环全生命周期管理、产品知识管理;
程健(1964-), 男, 安徽桐城人, 高级工程师, 硕士, 主要研究方向:分布式网络测控技术、智能传感器、嵌入式系统、闭环全生命周期管理;
史一明(1993-), 男, 河南汝州人, 硕士研究生, 主要研究方向:闭环全生命周期管理、产品故障预测与维护

文章历史

收稿日期：2016-12-02
修回日期：2017-02-13

Contents Abstract Full text Figures/Tables PDF

闭环全生命周期管理系统中知识集成与语义标注

桑成, 程健, 史一明

中国科学技术大学自动化系, 合肥 230022

收稿日期：2016-12-02；修回日期：2017-02-13

基金项目：国家自然科学基金资助项目（11575182）

作者简介：桑成(1992-), 男, 安徽明光人, 硕士研究生, 主要研究方向:闭环全生命周期管理、产品知识管理;
程健(1964-), 男, 安徽桐城人, 高级工程师, 硕士, 主要研究方向:分布式网络测控技术、智能传感器、嵌入式系统、闭环全生命周期管理;
史一明(1993-), 男, 河南汝州人, 硕士研究生, 主要研究方向:闭环全生命周期管理、产品故障预测与维护

通信作者：桑成, sc615@mail.ustc.edu.cn

摘要: 为了解决闭环全生命周期管理系统中知识相互独立、无法共享的问题，针对闭环全生命周期特点，提出了一种知识集成与语义标注方法。首先，简要阐述了闭环全生命周期管理系统中知识集成与语义标注的内涵；其次，利用本体技术对低温等离子体设备构建了多维度、多层次知识集成框架；然后，在此基础上，给出了知识文档语义标注流程，设计出一种文档语义向量与本体语义向量的提取与匹配计算方法，完成了低温等离子体设备中一个子系统的知识文档语义标注。设计测试实验并进行验证，实验结果表明，利用闭环全生命周期管理系统中的知识文档数据集进行语义标注，平均准确率达到84%，平均召回率达到79%。所提知识集成与语义标注方法可以实现知识文档在闭环全生命周期管理系统中的共享与重用。

关键词: 闭环全生命周期管理本体知识集成语义标注低温等离子体设备

Knowledge integration and semantic annotation in closed-loop lifecycle management system

SANG Cheng, CHENG Jian, SHI Yiming

Department of Automation, University of Science and Technology of China, Hefei Anhui 230022, China

Foundation Item: This work is partially supported by the National Natural Science Foundation of China (11575182)

Author introduction: SANG Cheng, born in 1992, M. S. candidate. His research interests include closed-loop lifecycle management, product knowledge management;
CHENG Jian, born in 1964, M. S., senior engineer. His research interests include distributed network measurement and control technology, intelligent sensor, embedded system, closed -loop lifecycle management;
SHI Yiming, born in 1993, M. S. candidate. His research interests include closed-loop lifecycle management, product failure prediction and maintenance

Abstract: The knowledge in the closed-loop lifecycle management system is independent and can't be shared. In order to solve the problems, aiming at the characteristics of the closed-loop lifecycle, a new knowledge integration and semantic annotation method was proposed. Firstly, the connotation of knowledge integration and semantic annotation in closed-loop lifecycle management system was expatiated briefly. Secondly, a multi-dimensional and multi-level knowledge integration framework was constructed by using ontology technology for low temperature plasma equipment. Then, on the above basis, a computing method of extracting and matching the document semantic vector and ontology semantic vector was designed. The knowledge document semantic annotation of one sub-system in low temperature plasma equipment was completed. Finally, the test experiments were designed and verified. The experimental results show that, by using knowledge document data set in the closed-loop lifecycle management system to complete the semantic annotation, the average accuracy rate of the proposed method is 84%, and its average recall rate is 79%. The proposed knowledge integration and semantic annotation method can realize the sharing and reuse of the knowledge document in the closed-loop lifecycle management system.

Key words: closed-loop lifecycle management ontology knowledge integration semantic annotation equipment of low temperature plasma

0 引言

为实现产品全生命周期信息的管理，欧盟PROMISE (PROduct lifecycle Management and Information tracking using Smart Embedded systems)项目组首先提出了闭环全生命周期管理(Closed-Loop Lifecycle Management, CL2M)的理念^[1]，旨在产品中嵌入信息装置(Product Embedded Information Device, PEID)^[2]获取产品全生命周期数据，打通产品生命中期与后期的信息通道；利用产品数据与知识管理(Product Data & Knowledge Management, PDKM)系统，将数据转换成知识并进行集成，实现产品信息高效管理，达到智能商业化应用的目的^[3]。

提出闭环全生命周期的理念，目的在于实现产品信息在全生命周期内的交互与共享，而PDKM^[4]提出在获取产品不同生命阶段信息之后，利用本体为知识语义建模，作为CL2M知识集成框架，提高CL2M系统信息利用率。

目前，国内外关于闭环全生命周期系统中的知识管理主要集中在各生命周期阶段数据的集成与整合研究。文献[5-6]研究了在CL2M系统中，利用本体技术构建用户与产品业务模型的方法，并结合语义网规则语言(Semantic Web Rule Language, SWRL)推理整合各个生命阶段数据，Felic等^[7]提出采用面向过程方法，设计产品链与过程链本体模型促进企业不同部门间知识的相互理解与协作，但仅仅围绕产品各个生命阶段业务流程进行知识集成与表达, 忽略了实际的知识类别以及知识应用的场景，无法充分挖掘知识的语义信息。现有的知识管理平台在进行知识文档语义标注时，大多采用手工标注，影响了知识录用效率，而在少数的知识文档自动标注中，如方伟光等^[8]参照本体概念相似度计算，提取了概念间语义关系，并引入语义增量增加文档关键词权重，最终以关键词向量作为语义标注结果，但是关键词向量不能完整表达文档语义信息，降低了文档利用效率，并且不能很好实现文档与知识本体的关联。

本文以低温等离子体设备系统作为研究应用对象，从设备的全生命周期以及设备知识类型角度出发，构建多维度、多层次、富含语义信息的知识本体，对设备系统的全生命周期知识进行集成。为实现知识文档的准确匹配，一方面，综合词汇的词频与语义关系提取文档语义向量；另一方面，利用本体元素语义图获取本体语义向量，充分表达本体元素语义信息；再对两者进行相似度计算，实现知识文档在本体模型中的准确匹配，达到知识文档的精确标注效果，根据匹配结果生成语义空间，完成对设备系统知识文档的语义标注。

1 CL2M系统的知识集成与语义标注 1.1 CL2M系统的知识集成

在CL2M系统中，能实现共享与重用的数据都可以成为知识。但CL2M系统具有跨生命周期、跨组织、跨平台等特点，利用PEID与中间件技术获取的不同生命阶段数据，彼此独立，表达方式各异，主要表现在：数据间没有相互关联，数据表达模型不同、数据保存方式不同、对同一事物语义描述不同；不能实现知识的共享与重用，大大降低知识的利用率。

本体是共享概念的规范化说明^[9]，由概念、关系、实例、公理这四种基本建模元素组成，具有概念化、规范化、明确性、共享性等特点。将本体应用于CL2M系统，可从全生命周期的角度，采用共同认可、规范的概念对其进行描述，从而形成CL2M系统的知识语义网。CL2M系统知识集成主要达到以下目的：1) 消除各阶段数据异构性；2) 实现数据向知识转换；3) 提取知识间语义关系，最终实现各阶段知识互联。

1.2 CL2M系统语义标注

语义标注^[10]是指，通过提取能表达文档语义信息的关键词作为文档标识与本体元素进行匹配，达到知识文档与本体的关联，利用本体模型片段表达知识文档，从而将文档融入CL2M系统知识语义网。陈思等^[11]对语义空间的生成与存储进行了深入研究，提出用语义空间作为语义标注的结果。语义标注具有以下功能：1) 文档与本体元素准确匹配；2) 知识文档共享与重用；3) 应用于语义化检索平台，最终提高知识检索的准确度。

2 低温等离子体设备系统的知识集成 2.1 低温等离子体设备系统简介

低温等离子体设备在半导体器件、太阳能电池、各种显示屏的制造，以及材料的改性处理、功能薄膜的制备、低地球轨道空间环境的模拟等方面有广泛的应用，属于一类非常重要的工业应用及科学研究设备系统，以其为研究应用对象，具有一定代表性和典型应用价值。

图 1为低温等离子体设备系统结构组成示意图，主要包括进气子系统、电源子系统、真空室、抽气子系统，以及朗缪尔探针测量仪、真空计等测量设备。

图 1 低温等离子体设备系统 Figure 1 Low-temperature plasma equipment system

该设备系统各部分在不同生命周期阶段由不同部门参与负责，并且需要彼此间相互协调配合。若在该设备系统中，有其他生产厂家配套的设备单元，还会涉及到不同生产厂家之间的信息交互。

全生命周期一般分为三个阶段：生命前期(Beginning Of Life, BOL)，包括产品设计与制造阶段；生命中期(Middle Of Life, MOL)，包括产品使用与维护阶段；生命后期(End Of Life, EOL)，包括产品回收与报废阶段。以设备系统中的电源子系统与朗缪尔探针测量仪为例，表 1是其部分知识交互关系流。根据表 1可以看出，设备系统在全生命周期每个阶段都需要其他阶段的知识参与。为实现不同生命阶段知识的交互，应充分挖掘知识间语义关系，并用精确的概念加以描述。

表 1 全生命周期中低温等离子体设备系统部分知识交互关系流 Table 1 Partial knowledge interaction relation flow in low-temperature plasma equipment system in whole life cycle

2.2 低温等离子体设备系统的知识集成

根据低温等离子体设备系统全生命周期的特点，通过对设备系统各个生命阶段的知识流向分析，结合设备系统实际的知识类别，将设备系统的知识划分成产品对象、产品知识类别、产品组织资源、产品全生命周期、产品知识元数据五个维度。基于设备系统知识的维度划分，采用统一、规范的概念进行描述，构建富含语义关系的知识本体，在知识文档语义标注时，能充分表示文档语义信息，实现知识全生命周期共享集成。

基于本体基本建模元素，低温等离子体设备CL2M系统中知识本体构建方法如下：从全生命周期角度分析设备系统在不同生命阶段的流程，参照文献[12]对设备系统具体生命周期流程采用逻辑业务节点表示并用业务逻辑结构为业务节点建立关联，保证生命周期知识的系统性与完整性；依据实际知识模块划分知识类别，根据全生命周期概念，确定不同知识实例并分析实例间关系，提取设备知识类别概念；分析确定设备对象以及不同生命阶段与设备相关的部门、人员、相关工具，确定产品组织资源；在此基础上，分析概念间的约束关系，添加公理。图 2是低温等离子体设备CL2M系统(部分)多维知识本体模型，其中简要例举了不同维度包含的概念以及概念间的关联关系。

图 2 低温等离子体设备CL2M系统(部分)多维知识本体模型 Figure 2 Multidimensional knowledge ontology model for low-temperature plasma equipment CL2M system (partial)

1) 全生命周期维。

依据设备系统全生命周期的划分，产品知识主要有：需求分析、产品设计、生产制造、物流运输、产品销售、产品使用、产品维护以及报废回收；并可进一步划分，如设计阶段的方案设计，包括设计标准、设计任务、设计原理、设计方案，产品开发等。

2) 产品知识类别维。

根据实际设备系统的知识模块进行划分，如等离子体参数计算方法、微波电源操作规范、微弱电流测量等。

3) 产品对象维。

根据设备系统的组成结构以及元件、组件间的连接关系划分，包括朗缪尔探针测量仪、发射探针测量仪、抽气子系统、电源子系统、真空室等，朗缪尔测量仪包括单探针、双探针、机械扫描器等。

4) 产品组织资源维。

伴随设备系统全生命周期，与知识相关的组织或个人，主要为知识的创造者或使用者，如硬件开发组、软件开发组、设备维护组等。

5) 产品知识元数据维。

包括能确定设备系统知识文档的元数据以及知识文档的标注结果，包括知识主题、知识版本号、知识存储地址、知识产生时间、知识类型、知识创建对象、知识语义空间。

在对设备系统五个维度的概念以及实例添加确认后，通过对象属性进行概念或实例间语义关联。表 2例举了设备系统知识本体中部分对象属性。

表 2 多维度知识本体中部分对象属性 Table 2 Partial object attributes in multi-dimensional ontology

构建的设备系统知识本体需要不断地更新完善，并经过等离子体领域专家审核认可才能应用于CL2M系统，实现知识集成。

3 低温等离子体设备系统知识的语义标注 3.1 知识文档语义标注流程

如图 3所示，基于CL2M系统平台，首先知识文档一方面由PEID收集设备系统各生命阶段现场知识数据，利用中间件技术上传到CL2M系统平台；另一方面在设计、制造阶段由设计、制造人员直接上传到CL2M系统；然后对获取到的知识，添加知识主题等元数据信息并标准统一化，预处理知识提取关键词，解析预先构建的多维知识本体，借助知识本体完成知识语义标注；最后在CL2M系统平台中生成知识库，根据CL2M系统实际应用场景提供相关知识服务。其知识文档语义标注具体流程如下：

图 3 CL2M系统中设备系统知识语义标注流程 Figure 3 Semantic annotation process of equipment system knowledge in CL2M system

1) 知识文档标准统一。

基于CL2M系统平台获取到的知识资源按照CL2M系统知识文档标准模型进行标准统一化。

2) 知识文档处理。

将不同格式的文档转换成简单的文本文档，进行分词与去除停用词处理；利用TextRank与TF-IDF (Term Frequency-Inverse Document Frequency)算法相结合计算词频，再利用句法依存分析词汇间主要依赖关系；根据词频与依存关系赋予词汇相应的权重，提取关键词，生成知识文档语义向量。

3) CL2M系统知识本体解析。

借助本体知识推理机推理多维知识本体，挖掘知识本体中隐含的语义信息，利用本体工具Jena^[13]拆解知识本体中的概念、实例、属性等本体元素生成本体知识语义图，依据本体元素间语义距离与元素出现频率赋予权值，生成本体语义向量。

4) 生成设备系统知识语义库。

计算知识文档语义向量与本体语义向量间相似度；依据相似度值确定与知识文档向量最匹配的本体语义向量，利用Jena，根据匹配的本体向量主元素以及知识本体中元素间的对象属性，在知识本体中进行五个维度语义拓展，生成知识本体片段作为语义空间，完成语义标注。

3.2 统一的知识文档标准

CL2M系统时间跨度长，空间跨度广，所涉及到的知识文档纷繁复杂；根据文献[14]的研究，设备系统知识文档主要包括与设备相关的各种类型的文本文档或具有描述信息的公式、图片、影像等说明文档。

为实现对CL2M系统中知识文档的统一管理，需要建立一个知识文档的标准模型。图 4是所建立的CL2M系统知识文档的标准模型，其中：设备知识文档的全生命周期用于表达知识产生与使用的全生命周期信息；知识文档状态数据能够确定知识使用率，衡量知识重要程度；知识文档元数据用于描述知识基本信息、知识文档语义空间是语义标注结果，实现知识的互联与共享。知识文档的标准统一不仅解决设备系统知识的异构性问题以及冗余现象，同时便于知识文档语义标注，并且语义标注结果能够辅助知识文档管理。这里采用网络本体语言(Web ontology language, OWL)表示CL2M系统知识文档标准模型，拓展了设备系统知识语义空间。

图 4 CL2M系统知识文档标准模型 Figure 4 CL2M system knowledge document standard model

3.3 知识文档语义标注

为完成设备系统的知识文档的语义标注，首先处理知识文档，产生文档语义向量；然后解析知识本体，获得本体语义向量；最后计算两者的语义相似度，生成语义空间，完成知识文档的语义标注。由此可见，获取文档语义向量与本体语义向量是实现设备系统知识文档语义标注的关键。

3.3.1 文档语义向量的获取

准确提取文档关键词是获取文档语义向量的前提，在对文档进行分词与去除停用词处理之后，采用TextRank、TF-IDF算法与句法依存分析三者相结合完成关键词提取。

TF-IDF算法提取关键词是基于这样的假设：词汇对文档的重要性，随其在文档中出现的次数增加而上升，随其在整个语料库中出现次数增加而降低。对应公式如下：

$\begin{array}{l} TF{\rm{ - }}ID{F_{i, j}} = T{F_{i, j}} \times ID{F_{i, j}} = \\ \quad \quad \quad \quad \quad \frac{{{n_{i, j}}}}{{\sum\limits_k {{n_{k, j}}} }} \times \ln \frac{{\left| D \right|}}{{\left| {\left\{ {j:{t_i} \in {d_j}} \right\}} \right| + 1}} \end{array}$

(1)

其中：n_{i, j}是词汇t_i在文档j中出现的次数；$\sum\limits_k {{n_{k, j}}} $是文档j中所有词汇出现次数之和, 故$T{F_{i, j}} = {n_{i, j}}/\sum\limits_k {{n_{k, j}}} $为词汇t_i在文档j中出现的频率；|D|为文档总数；|{j:t_i∈d_j}|为包含词汇t_i的文档数, 为了防止分母为0，一般采用|{j:t_i∈d_j}|+1作为分母，故IDF_i=ln(|D|/(|{j:t_i∈d_j}|+1))为包含词汇t_i的文档对总文档的逆向文档频率。

TextRank算法由PageRank算法演化而来，基于图模型，利用投票机制经过多次迭代得到词汇权重；本文对TextRank算法与TF-IDF算法加以融合，将TextRank算法得到的词汇权重替换词汇i在文档j中出现的频率，弥补依据简单词频(Term Frequency, TF)计算词汇权重的不足，同时借助IDF (Inverse Document Frequency)可以很好地过滤TextRank算法中得到的常见但不具代表性的词汇。

TextRank与TF-IDF算法只考虑词汇在文档中的词频因素，而句法依存分析可以获得词汇间的依赖关系以及词汇在句子中的语义成分；词汇间的语义关系主要包括核心关系、主谓关系、动宾关系、并列关系等。为简化词汇间语义关系，并保留句子主要成分，本文提出用主谓宾关系以及并列关系确定句子中主谓宾词汇，以此增加词汇权重。

综合上述提取关键词算法，其具体公式如下：

$\left\{ \begin{array}{l} {\omega _i} = {\omega _{i{\rm{ }}({\rm{TextRank}})}} \times \ln \frac{D}{{\{ j:{t_i} \in {d_j}\} + 1}} \times \alpha , \\ \quad \quad \quad \quad \quad 词汇i不是句子主谓宾成分\\ {\omega _{i{\rm{ }}({\rm{TextRank}})}} \times \ln \frac{D}{{\{ j:{t_i} \in {d_j}\} + 1}}, \\ \quad \quad \quad \quad \quad 词汇i是句子主谓宾成分 \end{array} \right.$

(2)

其中：ω_i为词汇t_i的最终权重，ω_{i (TextRank)}为利用TextRank算法得到的权重，根据句中主谓宾成分，以参数α(0＜α＜1) 对词汇权重进行调整。经过式(1) ~(2) 最终得到文档词汇权重，并根据阈值ω_阈值=$\frac{1}{n} \times \mathop \sum \limits_{i = 1}^n {\omega _i}$提取文档关键词，生成文档语义向量。最终表示如下：

ν_textj={(t₁, ω₁), (t₂, ω₂)，…，(t_n, ω_n)}

其中：ω_i为词汇t_i对应的权重。

3.3.2 知识本体语义向量获取

为保留完整的本体语义信息，应先借助本体推理机推理知识本体，发掘本体中隐含的语义关系；利用本体解析工具Jena拆解知识本体，获得待标注的本体元素，将其定义为本体主元素；再抽取与主元素语义距离相近的本体元素，定义为本体关联元素，生成本体关联元素集。因设备系统知识本体面向专业领域，本体关联元素与本体主元素语义关系必然十分紧密，一定程度上可以用本体关联元素集“代替”本体主元素。利用本体主元素与本体关联元素生成本体语义图：

$\mathit{\boldsymbol{A}}{\rm{ = }}\left[ {\begin{array}{*{20}{c}} {mel{e_1}} & {ael{e_{1, 1}}} & \cdots & {ael{e_{1, n}}}\\ {mel{e_2}} & {ael{e_{2, 1}}} & \cdots & {ael{e_{2, n}}}\\ \vdots & \vdots & \ddots & \vdots \\ {mel{e_n}} & {ael{e_{n, 1}}} & \cdots & {ael{e_{n, n}}} \end{array}} \right]$

其中：mele_j为本体语义图中第j个主元素，aele_{j, i}为对应第j个主元素的第i个关联元素。

将与本体主元素语义距离为1和语义距离为2的本体元素作为关联元素，并分别赋予权值β、γ；统计本体关联元素在本体语义图中被本体主元素引用次数σ，计算关联元素引用权重(Reference Weight, RW)：

$r{w_i} = \ln m/\sigma $

(3)

其中：式中m为本体主元素个数。则最终本体元素权重(Ontology Element Weight, OEW)：

$\begin{array}{*{20}{l}} {oe{w_i} = }\\ {\;\, \left\{ {\begin{array}{*{20}{l}} {\ln \left( {m/\sigma } \right), i为主元素}\\ {\ln \left( {m/\sigma } \right) \times \beta , i为语义距离为1的关联元素}\\ {\ln \left( {m/\sigma } \right) \times \gamma , i为语义距离为2的关联元素} \end{array}} \right.} \end{array}$

(4)

经过上述计算，得到本体元素语义向量：

ν_melej={(mele_j, ω₁), (aele₁, ω₂), …, (aele_n, ω_n)}

其中：mele_j为第j个本体向量主元素；aele_k为本体向量中第k个关联元素；ω_i为本体向量中本体元素对应的权重。

3.3.3 更新知识语义库

知识语义库的更新，采用向量余弦相似度计算法。计算文档语义向量与本体语义向量间语义相似度，取相似度最高的本体语义向量作为候选向量，判断文档语义向量与候选本体语义向量相似度是否高于设定的阈值。若低于设定阈值，根据实际需要，人工判定舍弃文档或更新知识本体重新标注；若高于设定阈值，则匹配成功，基于知识本体，按照五个维度进行语义拓展，生成语义空间，添加到CL2M系统知识文档标准模型，存入知识语义库。

4 实验验证与结果分析

为验证本文提出的语义标注方法的可行性，利用本体编辑工具Protégé^[15]从五个维度构建低温等离子体设备系统知识本体，进行知识集成；借助马里兰大学开发的推理机Pellet^[16]，推理知识本体，以Jena作为解析本体工具；由CL2M知识集成与语义标注系统生成文档语义向量与本体语义向量，进行相似度计算，实现知识文档在本体中定位；最终再借助Jena根据匹配结果进行五个维度的语义拓展，生成语义空间，更新CL2M系统知识库。

4.1 知识集成与语义标注实例展示

设备系统的知识文档语义标注结果以语义空间表示，本文以设备系统知识文档中双探针参数测量方法为例，其创建在设计阶段，应用于测试与使用阶段。对其按照标准进行统一处理，得到标准的知识文档，计算得到的关键词如表 3所示。该文档的语义向量与本体中双探针测量参数使用说明对应的本体向量相似度最高，在知识本体中以双探针测量参数使用说明为中心进行五个维度拓展，生成语义空间如图 5所示。

表 3 标准知识文档实例 Table 3 Standard knowledge document example

图 5 知识文档语义空间实例 Figure 5 Knowledge document semantic space example

4.2 语义标注实验分析

目前实验室已搭建了低温等离子体设备系统CL2M平台，并已初步应用于设备系统的开发与研究，CL2M平台中的数据文档主要有：发表的论文、合作方提供的标准技术手册以及等离子体领域专家的知识经验。本文从CL2M平台中选取低温等离子体设备系统中与朗缪尔探针测量仪相关的知识文档，主要包括：探针测量原理、微弱电流测量、嵌入式系统软硬件设计、测量仪使用方法等子领域，为了获得有效的测试数据，首先对文档进行预处理，只保留文本格式；然后核对文档信息，根据文档的主题确定文档在知识本体中匹配与定位的本体元素；最后由朗缪尔探针测量仪领域专家核实文档与匹配的本体元素是否正确；最终得到预先标识本体元素的知识文档数据集。

目前主要有文献[8]、文献[11]进行了知识管理平台文档语义标注研究，为了验证语义标注方法的有效性，分别采用本文所提的语义标注方法与文献[8]、文献[11]的语义标注方法对知识文档数据集进行语义标注。为了验证本文提出知识文档精确的语义标注效果，在文献[11]语义标注算法中提取与关键词相似度最高的本体元素作为文档匹配的本体元素。在测试知识文档精确语义标注效果时，当知识文档标注后得到匹配的本体元素与预先标识的本体元素相同时，则匹配成功，否则匹配失败；本文分别借助准确率(precision)、召回率(recall)、F值(F-measure)三个指标检验知识文档精确标注效果。标注率是指能关联到知识本体的知识文档数与待标注的知识文档数之比，用于衡量知识文档关联知识本体效果。如表 4所示，分别为本文与文献[8]、文献[11]对知识文档进行语义标注结果。

表 4 不同方法语义标注结果% Table 4 Semantic annotation results of different methods %

由表 4可以看出，本文提出的语义标注方法与文献[11]中的语义标注方法的标注率都比较高，可见采用语义空间作为语义标注结果可以完全实现知识文档与知识本体的关联；相对文献[11]，通过向量相似度计算方法在知识文档精确标注方面有明显提升，能实现知识文档更为精确的语义标注。同时也验证了基于设备系统全生命周期、构建多维度知识本体、实现知识集成的方案的可行性。

5 结语

为了实现CL2M系统中各个生命周期阶段间知识的分享与重用，本文构建了多维度知识集成框架并提取本体语义向量，提出知识文档语义向量提取方法，挖掘知识文档语义信息，通过对本体语义向量与知识文档语义向量匹配计算，完成知识文档在知识集成框架中的语义标注。通过实验结果表明，该方法能够充分表达文档的语义信息，实现知识文档与本体元素的精确匹配，从而提高知识在CL2M系统中的利用效率。后期可在此工作基础上，进一步研究如何进行知识语义化智能推送，实现CL2M系统知识的语义化服务。

参考文献

[1]	FRAMLING K, HOLMSTROM J, LOUKKOLA J, et al. Sustainable PLM through intelligent products[J]. Engineering Applications of Artificial Intelligence, 2013, 26(2): 789-799. doi: 10.1016/j.engappai.2012.08.012
[2]	许宜春, 徐亭, 桑成. 产品全生命周期数据自动采集PEID研制[J]. 计算机系统应用, 2015, 24(12): 93-99. ( XU Y C, XU T, SANG C. Development of PEID for automatically acquiring product lifecycle data[J]. Computer Systems & Applications, 2015, 24(12): 93-99. doi: 10.3969/j.issn.1003-3254.2015.12.014 )
[3]	MAHARJAN M. Enabling closed loop lifecycle management with information exchange standards[D]. Espoo:Aalto University, 2013:7-26.
[4]	YOO M J, GROZEL C, KIRITSIS D. Closed-loop lifecycle management of service and product in the internet of things:semantic framework for knowledge integration[J]. Sensors, 2016, 16(7): 1053. doi: 10.3390/s16071053
[5]	MATSOKIS A, KIRITSIS D. An ontology-based approach for product lifecycle management[J]. Computers in Industry, 2010, 61(8): 787-797. doi: 10.1016/j.compind.2010.05.007
[6]	NADOVEZA D, KIRITSIS D. Ontology-based approach for context modeling in enterprise applications[J]. Computers in Industry, 2014, 65(9): 1218-1231. doi: 10.1016/j.compind.2014.07.007
[7]	FELIC A, KONIG-RIES B, KLEIN M. Process-oriented semantic knowledge management in product lifecycle management[J]. Procedia CIRP, 2014, 25(C): 361-368.
[8]	方伟光, 郭宇, 廖文和, 等. 基于本体的复杂产品设计知识表示和标注方法[J]. 计算机集成制造系统, 2016, 22(9): 2063-2071. ( FANG W G, GUO Y, LIAO W H, et al. Knowledge representation and annotation method based on ontology for complex products' design[J]. Computer Integrated Manufacturing Systems, 2016, 22(9): 2063-2071. )
[9]	GOMEZ-PEREZ A, CORCHO O. Ontology languages for the semantic Web[J]. IEEE Intelligent Systems, 2002, 17(1): 54-60. doi: 10.1109/5254.988453
[10]	陈叶旺, 李海波, 余金山, 等. 一种基于稀疏编码的语义标注方法[J]. 计算机科学, 2011, 38(9): 150-154. ( CHEN Y W, LI H B, YU J S, et al. Semantic annotation method based on sparse coding[J]. Computer Science, 2011, 38(9): 150-154. )
[11]	陈思, 阎艳, 王钊, 等. 复杂产品设计知识的语义自动标注方法[J]. 计算机集成制造系统, 2014, 20(1): 69-78. ( CHEN S, YAN Y, WANG Z, et al. Automatic semantic annotation method for complex product design-knowledge[J]. Computer Integrated Manufacturing Systems, 2014, 20(1): 69-78. )
[12]	陈思, 阎艳, 上官景昌, 等. 基于业务本体的产品设计知识表示方法[J]. 计算机集成制造系统, 2011, 17(4): 673-679. ( CHEN S, YAN Y, SHANGGUAN J C, et al. Product design knowledge representation based on bussiness ontology[J]. Computer Integrated Manufacturing Systems, 2011, 17(4): 673-679. )
[13]	The Apache Software Foundation. Apache Jena[EB/OL].[2016-10-12]. http://jena.apache.org/download/.
[14]	徐亭. 低温等离子体设备C-L PLM系统的研究与开发[D]. 合肥: 中国科学技术大学, 2015: 17-26. ( XU T. Research and development of the C-L PLM system of low-temperature plasma equipments[D]. Hefei:University of Science and Technology of China, 2015:17-26. )
[15]	Stanford Center for Biomedical Informatics Research. Protégé version 5.0.0, protégé ontology editor[EB/OL].[2016-10-12]. http://protege.stanford.edu/products.php.
[16]	CLARK & PARSIA LLC. Pellet:OWL2 reasoner for Java[EB/OL].[2016-10-12]. http://clarkparsia.com/pellet/.