在线讯:如今,随着电力技术的发展日新月异,用户对电能质量的要求也逐渐提高,多个国家陆续提出了各自关于智能电网建设的方案。国家电网公司作为国有特大型央企,提出了建设坚强智能电网,以实现电网中电力流、业务流、信息流的高度融合。智能电网的发展必将使电力系统各环节的联系更加紧密、数据与信息交互更加频繁,也正因为如此,各级电网工作人员对知识的需求也更加迫切。
1、当前智能电网领域知识服务存在的问题
1 )知识资源组织管理体系结构落后。现有的智能电网知识资源组织管理体系结构比较单一,缺乏知识点间的关联性,层级简单,体系结构仍以图书形式为主,分类单一,知识点仅遵循“用、代、属、分、参”关系,显示方法比较扁平化,已经不能满足高性能、大容量知识服务的建构、处理与运行的要求。如何描述、存储、管理、处理、分析和使用海量分布的知识资源进行知识服务,是智能电网领域知识服务应用的重要问题 。
2 )知识服务开发成本高、更新维护困难。智能电网领域的专家系统和知识服务应用虽然可以较好地满足用户对知识服务的需求,但受到知识本身时效性强、更新速度快等特点的影响,导致此类知识服务的开发成本高,重用难度大,使得其实现和推广的难度相对较大。
3 )知识服务同用户需求本身存在一定的差距。当前智能电网的知识服务检索结果往往没有考虑检索者本身的实际情况,以及用户难以用计算机能理解的方式描述出其希望了解的内容。
造成这些问题的原因,一方面在于激增的数据超过了现有用户和系统所能承受、处理和利用的范围,导致数据无法被及时、合理地组织,决策者未能从中得到应有的启示;另一方面,知识的表现形式使其不能被有效利用,这是因为目前的知识表示方法不利于电网知识的发现,进而导致不能形式化地表示电网领域知识。
因此,本文研究基于语义网技术,并以输变电图书为样例,对智能电网(输变电部分)领域知识开展研究,完成智能电网(输变电部分)知识体系构建,以期更好地为国家电网公司提供知识服务。另外,通过本文研究成果对国家电网公司企业级知识管理系统进行优化,有利于实现知识整理和标引、知识协同构建、资源自动检索和标注、知识服务模型以及知识资源个性化推送等目标 。以智能电网(输变电部分)领域知识为研究范围,以10 kV 配网不停电作业知识为突破口,着力做好该领域知识收集、概念抽取、语义研究和本体设计,研究知识体系构建以及知识库搭建工作。
本文内容包含系统梳理智能电网(输变电部分)领域的主题词条,阐明词条之间的相互联系和相互作用;基于本体语言的知识表示方法和原则,开发专用的本体工具,构建智能电网(输变电部分)知识体系;并以语义检索应用为目的完成智能电网(输变电部分)专业知识库的建立,为整个智能电网领域知识体系的构建提供理论依据及技术支持,同时可对智能电网领域知识挖掘、发现与利用进行有益的探索 。
基于本体设计、语义标引技术,在电力领域专家的指导和配合下,对智能电网(输变电部分)领域知识开展研究,研究该领域知识收集、概念抽取、本体设计、语义标引、概念体系构建的关键技术路径,并完成了最终的知识库搭建工作。所完成的专业知识库系统提供了网站作为检索接口,集成了本体工具、数据加工模型的图书文献检索等技术 , 实现了智能电网(输变电部分)知识的语义检索应用。系统除了处理常规的文本检索之外,还提供了本体的交互式图形可视系统、自然语言及问句式查询系统、语义增强搜索系统以及相关词条推荐系统,可以智能化地协助用户提高检索效率 。
2、领域知识收集
领域知识收集工作包括对793 本与输变电专业相关图书、《电力名词(第二版送审稿)》中指定书目以及《电力主题词表》的计算机自动处理,并结合专家所提供的分类体系开展工作。
2.1自动分词
对这些图书进行自动分词,即将一本书、一段话看作一个汉字序列,通过计算机将其切分成一个个单独的词,以便进行下一步的理解和分析。
在 本 文 研 究 中,对 开 源 工 具Ikanalyzer 、Rwordseg进行了调研和试验。Ikanalyzer提供了可供Java使用的jar包,以及面向全文检索工具Lucene的接口,使用方便,主要用它来建立索引、本体以及对搜索语句进行分词,准确率可达95% ,其分词示例分词前的整个段落:“在电力系统中,除应采取各项积极措施消除或减少发生故障的可能性外,故障一旦发生,必须迅速而有选择地切除故障元件,这是保证电力系统安全运行的最有效方法之一,而继电保护装置就是能反映电力系统中电气元件发生故障或不正常运行的状态,并动作于断路器跳闸或发出信号的一种自动装置。”
计算机分词和自动去除无实意的词后的效果如下:“电力系统中因各项措施消除减少发生故障可能性外,故障发生而有选择切除故障元件这是保证电力系统安全运行最有效方法之一,而继电保护装置电力系统中电气元件发生故障不正常运行状态动作断路器跳闸发出信号一种自动装置”,可以达到建立索引的要求。
Rwordseg是一个R环境下的中文分词工具,使用rJava调用Java分词工具Ansj。Ansj基于Apache License ,是一个完全开源、免费的Java中文荐分词工具。它的实现原理基于Google语义模型和条件随机场模型。分词速度可达每秒约200万字(在Mac Air下测试),准确率能达到96%以上。通过研究,重写了一个Java 版本,并且全部开源,使得 Ansj可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。
2.2词向量训练
词向量训练是利用深度学习的思想把单词表示
成向量的一种方式,语义越相近的词,形成的向量相似度越高。本文采用Google word2vec工具(基于Apache License 2 .0 的开源工具,提供continuou sbag-of-words和skip-gram architectures等算法对词向量进行训练)进行词向量训练,得到词向量之后,可以进一步得出这些词向量的聚类。
2.3词语筛选
根据停用词表,去除“的”、“比如”、“别的”等无实意、频繁出现的但对专业语义分析无实际帮助的词,编写程序去除无关的标点符号、乱码字符及其他短字符。在此基础上,研究人员通过人工对得到的词语进行筛选,得出重要的名词和动词以及相关概念的英文名和中文描述信息,作为本体分析的对象 。其中,名词集用来构建领域本体的相关概念,动词集用来描述领域本体概念之间的关系。
3、概念抽取
本文研究根据专家提供的输变电专业概念分类,对领域知识中的相关名词集进行总结归纳,以半自动的方式从相关的图书和词典中提取出相关概念,并将其结构化,形成分类体系 。
专家提供的输变电专业概念分类主要包含资产、作业、文档的大体框架分类结构,但不涉及每个具体词条的归属。其中资产可以在EnterpriseArchitecture软件中查看。其他分类体系通过专家口述,研究人员进行记录,专家进行核对的形式提供。
在领域知识收集之后,使用Apache Jena(Apche的开源项目,提供了Java接口,可使用Java编程对本体进行创建、修改、读入、保存、查询、推理等操作)将概念体系导入本体,将词条进行粗分类;在此基础上,多次征求高校电气学院领域专家的意见,使用Stanford Protégé工具(本体开发工具,具有导入、可视化编辑和保存本体的功能)进行交互展示,供专家审核、修改,并进行细分类 。Protégé(本体开发工具)中对本体进行展示及审核修改的工作界面如图1所示。
4、本体设计
在此阶段中,根据相关图书及专家所提供的顶层概念模型,使用Apache提供的开源工具Jena创建本体,并使用Protégé 和Word文档相结合的方式进行人工核对。
存储了中英文名的类如图2所示,其中每个类均存储了中英文名、所属词典以及简介。
具体建立过程如下:
1 )根据字符串匹配的方式得出父类与子类的关系;
2 )根据词典中的描述信息建立等价类关系;
3 )根据词典中的描述信息得出包含关系,如:根据U型挂环的描述信息得出结论“U型挂环有连接件”;
4 )根据词典中的描述信息定义反关系,如:“有连接件关系的反关系是组成U型挂环”;
5 )根据名称定义包含关系及其反关系;
6 )根据词典中的描述信息建立相关关系,如:钢管塔的描述信息及其所建立的关系,图3显示了从钢管塔的描述信息中建立其与金具、导线和绝缘子的关系;
7 )根据词典中的描述信息建立数值型属性,如:塔高的数值属性;
8 )建立实例,如:以中原变电站为例,变电站类有地址属性,属性用string表示,中原变电站作为其中一个具体的变电站,地址在郑州,将郑州作为中原变电站的地址属性的值。
根据Protégé软件的自动统计信息,本次研究所建成的本体的规模共有8094个类、21657个Object型属性、7511个父类–子类关系以及757个等价类。
5、语义标引
在此阶段,利用已有的本体对该领域中的文档资源进行标引,从而实现语义推理的目的,最终实现语义信息检索 。
在语义标引过程中,对属于本体中的实例,如:“巡视”、“维护”、“sub station”等加上html的标签,在前端通过处理与其他未标注文本进行区别显示,点击时可自动查询相应本体。
使用Jena 和Java 对本体进行标注。首先,将本体中类的中文名和英文名用Jena 导出,并根据词条长度进行由长到短的排序,排序后,“电子互感器”排在“互感器”之前。使用Java 遍历排序后的数组,为文本中匹配处依次加上 标签,避免了重复地将“电子互感器”标注为“电子互感器”和“互感器”。
专业词汇如“变电站”、“互感器”等的标注基本无误。本体中的其他相关词汇中含有一些多义词,人工筛选了“条件”、“单元”、“连结”等多义词进行剔除。
6、概念体系设计
在专家的帮助下,将智能电网的中英文名、描述信息、层次结构及其关系等知识进行整合,得到智能电网(输变电部分)领域中的一个概念体系。
概念体系包含了智能电网领域(输变电部分)中前面提到的所有信息(即概念分类体系以及词条的中英文名、释义、等价类、属性等)。以光缆为例,光缆示例如图4 所示。
图4中303.3.8 是“光缆”在本文概念体系中的编号,“optical fiber cable ”是英文名,“18.307 ”是“光缆”在《电力名词(第二版送审稿)》中的编号,“以光纤为传输元件……”这句话是“光缆”的描述信息,“相关材料”,表示“光缆”与“材料”这个概念相关。