电力大数据平台技术架构
电力大数据核心平台基于Hadoop、Spark、Stream框架的高度融合、深度优化,实现高性能计算,具有高可用性,其技术架构如图3所示。数据整合方面,主要采用Hadoop体系中的Flume、Sqoop、 Kafka等独立组件;数据存储方面,在低成本硬件(X86)、磁盘的基础上,采用包括分布式文件系统、分布式关系型数据库、NoSQL数据库、实时数据库、内存数据库等业界典型系统;数据分析方面,集成Tableau、Pluto,R语言环境,实现数据的统计分析以及数据挖掘能力;监控管理方面,利用 Ganglia,实现集群监控、服务监控、节点监控、性能监控、告警监控等管理服务;可视化展现方面,基于GIS、Flash、ECHART、HTML5 等构建可视化展示模块。电力大数据平台技术架构见下图所示。
面向全球能源互联网的电力大数据总体架构
在基础设施部署架构及容量规划方面,电力大数据平台集群主要由数据存储服务器、接口服务器、集群管理服务器和应用服务器组成,支持存储与计算混合式架构以及广域分布的集群部署与管理。每个省集群由总共30台x86服务器和一台小型机组成,其中核心数据集群由25台构成;剩余5台服务器中,3台服务器组成消息总线集群,部署包括Kafka消息队列集群以及FTP传输入库集群,1台服务器作为集群登陆跳转以及RstudioServer服务节点,还有1台服务器作为ODBC/JDBC服务以及WebHTTP/REST服务节点。小型机作为关系型数据库以及时间序列数据库节点,部署方式如下图所示。

电力大数据标准体系
通过分析国内外大数据相关标准,并结合电力大数据技术、产品和应用需求,形成电力大数据标准规范18项,重点涵盖基础概念、数据采集、存储、计算、分析、展示、质量控制、安全防护、数据服务等8大方面,适用于全球能源互联网环境下电力大数据平台建设和相关标准编制,如下表所示。
