驭数之道:还原真实场景的企业大数据应用实践
上QQ阅读APP看书,第一时间看更新

中国电信多源异构数据资产治理

实施单位:

中国电信股份有限公司云计算分公司

参与完成人:

王兴刚、蓝曾威、马卓佳、王文林、李博婧、李慧、陈哲、王帆、任连嘉、杨嘉诚、关泰璐、张洋、王冠宁、沈淑娴、王倩

引言

今天,如何盘活数据资产,构建以数据为驱动的新型发展模式,正在成为以中国电信为代表的电信运营商探索的重点。中国电信业务触达全国各地,全集团拥有31省300余地市的种类繁多、量级巨大的数据资源,要实现全集团的数据资产管理,会存在数据分散、数据规范各异、数据质量参差不齐等诸多难题。

为了有效地解决上述问题,中国电信开展了基于海量多源异构的数据资产治理与融合应用创新项目,借助先进的大数据技术和应用,对内提升经营管理效率,对外提供大数据服务实现转型升级。

方案概述

中国电信从2013年开始,就提出了以“深化挖掘应用打造企业差异化竞争力,全面开放合作共建大数据产业生态”为主题的大数据发展战略,是国内较早开始部署大数据战略的大型央企。同时,中国电信为了保证大数据战略的全面部署,专门成立了大数据发展的总指挥——大数据管理委员会,以及大数据管理专业机构——电信云计算分公司,建设了中国电信大数据管理两级责任体系(见图1)。

图1 中国电信大数据管理两级责任体系

该体系分为集团和省公司两层。集团层,由数据管理委员会把握整体大数据发展方向,对数据资产管理和大数据运营工作进行统筹决策管理,开展对内应用服务以及对外经营管控等工作;省公司层,负责汇聚本省/本公司各类数据以及保障数据质量,实现类比“高铁模式”的具备各环节驱动能力的大数据能力体系。

在总指挥、专管机构、两层管理体系等建设完备后,本项目从下述6个方面展开工作。

1.盘点数据资产,统一数据标准,输出数据资产目录

对全网数据进行了深度盘点,并统一各类数据标准70余份,制定数据采集汇聚规范文档,进而制定出整个中国电信的数据资产目录,对数据资产进行分域、归类、分层管理,使数据更便于沟通、交流、展示和使用。

2.构建“条线汇聚、一点集中”的数据采集汇聚体系

将盘点后的数据资产按照数据来源和属性分为IT数据、网络数据、增值业务数据和创新数据四大类。并按照数据的属性、需求、价值等,对不同的数据类型采取了不同的采集策略,从各省分步分类采集数据,最终将数据汇聚到集团大数据汇聚平台,实现数据的“条线汇聚、一点集中”。

3.建设大数据能力平台,整合并提升大数据平台服务能力

为满足大数据快速发展及顶层应用的需求,规划并建设了成熟稳定的大数据能力平台,以大数据先进技术为基础架构,为中国电信大数据的存储、计算和应用提供了稳定的平台基础,同时建设了两门户两中心,助力平台运营智能化。

4.打造完整数据资产管理体系,深挖数据价值,形成数据能力

建设了“五横一纵”的大数据仓库,以顶层应用需求为主题建设数据集市。同时,通过数据预处理、数据能力沉淀和数据能力封装三项工作的流转配合,打造完整的数据资产管理体系,通过自建的元数据管理、数据血缘管理、数据稽核等系统实现了数据资产的高效管理,深挖数据价值,形成数据能力。

5.制定开放共享策略,保障数据使用安全,促进行业数据融合

为满足数据的开放共享需求,制定了“五分一统”的开放共享策略,并采用数据脱敏、水印、平台审计等安全保障手段和技术,在数据开放共享的同时,也积极推动多行业数据融合,不断推进大数据生态的健康发展。

6.夯实运营基础,建设综合运营体系

围绕客户需求,建设综合运营体系,以数据运营、平台运营和产品运营、安全运营为基本核心,不断优化和更新中国电信大数据产品的基础能力以及产品模型,在发挥数据最大价值的同时,实现用户价值最大化。

难点解决

中国电信业务触达全国各地、网元数量达千万级,且由于各省市IT系统均独立自建,因此业务数据和基础数据种类繁多,各地数据质量参差不齐。并且,当时各级分公司大数据意识浅薄,使得各家数据相互独立,形成数据孤岛,数据融合困难,难以最大限度地发挥数据价值。因此,数据是本项目中最为核心和待解决的难点。

难点1:数据量大且分散

中国电信的数据类型包括M域、O域、B域、网络信息、位置信令、产品、电渠、行业、专业公司、基地等30大类,200子类数据,同时各类数据分散在31个省,300余个地级市,数据海量、种类繁多、规范多样且分散。

本项目通过规范化、统一化数据管理,健全数据管理机制,保障数据内外部使用和交换的一致性和准确性,有效避免数据混乱冲突、一数多源、多样多类等问题;本项目通过设计前置节点,大大降低了海量数据采集对资源的占用,大幅提高了数据采集效率和资源利用率。

难点2:数据质量差

如前所述,电信数据量大且分散,存在数据冗余、数据缺失、数据冲突、数据规范不统一等质量问题。

本项目通过采用智能化稽核、智能化血缘管理等手段,建设完善数据仓库和集市,提高数据ETL、清洗等数据处理水平,有效提升了数据质量。

难点3:数据敏感,安全级别高

电信数据包含大量的用户隐私信息和经营管理数据,对于高敏感、高价值数据进行脱敏是数据使用的前提。

本项目建设了完备的大数据安全保障体系,从数据访问、数据服务、数据存储、平台组件、业务流程各方面保证安全,同时建设了数据脱敏、数据分级、数字水印、出口数据审计四大数据安全系统,智能化保障数据安全。

创新亮点

中国电信率先提出大数据发展战略,率先进行全网数据集约化运营,率先探索运营商数据的商业化应用,建设了全国第一的大数据集约运营平台,是大型央企中执行大数据战略的典范。

1.整合数据孤岛,统一数据标准

根据数据量级、数据质量,项目制定的数据采集规范和标准共计72个,同时还生成了数据资产目录,为中国电信大数据资产奠定了基础。

2.建立分布式数据前置预处理机制,全面提升数据采集汇聚效率

中国电信创新性地在26个省部署了分布式前置清洗模块,将数据清洗、稽核等工作放在云汇聚的边缘完成,优化前置清洗效果,极大地节约了网络、存储、计算资源,降低了不稳定性所带来的风险。

3.打造元数据管理体系,实现数据的血缘管理

中国电信构建了中心元数据库,对数据加工生产过程中的元数据内容和变化进行记录、校验和质量监控,掌握数据完整的生命周期,并从数据血缘、图谱、影响分析等多维度进行可视化展现。

4.完成大数据底层数据整合,建立中国电信统一用户身份标识(UID)

通过完成用户基础信息、终端特征和消费能力、兴趣标签、实时位置、用户浏览习惯、家庭圈等特征识别,中国电信积累了用户强弱主键,构建了融合手机号、QQ、微博等多个ID的统一标识能力。

5.“前向稽核+后向治理”,掌握数据完整生命周期

数据前向稽核以数据盘点、内容稽核、质量评估为手段,掌握数据流转完整生命周期的动态信息;数据后向治理以元数据为索引,提取数据的变化轨迹,掌握数据之间的关系,绘制数据血缘和影响图谱。

6.独创覆盖数据全生命周期的大数据安全保障体系

考虑到大数据安全保障体系必须是覆盖数据全生命周期的,中国电信在发布《数据安全管理办法》的基础上,根据自身的业务特点搭建了大数据安全保障体系,数据从接入环节就开始脱敏,同时严格把控输出,最终实现了数据全生命周期的安全管控。

7.总结自身经验,制定数据资产管理方法论

中国电信将自身大数据资产管理经验总结提炼,得出能够指导多行业、多领域的“数据资产管理七步走”方法论,并联合中国信息通信研究院对外发布了《大数据资产管理实践白皮书》,得到了业界的高度认可。

应用成果

基于大数据数仓的建设,中国电信成功实现了全集团数据资产的高效管理,盘点了全集团数据资产,制定了72项标准及数据规范,汇聚了包含“云管端”18类数据,形成全集团数据资产目录,数据日接入量达330TB,数据累计接入量达59PB,真正实现了海量异构数据的高效管理。

通过大数据能力平台的构建,中国电信打造了六大平台能力优势:拥有6500+节点海量数据分析和处理能力、快速开发和部署能力、资源隔离和数据安全管理能力、数据生产过程调度和管控能力、资源动态管控能力;数据及服务开放能力。平台可有力支撑政府和企业级的数据分析计算及开放共享。

中国电信自主研发了多项大数据系统工具,获得了近百项软件著作权,并且通过不断总结积累数据资产管理经验,自主研发了六大数据资产管理能力和8类专业数据资产管理工具。

中国电信建成了形态完备、体系健全的“4+1”大数据产品体系(见图2),为各行各业的用户提供大数据服务,包括星图—风险防控、星图—精准营销、鲲鹏—区域洞察、鲲鹏—智慧运营、飞龙—大数据PaaS在内的五大系列产品和十余个SaaS平台,覆盖金融、旅游、交通、政务、地产、数字营销等多个领域。

图2 中国电信“4+1”产品体系

值得一提的是,借助大数据平台,中国电信构建了覆盖数据全生命周期的大数据安全保障体系。基于《中华人民共和国网络安全法》等国家法律法规、国家标准规范、行业标准规范、上级主管部门文件,中国电信发布了《数据安全管理办法》,并根据自身业务特点搭建了大数据安全保障体系,实现了数据全生命周期的安全管控。