数据中心管理之道:服务能力成熟度优秀实践案例精选
上QQ阅读APP看书,第一时间看更新

4.2 案例概述

1.华夏基金的监控管理现状

华夏基金从2008年筹划建立基金行业首个数据中心开始,不断尝试建立适应行业特点、满足监管要求的监控体系。经过多年的持续优化,当前的监控体系已相对成熟。华夏基金的监控管理具备以下特点。

监控岗位人员少而精。由于基金行业的IT人员相对于银行、保险或者移动运营商而言,人数较少,其中做维护的人员数量更是不足。因此监控工作本身就不会设置专职的管理、工作岗位,一般由运维经验相对丰富的员工进行监控工具的配置和统筹管理。

各系统的监控职责整合。各监控工作的职责往往也和维护职责在一起,基本策略可以归纳为“谁维护谁监控,谁监控谁负责”。由监控管理员进行统筹协调,各主要系统维护人员或在集中监控系统上进行配置,或在专业监控工具上进行补充,最终由监控管理员进行复核。

简练的工具支撑。由于规模、人力等局限,华夏基金的监控工具遴选的都是配置简单、监控范围覆盖相对较全的工具,追求有效地覆盖绝大部分监控需求,减少运维人员的工作。

与ITIL流程结合。监控工具发现的报警会自动触发ITIL工具的事件管理流程,能自动登记主要监控信息,并由维护人员负责确认、关闭,可以有效保障事件不漏记,处理有留痕。

可以简单地说,华夏基金的监控管理适应于维护人员较少,但是维护系统种类相对较全、人均维护系统数量相对较多的场景。在金融行业业务快速发展的周期内,华夏基金利用短小精悍的监控力量,不仅在技术上支撑了数据中心的运行和发展,而且在管理的精细化、流程的规范性等角度上,也能够满足行业的基本要求。

2.华夏基金的监控管理发展历程

华夏基金的监控管理,也是从无到有,经历过无数大大小小的运维事件逐步积累、建设起来的。现在回头看经历了3个阶段,分别是“全面覆盖期”“集中+业务支持”和“自动化+智能化”阶段。

(1)“全面覆盖期”阶段:2007年至2012年

在建设监控体系的初期,监控管理的实施策略为“全面覆盖”,即所有的主要生产系统能够被监控覆盖到,不留死角。

在这个阶段,收集了各业务系统、各技术条线对于监控的要求,搭建了以服务器为主、网络为主、机房为主的几大监控工具平台,在数据库、访客行为等专业监控需求强的领域尝试了专业监控工具。

建设完成后,华夏基金的基础设施运维、应用运维基本上全部被监控所覆盖,并且在监控点的颗粒度上积累了部分经验,监控流程随着ISO20000认证逐步落实到事件管理等流程中去。

(2)“集中+业务支持”阶段:2012年至2016年

在大的建设周期后,华夏基金发现过于分散的监控系统导致了监控报警的重复且不成体系,存在部分维护人员需要接受多个监控系统的告警,告警处理流程也经常出现混乱。此外,操作系统、数据库、网络、中间件等监控系统都不能有效地反馈应用业务本身的运行情况,亟待在业务层面监控进行突破。

从2012年开始,华夏基金开始将各个监控系统进行整合,进行集中监控平台建设,从监控点、告警渠道、监控事件处理过程等多方面,在不同程度上进行统一。此外,在基金估值、用户申购、资金流转等不同的业务场景中,监控管理员和系统开发人员通过日志、数据库、工作流等数据的收集、分析,了解业务状态,及时将业务处理状态反馈给维护人员和业务操作人员,取得了较好的效果。

(3)“自动化+智能化”阶段:2016年至今

在完成基本的监控功能之后,华夏基金的监控管理员和维护人员还在日常工作、监控工具的迭代中不断地进行优化。

随着监控技术的不断发展,业务要求的不断提高,具备自我学习能力的智能监控的概念也开始逐步成为现实。对于监控趋势的分析、智能判断业务峰值、主动预警提示维护人员等需求成为现阶段开始考虑要实现的功能点。

除了监控管理的各项要求,下面将围绕华夏基金的监控技术要求、监控体系设计、监控流程管理等方面进行重点介绍。