
4.3 监控管理的管理域
1.角色和职责
华夏基金在监控管理中涉及的人员主要有监控管理员、监控对象负责人、告警处理人和监控审核员。监控管理员主要承担监控体系的建设、持续运行等工作,在华夏基金安排了专人负责。监控对象负责人在IT层面是各系统运维的负责人,部分业务监控的需求提出方可能是业务部门的负责人。一般而言,告警处理人是维护人员或者值班人员,业务负责人有可能也会收到告警,但是不参与具体的告警处理,最终由运维团队的领导整体把握监控运行效果。
具体的描述见表4-1。
表4-1 华夏基金职责说明

除监控管理日常涉及的人员之外,间接参与角色还包括如下人员。
部门领导:协调资源,监督值班管理的有效运行。
ITIL相关流程经理:与监控管理员配合,设计与监控相关的管理流程,如事件管理、容量管理等,使得各项管理流程的有效运行。
值班操作人员:利用监控工具,及时处理一线告警。
开发项目经理:配合监控管理员,在系统开发设计过程中考虑各项业务监控点的日志输出。
2.监控管理的触发、输入与输出
(1)触发
华夏基金的监控管理作为日常运维的基础运行条件,不需要额外的触发即可实现能力项的常态化运行。对于监控工作本身而言,监控需求是监控体系建设的触发条件,监控报警是监控事件的触发条件。
(2)输入
监控管理的输入为华夏基金对于业务正常开展、生产系统稳定运行的需求。具体到监控体系,主要输入为包括新项目投产需求在内的业务需求、公司及监管部门的要求和往期监控发现异常的改进需要。
(3)输出
监控管理的输出主要有监控清单、监控日志、监控事件单、性能数据、自动发现的网络拓扑图等。
3.监控与其他过程
监控是多个能力项的入口,与多个能力项建立了直接的接口。华夏基金的监控管理与其他能力项的接口关系如图4-1所示。

图4-1 华夏基金监控管理能力项接口
(1)事件管理
监控管理是事件管理的主要输入。监控系统对应用系统、网络、数据库等报警事件均需要纳入事件管理范畴,进行统一登记、处理。
(2)容量管理(能力管理)
监控管理的一项重要内容就是关注各系统的资源使用情况,通过监控管理提供的各项监控数据为容量管理的各项要求提供数据支持。
(3)配置管理
由于现在的监控工具大多数在生产环境中安装了代理(Agent)或者通过网络收集各项数据信息,配置管理中的大多数CMDB配置项都可以通过监控管理的数据进行收集甚至自动发现。此外,通过配置管理的输出,监控管理可以快速定位事件发生的原因和影响范围。
(4)值班管理
当值班人员发现监控系统的告警时,将按照已经制定的应急预案启动相应的事件处理流程。
4.其他管理要求或控制点
除了上述对于监控管理过程的要求和设置之外,为了拓展监控能力范围,提升监控效率,华夏基金还特别制定了部分相关管理要求,具体如下。
开发项目经理应该在系统设计阶段考虑监控日志的输出以及统一监控工具的接口。
值班人员作为一线运维人员,应通过ECC值守或者移动办公等形式第一时间对于监控告警进行反应,并对监控大屏的信息进行实时追踪。
网络管理员、系统管理员应该考虑到监控工具运行过程中必要的网络连通性、流量资源占用情况,并在系统层面给予支持。