挑战
系统压力大:
平均日交易量可达3000笔+;每分钟系统性能指标数据达到GB级;运维数据只能保留月度数据甚至1~2周数据量。
运维协作少:
运维条线僵硬,整合分析困难,出现运维死角;运维数据缺乏统一管理,造成根因甄别排错困难;业务部门与运维部门协调困难,难以实现敏捷开发,部署,上线快速业务创新。
数据利用低:
大量的网络流量与事务处理、日志文件、报警与事件、性能指标数据没有有效利用;被动式IT运维方式,很少做到主动式/预测式IT运维,实现整体运维监控趋势把握。
价值
软件著作权
通过统计学理论/数学算法对历史数据进行分析;按照不同日期特性,如:工作日/休息日/特殊运维日,进行单KPI预测;按照不同的时段特性,如:交易高峰时段/交易平峰时段,进行单KPI上下限预测;根据预测结果,结合实际值,制定不同的告警规则。
通过统计学理论,挖掘指标间的关联关系;通过统计学理论/数学算法对具有关联关系的KPI进行数据分析,找到各KPI之间的标准误差;通过算法计算各关联指标之间的标准误差,当标准误差超过算法范围后进行预警。

根据各KPI的影响度提出故障解决的推荐意见;当多个KPI之间的关系被打破,即发生异常时,通过对大量数据的挖掘和学习,在第一时间找到异常发生的原因。