分享到:
0
智能运维之——看日志分析平台如何点“数”成金

前言

日志数据是运维监控中主要的数据源,记录了从业务、中间件、系统等全链路信息,可以有效监控IT系统各个层面,从而快速诊断系统故障,洞察系统运行状况,对于开发、运维、测试和审计等各个环节工作都有非常重要的作用。
 
大数据智能时代,数据中心服务器规模、数据规模、集群规模等均呈爆发式增长,数据中心网络、设备、系统、环境、业务操作、交易等所产生的海量日志数据,可达到PB/EB量级数据。目前,企业日志数据的应用主要面临着以下挑战:
 
·日志统一管理:

业务系统多、数据离散、日志种类多、字段定义未标准化,无法统一管理;同时日志分散不方便查看、日志搜索操作复杂且效率低。
 
·海量日志数据处理:

在每天TB级以上的数据增量下,传统解决方案的扩展性和稳定性无法保证。
 
·安全合规:

对运维人员的违规操作、系统运行异常、设备故障等安全事件缺乏监控能力。
 
·日志数据的价值挖掘:

日志数据中蕴含大量有价值内容,对数据价值利用不足,仅停留在被动排障阶段,无法对业务和IT主动感知,业务异常无法及时发现。
 
传统运维依靠人力从日志中排查故障原因,通过传统方式手动设置来解析日志,对代码要求高、操作繁琐、排障时间长。因此,利用机器学习等人工智能技术和大数据技术构建一体化的日志分析平台,对离散日志数据进行统一采集、处理、检索、可视化分析,是解决当前日志分析难题的重要手段。智能日志分析平台减少了人工筛查时间,帮助运维人员更快的定位故障,判断失败类型,有效地提高故障诊断和恢复效率。
 
德讯大数据日志分析平台,依据一体化智能运维管理框架,协助数据中心构建完善的“智能感知-智能预警-智能处理”的智能运维管理体系,有机融合监控、管理和故障定位,以预测和自动决策为核心目标,跨平台融合数据中心机房和系统层面网络、设备、系统、动环、操作、业务交易等海量数据及日志信息,重点采用大数据、人工智能(AI)、机器学习、机器人等成熟技术进行分析挖掘、故障智能识别与故障自愈,减少对人的依赖,实现机器自判、自断和自决,实现数据中心智能化IT运维。
 

 
德讯大数据日志分析平台可实现:
 
(1)多指标关联分析与告警:

运维指标相关性故障预测,包含跨系统跨主机KPI关联分析、多KPI关联预测系统状况、事件和时序关联性分析,提前预警系统问题,争取故障排除时间。
 
(2)多指标动态指标基线预测:

利用阈值预测模型,自动化学习系统关键指标历史运维数据,生成历史告警运行规律,构建某周期动态预警基线图,按基线实时预警,摆脱“经验式”故障告警模式,提升运维准确性。
 
(3)海量日志监控与故障分析:

判断海量GC日志中错误日志;关键KPI数据统计分析,预测GC异常,降低GC异常发生时性能影响,过滤大量无效信息。
 
智能故障识别预警是数据中心智能化运维最佳策略。实现数据中心故障智能化,可降低成本;自动异常检测,智能根因定位,可提高效率;同时避免人员经验差异与人员操作差异。
 
德讯大数据日志分析平台具有对业务系统无侵入性、通用性、智能化、实时可视化分析等特点,目前已广泛应用于制造业、银行、证券、电力、交通等行业数据中心,助力企业构建大数据运维分析预警,洞察系统隐患,实现故障准确定位并快速解决,同时为企业提供运维决策预测依据,做好管理决策支撑。