解决方案

SOLUTION

业务监控解决方案
得力助手 2020-08-20 09:59:27

一、方案功能

本方案主要功能包括发现业务问题、构建业务视图、分析交易详情、自定义视图等,还具有一些后台型功能,如数据接口,业务报表等。

1、业务概览

1)实时视图,业务健康指数

在日常运维期间,为运维团队及管理层提供宏观的顶层视图,通过简单直观的界面,展示每个应用系统的运行状态。通过旁路镜像(无需中断业务系统服务)的方式,实时分析镜像流量,及时发现业务问题。

 

image.png

2)交易时间段视图,实时交易量

从实时监控图上,更进一步的监控各个业务系统当天从与设定的全天交易时间段已经发生的交易量。便于运维管理层人员对各系统当天交易交易时间段的交易情况有全局的了解。

 

image.png

3)全天视图,实时交易量

从实时监控图上,更进一步的监控各个系统当天已经发生的交易量。便于运维管理层人员对各系统当天的交易情况有全局的了解。

 

image.png

2业务详解

业务详解是故障区域的可视化体现。在复杂的业务系统环境下,业务详解能帮助客户解决如下问题:

应用系统的应用健康详细如何;

整体业务拓扑与网络设备间的性能如何;

告警根源节点在哪;

根源节点上的性能指标如何;

根源节点上的哪一性能指标有问题;

从根源节点上进入可视化分析,推动快速解决问题;

业务详解图通过节点四宫格上的服务请求量、响应率、成功率,响应时间这四类关键性能指标实时评估每个应用节点的性能健康状态,支持下钻查看个指标的性能趋势。

1)业务路径,业务节点展示

在复杂的业务系统环境下,系统内部的运行路径犹如黑箱,增加了运维团队的工作难度。

Deli-TM捕捉和分析业务请求在系统内部各节点之间的全部传输过程,对每一笔业务进行端到端追踪,将业务路径全面可视化展示,打开业务系统的黑箱。通过监控数据全面掌握业务系统的服务过程及全路径运行情况,轻松实现运行故障的节点级精确定位。

 

image.png

2)节点多服务器的分别定位

同一个SEVER节点有可能是分布式集群,也有可能是负载均衡,或者由F5出入交互,在后端都有可能体现为多台服务器。Deli-TM产品支持在同一个节点上查看此些服务器节点的单个监控指标。

 

image.png

3业务多维分析

1)多维分析,交易数统计与原数据查看

  

image.png

实际业务中,存在由多个业务类型,或者多个服务器节点来共同完成交易量的统计。Deli-TM产品提供多维分析,从前台页面上实现该需求交易数的统计,并且可以查询相应原数据。

它主要由上下两部分功能组成,上半部分为互动分析图表,通过动态添加图表的方式分析各种指标的问题,如添加一个交易吞吐量的图,就可以分析一段时间内的吞吐量的异常情况;下半部分为维度列表,通过交易代码、源IP、目的IP、返回代码、返回参数和交易参数等维度分析交易的成功率、响应率和响应时间等问题。

2)交易追踪,流水号的业务轨迹

 

image.png

Deli-TM 通过对网络数据包的深度解码,能自动发现网络中各个节点的服务关系,通过业务中的流水中的关键词(如流水ID)对业务报文进行巡查,并展现出该关键词的所有交易明细。

4告警管理

Deli-TM不仅仅针对监控业务路径设计告警,并且允许通过过滤器配置交易数,响应时间,成功交易,以及其它广泛的监控指标进行广泛的告警配置,例如针对渠道内某类关键交易设置告警规则,而不是根据渠道内的所有交易的统计值设置告警(在某客户案例中,经常会遇到交易渠道里占比极小的某些重要交易成功率下降,但是整个渠道总交易成功率没有到阈值而无法触发告警的场景);

在多年的项目实践中,如此广泛和细致的告警机制能够帮助客户及时发现了各类应用异常问题,对相应人员与程序起到优化业务性能建议作用。

 

image.png


当DELI-TM监控业务性能时按照指定的规则或基线数据产生事件,而告警生成模块则分析这些实时产生的事件,当发生的事件满足指定的告警策略时,产生告警。告警产生后,以指定的格式封装后以指定的协议发送给一个或多个指定的联系人。

 

image.png

告警可使用SYSLOG等形式发送到统一事件处理平台。


5视图管理

视图中心实现用户真正关注的指标体现,节点、业务流均可根据用户的痛点来进行响应的配置,达到随时了解该痛点的实现。

 

image.png

6报表管理

Deli-TM是一个拥有海量数据的实时监控系统,交易数据不仅可以用来故障回溯,同时Deli-TM报表功能,也支持根据用户要求出具交易的日,周,月报表,以利于运维得以进行经营分析,协助经营决策,更好的完成企业经营目标。

 

image.png

二、方案架构

image.png

三、方案优势

1、业务状态直观展示

直接获取全面业务信息,直观展示第一手业务数据,用户可以最快时间了解自己业务运行状态

2、对生产零影响

基于实时旁路手段的交易数据获取,不侵入业务系统,对生产零影响。

3、快速部署、实施简便

系统预置大量银行、证券业务报文解码信息,用户无需进行大量开发工作即可对所监控业务系统实现纳管。

4、基于大数据技术、符合未来趋势

系统整体架构基于大数据技术,具备高稳定性及可扩展性,符合未来AI及大数据分析时对系统的数据性能要求。


四、成功案例

     银河证券原有监控IT在基础层面比较稳定,还是会接到客户反应的某些业务异常的情况,科技部门比较被动,遇到问题排查原因、定位根源比较耗时;同时基础监控发现的问题无法准确与业务问题关联;由于金融行业自身的业务特性,对于监控的响应时间、处理性能有很高的要求,测试了很多同类产品,未能达到要求。本项目采用Deli-TM对于业务进行实现监控,先于用户发现问题,及时响应,辅助定位问题根源,缩短问题的处理周期,提升服务质量,提高了客户竞争力。同时能够跟基础监控进行集成,实现一体化运维监控平台。   

     项目实施后,有了非常明显的效果。系统可以实时发现业务问题:当业务出现异常时及时报警,业务部门能够及时响应;业务类故障发现率从20%提升至90%以上;银河证券可以根据交易路径视图,能够准确定位故障节点的位置,结合基础监控,定位问题根源。业务出现问题时能够定位是那个系统环节、那个组件出现了问题,缩短问题排查时间;系统可以为排查业务问题提供数据支持,系统提供业务交易过程的追溯,有助于排查问题。如:某业务失败,从系统中根据客户号等信息能查询到当时交易的详情,快速处理业务投诉;问题定位处理的平均时间从40分钟降至5分钟。