蓝鲸智云蓝鲸监控产品白皮书

导出PDF

简介

  蓝鲸监控 是一款针对主机/容器和互联网应用进行监控的产品,监控服务可用于收集主机/容器资源(系统性能、组件服务、数据库、日志等)的监控指标,探测互联网应用服务的可用性,并对指标进行告警和自动执行处理的设置。

架构

图1

版本差异

表一:蓝鲸监控各版本功能对比表

功能 社区版 企业版 公有云版
主机监控
容器监控    
组件监控    
自定义指标监控
关键字监控    
事件管理
数据源管理
自动处理
仪表盘    
运营看板    
告警服务
异常检测
辅助定位    

功能介绍

  说明:凡是用 斜体字描述的 表示该功能社区版暂不支持,只存在于更高级别的版本中,具体哪个版本请参考各版本功能对比表。

主机监控

  管理以主机为单元的基础性能指标图表查看和告警策略配置、告警记录等功能。

图2

自定义指标监控

  支持用户将业务的个性化自定义数据配置成监控项,并配置告警策略和自动处理执行动作。

图3

日志关键字监控

  支持对用户的业务或程序后台日志内容进行关键字匹配监控,当匹配到某些关键字词次数或比率达到某个阈值后,告警并可以执行自动处理动作。

图4

数据源管理

  自定义指标的数据监控需要用户事先将数据源在此处进行配置录入,通过蓝鲸Agent采集器即可轻松将指标数据上报到监控系统,即可在 自定义监控 中配置所需探测的指标和维度,以及关联的告警策略。

图5

图6

事件中心

  事件中心以日历的形式,展示所有用户设置的告警策略触发的告警事件,以及修改监控项或告警策略的操作,旨在让用户能够清晰的区分在某月份内每一天的业务情况,方便用户做业务维护管理。

图7

仪表盘

  除了主机监控页面功能对主机的基础性能指标和事件标准化管理以外, 通过仪表盘的完全自定义式监控指标配置,用户可以自由搭配自己所需要的图形仪表盘。(且支持容器的基础性能指标的配置

图8

入门指南

开始使用 监控系统 分为几步:

安装蓝鲸Agent

  通过蓝鲸桌面的 【Agent安装】 应用部署蓝鲸Agent(蓝鲸agent具备了数据采集的功能):

1489391070602

开启主机性能采集上报

  进入 监控系统 后,打开 主机监控 页面。监控系统的主机获取信息是基于蓝鲸配置平台的业务结构,如果您还未在蓝鲸配置平台创建业务集,系统会自动检测并提醒您通过 Agent安装 应用进行快速部署主机。

1489391306713

  当您在配置平台内已有业务集的情况下,系统会弹窗提示是否需要开启主机基础性能的监控数据采集上报;点击 开启采集 后,系统将会自动创建对应的 数据表,并下发配置到您业务集下所有安装了Agent的主机开始上报数据(期间需要10~15分钟)。

1489391414523

查看主机性能指标

  采集任务完成后,您就可以在 主机监控 页面查看到属于您业务下的所有服务器的概况。

1489391664647

  点击某一台主机后,可以查看到该主机的基础配置信息、系统性能指标、关联的告警策略和告警事件。

1489391601603

1489391802182

配置主机监控告警策略

  您可以在 主机监控 页面通过 新增告警策略 自定义添加主机的监控告警策略,也可以通过主机详情页内的 关联告警策略 进入。

1489391880746

1489391919065

  告警策略规则包含以下几个配置节点:   - 选择性能指标   - 告警触发条件   - 自动处理方法   - 设置通知方式

自定义监控

  自定义监控 提供给用户可自定义配置的数据指标视图和监控策略的功能,只需要将日志数据接入到监控后台,即可对其进行视图和告警配置。

用户自定义的指标数据上报需通过 数据源接入 采集上报,详情点击查看对应章节。

  自定义监控功能提供了可视化的数据视图展示,并能够直观清晰的从曲线中看到故障点,可以方便的切换查看不同维度的指标数值并快捷配置监控策略。   

配置自定义监控告警策略

  监控系统的告警策略有告警标题、告警范围、检测算法、收敛规则、自动处理、告警级别和告警通知几项配置,通过用户配置的告警策略检测出的异常数据,我们称之为 告警源(一切从监控项匹配到告警规则的数据,都是告警源)。

  • 告警标题:用于形容告警策略的具体意义,便于在发出告警时,用户能从告警的标题快速的确认问题的来源。
  • 告警范围:用于过滤数据的不同维度,根据实际的维度或维度组合值来配置相应的告警策略。
  • 检测算法:目前支持以下 5 种常见的异常数据检测算法。
    • 1.静态阈值:直接对当前检测值的大小做阈值检测,当达到用户配置的上限/下限值时,即触发告警。
      2.同比算法(简易):将当前检测值上周同期进行对比,上升/下降达到用户设定的百分比时,即触发告警。
      3.环比算法(简易):将当前检测值与上一时刻进行对比,上升/下降达到用户设定的百分比时,即触发告警。
      4.同比算法(高级):将当前检测值过去n天同一时刻的平均值进行对比,上升/下降达到用户设定的百分比时,即触发告警。
      5.环比算法(高级):将当前检测值前n个时间点的平均值进行对比,上升/下降达到用户设定的百分比时,即触发告警。

  • 收敛规则:为了防止告警风暴,亦或者对非严谨型的监控指标做收敛时,就需要配置对应的规则来实现。
    • 例如:设置当5分钟内某个监控项的异常检测值出现至少3次时,才触发告警通知。当同一个告警策略产生的异常告警连续出现2~3次时,有可能该异常是连续性的,就可以设置在未来n个分钟内不再发出告警通知,直到异常问题恢复时。

  • 自动处理:既故障自愈的理念,用户可以根据不同的异常告警事件设置对应的自动处理方案,从而实现故障自动治愈的效果。
    • 例如:在设置主机重启的告警策略规则时,即可配置您在作业平台里创建的如重启后自动启动某些服务或进程的作业任务;当告警触发时,监控系统会根据您的配置自动调用作业平台的任务并返回执行结果,发出通知。

  • 告警级别:分为 轻微普通严重三种级别,目的是为了让用户能够方便的根据告警数值的大小、抖动趋势的高低来指定不同的处理方式和通知对象。
    • 例如:CPU使用率在60~70%之间的,可使用轻微级别的设置,发送给运维人员进行预警。当处于90%以上时,就有可能会影响应用程序的正常运行,需要通知到研发团队及时处理。

  • 告警通知:告警通知的设置分为通知接收人、通知方式和通知时间段。
    • 通知接收人:您可以选择将告警发给业务相关的产品开发运维测试DBA其它需要关注该告警的人。 通知方式:目前监控系统支持短信 电话 邮件 微信RTX(企业内部IM) 通知时间段:您还可以对监控项的告警策略区分触发告警通知的时间段。例如:某个异常检测的策略只需要在上班时间需要关注,其余事件忽略;就可以设置通知时间段从早上09:00到晚上18:00,系统就只会在该时间段内将检测到的异常发出通知给相关人。

    • 1489409910221


查看自定义监控Dashboard

  在配置完成监控项的告警策略规则后,您即可在自定义监控仪表盘页面中查看到对应的图表。除了支持按日期自定义查询以外,我们还将监控项发出的告警事件融入到图表展现形式当中,用户可以方便的查看到该监控项在某个时间点发生了什么级别(不同级别的告警会以颜色做区分)的告警。

1477992619637

  针对 多维度组合 的监控项,点击图表上的向下箭头1479789235961,点击”详细“按钮可以清晰的查看不同维度组合的趋势,并且可以快速的配置告警策略。

1479789348843

  除此之外,还可以将您比较关注的监控项图表打关注标记,即该图表也将展示在监控总览页面中,方便用户进入监控系统时就能第一时间查看。

1479789475374


数据源接入

  自定义数据监控需要用户事先将数据源(监控系统将接入到监控里的数据称之为数据源)在此处进行配置录入,通过蓝鲸Agent采集器即可轻松将指标数据上报到监控系统,即可在 自定义监控 中配置所需探测的指标和维度,以及关联的告警策略。

1489394966496

  接入数据源所需的配置信息:

1489410931669

  • 数据表名:用户采集上报的数据会被监控系统录入到数据库的一张数据表中,这里指的就是该数据表的表名。
  • 中文名称:为了能够在创建自定义监控中选择数据源时,能够快速辨识数据表的数据类型,该字段支持让用户可以对数据表做中文别名设置。
  • 采集对象:指明采集器在哪一台主机上进行采集(目标机器上必须安装好agent)。
  • 日志路径:被采集的目标主机上,用户日志保存的位置(需填绝对路径)。
  • 日志生成频率:用户日志生成(产生)的频率,根据业务对日志输出方式或备份切割管理方式的不同,选择相应的选项。
  • 字符编码:日志数据的字符类型,目前支持utf8和gbk两种类型。
  • 数据分隔符:用户接入的日志数据必须为有格式规范的,采集器会根据用户指定的分隔符进行字段切割并采集上报入库,例如:
    • 2017-03-01 21:22:00,1001,employee_A,in,check_job,done
    • 上面这条数据就需要指定分隔符(,) 采集器会将其切割为6个字段,然后在接入页面的底部配置每个字段所代表的含义和格式类型。
  • 采集范围:当你想要根据某个字段的属性或数值来决定是否需要将该条数据行记录采集上报时,这里可以支持你做正则的筛选条件。
  • 字段含义:根据上面的日志分割规则和采集配置后,用户需要根据数据航每个字段的含义和类型进行正确的配置,完成这一步后数据即可正常采集上报。注意:目前自定义监控仅支持数值指标的类型,所以用户日志中必须存在时间信息,数据表的字段配置中仅需要存在一行为”时间“类型即可。

  成功将日志数据接入后,即可查看到数据源的全部信息,包括数据源的基础信息上报节点数据记录关联的监控配置项

insert_01

  当需要对已接入的数据源新增采集节点时,只需点击段落右侧的“加号”填入对应的IP即可:

insert_02

  完成数据源的接入流程后,即可在 监控系统 内配置 监控项[^mon_target],便能自定义选择需要监控的指标和维度:1479789636686

查看告警/系统操作历史事件

  凡是您设置的告警策略触发的告警事件,以及修改监控项或告警策略的操作,监控系统都会记录保存,方便用户做业务维护管理。事件中心以日历的形式呈现,旨在让用户能够清晰的区分在某月份内每一天的业务情况,一目了然。 告警监控二期-06

告警监控二期-07

结语

  蓝鲸监控系统 能够监控服务器主机/容器资源的基础性能指标,同时也支持用户自定义指标数据的采集上报做监控;借助监控系统,您可以全方位了解主机的资源使用情况和运行状态,并对应用程序的日志数据做监控以保障业务的可用性。通过告警服务和自动处理功能,您可以及时作出响应,保证应用程序顺畅运行,业务无忧。

本文档是否对您有帮助?