1.1 业务运维成熟度 运维管理5级成熟度模型
业务运维成熟度自我评估是指运维服务组织已建立并实施了运维服务能力管理体系,根据定期的或临时性的管理要求,对整个运维服务能力管理或特定范围就运维服务能力管理的符合性和有效性所进行的内部检查。自我评估旨在发现运维服务能力管理和实施中的问题或不足,识别改进点和行动措施,从而促进本组织运维服务能力和服务质量的持续改进。
1.2 运维多层指标体系 1.2.1 体系模型
构建完善健全的业务层次、多维度监控指标体系模型
1.2.2 问题程度划分模型
使用了基于5级层次的性能与问题程度划分模型,确保测评的粒度、真实情况及用户可接受性;
1.2.3 典型指标体系参考
1.2.3.1 业务 与一般的面向技术的性能指标不同,业务指标一般是根据不同行业的用户特点来具体分析梳理的,以下以连锁快消行业某个企业的业务举例说明业务指标的梳理与建立。
会员 订单
会员总数、新增会员等
订单数、新增订单、成功订单、订单转化率、客单价等
交易额、销量统计、销售排行、销售机会、销售漏斗、业务趋势、退款金额、毛利等
库存总量、库存占用资金、运销率、商品销售排行等 门店总数、新增门店、关闭门店、优秀门店、问题门店等 客户总数、新增客户、潜在客户、关注客户等
交易
库存 门店 客户
1.2.3.2 用户体验(前端) 1.2.3.2.1 App
行为动作
影响用户数、错误用户数、崩溃用户数、响应时间、http请求次数、请求错误次数等
用户转化率、事件数、总用户数、平均耗时、错误数、崩溃数等 新增用户数、活跃用户数、HTTP错误用户数、网络失败用户数、崩溃错误用户数、HTTP错误率、网络失败率、崩溃率、会话数等 响应时间、吞吐率、HTTP错误率、网络失败率、请求次数、TCP、DNS、SSL、网络延迟时间、首包时间等
行为流程
移动性能
用户分析
HTTP请求
错误
请求错误率、HTTP错误率、网络失败率、错误次数、影响用户数、POST参数、响应头、响应内容、调用堆栈等
建立连接最慢的主机、Read耗时最长的主机、Write耗时最长的主机、异常最多的主机、连接耗时等
异常用户、异常次数、使用用户、App版本、影响用户数、异常堆栈等
平均响应时间、平均执行时间、执行次数、首屏时间、白屏时间、
页面加载
吞吐量、耗时、JS错误、JS错误次数、JS错误类型、错误堆栈、响应时间分解图、页面加载资源时序图等
平均响应时间、响应时间、执行次数、耗时、Ajax错误、Ajax错误次数、错误类型、响应时间分解图等
响应时间、请求错误率、活跃会话数、新增用户数、活跃用户数、启动次数等
响应时间、HTTP错误率、请求错误率、网络失败率、活跃会话数、新增用户数、活跃用户数、启动次数等
响应时间、请求错误率、吞吐率、活跃会话数、HTTP错误率、网络失败率、新增用户数、活跃用户数、启动次数等
响应时间、HTTP错误率、请求错误率、网络失败率、活跃会话数、新增用户数、活跃用户数、启动次数等
响应时间、活跃会话数、HTTP错误率、网络失败率、新增用户数、活跃用户数、启动次数等
响应时间、吞吐率、请求错误率、活跃会话数、新增用户数、活跃用户数、系统版本崩溃数等
推流信息:直播间、已播放时长、平均帧率、平均码率、瞬时帧率、固定帧率、瞬时码率、错误次数、影响直播错误次数、普通错误次数、推流失败错误占比等
视频流
观看信息:观看人数、浏览次数、卡顿率、延迟时间、可用率、平均卡顿时长、平均延迟时间、平均卡顿次数、平均错误次数、卡顿分布等
崩溃率、崩溃用户数、崩溃次数、使用用户数、Bug数、已修复Bug数、未修复Bug数、影响用户数、崩溃堆栈等
Socket请求
Socket异常
Ajax
接入方式
运营商
系统版本
App版本
设备
地域
崩溃
ANR/卡顿
ANR/卡顿率、ANR/卡顿用户、ANR/卡顿次数、人均ANR/卡顿次数、App版本、影响设备、影响用户数等
响应时间、吞吐率、活跃用户数、HTTP错误率、网络失败率等 访问量最高的劫持域名、劫持分布、请求次数、吞吐率、劫持占比等
执行时间、执行次数、耗时、记录时间、操作系统、设备、地理信
交互
息、接入方式、剩余电量、屏幕朝向、CPU、Memory、视图、请求数等
拓扑图
自身服务、外部服务、HTTP错误率、网络失败率、响应时间 新增用户、新增用户占比、启动用户、启动次数、活跃用户、累计总用户等
新增用户、新增用户占比、活跃用户、活跃用户占比、启动次数、启动次数占比等
日活跃DAU、周活跃WAU、月活跃MAU、DAU/MAU等 留存用户、新用户、次日留存率、7日留存率、30日留存率等 新增用户、活跃用户、启动次数、累计用户总数等
新增用户、新增用户占比、活跃用户、活跃用户占比、启动次数、启动次数占比等
组合分析
劫持分析
新增和启动用户
地域分析
移动运营
活跃用户 留存用户 渠道分析
设备分析
1.2.3.2.2 Browser
整体
访客数、总IP数、总页面数、浏览量、JS错误率、JS错误页面数、AJAX错误数、吞吐率、Apdex等
响应时间、错误类型、Post数据、接收数据、请求次数、调用页面、性能趋势等
响应时间、吞吐率、JS错误数、AJAX请求数、终端用户响应时间、首屏时
Ajax
网页 间、首字节时间、服务器连接时间、响应可用时间、前端时间、文档准备时间、文档下载时间、文档处理时间、页面渲染时间、页面访问量等
响应时间、吞吐率、JS错误数、AJAX请求数、终端用户响应时间、首屏时
浏览器 间、首字节时间、服务器连接时间、响应可用时间、前端时间、文档准备时间、文档下载时间、文档处理时间、页面渲染时间、页面访问量等 响应时间、吞吐率、JS错误数、AJAX请求数、终端用户响应时间、首屏时
运营商 间、首字节时间、服务器连接时间、响应可用时间、前端时间、文档准备时间、文档下载时间、文档处理时间、页面渲染时间、页面访问量等
错误类型、错误数量、错误信息、发生时间、IP、地域、浏览器及版本号、UA数据、错误堆栈等
JS错误
1.2.3.3 网络 HTTP/HTTPs监控
响应时间、可用率、响应服务器IP、下载字节数、下载速度、HTTP响应头信息等
响应时间、可用率、主机IP、数据包大小、TTL、发送的包数、收到的包数、丢包率、Ping快照等
响应时间、可用率、DNS解析服务器、主机记录、记录类型、记录值、TTL等
响应时间、可用率、最大跳数、数据包大小、跳转路径等 响应时间、可用率、FTP报文等 响应时间、可用率、主机IP等
响应时间、可用率、主机IP、UDP报文等
响应时间、可用率、主机IP、SMTP响应内容、HTTP响应头信息等
目标IP、DNS服务器、元素瀑布图、网络诊断结果等 元素类型、状态、元素URL等
首屏时间、网络层时间、DNS解析时间、连接建立时间、SSL握手时间、重定向时间、首字节时间等
Ping监控
DNS监控
网站监控 TraceRoute监控 FTP监控 TCP监控 UDP监控
SMTP监控
页面可用性
网页性能监控
元素响应时间 元素可用性
性能评估得分、静态资源CDN使用率、首屏时间、响应时间、请
元素性能评估
求个数、域名数等
1.2.3.4 应用(后端) 业务流程 业务拓扑
可用率、可用性、故障次数、正确率、正确性、错误次数、响应时间等 业务健康度、事务健康度、响应时间、请求数、错误数等
运行状态、每分钟执行次数、响应时间、Apdex值、错误率、错误次数、总执行次数等
响应时间、吞吐率、错误次数、错误/分钟、错误率、异常率、请求次数、缓慢请求率、非常慢请求率
响应时间、吞吐率、耗时、HTTP错误率、网络错误率等
数据库类型、操作类型、访问次数、吞吐量、平均响应时间、最大响应时间和最小响应时间
响应时间、吞吐率、调用者耗时占比、key名称、Value大小、SQL操作执行次数、耗时等
错误URL、错误时间、错误次数、请求参数、异常URL、异常时间、异常次数等
响应时间、吞吐量、CPU使用率、内存使用情况、访问次数、平均耗时、错误数等
事务健康度、层健康度、节点健康度、响应时间、请求数、错误数等
事务
请求
外部服务
Web应用
数据库
NoSQL
错误
后台任务
运维视图
1.2.3.5 服务 1.2.3.5.1 中间件
Web/App Server Apache Nginx Tomcat Weblogic Varnish Jboss
吞吐率、并发连接数、线程数、运行时间等 吞吐率、并发连接数、版本、连接丢失率等 JVM内存、线程、处理时间、请求数、网络流量等 空闲HEAP、吞吐量、空闲线程数、JMS连接数等
内存、缓存命中数、缓存Object数、过期Object数、线程数等 JVM内存使用率、服务器应答时间、EJB、线程池、JDBC连接池等
CPU使用、内存使用、JVM使用、响应时间、实时会话、JDBC连接池、JMS队列等
内存使用、进程内存、虚拟内存、线程池等
当前连接数、运行时间、每秒接收字节数、每秒发送字节数、每秒传输字节数、每秒接收文件数等
请求响应时间、每秒请求数、每秒错误数、每秒异常数、每秒告警数等
WebSphere
Resin Karaf Netty WildFly Glassfish ColdFusion TomEE
IIS
Express Gunicorn 消息中间件
ActiveMQ
内存使用、存储使用、消费者连接数、生产者连接数、排队消息数、过期消息数等
消息总数、每分钟消息数、平均消息发送时间、总流量、每分钟流量数等
每秒进入消息数、每秒向外消息数、队列会话总数、队列大小、队列消息数等
RabbitMQ JMS ZeroMQ RocketMQ MSMQ TXC for MQ ONS MQ 其他
Kafka
最大消费滞后、日志刷新速率、传入字节速率、传出字节速率、延迟consumer请求数等
CPU使用率、内存使用量、运行容器数、停止容器数、顶级容器数等 线程总数、排队线程数、活跃线程数、事务日志的大小、索引段使用的内存、GET请求次数等
每秒缓存驱逐数、每秒缓存命中数、每秒缓存插入数、每秒缓存查找数、每秒平均请求数等
队列任务数、运行任务数、注册任务数、workers数量等
每秒错误请求数、每秒HTTP请求数、每秒创建的后端会话数、活跃前端会话数、后端主机数量等
总容量、缓存容量、已使用缓存、磁盘容量、磁盘剩余空间、已使用磁盘空
Docker
ElasticSearch
Solr
Gearman
HAProxy
HDFS
间、预估容量损失等
CPU总数、总内存、占用内存、磁盘空间总量、丢弃消息数、活跃框架数、无
Mesos
效任务数等
ZooKeeper
接收的字节数、发送的字节数、客户端连接总数、接收数据包数、发送数据包数等
PHP-FPM
活跃进程数、空闲进程数、最大活跃进程数、总进程数、缓存请求数等
Weblogic
可用性:服务可用性 性能:
系统CPU利用率、WebLogic CPU利用率、JVM内存利用率、系统内存利用率、提交成功的事务耗费的时间(秒) Workload监控 信息:
Server名称(隐藏)、IP地址、主机名、MAC地址(隐藏)、版本、操作系统、物理内存容量、当前堆大小、使用的堆大小、丢弃的事务数、应用程序出错回滚的事务数、资源出错回滚的事务数、系统出错回滚的事务数、超时回滚的事务数、当前连接数、总连接数、最高连接数、当前JMS服务数、最高JMS服务数、总JMS服务数
Weblogic实例
可用性: Web应用可用性
Web应用
信息:
当前Session数、应用名称(隐藏)、会话数最高值、当前活动的Session数
可用性: 连接池可用性
DatabaseConnectionPool 性能:
等待的连接数、连接池使用率
信息:
连接池名称(隐藏)、连接池大小、当前活动的连接数量、泄漏的连接数、平均活动连接数
信息:
Thread Pool
线程池名称(隐藏)、当前空闲线程数、等待的请求数、总线程数、最长等待的请求时间
信息:
JMS
JMS Server名称(隐藏)、已接收的JMS消息数、等待处理的JMS消息数
Jboss
可用性: 服务可用性
性能:
主机CPU利用率、JBoss CPU利用率、主机内存利用率、JVM内存利用率、JBOSS Session、JBOSS Free Memory、JBOSS Thread
JBOSS AS
信息:
实例名称(隐藏)、显示名称(隐藏)、HomeDir(隐藏)、IP地址、主机名、版本、JNP(JNDI Provider)监听端口(隐藏)、操作系统、主机Mac地址(隐藏)、物理内存容量、堆的总大小、空闲堆大小、已使用内存(隐藏)、最大堆大小、最大线程数、最小线程数、JMS当前连接数、JMS总连接数、JMS最高连接数、JMS允许的最大连接数
可用性: Web应用可用性
Web应用
信息:
应用名称(隐藏)、上下文根
可用性:
JDBC连接池可用性
性能:
JDBC连接池
活动的连接数
信息:
连接池名称(隐藏)、最大连接数、最小连接数
Websphere
可用性:
WebSphere AS可用性
性能:
系统CPU利用率、WebSphere AS CPU利用率、系统内存利用率、JVM内存利用率、活动的线程、最大百分比、活动线程利用率
信息:
WebSphere AS
Pid、主机名、IP地址、操作系统、Cell名称、节点名称、Server名称、Cluster名称、空闲内存、使用的内存、分配总内存、连续运行时间、活动的本地事务、已提交的本地事务数、已回滚的本地事务数、已超时的本地事务数、平均池大小、MacAddress、显示名称
配置:
版本、构建号、Data Source个数、Web应用个数、JVM允许使用的最大内存、JVM允许使用的最小内存、物理内存容量、HTTP端口、HTTPS端口、最小大小、最大大小
可用性:
Cluster
Cluster可用性
信息:
Cluster名称、Cluster成员、Cluster成员个数
可用性: 连接池可用性
性能:
平均等待时间、使用百分比、最大百分比
JDBC连接池
信息:
Pool_ID、JDBC Provider名称、连接池名称、连接池类型、平均池大小、空闲池大小
配置:
最大连接数、最小连接数
可用性: Web应用可用性
性能: 会话利用率
Web应用
信息:
Web应用名称、Web应用J2EE名称、并发活动的会话数、当前在内存中高速缓存的会话数、不再存在的会话的请求数
配置:
允许创建的最大会话数
1.2.3.5.2 数据库
Oracle
并发性能、IO性能、内存进程
MySQL
吞吐率、并发连接数、查询缓存、表锁定、查询速率等
连接数、请求频率(请求/分钟)、执行出错数、磁盘IO请求、锁时间、锁频率、消耗内存数、日志大小、数据库大小等 库锁定、库查询、使用内存、索引命中率等
占用内存、执行命令数、命中率、即时连接数、请求连接次数、阻塞客户数、Pub/Sub通道数和Pub/Sub模式数等
命中率占用内存、即时连接数、每秒请求连接次数、缓存数量、读写命令、内存使用率等
数据库容量、数据库连接数、数据库死锁数、数据库缓存命中率、共享缓冲区利用率等
运行状态、连接时间、日志空间使用率、命中率、表空间等
内存利用情况、数据库信息、当前进程、CPU、内存、磁盘利用率等 内存命中率、数据操作、文档数、内存溢出错误、内存监控、磁盘队列、内存中文档值和元数据的存储情况、连接数等
数据库磁盘大小、数据库文档数、文档读写次数、HTTP请求数、视图读取次数、错误响应次数等
缓存请求数、缓存数据量、抛出的异常数、缓存的匹配数、客户端请求数、使用磁盘空间等
SQLServer
MongoDB
Redis
Memcache
PostgreSQL
DB2 Sybase
CouchBase
CouchDB
Cassandra
MariaDB DRDS Derby HSQL H2 Druid SQLite
可用性:
实例可用性、监听器可用性 性能:
系统CPU利用率、Oracle DB CPU利用率、系统内存利用率、Oracle DB 内存利用率、PGA命中率、库缓存命中率、高速缓冲缓存命中率、物理读速率、物理写速率、数据块获取数/秒、一致性获取数/秒、内存排序比率、当前连接会话数、当前进程数、登陆会话数/秒、当前打开的游标数、当前锁数量、死锁数量、SQL解析次数/秒、事务数/秒、事务回滚率 信息:
资源名称、版本、操作系统、主机名称、IP地址、主机Mac地址、连续运行时间、实例名称、数据库名称、Domain名称、数据库大小、Open模式、SQL语句TOP10CPUTime、SQL语句TOP10DiskReads、
OracleSQLTop10BufferGets、SQL语句TOP10BufferGets、磁盘排序次数、内存排序次数、事务回滚数、事务提交数 配置:
表空间个数、数据文件个数、Log模式、高速缓冲池、共享池、大型池、Java池、日志缓冲池、SGA、PGA、物理内存容量
Oracle
表空间: l l l
表空间状态
表空间增长率、表空间利用率
表空间名称、表空间大小、表空间已用空间
数据文件: l l l
数据文件状态
数据文件增长率、数据文件利用率、物理读速率、物理写速率 数据文件名称、数据文件ID、数据文件大小、数据文件已用空间
进程: l l
进程状态
Oracle实例名称(进程)、进程名称
文件系统: l l l
文件系统利用率
文件系统名称、文件系统已用空间、文件类型 文件系统大小
可用性: 服务可用性 性能:
系统CPU利用率、SQL Server CPU利用率、系统内存利用率、SQL Server内存利用率、Optimizer Memory (KB)、缓存命中率、缓冲命中率、高速缓存对象所使用的8(KB)页的数目、高速缓存中高速缓存的对象数、连接时间、当前用户连接数占最大连接数的百分比、当前用户连接数、login/sec、logout/sec、阻塞进程数、每秒导致死锁的锁请求数、每秒事务数、活动事务数、每分语句重新编译的次数、每分收到的 Transact-SQL 命令批数、每分的 SQL 编译数、Page Read Rate、Page Write Rate
SQLServer
信息:
主机名、IP地址、操作系统、物理内存容量、服务器能够使用的动态内存总量(KB)、数据库个数、版本、Max Server Memory (MB)、服务连续运行时间、安装目录、产品名称 数据库: l l l
数据库可用性
数据空间使用率、日志空间使用率、每秒事务数、活动事务数
数据库空间、Data File Size、Data Size、Index SizeUnused Space、Unallocated Space、Log File(s) Size、Unused Size、Log File(s) Used Size
1.2.3.6 基础资源 1.2.3.6.1 系统
服务器 防火墙 路由器/交换机 负载均衡设备
CPU、内存、进程、磁盘、网卡信息、TCP等
吞吐量、报文转发率、最大并发连接数、每秒新建连接数、转发时延、抖动等 CPU、内存、接口状态、流量、带宽占用等
CPU、内存、端口响应时间、运行状态、可用性、负载状况等
可用性: 主机在线可用性 性能:
CPU平均利用率、内存利用率、内存错页率、硬盘平均等待队列、硬盘平均磁盘时间、硬盘平均读写速率、分区平均利用率、核心内存利用率、虚拟内存利用率、主机总内存容量、分区总容量、分区总使用容量等 信息:
连续运行时间、主机基本信息、操作系统、MAC地址、系统版本、进程数、线程数、当前在线用户数、虚拟内存总量、虚拟内存已用量等 配置:
CPU个数、内存总容量、硬盘个数、硬盘总容量、网卡个数、网卡类型、IP地址、主机名、分区个数、分区总容量等 CPU:
Windows主机
l l
CPU利用率
CPU名称、CPU ID号、CPU型号、CPU频率
硬盘: l l
硬盘等待队列、硬盘磁盘时间、硬盘读写速率 硬盘名称、硬盘ID、硬盘容量
分区: l l
分区总已用容量、分区利用率 分区名称、分区ID号、分区容量
网络接口: l l
管理状态、操作状态
发送利用率、发送的丢包数、发送的错包数、发送速率、接收利用率、接收和发送利用率总和、接收的丢包数、接收的错包数、接收速率、接口带宽 l
网卡ID号、接口名称、索引、接口类型、接口带宽、MAC地址、IP地址
可用性:
Linux主机
主机在线可用性 性能:
CPU平均利用率、CPU平均负载、内存利用率、硬盘平均读写操作速率、硬盘平均读写速率、接收和发送的ICMP包率、Ping时延等 信息:
网络接口个数、主机说明、连续运行时间、主机操作系统等 配置:
IP地址、分区总容量、CPU个数、内存总容量、硬盘总容量、硬盘个数等 CPU: l l
CPU利用率
CPU名称、CPU型号、CPU频率
硬盘: l l
硬盘读速率、硬盘写速率 硬盘名称、硬盘ID、硬盘容量
分区: l l
分区利用率
分区名称、分区容量、分区已用容量、
网络接口: l l
管理状态、操作状态
发送利用率、发送的丢包数、发送的错包数、发送速率、接收利用率、接收的丢包数、接收的错包数、接收速率 l
索引、接口类型、接口带宽、MAC地址
可用性: 主机在线可用性 性能:
CPU平均利用率、CPU平均负载、内存利用率、硬盘平均读写操作速率、硬盘平均读写速率、接收和发送的ICMP包率、CPU用户模式百分比、CPU空
AIX主机
闲时间百分比、CPU系统模式百分比、、内存页面调进速率、内存页面调出速率、等待处理队列、内存错页率、Paging Space利用率等 信息:
主机操作系统的OID、主机操作系统、主机操作系统版本、连续运行时、主机说明、系统SP、进程数、僵死进程数、线程数、当前在线用户数、Paging Space总大小、Paging Space已用大小等
配置:
CPU个数、内存总容量、硬盘个数、网卡个数、MAC地址、IP地址、主机名、分区个数、分区总容量、硬盘总容量、主机的所有IP地址等 CPU: l l
CPU利用率
CPU ID号、CPU名称、CPU型号、CPU频率
硬盘: l l
硬盘读速率、硬盘写速率 硬盘名称、硬盘ID、硬盘容量
分区: l l
分区总可用容量、分区利用率 分区名称、分区容量、分区ID、
网络接口: l l
管理状态、操作状态
发送利用率、发送的丢包数、发送的错包数、发送速率、接收利用率、接收和发送利用率总和、接收的丢包数、接收的错包数、接收速率、接口带宽 l
网卡ID号、接口名称、索引、接口类型、接口带宽、MAC地址、IP地址
可用性:
网络设备在线可用性 性能:
CPU平均利用率、内存利用率、网络设备内存池占用容量、网络设备内存池可用容量、总接收吞吐量、总发送吞吐量、吞吐量、丢包率、接口接收的丢包数、接口发送的丢包数、接收和发送ICMP包率、发送的ICMP包率、接收的
路由器
ICMP包率 信息:
网络设备的OID、连续运行时间、网络设备说明、交换机下的IP地址、网络设备MAC地址 配置:
Config状态、CPU个数、内存总容量、网络接口个数、IP地址、网络设备名称
CPU: l l
CPU利用率
CPU名称、CPU ID号
网络接口: l l
管理状态、操作状态
ARP包率、接收的ARP包数、发送的ARP包数、单播包率、接收单播包数、发送单播包数、发送利用率、发送的丢包数、发送的错包数、发送速率、广播包率、接收的广播包数、发送的广播包数、接收利用率、接收和发送利用率总和、接口累计接收和发送的包数、接口累计接收的包数、接口累计发送的包数、接收的丢包数、接收的错包数、接收速率、组播包率、发送组播包数、接收组播包数、接口带宽 l
网卡ID号、接口名称索引、接口类型、接口带宽、MAC地址
链路: l l
链路可用性
链路名称、链路ID号、所属网络接口、目标IP
可用性:
网络设备在线可用性 性能:
CPU平均利用率、内存利用率、网络设备内存池占用容量、网络设备内存池可用容量、总接收吞吐量、总发送吞吐量、吞吐量、丢包率、接口接收的丢包数、接口发送的丢包数、接收和发送ICMP包率、发送的ICMP包率、接收的ICMP包率 信息:
交换机
网络设备的OID、连续运行时间、网络设备说明、交换机下的IP地址、网络设备MAC地址 配置:
CPU个数、内存总容量、网络接口个数、IP地址、网络设备名称 CPU: l l
CPU利用率
CPU名称、CPU ID号
网络接口: l
管理状态、操作状态
l ARP包率、接收的ARP包数、发送的ARP包数、单播包率、接收单播包数、发送单播包数、发送利用率、发送的丢包数、发送的错包数、发送速率、广播包率、接收的广播包数、发送的广播包数、接收利用率、接收和发送利用率总和、接口累计接收和发送的包数、接口累计接收的包数、接口累计发送的包数、接收的丢包数、接收的错包数、接收速率、组播包率、发送组播包数、接收组播包数、接口带宽
l 网卡ID号、接口名称索引、接口类型、接口带宽、MAC地址
链路: l l
链路可用性
链路名称、链路ID号、所属网络接口、目标IP
1.2.3.6.2 硬件
服务器
主板、电源、电压、风扇、温度、功率等
机房动力:高压配电、低压配电、UPS、油机、电源、电池组、空调等
机房环动
机房环境:门禁、烟感、温度、湿度、漏水、安防、消防、防雷等
1.3 运维知识管理 1.3.1 运维知识及其重要性
随着企业IT设备和信息系统的增多,IT运维服务管理显得越来越重要。如何提高IT运维成为企业越来越关注的话题。研究报告表明,通过在IT运维服务管理中开展知识管理,将有助于实现IT运维服务目标。 IT运维服务管理中的知识主要包括: 1、IT服务相关的制度、流程 2、针对不同事件和问题的解决方
案 。3、IT服务管理过程中产生的变更申请、测试方案、技术方案等。4、技术参考资料,例如网络拓扑图等 。
根据知识是否与IT运维服务流程相关,可以把知识分为流程相关类知识和非流程相关类知识。解决方案是在事件管理流程和问题管理流程中产生的知识,测试方案和技术方案是在变更管理流程中产生的知识,它们都属于流程相关类知识。 有效开展知识管理,建立知识库,实现知识的创建、储存、共享、应用,知识对IT运维服务管理的价值和作用主要体现在以下一些方面。
l 创造知识价值:通过知识的创建、共享、积累、分析,以及知识的快速检索
与获取,利用知识创造价值,从而提高IT部门的能力和运维人员的个人能力。
l 实现知识共享,降低IT运维成本: IT运维人员常常要重复解决相同的问
题。如果大多数问题及其解决方案都可以从知识库中方便、快捷的获取,就可以将IT运维人员从重复性的运维工作中解放出来,集中精力解决其他新的问题,从而达到提升工作效率,降低IT运维成本的目的。
l 提高运维响应速度和质量:通常情况下,能够进入知识库的解决方案一般来
说是最正确、标准和高效的。构建一个质量、数量及知识结构都达到一定标准的知识库,作为IT运维的强大储备库,另外,知识库都具备高效的搜索功能,这无疑是快速响应IT服务需求的最好方式。而快速、高质量的解决故障意味着客户满意度的大幅提升,这正是IT运维的最终目的。 l 避免知识流失:许多隐性知识集中在运维人员的脑子里,一些IT应用的操
作或故障解决方法可能只有开发人员知道,知识库管理可以有效避免由人员流失造成的信息孤岛和知识流失。
l 挖掘、分析IT应用信息:运维知识库不仅作为一种信息收集、整理工具,
同时还是一种数据分析、统计工具。从知识条目、IT运维解决案例、知识的生命周期等等统计数据中,可以挖掘出许多有用的信息。便于IT服务提供者发现潜在问题、进行趋势分析,帮助拟定未来的工作重点、计划及预算等。
1.3.2 运维知识管理模型
是一套面向高端研发企业的支撑研发知识聚集、关联、管理、应用和创新的平台。拓展了传统单纯以知识的共享为目标的管理思想,将知识管理与研发业务相结合,使企业在研发过程沉淀和积累知识,并将知识应用于研发业务中。提供了专业的知识信息聚集、加工、共享、管理和基于业务的知识应用机制,帮助企业实现研发能力的跨越式提升。通过研发知识的管理、挖掘以及分享,实现企业跨部门、跨领域的研发智力资产的可持续的经验积累机制,达到企业研发智力资产的有效重用。
1.3.2.1 运维知识聚集 知识聚集是知识工程系统的基础,是系统对外提供内容服务的源泉。系统主要通过知识录入或从各种知识源(包括文件系统、数据库、内部其他系统以及独立信息源)来进行知识
采集,根据客户的需求,针对不同的数据格式,采用不同的手段与方式,真正将各数据孤岛的信息采集过来,用于资源平台的整合与使用。用户在进行知识录入或采集时,通过对知识指定不同的分类标签来实现多维度分类的效果,系统也可通过对知识在研发过程中使用情况自动生成使用分类标签,如知识在某型号、某任务、某用户,以便分析知识的使用效果。通过标签将相关知识聚集在一起,以减少分类维护的成本以及实现知识在共享使用过程自动进行聚集,还可通过分析知识内容描述所涉及的业务对象、业务活动,自动将知识聚集起来。
1.3.2.2 运维知识库管理
运维知识库是一个解决方案的汇总,针对各种IT应用和设备故障现象,知识库提供了一系列行之有效的解决方案。知识库管理是对知识从采集、加工到使用共
享、消亡的全生命周期进行综合管理,包括知识的审批、版本、权限、升级、归档等知识基本管理功能,以及知识收藏、评论、推荐共享使用功能,另外还可以对知识进行以下加工处理:
• 知识结构化:依据知识模板,对知识源的知识进行结构化处理。如对文档等非结构化数据进行文档转化、信息提取、自动摘要、自动标引等结构化处理;将知识问答沉淀为知识;对实例数据库、设计过程记录、设计模板工具、质量文件、故障经验库等采集和处理为结构化知识。
• 分类管理:通过对结构化和非结构化知识内容里涉及的概念,使用户得到准确的分类类别,利用系统提供的自动标引、标签、自动分类与分类训练等功能可以精确地对知识涉及的概念进行分类,从而确保所有的数据最大限度的精确归类和正确的理解。
• 知识关系:依据知识分类、知识聚集、本体关系以及用户或系统建立知识之间的关系,依据知识关系进行扩展搜索、导航等功能,实现对知识的深度搜索和展示。
运维知识管理平台提供知识录入、审核和评价等功能,系统上任何用户都可以根据自身的运维经验和专业技术,录入已知知识,对已发布的知识进行评论、评价和打分,各种评论都可以保留于知识库中,后续使用者可以获得更加完美的解决方案;通过评价、打分以及引用次数,来对知识级别和共享度进行计算和级别划分,优先将好的知识推荐给运维人员进行引用和查看,进一步提升了知识库的有效性和专业性。
知识库管理模块致力于提高IT部门的知识共享能力。在工单建立的过程中,可以从知识库中搜索匹配的相关知识,提高了运维工程师的故障处理效率。在工单关闭时,运维工程师可以将好的解决经验转换为知识,供其他运维人员使用。通过知识库管理功能,IT部门主管可以方便的了解每位工程师的知识贡献排名,确保知识流传工作可以正常运转。知识库按照多个级别进行分类,方便用户快捷检索。知识库管理员可以设定知识共享范围,只有在该范围内的支持人员可以共
享该知识条目。
系统支持对知识进行手工添加和批量导入,运维人员可将自身的专业知识转化为知识条目录入到系统之中,同时提供附件功能,知识通过审核和发布,最终形成可供查询和引用的知识提供给运维人员,供其他运维人员快速的学习和掌握运维相关技能,提高运维效率,缩短故障处理时间。
1.3.2.3 运维知识应用 知识应用是指基于知识资源的相互关系,为用户提供全方位、多方式的应用选择。不仅包括知识高效检索和快速定位,智能化、个性化订阅收藏,用户自主交流讨论、学习反馈,精确和全面的知识统计等基础应用;还包括针对设计流程内容信息主动智能推送相关知识。
1.3.2.4 运维知识创新 知识创新包括基于知识的产品设计创新和面向应用的知识“加工”。面向应用的知识“加工”是指通过编程、封装等手段将方法、算法等固化为工具软件,或者将工程基础数据构建为结构化工程数据库,最终成果是产生新的模板、工具、数据库或设计引导等。
1.4 业务运维考核体系
因篇幅问题不能全部显示,请点此查看更多更全内容
怀疑对方AI换脸可以让对方摁鼻子 真人摁下去鼻子会变形
女子野生动物园下车狼悄悄靠近 后车司机按喇叭提醒
睡前玩8分钟手机身体兴奋1小时 还可能让你“变丑”
惊蛰为啥吃梨?倒春寒来不来就看惊蛰
男子高速犯困开智能驾驶出事故 60万刚买的奔驰严重损毁