虚拟机日常维护手册 下载本文

内容发布更新时间 : 2024/5/4 23:46:39星期一 下面是文章的全部内容请认真阅读。

虚拟机日常维护手册

1目的

为提高处理虚拟化服务器故障的能力,形成科学、有效、反应迅速的日常管理流程和应急处理机制,确保虚拟化平台的安全和稳定运行,最大限度地减小服务器故障对生产的影响,降低业务中断风险,特制定本手册。

2故障处理规范 2.1硬件维护

平台服务器出现硬件告警需要停机维护,服务器责任人应立即通知相关人员,将业务虚机迁移到集群中其他服务器主机上,再将故障服务器切换至维护模式并从HA集群中移除,负责陪同硬件厂家现场更换至成功恢复。

2.2虚拟化平台故障

发生平台故障后,相关人员应及时查找、确定故障原因,进行先期处置。若故障在短时间内无法修复,相关人员应将业务迁移到备用平台环境中,保持业务系统的正常运行;将故障服务器脱离网络,进行故障排除工作,并及时联系相关人员或厂商协助解决。

2.3虚拟机软件系统故障

(1)日常做好虚拟机的定时备份和快照,系统崩溃后,应能够及时恢复虚拟机。

(2)发生虚拟机系统故障后,相关人员应及时通知业务人员检查出现故障的原因并尽快排除。

(3)如遇虚拟机系统需要启用备份系统进行恢复时,应在恢复后和业务管理员仔细检查业务是否恢复并做好恢复记录。

2.4虚拟化平台日常告警故障排除

当虚拟化平台出现告警信息,通过以下步骤排除:

(1) 确定故障原因。查看已触发的警报内容,确定故障前操作是

否是引发该故障的原因,对合规操作引起的告警,进行消除。

(2) 对提示硬件产生的告警,应查看硬件状态信息,对确认是硬

件的问题按硬件维护预案处理。

(3) 对提示因资源不足或性能引发的告警,因查看近期性能图表,找出原因,消除故障提示。

(4) 对于无法判断的故障,可导出系统日志发给厂家分析处理