系统维护是什么意思(系统维护一般多长时间)

第一,是ITIL特别是ITIL 4,ITIL4是国际IT服务标准在新时代的最新版本,也是面向敏态IT的全新版本,它在囊括了ITIL V3的特色基础上加入了对于DevOps等的支持;

其次,是敏态IT运维方法论SRE(Site Reliability Engineering,站点可靠性工程),这是互联网及公有云的运维服务方法论;

第三,是Infrastructure as a Code即将基础设施自动化过程、运维以及全球最佳实践和案例等进行整合;

第四,是加强了运维与开发的关联,将IT服务管理的组织、文化、流程与DevOps进行结合。

运行维护服务包括,信息系统相关的网络设备、安全设备、机房基础设施、主机设备、操作系统、数据库和存储设备及其他信息系统的运行维护与安全防范服务,保证用户现有的信息系统的正常运行,降低整体管理成本,提高网络信息系统的整体服务水平。同时根据日常维护的数据和记录,提供用户信息系统的整体建设规划和建议,更好的为用户的信息化发展提供有力的保障。

用户信息系统的组成主要可分为两类:硬件设备和软件系统。硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、典型应用软件(如:数据库软件、中间件软件等)、业务应用软件等。

故障处理一般会分为三个阶段,故障前,故障中和故障后,故障前是指故障的定位分析,故障中是指故障处理过程,故障后是指故障总结,故障总结很重要。

(一)从故障服务来看运维处理故障方法

如果从故障服务来看,运维恢复业务最重要的三个方法是: 隔离 重启 降级

(1)隔离

隔离是指对故障的对象从集群中抽离的过程,目的是让故障对象不在提供服务,隔离的方法包括以下两种,按照常用频率排序:

调整上游权重为零,如果架构上有自检测机制,那么也可以直接停止故障对象的服务,让上游健康探测时效。

通过绑定hosts或者配置路由的方式,绕开故障对象。比如智能路由管理域关闭某一条线路。这里需要注意的是,防止雪崩效应。

(2)重启

重启包括服务重启和服务器重启(os重启)两种,在发生故障中,任何中涉及到的环节,都可以重启来完成,重启的一般顺序是,故障对象>故障对象上游>故障对象下游,一般离故障对象越远,重启顺序越靠后。

(3)降级

降级是指为了防止产生更大的故障所采取的一种预案,一般而言,降级一定不是当下生产的给用户的最优状态,即使没有技术影响,也会或多或少带来一些业务的影响,虽然用户可以通过其他方式临时回复一些业务,但会带来不好的用户体验和一些用户影响。

降级不仅仅是运维的事情,要联合业务研发或者说推动业务研发一起去实施,因此做任何一个项目时,首要考虑的不是这个项目能取得多少业绩,而是要考虑的是,如果出现异常怎么办?

项目如此,核心应用和组件也要如此,作为应用负责人,必须要考虑的是,如果这个对象发生重大故障时,是否有预案可以使用,并且要把这些预案触发条件,执行人等都要明确下来。

降级,从某种角度来说,是运维的最后保命手段,必须要注意。

上述操作方法,尤其是重启和隔离有一个重要的前提,那就是,对象必须是无状态的,如果需要开发重试,那么要求必须是幂等的。对象无状态除非是非常特殊的业务,可以临时存在外,其余是不可以的,所以生产上对象应该只有三种状态:

  • 无状态,这个要占大多数
  • 临时有状态,需要整改
  • 有状态,少量的

(二)从故障影响方去看运维故障处理方法

首先,故障处理过程中会遇到系统故障所涉及的各个内部或外部组织架构,故障处理一般需要有以下三类人同时进行:

信息传递者:他们的职责是对故障处理,故障定位传递有效信息,同时对外部传递故障进展信息;

故障定位者:他们的职责是当故障处理者方法失效或者需要查找问题根因时,解决故障;

故障处理者:他们的职责就是尽快恢复业务。

对于IT运维系统来说,这三类人往往不会同时出现,比如在凌晨值班时,只需要故障处理者处理即可,恢复业务后,第二天由故障定位者去找根因及优化措施。

另外,一个故障发生后,影响方会分为两类:

(1)内部用户

内部用户包括内部应用自身调用问题和内部使用人员发现问题,方法类似外部用户。

(2)外部用户

外部用户的处理会比较麻烦,处理的思路是,如何把外部用户转变成内部用户,比如,一个供应商打不开公司的网站,这时要做的是有两个方面:

  • 自己在本地模拟是否可以重现,如果可以重现,那么就不是用户到IDC之间公网问题,是内部系统问题,那么变成内部用户处理。
  • 如果自己在本地模拟不能重现,那么多找几个内部用户模拟,防止自己环境问题,同时,让用户进行hosts绑定到其他入口,排除DNS,一些外网链路问题,如果这时用户在绑定hosts后,访问正常,那么恢复业务,同时可以确认大概率是外部问题。

如果上述两个方面都不行,那么就比较麻烦了,这时要收集一些必要的外部用户信息才能进行处理,比如出口IP,所用客户端版本等等,这里建议收集信息有个模版,一次性完成,因为外部用户处理时效往往会花在沟通成本上。

更多相关大咖视频课程请在苹果App Store 或各安卓市场下载“技福小咖App”学习。

(0)
上一篇 2022年7月23日
下一篇 2022年7月23日

相关推荐