01.运维的定义
本质上是对网络、服务器各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。运维顾名思义就是运行维护,运维工程师就是要做好生产系统的稳定运行维护工作,但稳定运行需要运维工程师们具备各方面的能力,因此个人无法完成全部维护工作,从而形成了各类运维工程师的分工协作。比如应用运维、系统运维、网络运维等。
02.运维工作的目标
运维工作的性质是保障客户的系统安全稳定运行。既要保证企业业务有持续运行的能力,做到7*24小时不间断运行,还要避免被黑客入侵攻击,造成数据资料丢失泄露,保证企业业务的数据安全。
03.运维工作的日常
构建系统监控体系:系统监控是产品稳定运行的重要保障,能够及时发现问题,防止问题扩大,保证产品的稳定性和可靠性。在提高产品质量、保障业务稳定、改进服务体验等方面都具有重要意义。
应急处理:系统出故障了怎么办?只是干着急的看着肯定是不行的,这时一个优秀的运维工程师的价值就体现出来了,一个有经验的运维工程师能第一时间确定故障原因,并迅速恢复业务,做到对外影响最小。当然,故障有时候是多方面的,有应用故障,数据库故障,甚至是网络线路故障等。
业务问题处理:在业务层面进行统计分析,比如统计系统的每日业务量,故障率,错误码的分布情况,对这些错误码分析原因,找出集中在哪个环节,集中在哪些客户,找到问题,解决问题。
技术问题分析:知识库出了问题就需要分析,而知识库就是运维系统中最不可缺少的部分,就算你没有任何其他平台,用记事本把遇到的问题记录下来也是好的。而复杂运维系统中,知识库面临的最大问题就是如何将内容串联到其他系统中,然后才能谈如何提高准确率和覆盖率,无法被有需要的人准确找到的知识就不能成为知识了。
工单系统:对于运维体系来说,自动的、固定的工单流转流程对效率的提升和风险的闭环起到了至关重要的作用。因为运维就是一个不停发现问题并解决问题的过程,那么保证每项任务能够按时按量完成,就是运维工作中最重要的环节。
新产品测试:开发工程师发布新产品后运维工程师需要进行相应的性能和高可用测试,不具备高可用的系统建议尽量不要着急上线,否则后果不堪设想。
产品上线:积极的工作效率,在晚间或是节假日业务量小的时侯进行,减少对产品使用的影响,熬个夜加个班就完成了系统项目的升级改造,既能提升工作效率,更能提升客户群体满意度。