运维工程师容易一些。
运维工程师:
(1)事件管理:目标是在服务出现异常时尽可能快速的恢复服务,从而保障服务的可用性;同时深入分析故障产生的原因,推动并修复服务存在的问题,同时设计并开发相关的预案以确保服务出现故障时可以高效的止损。
(2)问题发现:设计并开发高效的监控平台和告警平台,使用机器学习、大数据分析等方法对系统中的大量监控数据进行汇总分析,以期在系统出现异常的时候可以快速的发现问题和判断故障的影响。
(3)问题处理:设计并开发高效的问题处理平台和工具,在系统出现异常的时候可以快速自动决策并触发相关止损预案,快速恢复服务。

已解决




