站点可靠度的增长表明了在可预见的未来仍然需要 SRE 的实现。2019年,LinkedIn 评选 SRE 职位为美国第二大最有前途的职位,现在,随着我们进入2022年,你可以肯定地看到 SRE 的发展将继续增长和扩大。
下面,我们将介绍 SRE 是什么,SRE 工程师是做什么的,以及 SRE 将如何继续向未来发展。
SRE 与 DevOps 非常相似,是一种 IT 方法,在应用程序可靠性方面,它的目标是更高效和更稳定的问责制。SRE 团队希望解决传统上需要操作团队手工支持的任务,并通过辅助软件自动化这些繁琐的过程。
SRE 在创建更可靠、可伸缩和可管理的系统和应用程序方面展示了很多价值。历史上难以监督的事情,比如通过代码管理大型网络,现在对于处理数千台机器的工程师来说更具可持续性。
网站可靠性工程师需要一些软件开发、操作和/或 IT 系统管理员的经验。他们负责代码的配置、部署和维护,以及从延迟和应急响应到容量管理的一系列其他职责。
与 DevOps 工程师相反,站点可靠性工程师提供了一种更积极主动的质量保证形式。网站可靠性工程师将 DevOps 团队和运营团队的技能集合在一起,承担两方面的责任,在两个领域之间架起一座桥梁。
区分 DevOps 工程师和 SREs 的一个常见方法是,想象 DevOps 工程师专注于应用程序开发流水线,而 SREs 则专注于应用程序的可靠性、规模和维护。
可靠性工程师经常被要求帮助那些被操作任务压得喘不过气来的开发人员,他们可以从更专业的操作技能集中获益。
sumo logic综合仪表板,以获得您的基础设施的全面可见性。
那么 SRE 的技能集究竟如何适合 DevOps 团队呢?网站可靠性工程师的一些常见角色和职责可能包括:
大多数站点可靠性工程师需要超越简单脚本的编码经验,您应该寻找那些采取积极主动的方法来确定构建软件的问题的工程师。
自从在 Ben Treynor Sloss 的领导下,Google 首次引入 SRE 角色以来,已经过去了将近20年的时间,直到今天,它仍然从最初的角色中不断成长和发展。
SRE 继续发展的一些最重要的方式包括:
Sumo Logic 统一了日志、度量和跟踪,提供快速警报和分析工具,以快速诊断和排除现代应用程序的故障。
由于这个角色仍然是相对较新的,没有预先确定或“典型”的职业道路为网站可靠性工程师。经过几年的经验,一个 SRE 应该努力成为一个高级,职员,或主要的 SRE。因为成为 SRE 的道路是多方面的ーー人们可以来自开发人员、安全人员、系统管理人员或操作人员ーー许多人经常发现自己处于成为开发人员工程师领导、安全工程师领导或 IT 运营领导的十字路口,如果他们的经验证明这一点的话。然而,随着 SRE 功能在组织中变得越来越普遍,我们预计角色和竖井将相应地发生变化。
网站可靠性工程师需要像 Sumo Logic 这样的机床数据工具,以确保其应用程序和各种零部件或服务在生产中的可靠性和可用性。Sumo Logic 为工程师提供了全堆栈的可观察性工具,因此他们可以轻松地收集和分析所有必要的日志、度量和跟踪,以便在客户受到影响之前快速地进行故障排除和修复。
本人抖音账号:里面有最新最流行的automation devops等技术的介绍,欢迎大家一键三连。