共找到2條詞條名為SRE的結果 展開

SRE

網站可靠性工程師

SRE是指Site Reliability Engineer (網站可靠性工程師)。他是軟體工程師和系統管理員的結合,一個SRE工程師基本上需要掌握很多知識:演演算法,數據結構,編程能力,網路編程,分散式系統,可擴展架構,故障排除。

定義


SRE起源於國外大型網際網路公司,直接掌管著網際網路公司的機器和服務,保證網站不宕機是他們的使命。SRE基本是從軟體研發工程師轉型,有很強的編程演演算法能力,同時具備系統管理員的技能,熟悉網路架構等,是一個要求非常高的職業。
大部分人理解SRE等於傳統運維工程師(OP)或者系統管理員(SA),實則不然,這兩類角色離一名合格的SRE還有太大的差距,完全無法匹配得上這個稱號。
在國內,只有少數幾家頂尖網際網路公司才會出現真正的SRE。

性質


SRE都幹些什麼?
SRE不是做底層硬體維護,而是負責各種服務的性能和穩定性。
遠離底層硬體,更多靠近軟體基礎架構層面,幫助企業客戶打造強大的軟體基礎構架。
Google SRE
Google SRE 是業內最有影響力的,也是最早提出這個概念的公司
最近他們出了一本書 《Site Reliability Engineering》 ,描述了這個崗位是如何高效協同工作的
也可以來看看早些時候Google的官方對於SRE的PPT介紹~
Keep the site up
– Whatever it takes
– Site unavailable? Our problem, whatever the reason
Work at a Large Scale
– Many services
– Lots of data
– Many machines
– But not so many people (machines:admins > 4000:1)
Balance competing demands
– Improve availability and reachability
– Enhance functionality
– Improve efficiency
– Take on new services (post-launch)