Site Reliability Engineering
作者 | Betsy Beyer/ Jennifer Petoff/ Chris Jone |
---|---|
出版社 | 聯合發行股份有限公司 |
商品描述 | 網站可靠性工程: Google的系統管理之道:大型軟體系統生命週期的絕大部分都處於「使用」階段,而非「設計」或「實現」階段。那麼,為何我們總是認為軟體工程應該首要關注設 |
作者 | Betsy Beyer/ Jennifer Petoff/ Chris Jone |
---|---|
出版社 | 聯合發行股份有限公司 |
商品描述 | 網站可靠性工程: Google的系統管理之道:大型軟體系統生命週期的絕大部分都處於「使用」階段,而非「設計」或「實現」階段。那麼,為何我們總是認為軟體工程應該首要關注設 |
內容簡介 大型軟體系統生命週期的絕大部分都處於「使用」階段,而非「設計」或「實現」階段。那麼,為何我們總是認為軟體工程應該首要關注設計和實現呢?Google SRE團隊的核心成員在本書中分享了他們是如何對軟體進行生命週期的整體性關注的,以及解說這樣的做法為何能夠幫助Google成功地構建、部署、監控和運維世界上現存最大的軟體系統。您可以從中學習到Google工程師在提高系統部署規模、改進可靠性和資源利用效率方面的思考方式與具體作法。任何一個想要建立、擴展大規模整合系統的人都應該閱讀本書。本書針對如何構建一個可長期維護的系統提供了非常寶貴的實踐經驗。本書分為以下四個部分:●簡介:說明何謂網站可靠性工程(SRE)及其與傳統IT業界作法的差異●原則:介紹SRE日常工作背後的指導原則:SRE的工作模式、行為方式,以及平時維運工作中關注的重點等●實踐:探討SRE管理大型分散式系統的理念和實踐典範●管理:介紹Google的訓練與團隊協作的方式
各界推薦 「能讓所有公司受益的高科技管理實務,只有Google能夠辦到的創新。」--《The Practice of Cloud System Administration》共同作者/Thomas A.Limoncelli「web高可用性服務管理人員必讀的一本書。」--前任Netflix雲端架構師/Adrian Cockcroft「不管是為了自己還是公司,你都應該熟讀本書並動手實踐這些理念。」--《Continuous Delivery》、《精實企業》共同作者/Jez Humble
作者介紹 ■作者簡介Betsy BeyerGoogle紐約分部專責SRE 的技術文件作家,之前曾為遍布全球的Google資料中心與Mountain View 硬體維運團隊撰寫文件,在搬到紐約之前,他曾擔任史丹佛大學技術寫作課程的講師。Chris JoneGoogle App Engine 的SRE。每天處理超過280億個請求,Chris之前的工作包括Google廣告統計、資料倉儲及使用者支援系統的維護,更早之前任職於學術單位的IT 部門,並參與競選資料分析,以及一些BSD核心的修改,他擁有電腦工程、經濟學及技術政策學的學位,也是一名有執照的專業工程師。Jennifer PetoffGoogle SRE 團隊的專案經理,工作地點在都柏林、愛爾蘭,她曾經負責管理大型全球專案,包括:科學研究、工程、人力資源及廣告等。Niall MurphyGoogle愛爾蘭團隊廣告SRE的負責人,投身網路業已經近20 年,目前是INEX的主席,他寫過許多科技文章與書籍,包括歐萊禮出版的《IPv6 Network Administration》以及很多RFC,目前正參與撰寫愛爾蘭網際網路發展史,他擁有電腦科學、數學,以及詩歌學的學位,目前與妻子和兩個兒子居住在都柏林。■譯者簡介孫宇聰
產品目錄 PART I 概覽第1章 緒論第2章 從 SRE 的角度看 Google 正式服務環境PART II 指導原則第3章 擁抱風險第4章 服務水準目標第5章 減少瑣事第6章 監控分散式系統第7章 Google 自動化系統的演進第8章 發行工程第9章 簡單化PART Ⅲ 具體實踐第10章 基於時間序列資料進行有效警報第11章 on-call第12章 有效的故障排除技巧第13章 緊急應變第14章 緊急事件管理第15章 事後檢討:從失敗中學習第16章 事件追蹤第17章 測試可靠性第18章 SRE 部門中的軟體工程實務第19章 前端伺服器的負載平衡第20章 資料中心內部的負載平衡系統第21章 處理系統超載第22章 處理連鎖故障第23章 管理關鍵狀態:利用分散式一致化來提高可靠性第24章 分散式任務排程系統第25章 資料處理管線第26章 資料完整性:讀寫一致第27章 可靠地進行大規模發行PART Ⅳ 管理第28章 迅速培養 SRE 加入 on-call第29章 處理插斷性任務第30章 透過嵌入 SRE 的方式幫助團隊從維運超載中恢復第31章 SRE 與其他團隊的溝通與協同合作第32章 SRE 參與模型的演進歷程PART Ⅴ 總結第33章 其他產業的實務經驗第34章 結語附錄A 系統可用性附錄B 正式作業環境維運過程中的實踐典範附錄C 事件狀態範例文件附錄D 事後檢討範例附錄E 上線協調檢核表附錄F 產務會議紀錄範例參考文獻索引關於作者+出版記事
書名 / | 網站可靠性工程: Google的系統管理之道 |
---|---|
作者 / | Betsy Beyer Jennifer Petoff Chris Jone |
簡介 / | 網站可靠性工程: Google的系統管理之道:大型軟體系統生命週期的絕大部分都處於「使用」階段,而非「設計」或「實現」階段。那麼,為何我們總是認為軟體工程應該首要關注設 |
出版社 / | 聯合發行股份有限公司 |
ISBN13 / | 9789864766253 |
ISBN10 / | 9864766252 |
EAN / | 9789864766253 |
誠品26碼 / | 2681523088003 |
頁數 / | 528 |
注音版 / | 否 |
裝訂 / | P:平裝 |
語言 / | 1:中文 繁體 |
尺寸 / | 23X18.5CM |
級別 / | N:無 |