出差公舔我到高潮,国产一区二区三区不卡AV,久久久久精品国产三级蜜奴,23部禽女乱小说内裤畸情视频

體驗商城系統
創建商店

6800字給你科普:SaaS公司的系統穩定與安全機制


因本周行業內公司出現了嚴重的系統安全事件,很多投資人和商家都來詢問有贊,有贊有沒有這樣的問題,有贊是如何做系統穩定和安全管理的?花心思做好這個事情要多少成本?基于大家的疑慮和擔憂,我們覺得有責任和大家就“系統穩定與安全機制”這個話題做一個交流。有贊CTO崔玉松、有贊CFO俞韜(同時兼任有贊安全和風控團隊負責人)與投資者進行了分享。


為了讓更多人聽懂看懂,我們盡力做到通俗易懂,講出一個技術邏輯的時候,趕緊打一個生活中常見的比方。希望大家讀完,能有“被科普到”的獲得感。


以下,是本次電話會議的實錄。


大家好,我是有贊的桃子,截至今天為止,我們關注到的那個事件應該已經是中國互聯網公司史上持續時間最長的宕機,每多持續一個小時,都在創造新的記錄。

 

我們今天分享的主題是SaaS系統穩定和安全。


昨天有朋友問我,你一個CFO能講得清楚系統穩定性和安全問題?


有贊有句金句叫“真誠的友誼來自不斷的自我介紹”,簡單自我介紹幾句:我很慶幸,也很幸運,大概10年前,我開始在一家中國互聯網巨頭公司工作的時候,就以一個財務的角色參與過中國互聯網歷史上著名的“全面去IOE項目”(IBM的小型機、Oracle數據庫、EMC存儲設備),以自研的系統取而代之。還有災備機房體系的建設項目,某云計算的歷史性的登月項目等等;在有贊,可能大家不知道,我在CFO的職責之外,還全面負責有贊的安全和風控團隊。從2014年開始,我們就在持續對抗各種DDoS攻擊、有組織的黑產攻擊、信用卡盜卡、網絡欺詐等各種安全事件。


今天,我們的分享大致分為3個部分:


(1)與系統穩定和安全相關的因素、角色有哪些,都是什么概念?

(2)常見的影響系統穩定和安全的事件是什么,怎么應對?

(3)刪庫對商家來說意味著什么?



系統安全、穩定相關的

概念、角色有哪些?

by 崔玉松


系統穩定性

穩定性的衡量,我們經常聽到99.99%可用,或者3個9,4個9,什么意思?一年有365天,8760個小時,525,600分鐘,31,536,000秒。不可用的時間(秒數)除以31,536,000秒,就是不可用率;100%減去不可用率,就是穩定性,就是這么算的。


業界比較優秀的公司一般能做到 99.9%,也就是我們常聽到的“3個9”,最好的能達到“4個9”,也就是99.99%,差一點的“2個9 ”,也就是穩定性99%。


99.99%、99.9%、99%,三個相差不到0.01的數字,差異其實是很大的。拿我們上班時間來類比:


99% ,相當于系統正常上班,有雙休、節假日。

99.9%,相當于系統有雙休、沒有節假日。

99.99%,相當于系統全年無休,保障隨時可用。


有贊核心系統可用性已達到 99.99%,也就是每年僅有 0.01% 的時間不可用(=52.6分鐘、3156秒)


機房、服務器、硬盤、網絡(光纖)

硬盤是基礎存儲單元,硬盤在服務器里,服務器部署在機房里,公有云機房由IaaS云服務商建設并提供給其他互聯網公司使用。


IaaS云服務商

騰訊云、阿里云、華為云、AWS、UCloud都是IaaS,他們建設物理機房,虛擬化之后給其他互聯網公司用。


網絡運維

保障網絡的質量和可用性,管理往來的交通流量,類似現實生活中的交警。


DBA(數據庫管理員)& 研發工程師

DBA這個角色,負責管理數據倉庫,只有他們才有倉庫高級許可。其他人把需求告訴DBA,DBA來規劃、分配數據庫,以有限的權限使用。


研發工程師這個角色,負責設計具體業務需要的技術架構和寫代碼,需要在DBA分配的數據庫上工作,都有自己和所在技術業務單元的一畝三分地。


生產數據庫 & 備份數據庫

不同數據庫有不同管理員,刪除的指令屬于正常需要之一,就像做廚師需要菜刀一樣。但前提要有備份,而且有多個備份。就算一個庫被刪,系統自動調用備份庫,這個過程用戶端應該幾乎無感知。


總結一下協作關系:

舉例來說,IaaS云服務商搭建了一個辦公空間,再給到有贊這樣的SaaS公司來租用,需要多少租多少。比如有贊租了其中一層,包含大量工位,我們的DBA相當于行政,把這層空間再分割成不同辦公區域,指派給不同業務單元的工程師工作,同時負責辦公區域的安全。


這個辦公空間可以是精裝的、也可以是毛坯的,選哪種取決于自己的需求、預算和技術能力。比如選精裝的,最省事卻沒辦法滿足個性化的需求;選毛坯的可以決定裝修風格、用什么家具,這部分“家具”就包括:數據庫管理軟件、防護措施等。


影響系統安全和穩定的事件

與風控措施

by 桃子


首先,我想說的是,所有的風險都伴隨著一定的概率,風控措施就是將風險概率降低到可接受的水平,或者將風險事件發生時帶來的損失控制在可接受的水平。當然,所有的風控措施都有對應的成本,也就是錢和資源。

 

每個公司對于“什么是可接受的風險水平”都有自己的判斷,對降低風險或風險帶來的損失需要付出的財務成本,接受意愿也各不相同,這就導致了不同公司保持系統穩定和安全的能力是不一樣的。

 

我們認為,互聯網公司保持系統穩定和安全的能力不僅僅是技術能力的問題,更是態度和意愿的問題。不僅僅是你行不行,更多的是你愿不愿意。

 

下面我想分享的是行業普遍存在的幾類影響系統安全和穩定的事件及應對措施:


災害/不可抗力,屬于被動的風險事件。

輕一點的,比如大家經常會聽到的,機房斷電了,光纖被施工單位挖斷了;嚴重一點的,機房所在區域遭遇地震/洪水/火災了,也就是機房不可抗拒地被團滅。


這種就屬于不可抗的偶發事件。怎么辦?做“災備”。顧名思義,災難備份。一個不夠,備份兩個。擔心一個機房掛了,數據就放在多個機房。擔心一個IaaS云服務商掛了,那就用2個以上的IaaS云服務商。


有贊的災備是怎么做的?


首先,我們在IaaS層面,有騰訊云和UCloud互為備份,并在每個服務商的不同機房備份。退一萬步講,即使一個云服務商出現問題,我們可以“自動”切換到另外一個機房,并在5分鐘之內恢復95%的流量,極限情況下,最長30分鐘是可以完全恢復的。當然這個預警速度、切換速度,在切換和調用備份時客戶端的感知和實際的影響,就因你的技術能力而異了。


另外,在備份方式上,我們熱備冷備并存。“熱備份”就是數據的實時備份,也就是一邊生產數據,一邊備份數據。“冷備份”指的是數據的離線備份,比如,每天固定時間備份過去一天的數據。


因為“不可抗力”是小概率事件,并不是很多互聯網公司做了“災備”。可能心存僥幸,或者覺得災備的成本太大了,不想做。一個備份的成本是1,10個備份的成本就是10,再使用3個云服務商,那備份成本就是30。所以安全性和成本是相關的。當然,技術能力可以優化成本和備份數之間的線性關系。無論如何,技術是有成本的;想做好,就一定要重視,要愿意花成本。


網絡攻擊,屬于主動的風險事件。

最常見的網絡攻擊之一就是DDoS。


DDoS是什么?Distributed Denial of Service的縮寫,即分布式阻斷服務,黑客利用DDoS攻擊器控制大量機器同時攻擊,來達到“妨礙正常使用者使用服務”的目的。


翻譯一下:如果將我們的系統服務比喻成一個城市交通網絡。正常使用者的需求,就是在城市里正常通行,而DDoS就是人為用車在各種立交橋、高架、隧道設置路障,人為造成交通擁堵甚至交通癱瘓,那想要正常出行的人就沒法通行了。DDoS的顯著特點是:第一,一定是人為的;第二,攻擊方也是有成本的,因為想要故意造成交通堵塞也需要大量的車,租車是需要錢的。所以DDoS就是花自己的錢讓別人不爽。


我們偶爾也會被DDoS,這事攻擊方要花費成本,我們也需要花費成本來應對。


另外一種網絡攻擊,叫做“拖庫”。


大白話說,就是找黑客溜進技術系統,拿走或者復制走他想要的東西,比如數據。常見的大家新聞里能聽到的就是用戶數據被泄露,或者酒店的開房記錄被泄露之類的。


這種事情又要怎么防呢?


最基礎的,生產網絡和辦公網絡要完全隔離,測試網絡和真實網絡要分別部署堡壘。想一下,我們是怎么防止小偷入室盜竊的?就是在家里裝防盜窗、防盜門,建圍墻,圍墻上加電網,用鋼板加固墻體,裝非法入侵的紅外報警裝置,準備武器對抗入侵。這些也還只是防御措施。


除此之外,我們還會組織模擬攻擊。比如,每個月組織內部團隊進行模擬網絡安全滲透,讓自己內部的資深工程師攻擊自己,以己之矛攻己之盾。目的當然不是測試矛,而是測試盾,最希望看到的結果是矛都折了而盾還完好。


每個季度,我們還會做第三方安全眾測,邀請第三方頂尖的“白帽子“來模擬攻擊我們。我們按照他們找到的漏洞來優化升級我們的系統。這類措施有點像用極端真實的軍事演習來模擬戰斗能力和防護能力。技術能力是沒有極限的,需要時刻保持“魔高一尺道高一丈“,與時俱進。


最最關鍵的是,我們堅定認為,系統的安全靠喊是喊不出來的,是靠做出來,靠打出來的。


補充一下,有贊在系統安全和穩定方面,還獲得國際頂尖認證:


有贊主體的SaaS業務擁有ISO27001信息安全管理體系認證、CSA C*STAR云計算安全國際認證、信息安全等級保護(三級)等認證;持牌公司“高匯通”的支付業務通過 UPDSS銀聯卡支付信息安全管理標準,信息安全等級保護三級 ,監督保護級等認證。這些認證的證書,我們一直公示在有贊官網的“權威認證”頁面。


這些認證信息的一句話白話版:有贊的安全防護水平是銀行級別的。


服務器瞬時峰值超載,

屬于常規原因導致的不穩定。

在雙十一大促的時候,在商家搞周年大促的時候,都有可能出現這個情況。簡單來說,就是瞬時的使用峰值超過了系統能夠承載的最大值。比如,高速公路平時都不太堵車,放長假大家都涌過去,尤其在同一個時點,就交通堵塞了。比如,上下班高峰也會堵車。

 

為了應對這個情況,我們不斷在優化系統性能。打個比方,汽車在高速路上行駛,路還是這條路,但是突然車子特別多起來,我們可以通過技術優化,保證每輛車子都快速順暢通行,比如優化信號燈、擴建交通要道的通行能力,按照需要靈活臨時擴充車道,優化路面等等。

 

我們在2019年雙11期間,訂單和訪問的峰值是平時的10倍以上,系統完全沒有波動。通過技術調度系統,動態調整峰值,既滿足商家穩定做活動,又能節約成本。

 

從技術性能上,有贊系統支持每秒6萬筆交易,頁面打開僅需1秒。有贊云開放接口數量1000+,日調用量超5億,吞吐自如。


人為操作錯誤/失誤/破壞,

屬于內部管理因素。

刪庫是什么意思?就是數據庫被刪除了。所有的代碼都是人寫的,所有的系統都需要人維護,有人的地方就一定有風險。

 

那大家可能會問,這不是無解嗎?其實也不是。尤其是資本市場的朋友,大家一定很熟悉一個非常簡單有效的詞:內控。

 

有贊具體是如何做的?

 

一是需要做流程管理,就像前面說的DBA和工程師角色分離,網絡運維和數據運維分離,有些公司為了節省成本,讓一個人干多個角色就會大大增加這種風險;二是要做權限隔離。生產數據庫和備份數據庫在不同的人手上管理,不同的備份在不同的DBA手里管理,就像公司銀行賬戶需要有兩個以上的Ukey才能完成支付一個道理。

 

在有贊,連我們CTO都沒有權限用一臺電腦、一套賬號密碼完成刪庫的動作。

 

退一萬步來講,哪怕真有人刪了一個數據庫。行業內有技術底子和持續技術積累的公司,都可以做到隨時啟用恢復在任一災備機房的任一備份數據庫。通過備份數據庫來做恢復,恢復的時間和團隊技術能力、數據存儲量是強關聯的,但這也僅僅是分鐘級、小時級、數小時級別的差異。需要耗費幾天,絕對是不可思議的,除非還有更多沒有公開的信息。

 

還有很多其他措施,也可以說說:

 

機房部署嚴格的訪問控制。嚴格分員工分角色,授予產研團隊員工使用權限時做到最小授予。什么是“最小授予原則”?就是授予的權限不大于他的工作職責需要。

 

人員安全和風險管理。經常在測試環境演習各種人為操作造成的風險事件以及應對措施,打磨好生產環境快速恢復流程。要不然真出事的時候,團隊每個人都不知道該干嘛,該聽誰的指揮,各項工作先后順序是什么,二次災難怎么預防。

 

主動預警和監測。通過日志管理,形成進入生產網絡完整的用戶登錄、操作日志,可追溯何時、何人、做了何種操作,異常操作實時報警,系統自動響應,高危操作多重審批。運維人員7*24小時有人在線。有時候看到我們運維的同事下午才來上班,可能就是昨晚在應急響應。他們的工作非常辛苦,整個團隊要保持時時刻刻的戰備和戰斗狀態。

 

反作弊,對抗黑灰產薅羊毛

這類事件在交易類SaaS中尤其危險。商家進行各類營銷活動,比如發放優惠券、代金券、抵扣券、折扣卡... 這些都是有實際價值和成本的,都是實實在在的營銷預算。商家原意是讓利給消費者,刺激消費和社交傳播。但始終有黑產、灰產的人像禿鷲一樣盯著這類活動,有組織、有技術地“薅羊毛”。這個問題涉及商家資產安全,為此有贊在幫助商家反作弊上投入了非常多精力和資源,保障商家的錢都用在刀刃上,而不是被“薅羊毛"。

 

“刪庫”會給商家帶來哪些影響?

by 崔玉松


從單個商家角度看,部分數據丟失意味著商家不知道訂單是否支付、商品是否發貨、進店消費的人是否應該享受會員折扣、老顧客積分還有多少、儲值卡里還有多少錢等等。由此引發系統混亂,商家和消費者之間的矛盾會集中爆發。消費者跟商家扯皮,不信任商家,就是要商家的命。


從大數據的角度看,消費者是商家最重要的資產,大數據的丟失,會造成包括消費者性別、年齡、偏好等畫像標簽的丟失。失去這些標簽就是直接毀滅了精準營銷的基層邏輯,精準營銷將無法精準。


造成商家直接財務損失。以有贊為例,2019前三季度有贊商家的GMV是380億人民幣,平均每天1.4億交易額。如果刪庫造成業務停擺,每一秒鐘都是商家流失的收入。


尤其是現在特殊時期,線下商業被按了暫停鍵,線上是商家開門做生意的唯一窗口。電商業務為很多商家開了一扇窗,現在某些地方商家的這扇窗又被人為地關上了。我們非常憂慮,憂慮這些商家的生存狀態。我們這幾天也收到了很多商家的求助,他們的生意線上線下都休克了。我們希望幫助到這些商家,這也是有贊在業務層面發了江湖救急公告的原因。希望能幫上忙。


牽扯后續賠付、補償。有贊護航承諾,核心服務終端我們將給予102.4倍服務期補償。不穩定一分鐘,補償102.4分鐘。如果不穩定一天,一個商家補償102.4天,按我們的客單來算,相當于3500元。1萬個商家就是3500萬元、10萬個商家就是3.5億。如果不穩定五天,這個賬,沒敢算。


2017年11月27日,為了讓“系統穩定高于一切”不斷地做到極致。有贊推出了“護航計劃”,并正式宣布:有贊微商城如果出現系統不穩定影響了客戶的生意,就按照不可用時間給予對應 102.4 倍的補償。這是整個信息服務行業里沒有的最最高規格的“承諾”。2020年1月1日,有贊零售、有贊美業也正式加入“有贊護航”。有贊因技術故障對商家的每一次影響,我們都公開、自動、動態顯示在有贊護航的官網上,符合護航補償界定范圍的,都有護航補償公告。因為透明,所以信任。因為信任,所以承擔。


也可以一并說說騰訊云、百度云服務不可用的賠償標準。騰訊云是低于99.9%但等于或高于99%,賠償相當于月度服務費10%的代金券;低于99%但等于或高于95%,賠償相當于月度服務費25%的代金券;低于95%,賠償相當于月度服務費50%的代金券。而百度云是低于99.99%但是等于或高于99%,賠償相當于月度服務費10%的代金券;低于99%但等于或者高于95%,賠償相當于月度服務費25%的代金券;低于95%,賠償相當于月度服務費100%的代金券。


當然,騰訊云和百度云這類IaaS和有贊這樣的SaaS還是有些不一樣。有贊在SaaS行業3年前就公布了護航計劃,堅持影響做生意就補償,對自己的嚴格苛刻,都是源于要讓商家安全、穩定、放心地做生意。


出了問題,就應該給商家補償,這是道義。如果要補償,就應該公布補償方案,讓大家監督,讓大家看到擔當,這樣大家才會信任你。藏著掖著,是糊弄不過去的。這個道理非常淺顯。



我們不得不再次強調一下:

 

所有風險都伴隨著一定的發生概率,風控措施就是將風險概率降到可接受的水平,或者將風險事件發生時帶來的損失控制在可接受的水平。當然,所有風控措施都有對應的成本,也就是錢和資源。各個公司可接受的風險水平不同,愿意為之付出的財務成本也不一樣,這就導致了大家保持系統安全穩定的能力也不同。

 

“保證系統穩定和安全”一直以來都是有贊產研團隊的核心OKR。有贊內部把各種項目用P1、P2、P3來分優先級,數字越小重要性越高。有兩類項目永遠是P0級別的,就是保障系統安全的項目和保障資金安全的項目。在團隊構成上,有贊產研團隊一直保持在全員一半左右的比例,以此保證研發迭代能力和安全防護能力。


有贊吉祥物霸王龍的故事,也與系統穩定安全密切相關。


霸王龍的由來


有贊早期系統宕機服務不可用時,會出現一個有霸王龍的出錯頁面,久而久之這個霸王龍就變成了代名詞,一旦出問題,商家就喊“霸王龍來了”。為了讓小伙伴牢記這個恥辱,我們把霸王龍定為公司吉祥物,后來還請世界著名的漫畫大師宮西達也為我們定制了一個霸王龍形象,做成各種玩偶、擺在公司各個角落,用來提醒大家時刻關注系統穩定性,不要再讓霸王龍出現。


我們認為,互聯網公司保持系統穩定和安全的能力,不僅僅是技術問題,更是態度和意愿問題。不僅僅是你行不行,更多的是你愿不愿意,用心不用心。

我們認為,在互聯網行業、尤其是SaaS行業,系統的安全和穩定就像一幢大樓的地基,地基不穩、大樓遲早坍塌。但是地基是看不見的,牢不牢只有自己知道,只有災難知道。


為此,我們始終堅持“系統穩定高于一切”,為商家保駕護航,幫助每一位重視產品和服務的商家成功。


任重道遠,未來可期!



Vol.279




推薦經營方案

剩余文章內容, 繼續閱讀
繼續閱讀

打開微信掃一掃即可獲取

  • 1000+最佳實踐
  • 500+行業社群
  • 50+行業專家問診
  • 全國30+場增長大會
掃碼成功

請在手機上確認登錄

logo

有贊生意經

店鋪護航
有贊安心入駐 服務中斷賠償102.4倍
主站蜘蛛池模板: 吐鲁番市| 玉山县| 勐海县| 芮城县| 武定县| 拉萨市| 尤溪县| 永仁县| 巍山| 宜春市| 武冈市| 舞阳县| 舒兰市| 苍山县| 治多县| 嘉义市| 枞阳县| 湘潭县| 理塘县| 瑞丽市| 济源市| 东平县| 光山县| 洞口县| 东港市| 荔浦县| 澄迈县| 罗定市| 黄梅县| 明水县| 乐昌市| 洛隆县| 双桥区| 廉江市| 枣强县| 澎湖县| 通海县| 遂平县| 阿合奇县| 四会市| 嵊泗县|