系統(tǒng)穩(wěn)定和安全是命根子
{{item.summary}}


【13551字全文照發(fā)】SaaS公司的系統(tǒng)穩(wěn)定和安全機制——中國有贊投資者交流專題電話會紀要
四個核心概要
1. 關于穩(wěn)定。 系統(tǒng)穩(wěn)定性是有標準的。我們能做到一年合計不穩(wěn)定時間在60分鐘內。故障的統(tǒng)計標準是按分秒算的,按天算很恐怖,持續(xù)多天故障不得發(fā)生。 2.關于備份。 數(shù)據(jù)是一定要備份的,多處實時備份和離線備份并存。正常工作中數(shù)據(jù)需要刪改,萬一誤刪一定要能及時恢復。我們沒有把雞蛋放在一個籃子里,做了多個機房備份,花了多倍成本做多個云存儲服務商的跨云同時備份。 3.關于權限。 數(shù)據(jù)和代碼是需要人來管的。因誤操作被刪數(shù)據(jù)庫也有可能。我們有嚴格的訪問控制,做了角色分離、權限隔離,杜絕少數(shù)人就能進行高危操作,制定了嚴重宕機的處理預案,時刻保持著主動預警和監(jiān)測,就不會出事。我們的CTO和CEO都沒有可能用一臺電腦、一套賬號密碼完成徹底刪庫動作。 4. 關于賠償。 出了問題,是要給客戶補償?shù)摹N覀儚?017年開始就承諾:出現(xiàn)系統(tǒng)不穩(wěn)定影響了客戶的生意,就按照不可用時間給予對應 102.4 倍的補償。騰訊云、百度云、阿里云等云計算服務商也都有類似明確、公開的補償標準。 |
IR侯蕾:
大家下午好,我是中國有贊IR侯蕾,感謝大家參加我們中國有贊舉辦的關于系統(tǒng)穩(wěn)定及安全機制的投資者交流專題電話會,我們注意到本周行業(yè)內某公司出現(xiàn)了一些嚴重的系統(tǒng)安全事件,然后有很多投資人和商家朋友都來詢問有贊,比如說有贊有沒有這樣的問題,有贊是如何做系統(tǒng)穩(wěn)定和安全管理的?花心思做好這個事情要多少成本?
基于大家的疑問和擔憂,我們覺得有責任跟大家就“系統(tǒng)穩(wěn)定和安全機制”這個話題做一個交流。那么今天參加我們分享的是中國有贊的CFO俞韜先生和CTO崔玉松先生。
CFO俞韜:
大家好,我是有贊的桃子,截止到今天為止,我們關注到的事件應該已經(jīng)是中國互聯(lián)網(wǎng)公司歷史上持續(xù)時間最長的一次宕機了,再往后每多持續(xù)一個小時都在創(chuàng)造記錄。
所以今天我們分享的主題就是SaaS系統(tǒng)穩(wěn)定和安全。
昨天晚上有一個朋友問我,他說你一個CFO能講清楚系統(tǒng)安全和穩(wěn)定相關的問題嗎?
我們有贊有句話叫“真誠的友誼來自不斷的自我介紹”,所以開始之前我先簡單自我介紹幾句:我覺得我非常慶幸也非常幸運,大概在10年前開始在一家中國互聯(lián)網(wǎng)公司巨頭工作的時候,就以一個財務的角色參與過中國互聯(lián)網(wǎng)歷史上非常著名的去IOE的項目。去IOE項目,就是去IBM的小型機oracle的數(shù)據(jù)庫和EMC的存儲設備,用我們自研的系統(tǒng)取而代之,還有各種各樣災備機房、災備體系的建設,還有某云計算的歷史性的一個登月項目等等。平常都是以CFO的身份跟大家打交道,其實在有贊我還全面負責有贊的安全跟風控團隊。從2014年開始,我們整個團隊就在持續(xù)對抗著各種DDoS攻擊、有組織的黑產攻擊,以及各種信用卡盜卡、網(wǎng)絡欺詐等安全事件。
今天我們的分享分三個部分。
第一部分,我們希望給大家分享跟系統(tǒng)穩(wěn)定和安全相關的因素、角色有哪些。大家可能從各種地方都能看到各種各樣的文章,但可能都比較術語話化,我們盡量白話的表述來幫助大家去理解這些東西。第一部分會由崔來說。
第二部分,想跟大家介紹一下常見的影響系統(tǒng)穩(wěn)定安全的事件有哪些,行業(yè)里面是怎么去應對的。
第三部分想跟大家交流一下,所謂的刪庫對于一個商家或者對于一個用戶來說,到底意味著什么。
我們先開始第一部分,就先有請我的戰(zhàn)友,也是我們的CTO崔玉松先生來分享。在有贊我們都叫他崔神。
CTO崔玉松:
大家好,我叫崔玉松。我之前的經(jīng)歷,在創(chuàng)立有贊之前,是在剛剛桃子提到的中國最大的電商公司里面工作了很長的時間,其中有比較長的一段時間也是在中國現(xiàn)在最大的云計算公司里面。我當時加入有贊這家公司的時候人還比較少,所以親眼見證了很多的過程,所以也是自我感覺比較幸運。加入有贊之后,很多東西開始用得上。
概要:系統(tǒng)穩(wěn)定性是有標準的。我們能做到一年合計不穩(wěn)定時間在60分鐘內。故障的統(tǒng)計標準是按分秒算的,按天算很恐怖,持續(xù)多天故障不得發(fā)生。
第一部分,我先簡單跟大家介紹一些關于系統(tǒng)安全和穩(wěn)定相關的一些概念,因為這些概念相對來講,不是這個行業(yè)的人來講的話,相對比較深奧一些,我盡量用一種通俗易易懂的話,來跟大家簡單的介紹一下這些概念。
第一個是穩(wěn)定性的衡量,在行業(yè)里面也通常叫做SLA,就是穩(wěn)定性的一種承諾。
所以我們經(jīng)常會聽到一些術語,比如說“99.99%的可用”。我們日常的對話里面也叫“三個9”或者“四個9”。三個9就是99.9%,四個9是99.99%。但是很少人真正的把它換算成大家能夠理解的概念。它其實是一個相對一個服務周期來算,這個服務周期常是“按年”,也有一些會把它按照月來分,通常來講越底層的公司越把它按照顆粒度分更細,因為這樣的話他的保障周期會更長一些,越往上一點它會顆粒度會更大一些。
比如說按年來算,一年365天,如果是三個9,差不多有5個小時左右的不可用時間。如果是四個9差不多只有50多分鐘不可用的時間。一般來講,業(yè)界大概會在三個9,四個9其實能做到的其實是非常少的。那么,兩個9相當于什么概念?拿我們每個人的工作時間來類比,“兩個9”是99%,相當于是大家正常的上班,有雙休日有節(jié)假日;“三個9”就是有雙休日,沒有節(jié)假日;“四個9”的話相當于基本上是全年無休的狀態(tài)。
有贊核心的系統(tǒng)里面,其實已經(jīng)做到了“四個9”,也就是每年大概只有萬分之一的時間不可用,換算下來就是3000多秒。
還有一些基本的概念。關于硬件,比如說,大家會經(jīng)常聽到的IaaS層的一些東西,比如機房里面有服務器、硬盤、光纖,對吧?
硬盤大家可能會更有概念,比如說大家在電腦里面都會有硬盤,硬盤是一個最基礎的存儲單元,大量的東西都存在硬盤里面,硬盤在服務器里面,服務器部署在機房里面,機房一般是由現(xiàn)在的IaaS層的廠商提供的,但也有一些是用自己獨立的機房,但現(xiàn)在通常來講都是由類似于像AWS、華為云提供的這樣的一些機房。
國內現(xiàn)在的云廠商主要有騰訊云、阿里云、華為云、AWS、Ucloud,還有微軟。然后他們主要是把這些存儲資源虛擬化之后,給上層的應用使用,主要是一些互聯(lián)網(wǎng)公司。
除了這些剛剛介紹的一個關于SLA穩(wěn)定性的東西,然后基本的硬件的概念之后,還有一個重要的概念就是網(wǎng)絡運維。運維其實在國內叫運維,它是一個非常中性的概念,在Google有另外一個叫法叫做SRE,網(wǎng)站可靠性工程師,從這個稱呼上來看,它實際上會更明確一些。當然因為國內叫法的運維和網(wǎng)站可靠性工程師之間還是有一點點的工作的差異,但是其實整體上來講差異不大,實際上都是幫助網(wǎng)站變得更加穩(wěn)定了。
這里面還有一個概念,就是關于軟件生命周期的成本的概念。實際上一個軟件,尤其是互聯(lián)網(wǎng)軟件,從出生到最后,它都是有周期的,從生產出來到最后下線的整個生命周期里面,實際上只有25%的成本是花在研發(fā)上,就是真正的用來開發(fā)軟件,而75%的成本實際上都是在這后面保障它的穩(wěn)定,以及一些bug的修復上面,也就是說,真正的成本其實是在后面。
Google有一篇專門的論文去講這個,所以他們把運維叫做SRE。也是因為這篇文章,他們自己研究的原因,就是整個的生命周期的一個價值。這里面除了運維或者SRE,還有一個叫DBA的角色。DBA主要就是數(shù)據(jù)庫管理員。數(shù)據(jù)庫管理員是干嘛的,他其實主要就是相當于管了一些最核心的資產,然后只有DBA是可以自由進出的,其他的角色都是不可以自由進出的。他是幫忙去把一些數(shù)據(jù)庫備份,包括取數(shù)、維護都是由DBA來完成。
IaaS層的廠商相當于建了一個辦公樓,然后又裝修好的工位,能夠給到我們這樣的SaaS公司來租用,需要多少就租多少。比如說有贊租了一層辦公室,然后我們的DBA相當于是行政,把一層辦公室再分割成不同的辦公區(qū)域,指派給不同的業(yè)務單元和工程師來工作。負責辦公室的區(qū)域安全,主要是由DBA和運維這兩個角色來共同完成。
辦公室當然可以是精裝修的,也可以是毛坯的。各有各的好處,這取決于你自己的想法和你自己想要的東西。比如說精裝修的好處,就是你馬上就能用,做的更豪華一點,你馬上就能住進去,但是它的壞處就是它的自定義程度就會低一點。做成毛坯的好處,就是你可以按照你自己的想法來設計,但是壞處就是你要花成本、花時間、花更多的精力去裝修。它的好處也特別明顯,就是通常來講越大的公司會采用這種毛坯的方式,因為他按照自己的想法去裝修更能適合自己的業(yè)務。
以上就是我簡單跟大家介紹一下關于穩(wěn)定性相關的一些概念,后面讓我們桃子來再繼續(xù)下一部分。
CFO俞韜:
剛才崔提到的很多概念,比方說可用性、IaaS服務商、網(wǎng)絡運維、 DBA、數(shù)據(jù)庫等等。后面第二部分我想講的是,到底整個影響系統(tǒng)安全跟穩(wěn)定的事件風控到底有哪些?
在這部分開始前,我想說的是,其實所有人都知道,所有的風險都是伴隨著一定的概率,所謂的風控措施,就是將風險的概率降低到一個可接受的水平,或者說當風險事件發(fā)生的時候,把它帶來的損失控制在一個可接受的水平。當然所有的風控措施都是有對應的成本的,成本要么就是錢、要么就是資源,或者說從終極上來說,其實都是錢。
對于每個公司來說,什么是你可接受的風險水平,都有自己不同的判斷,對于降低風險或者說降低風險帶來的損失所要付出的財務成本,每家公司意愿和能力都是不一樣的。其實這才是導致了不同的互聯(lián)網(wǎng)公司,保持系統(tǒng)穩(wěn)定跟安全的能力是不一樣的。
所以,從這個層面上來說,互聯(lián)網(wǎng)公司保持系統(tǒng)穩(wěn)定跟安全的能力,不僅僅是一個技術能力的問題,它更多的是一個態(tài)度和意愿的問題。
白話一點來說,不僅僅是你行還是不行,更多的是你愿意還是不愿意。
概要:數(shù)據(jù)是一定要備份的,多處實時備份和離線備份并存。正常工作中數(shù)據(jù)需要刪改,萬一誤刪一定要能及時恢復。我們沒有把雞蛋放在一個籃子里,做了多個機房備份,花了多倍成本做多個云存儲服務商的跨云同時備份。
先說第一類,就是我們覺得這個行業(yè)里面普遍會存在第一類影響系統(tǒng)安全跟穩(wěn)定的事件,我把它叫做災害或者不可抗力。從性質上來說,它是一種被動的風險事件。
舉個例子,比方說輕一點的,大家經(jīng)常會聽到說某機房斷電了,或者說機房的光纖被施工單位挖斷了,這都是真實存在的案例。嚴重一點的也是比較少發(fā)生的,比方說一些機房所在的區(qū)域遭遇地震了、洪水了、火災了,也就是機房不可抗拒地被團滅了。這種就是屬于不可抗的偶發(fā)事件。
這種怎么辦?既然是災害,其實大家都比較經(jīng)常聽到就叫“災備”,顧名思義就是災難的備份。所有的數(shù)據(jù)你一個不夠,你就得備份兩個。你如果擔心備份在一個機房里的數(shù)據(jù)掛了,那你就數(shù)據(jù)放在多個地方。你擔心多個機房都是同一個云服務商的,你擔心云服務商掛了,那你就有兩個以上的云服務商。所以這個核心的意思就是你不要把雞蛋放在同一個籃子里,這其實是行業(yè)比較通行的做法。當然不同的層級的備份,其實對應的不同的成本。
有贊是怎么做的呢?在IaaS云的層面,主要的服務商有騰訊云跟Ucloud的兩個,而且他們兩個相互備份的。而且我們在每個服務商的不同的機房里有備份。也就是退1萬步講,即使一個云服務商出現(xiàn)問題,我們在技術上都可以自動切換到另一個云服務上,并且從技術的角度,從數(shù)據(jù)的角度,我們可以在5分鐘之內基本上恢復95%的流量。在非常極端的情況下,比方說我們遭遇了非常極限的災難的時候,我們可能最長的時間——按我們現(xiàn)在預估——大概30分鐘可以完全恢復。
當然,不同的公司遭遇這樣的事情的時候,切換機房的速度,切換不同云服務商的速度,預警的速度,修復的速度,這個能力可能就因為技術能力有很大差異。
當然剛才說的更多的是一個備份的存儲的地方,另外一個角度就是你備份的方式。一般分兩種方式,一種叫冷備,一種叫熱備,我們現(xiàn)在就是冷備熱備并存的。所謂的熱備份就是數(shù)據(jù)的實時備份,也就是說你一邊生產數(shù)據(jù)一邊就在備份數(shù)據(jù)了。冷備份是指數(shù)據(jù)的離線備份,也就是說可能每天或者說定期的某一個時間段去備份。
其實所有的備份想要抵抗的都是一個災害發(fā)生的一個概率。大家說的不可抗力,其實在很多人看來它是一個小概率事件,他確實也是一個小概率事件,所以并不是所有的互聯(lián)網(wǎng)公司都做了災備的,有些人可能覺得心存僥幸,可能覺得這種事情反正發(fā)生的概率不大,我可能就是99%或者說不會發(fā)生災難的那一部分,或者說有些可能會覺得災備的成本太大了,財務上覺得不劃算,或者說覺得不想做,都有各種各樣的原因。
從成本上簡單的算,比方,1個備份的成本是1,10個備份的成本就是10,有三個云服務商可能備份的成本就是30。所以成本的投入跟安全系數(shù)是相對相關的,當然技術能力的提升可以去優(yōu)化成本跟備份數(shù)之間的線性的關系。無論如何,技術是有成本的;想做好,就一定要重視,要愿意花成本。這就是我想說的第一部分,就是災難和災備對應的系統(tǒng)穩(wěn)定、安全。
第二類,其實大家也可能經(jīng)常會聽到,我們把它歸類為網(wǎng)絡攻擊。第一類剛才說的災備其實是一個被動的風險事件,網(wǎng)絡攻擊就是一個主動的風險事件。
比方說,最常見的網(wǎng)絡攻擊,就是我前面提到的叫DDoS攻擊,DDoS是分布式阻斷服務的英文簡稱,DDoS利用攻擊器控制大量機器來達到妨礙正常使用者使用服務的目的。
相對用白話一點來翻譯一下,比如說一個互聯(lián)網(wǎng)公司的系統(tǒng)服務是一個城市的交通網(wǎng)絡,正常的客戶的需求就是在這個城市里正常通行。而DDoS就是人為的在各種交通要道,比方說立交橋、高架、隧道、用車、設置路障,人為的造成了交通堵塞,甚至于交通癱瘓,這種時候正常出行的人就沒有辦法正常通行了。基于這個特點,DDoS有兩個特點,第一它一定是人為的,第二攻擊方式有成本的,因為如果你要造成交通堵塞,你需要調用大量的車,租車是要錢的,或者買車是要錢的。所以DDoS就是花自己的錢讓別人不爽。
我們偶爾也會被DDoS,這事很煩人,攻擊方要花費成本,我們也需要花費成本來應對。
這是網(wǎng)絡攻擊的一種,我們估計還有另外一種,拖庫。
用白話一點來說,就是找黑客溜進你的技術系統(tǒng)里拿走或者復制走他想要的東西,一般的就是數(shù)據(jù)。大家可能經(jīng)常在新聞里聽到的,就是某某公司用戶數(shù)據(jù)泄露或者什么酒店的入住記錄被泄露之類的。人家拖走或者復制走的數(shù)據(jù)一定是有它的價值的。
這種怎么來防護呢?最基礎的就生產網(wǎng)絡跟辦公網(wǎng)絡完全隔離,測試網(wǎng)絡跟真實網(wǎng)絡的確認,分別部署各種各樣的堡壘。比方說你在自己家一定防小偷來入室盜竊,無非就是在家里裝防盜窗、防盜門,家里有院子建圍墻,圍墻上要不要加個電網(wǎng)?你要不要用鋼板來加固你的墻體?你要不要裝紅外報警裝置的?你要不要備一些武器來對抗武器入侵?當然這些層面都還是在我們說的防御的層面,就是防它怎么進來。
除了這個之外,對抗這些主動的入侵,我們還有一種方式,我們會組織各種各樣的模擬攻擊,有點像軍事演習。行業(yè)內也會做通用的兩種方式,比方說有贊自己每個月都會組織內部的團隊進行模擬的網(wǎng)絡安全滲透,說白了就是讓我們自己內部相對比較牛的工程師來攻擊我們自己的網(wǎng)絡,當然是在測試環(huán)境下,以己之矛攻己之盾。目的不是為了測試矛行不行,是測試盾行不行。希望看到的結果就是攻擊的矛都折了,盾還是完好無恙。
還有一種是會請第三方叫安全眾測。我們每個季度都會做安全眾測。我們會邀請白帽子來模擬攻擊我們,會按照他們找到的漏洞來優(yōu)化升級我們的系統(tǒng)。這兩種都是像用極端真實的軍事演習來模擬戰(zhàn)斗能力來提高防護能力。
有些人可能會問說為什么要持續(xù)的這么頻繁的去做。我經(jīng)常問我們的一些比較資深的工程師一個問題,就是工程師的技術能力有沒有極限,或者說有沒有天花板?他們告訴我的是工程師的技術能力是沒有極限的。雖然是一句玩笑話,那代表的就是一種趨勢,就是技術能力它是隨著時間、科學和科技進步的,安全層面需要魔高一丈道高一尺。
今天你覺得自己有一個相對安全的防護能力,不代表明天,后天,明年這個時候還是。所以如果你不持續(xù)去迭代、去優(yōu)化、去升級你的防護能力,今天好的防護水平在下一個時期內可能就是差的。
當然對于系統(tǒng)安全來講,最最關鍵的是,我們堅定認為,這個東西不是說天天靠誰在外面喊就喊出來系統(tǒng)安全的,基本上系統(tǒng)安全一定是靠做出來或者打仗打出來的。
我們在系統(tǒng)安全跟穩(wěn)定方面還會去邀請很多的國際頂尖去做一些國際領先的認證,我先贅述一堆術語。有贊主體的SaaS業(yè)務擁有ISO27001信息安全管理體系認證、CSA C*STAR云計算安全國際認證、信息安全等級保護(三級)等認證;持牌公司“高匯通”的支付業(yè)務通過 UPDSS銀聯(lián)卡支付信息安全管理標準,信息安全等級保護三級 ,監(jiān)督保護級等認證。這些認證的證書,我們一直公示在有贊官網(wǎng)的“權威認證”頁面。
以上一堆認證,我用一句話來幫助大家理解,就是有贊,今天我們的安全防護水平是銀行級別。
前面說了兩類安全事件,第三類我想說一下就是服務器的瞬時峰值的超載,這一類其實是常規(guī)原因導致的不穩(wěn)定。
舉個例子,大家都比較熟的雙11,或者說某個商家在做大促銷或者做活動的期間,它的流量比較高,就可能會出現(xiàn)這樣的情況。就是瞬時的使用的峰值超過了這個系統(tǒng)能夠承載的最大值。
還是打個比方來說,就是一條高速公路平時可能都不太堵車,一旦放長假了,大家都涌過去,尤其在某一個時點,就可能造成交通堵塞。平常大家上下班也會堵車,應對這個情況其實需要去做的就是不斷優(yōu)化系統(tǒng)性能。
今天我們在做的事情是,高速公路上行駛路還是那條路,但是車突然多了起來,流量突然多起來的時候,我們可以通過優(yōu)化來保證每輛車都快速通行,比方說我們可以優(yōu)化信號燈,優(yōu)化交通要道的通信能力,去擴建車道,去優(yōu)化路面之類。
舉個實際的例子,去年2019年雙11的時候,我們的訂單跟訪問的瀏覽量和訪問的峰值差不多是平常的10倍以上,但是我們整個系統(tǒng)沒有任何的波動。雙11值班的人只是在值班的狀態(tài),基本上沒有投入戰(zhàn)斗。我們去年做的一個事情是動態(tài)的去調整了我們系統(tǒng)的峰值。
這里會涉及到一個跟財務相關的問題,因為理論上來說,你想把你的峰值,你的承載能力調到無限大,也可以,只要付錢。但是當峰值過去的時候,你平時流量沒有那么多的時候,如果你還維持在峰值上其實是一種浪費。所以這里存在一個平衡,就是你到底在什么程度上去滿足峰值的需求,同時又能解決成本的問題。
有贊可以去做到的是動態(tài)的調整峰值。基本上是在雙11前一周就開始動態(tài)調整我們系統(tǒng)的承載能力峰值來迎接峰值。我們做到的是既滿足了系統(tǒng)峰值的需要,又實現(xiàn)了滿足這個業(yè)務需求的成本不過高。
從技術性能上,有贊系統(tǒng)支持每秒6萬筆交易,也就是同時6萬人在同一秒下單支付也沒有任何問題,頁面打開僅需1秒。有贊云開放接口數(shù)量1000+,日調用量超5億,吞吐自如。
概要:數(shù)據(jù)和代碼是需要人來管的。因誤操作被刪數(shù)據(jù)庫也有可能。我們有嚴格的訪問控制,做了角色分離、權限隔離,杜絕少數(shù)人就能進行高危操作,制定了嚴重宕機的處理預案,時刻保持著主動預警和監(jiān)測,就不會出事。我們的CTO和CEO都沒有可能用一臺電腦、一套賬號密碼完成徹底刪庫動作。
除了前三個之外,第四類風險或者說是影響系統(tǒng)安全跟穩(wěn)定的因素,我們把它歸類為內部管理,它應該是一種管理因素,或者說人的因素,它包括人為的操作失誤、操作錯誤,或者說人為主觀故意的破壞,比如說“刪庫”,就數(shù)據(jù)庫被刪了。
所有的代碼都是人寫的,所有的系統(tǒng)也都是需要人維護,有人的地方就有風險。
大家可能會問說,這是不是無解?其實也不是,尤其在資本市場朋友一定很熟悉,一個非常簡單也經(jīng)常聽到的一個詞,就是內控。
他在做的其實是什么?比方說流程管理,比方說前面崔提到的數(shù)據(jù)管理工程師、數(shù)據(jù)管理員、數(shù)據(jù)庫管理員和運維管理員,他就需要角色是分離的。有些公司它為了節(jié)省成本,它可能讓一個人干多個角色的活,看起來好像省了幾個人的成本,但其實大大增加了這種風險。
再比如權限的隔離,你生產用的數(shù)據(jù)庫和剛剛提到的備份用的數(shù)據(jù)庫,就應該在不同的DBA手上管理。如果一個DBA管理所有的數(shù)據(jù)庫,你備份了等于白備份。這就像每一家公司在銀行賬戶需要財務打款的時候,一定需要兩個以上的UKey才能完成支付是一個道理。
在有贊,CTO崔、CEO白鴉都沒有權限,可以用一臺電腦、一套賬號、一套密碼完成刪庫的動作,是做不到的。
再退一步講,為了防止這種風險,能不能禁止所有人去刪除數(shù)據(jù)庫,這其實也是行不通的。有點像一個廚師做菜,他需要菜刀,菜刀有可能會傷害到旁邊的人,但是你不能說因為菜刀有可能傷害到旁邊人禁止廚師用菜刀,對吧?
所以這個時候這里的防控的措施就是萬一出現(xiàn)菜刀傷人的事件,我們可以怎么去做?萬一被刪庫,其實很多互聯(lián)網(wǎng)公司都經(jīng)歷過,怎么辦呢?
你這個時候要做的就是你找到你的災備機房的備份,去快速的去啟用去恢復你的備份的數(shù)據(jù),當然備份恢復的時間跟你的技術能力跟你的數(shù)據(jù)存儲量都有關系,但通常來說差別基本上在分鐘級別或者小時級別,最多幾個小時級別,幾天都還恢復不了是不可思議的,除非還有更多沒有公開的信息。
還有很多的措施,來防止這些所謂的人為管理的錯誤。
比方說,機房的部署,一定需要有嚴格的訪問控制,員工的授權一定需要分角色。還有有一個在產研團隊的授權原則,叫最小授權原則。什么叫最小授權原則?就是產研團隊授予一個員工的權限,一定不能大于他工作職責的需要。
比方說,還有各種各樣在測試環(huán)境里需要經(jīng)常演習各種人為操作,還不單是攻擊,還要去演習各種人為操作造成的風險事件,團隊怎么去應對。因為你不能保證每個人不失誤,但是當出現(xiàn)失誤或者造成一定的后果的時候,團隊里每個角色他知道該干嘛,他應該聽誰的指揮,各種各樣的工作先后順序應該是什么,會不會產生二次災難?這個時候如果沒有災害演練,沒有預演,沒有預案,其實真的出現(xiàn)問題的時候,可能邏輯上技術上好像什么都可以做,但對于團隊來說,可能他們已經(jīng)完全失去了戰(zhàn)斗能力。
當然最基礎的還有一些,比方說,主動的預警跟監(jiān)測,我覺得這些是行業(yè)最基礎的,比方說你進入生產網(wǎng)絡需要有最基本的操作日志,你必須得做到追溯什么人,什么時候做了什么事情,一旦有異常的操作系統(tǒng)就要自動響應。我們運維團隊,他們基本上都是7×24小時在線。多說一句,互聯(lián)網(wǎng)行業(yè)運維團隊的工作是非常辛苦的。整個團隊要時時刻刻保持在戰(zhàn)備和戰(zhàn)斗的狀態(tài)。
還有一類第五類比較特殊,尤其在我們這樣的交易類的SaaS公司里面特別重要。
因為商家在用有贊系統(tǒng),會做各種各樣的在線營銷活動,發(fā)個優(yōu)惠券、發(fā)個代金券、發(fā)個優(yōu)惠卡,而所有的營銷活動它都是有實際價值的,都是商家計劃好的實實在在的營銷預算。對商家來說,它的原意是希望把自己的一些促銷讓利給消費者,由此來帶動消費者的消費意愿,或者擴大整個社交的傳播。
但始終在這個行業(yè)里面都會有各種叫黑產和灰產。黑色產業(yè)的人,他們就像禿鷲一樣,永遠盯著全網(wǎng)各種各樣的營銷活動,有組織有技術的盯著各種各樣的營銷活動,用技術的手段來薅羊毛。把各種各樣的營銷活動利益最終流入了這些黑產跟灰產的口袋里。
這個問題涉及的是商家的資產安全,對于有贊來說,我們叫做反作弊。有贊過去在幫助商家反作弊上也投入了非常多的精力跟力量。雖然有時候在這些活動上的保護和防控的措施,商家都不一定能感知到,但是我們希望去保證的,除了系統(tǒng)安全,還保證商家的錢用在刀刃上,而不是被這些技術性的、組織性的、薅羊毛的人薅走。
前面這里大概說了五大類跟安全跟穩(wěn)定相關的風險點以及常用的一些措施。然后第三部分我想請崔來跟大家分享一下,數(shù)據(jù)庫被刪到底意味著什么?
因為對大家來說,可能覺得好像說數(shù)據(jù)被刪了沒什么概念。所以后面交給崔來跟大家分享一下。
CTO崔玉松:
說到刪數(shù)據(jù)庫,我先跟大家解釋一下,互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)大概分為幾部分。
通常來講數(shù)據(jù)分為兩部分來存儲,一部分就是我們叫在線的實時數(shù)據(jù)庫,通常意義上大家理解的刪庫的部分。還有一部分的數(shù)據(jù)是存在我們叫離線數(shù)據(jù)系統(tǒng),也就是大家通常認知上大數(shù)據(jù)的系統(tǒng)。
這兩部分數(shù)據(jù)有什么差異呢?大數(shù)據(jù)肯定是會包含實時的數(shù)據(jù),但是大數(shù)據(jù)的數(shù)據(jù)會遠遠大于實時的數(shù)據(jù)。以有贊為例,實時數(shù)據(jù)大概只占到整個數(shù)據(jù)體量的5%~7%比例,越大體量的公司比例可能會越低。
為什么會這樣?比如剛剛前面桃子講到的關于交易訂單,比如說你買一個東西,你下了一個訂單,這個訂單會存在實時的數(shù)據(jù)庫系統(tǒng)里面。但是在下單之前,你可能瀏覽了100次,可能瀏覽了100頁,每一頁上面可能還會點擊了,在每一頁上面你還點了三次加在一起就有300次的行為數(shù)據(jù),數(shù)據(jù)量遠遠大于你剛剛下的那一單的數(shù)據(jù)量。
所以大數(shù)據(jù)里面有非常多的關于行為數(shù)據(jù),更多明細的一些數(shù)據(jù),只有通過這些數(shù)據(jù)可以反推出來一個消費者怎么買到這個單,從而可以去優(yōu)化提高購買的轉化率,提高營銷的效率,諸如此類的一些東西,這些都在大數(shù)據(jù)的這一層去完成的。
如果是實時的那部分數(shù)據(jù)庫刪了,它被刪的那一刻開始,接下來在恢復之前,它都不能交易了。還有你的訂單被刪了,用戶有損失、商家有損失之外,實際上它帶來最大的損失是履約的損失以及消費者的不信任。
這具體會表現(xiàn)在什么?比如說你這條訂單刪了,但是你錢已經(jīng)付了,對吧?但是你再去找這個商家說我這個錢付了,那你這東西給不給我?商家又沒有看到訂單,你說他到底給還是不給,不給得罪消費者,給他可能又虧本了。
進一步說,你下了一筆訂單應該有20個積分,然后這個積分給還是不給,以及這一系列的這些東西,這都會出現(xiàn)很大的風險。所以在系統(tǒng)發(fā)生宕機故障徹底混亂的時候,商家和消費者之間會的矛盾會集中爆發(fā),這就是我們認為的叫履約風險。就是他消費者下了單,但是商家沒有辦法進行履約的,整個活動交付,整個的后臺的邏輯都亂。消費者跟商家扯皮,不信任商家,就是要商家的命。
還有一個就是大數(shù)據(jù)的這一部分,大數(shù)據(jù)這一部分如果出現(xiàn)了問題的話,它帶來的不僅僅是一個商家履約不成功的后果,它會導致一系列的后臺的問題。
現(xiàn)在大家都在講說大數(shù)據(jù)、人工智能、AI,所有的東西其實都是以數(shù)據(jù)明細為起點的。比如說像我們要的精準營銷,推薦,針對不同人群發(fā)送不同的優(yōu)惠券,都是要靠消費者每一次點擊的行為數(shù)據(jù),通過一種機器算法來識別的。丟掉的每一條數(shù)據(jù)都會導致識別的準確度會下降,如果你全丟完了,那就沒有什么人工智能和大數(shù)據(jù)精準營銷可言了。所以對于一家公司,最重要的可能就是這個部分。
當然商家這一端肯定也會面臨一些損失。因為從他刪庫的那一刻開始的話,他后面所有的生意就中斷了。尤其是像現(xiàn)在疫情期間,大家線下不能做生意,開始把生意往網(wǎng)上轉的時候,基本上像我們的一些商家,一天有幾百萬的交易額。
有贊2019年前三季度GMV是380億,差不多平均一天1.4億。實際上在疫情期間,一些傳統(tǒng)商家轉到線上來,實際上可能還會比他之前要更好一些。所以疫情以及電商的這種模式,實際上給商人們開了一個窗戶。然后現(xiàn)在很多地方很多人窗戶又被關上,所以我們自己也確實比較憂慮這些商家的生存狀況。他們的線上線下都休克了,這也是我們昨天為什么有在業(yè)務層面上發(fā)了一個公告的原因。希望能幫上忙。
概要:出了問題,是要給客戶補償?shù)摹N覀儚?017年開始就承諾:出現(xiàn)系統(tǒng)不穩(wěn)定影響了客戶的生意,就按照不可用時間給予對應 102.4 倍的補償。騰訊云、百度云、阿里云等云計算服務商也都有類似明確、公開的補償標準。
既然有損失,作為一家公司肯定是要對于商家的損失不能視而不見,所以肯定會牽扯到一些賠付。
有贊的核心服務,我們都給予102.4倍的服務期的補償。如果不穩(wěn)定一分鐘補償就是102.4分鐘。通常來講,這個行業(yè)里面的補償是超過某一個期限,比如說大家去看幾乎所有的云廠商,他們通常的算法是這樣的,就是說比如說這個月沒滿足99%,沒有滿足三個9,四個9就是他承諾的期限,然后從它沒滿足的那一刻開始,他給你算錢。
比如說我承諾你四個9,也就是說我承諾你一年宕機不超過50分鐘,在50分鐘之內我是不會賠的。但是有贊只要宕機一分鐘都是會補償?shù)模詫嶋H上是我們按照承諾的是按照100%的承諾補償。
所以不穩(wěn)定一天實際上就會補償商家102.4天,按照我們現(xiàn)在的客單價來說,相當于大概3500塊錢。如果你宕機一天影響1萬個商家,那就是補償了3500萬,如果是10萬個商家就一天就補償了3.5個億。如果不穩(wěn)定五天,這個賬,沒敢算。
2017年11月27日,為了讓“系統(tǒng)穩(wěn)定高于一切”不斷地做到極致。有贊推出了“護航計劃”,并正式宣布:有贊微商城如果出現(xiàn)系統(tǒng)不穩(wěn)定影響了客戶的生意,就按照不可用時間給予對應 102.4 倍的補償。這是整個信息服務行業(yè)里沒有的最最高規(guī)格的“承諾”。2020年1月1日,有贊零售、有贊美業(yè)也正式加入“有贊護航”。有贊因技術故障對商家的每一次影響,我們都公開、自動、動態(tài)顯示在有贊護航的官網(wǎng)上,符合護航補償界定范圍的,都有護航補償公告。因為透明,所以信任。因為信任,所以承擔。
也可以一并說說騰訊云、百度云服務不可用的賠償標準。
騰訊云是低于99.9%但等于或高于99%,賠償相當于月度服務費10%的代金券;低于99%但等于或高于95%,賠償相當于月度服務費25%的代金券;低于95%,賠償相當于月度服務費50%的代金券。而百度云是低于99.99%但是等于或高于99%,賠償相當于月度服務費10%的代金券;低于99%但等于或者高于95%,賠償相當于月度服務費25%的代金券;低于95%,賠償相當于月度服務費100%的代金券。
當然,騰訊云和百度云這類IaaS和有贊這樣的SaaS還是有些不一樣。有贊在SaaS行業(yè)3年前就公布了護航計劃,堅持影響做生意就補償,對自己的嚴格苛刻,都是源于要讓商家安全、穩(wěn)定、放心地做生意。
這個就是我們我簡單介紹了一下關于刪庫以及數(shù)據(jù)的基本的一些東西,希望大家能夠理解。
CFO俞韜:
最后其實我還想就回應一個問題,很多人也比較關心:發(fā)生這樣的事件,大家問我說公有云是不是不安全,是不是應該整個行業(yè)或者說整個社會就應該回到私有云?
其實這個問題的回答特別簡單,就是所有在公有云上遇到的風險和問題,在私有云上一模一樣的會遇到。因為所有的架構、協(xié)作方式,生產流都是一模一樣的。所以,在公有云層面遇到的問題,在私有云層面一模一樣的會遇到,但是在公有云層面,有更多專業(yè)人、專業(yè)的角色一起去解決問題,去維護穩(wěn)定和安全,私有云的層面只有自己的IT團隊來解決問題,而絕大部分想做私有云的客戶沒有一定的技術能力,更別提一些安全防護的能力,要有也是需要極高的代價(人工)。所以從行業(yè)的角度,我覺得大家完全不用擔心這個問題。
還想重復一下最前面說的幾句話。
所有的風險都是伴隨著一定的概率的,風控措施就是將風險概率降低到可接受的水平,或者說將風險事件帶來的損失控制在可接受的水平。當然所有的措施都是有成本的,也就是錢,每個公司愿意接受什么樣的風險水平,愿意接受風險帶來的損失的程度都是不一樣的,這就導致了每個公司保障系統(tǒng)穩(wěn)定跟安全能力是不一樣的。所以互聯(lián)網(wǎng)公司系統(tǒng)穩(wěn)定安全不僅僅是你行不行的問題,更多的是你愿不愿意的問題。
過去我經(jīng)常也會跟大家溝通的時候會聊到說,我覺得有贊是一家產品和技術主導的公司,我們的技術非常好。過去大家可能沒什么感覺,你們老說自己好,哪里好?
還是打個比方,比方說我們在建房子,系統(tǒng)的穩(wěn)定跟安全就像房子的地基,這個地基其實大家都是看不到的,大家看到的是說樓有多高,這樓裝修的多漂亮,大家不知道這個地基有多深,但只有在坍塌的時候知道。所以其實只有兩個人知道,就是造房子的人和災難知道。
所以,我們始終是把系統(tǒng)的穩(wěn)定跟安全放在第一位,這是我們有贊的產研團隊最核心的OKR。在有贊的內部,我們會把各種各樣的業(yè)務項目用P1、P2、P3來分優(yōu)先級,數(shù)字越小就代表這個項目或者說這個事情重要性水平越高。只有兩類事情,無論是什么時候永遠是P0級別的,就是我們的系統(tǒng)安全事件和我們的資金安全事件。
今天其實過去差不多快一個小時的時間,跟大家交流的更多的是系統(tǒng)安全的問題,關于資金相關的問題,我覺得今天可能沒有時間跟大家分享,如果大家有興趣,我們可以下次再跟大家分享。
在有贊團隊構成上,過去和現(xiàn)在,包括未來也一直會是,我們的產研的團隊一直保持在占總人數(shù)的一半以上。其實大家從我們發(fā)布的各種各樣的財報和路演資料里面都能看到,我們的目的和希望就是以足夠充足的研發(fā)能力來保證有贊持續(xù)的研發(fā)迭代能力和安全防護能力。
今天的最后我想再分享給大家一個故事,這個故事就是霸王龍的故事,作為今天的結尾。
很多人都知道霸王龍是有贊的吉祥物,昨天我們在給大家發(fā)的ConCall的邀請函里面也有一個霸王龍的水印的圖像,很多人可能不理解,為什么你們一個IT公司的吉祥物是一個霸王龍。
在2014年的時候,那時候有贊還不到兩歲,我們的系統(tǒng)還不很穩(wěn)定。不可用的時候,我們的后臺顯示頁面就有一只霸王龍。那時候我們和我們的商家都知道,一旦頁面出現(xiàn)霸王龍就代表有贊的系統(tǒng)服務不可用,所以那個時候只要有商家打電話給我們,或者在微信群里艾特我們說你們霸王龍了,你們趕緊處理,我們就特別緊張,當然也特別不安。
所以,霸王龍從過去的歷史上來說,對有贊來說,它代表的就是“不穩(wěn)定”,代表的就是“不可用”,它其實代表了一種恥辱。
我們?yōu)榱颂嵝堰^去的、現(xiàn)在的、未來的所有有贊人,時時刻刻記住這個恥辱,我相信我們是可能是全世界把一個恥辱變成吉祥物的,我們把霸王龍變成了我們的吉祥物,我們把它放在我們辦公室的每個樓層,把它做成各種各樣的鑰匙扣、工牌,然后把它貼在墻上,放在所有大家能想到的能看到的地方。我們就是為了時時刻刻提醒大家,系統(tǒng)安全跟穩(wěn)定是互聯(lián)網(wǎng)公司、是有贊的基石,也是永遠是第一優(yōu)先級的。
我們認為,在互聯(lián)網(wǎng)行業(yè)、尤其是SaaS行業(yè),系統(tǒng)的安全和穩(wěn)定就像一幢大樓的地基,地基不穩(wěn)、大樓遲早坍塌。但是地基是看不見的,牢不牢只有自己知道,只有災難知道。
為此,我們始終堅持“系統(tǒng)穩(wěn)定高于一切”,為商家保駕護航,幫助每一位重視產品和服務的商家成功。
我覺得我們今天的分享時間也差不多,我們今天分享就到這里,大家如果有更多的問題,隨時歡迎大家聯(lián)系我們的IR團隊。她們的聯(lián)系方式,她們的郵箱在邀請函里都有,我們今天的分享就到此結束,非常感謝大家,謝謝!

推薦經(jīng)營方案


打開微信掃一掃即可獲取


-
1000+最佳實踐
-
500+行業(yè)社群
-
50+行業(yè)專家問診
-
全國30+場增長大會
請在手機上確認登錄