出差公舔我到高潮,国产一区二区三区不卡AV,久久久久精品国产三级蜜奴,23部禽女乱小说内裤畸情视频

體驗(yàn)商城系統(tǒng)
創(chuàng)建商店

【貝塔來信】有贊崔玉松:請(qǐng)商家聽我講一講“系統(tǒng)穩(wěn)定性”

這是 貝塔來信 的第 1 封信

各位朋友們,大家好,我叫崔玉松,在有贊別人都叫我“崔”,是有贊的產(chǎn)品技術(shù)負(fù)責(zé)人,很榮幸能夠真正開啟這個(gè)欄目,見字如面。


今天這篇文章有點(diǎn)長,主要分為兩個(gè)內(nèi)容:一個(gè)是為什么要做貝塔來信這個(gè)欄目,一個(gè)是關(guān)于系統(tǒng)穩(wěn)定性和10月9日故障的復(fù)盤。


一、貝塔來信的緣起


大約在半年前,有個(gè)很好的朋友問我,你們總是說自己技術(shù)牛逼,到底牛逼在哪里;你們總是說自己很了解商家,到底為商家做了啥;你們更新了產(chǎn)品,別人也更新產(chǎn)品,憑什么你們就覺得自己牛逼…諸如此類,問了一堆問題。


我覺得也對(duì),電商的產(chǎn)品已經(jīng)數(shù)千項(xiàng)功能了,零售和美業(yè)的產(chǎn)品也有上千的功能點(diǎn),商家數(shù)也從原來的幾千變成了上百萬,任何一個(gè)點(diǎn)的升級(jí)想要給商家?guī)眢@喜,越來越難;而更多的人會(huì)感到自己所需要的功能沒有被滿足,沒有被優(yōu)先安排。雖然我們已經(jīng)在建造一個(gè)強(qiáng)大的自定義和定制化能力系統(tǒng)“有贊云”,可以滿足幾乎任意需求,但依然只有一部分商家知道我們有這個(gè)能力。


貝塔來信這個(gè)專欄,接下來至少會(huì)保持每個(gè)月2?3篇的頻率更新,前面幾期都是我自己寫,后面會(huì)根據(jù)大家的需求和問題,邀請(qǐng)我們不同團(tuán)隊(duì)的負(fù)責(zé)人來提供內(nèi)容。例如,很多商家很好奇——我們的服務(wù)團(tuán)隊(duì)是如何整合以及如何服務(wù)的,有贊的文化,甚至管理是怎么做的,產(chǎn)品是如何被生產(chǎn)出來的,發(fā)生故障了技術(shù)都在干啥,不發(fā)生故障技術(shù)到底在干啥。我會(huì)一步步帶大家了解一個(gè)有血有肉的有贊。


“貝塔來信”這個(gè)名字是有贊商家運(yùn)營的冷面同學(xué)想出來的,我覺得這個(gè)名字很好,回想我們當(dāng)初在“貝塔咖啡”這個(gè)咖啡館開始創(chuàng)業(yè)的時(shí)候,早期的商家,我們都有一個(gè)QQ群,有什么事情我們都在群里溝通,在討論需求的時(shí)候我們一起爭(zhēng)吵不休,反而那個(gè)時(shí)候商家沒有發(fā)現(xiàn)我們冒犯了他們,也沒有覺得有贊對(duì)外不透明,更多的是雖然不同意這樣,但是還是能理解。


今天有贊依然試圖去保持這種狀態(tài),但是商家群體實(shí)在太大了,這種方式只能針對(duì)幾百幾千個(gè)商家,多了就沒法繼續(xù)了。過去幾年里,我們一直在通過優(yōu)化內(nèi)部組織架構(gòu)、增加服務(wù)人數(shù)、提高服務(wù)水平,去改變和商家之間的連接,努力嘗試再保持原來的深度連接。各種傳播方式也很多,包括堅(jiān)持了1000多天的有贊小報(bào)和用最新形式做面向商家的直播。但是始終我覺得缺了那么點(diǎn)東西,那個(gè)東西是啥,我覺得是有贊有思考的觀點(diǎn),非常微觀的思考、大家能切身感受的思考。


二、10月9日故障復(fù)盤


第一篇就講系統(tǒng)穩(wěn)定性。


最核心的原因是:我們深刻的知道穩(wěn)定性是一個(gè)SaaS公司的基石,一個(gè)SaaS公司的一點(diǎn)點(diǎn)故障就會(huì)導(dǎo)致大規(guī)模的商家無法正常經(jīng)營。說到這里,很多商家就開始打臉了,既然穩(wěn)定性是第一位,為什么會(huì)有故障?為什么還出現(xiàn)10月9日那么大范圍的故障?


這次事故起因是:一個(gè)被視為無風(fēng)險(xiǎn)的測(cè)試,觸發(fā)了安全設(shè)備上的一個(gè)錯(cuò)誤,這個(gè)錯(cuò)誤導(dǎo)致了整個(gè)金融云機(jī)房的網(wǎng)絡(luò)中斷,繼而引發(fā)全站無法支付。


運(yùn)維團(tuán)隊(duì)介入處理處理時(shí),因?yàn)楣?yīng)商沒有駐場(chǎng)人員,趕到機(jī)房的時(shí)候已經(jīng)一個(gè)小時(shí)過去了,再去排查和測(cè)試,發(fā)現(xiàn)需要更換設(shè)備,又臨時(shí)找新的設(shè)備更換。


當(dāng)我們意識(shí)到機(jī)房網(wǎng)絡(luò)無法短時(shí)間恢復(fù)的時(shí)候,決定準(zhǔn)備切換備用方案,馬上切換到備份機(jī)房。但是備用方案沒有經(jīng)過充分演練,導(dǎo)致切換過程比較不順利,只有一半用戶恢復(fù),一半用戶會(huì)看到排隊(duì)頁面。


最終,金融云機(jī)房網(wǎng)絡(luò)3個(gè)小時(shí)才恢復(fù),真正解決了硬件故障。依憑備份機(jī)房的能力,我們的服務(wù)大約40分鐘后開始恢復(fù),一個(gè)小時(shí)左右全部恢復(fù)。


這個(gè)相對(duì)機(jī)房的故障恢復(fù)速度已經(jīng)很好,但是,還是存在很大的改進(jìn)空間:如果我們之前的演練充分,這個(gè)故障可以在20分鐘內(nèi)恢復(fù)。鑒于此,我們內(nèi)部認(rèn)真復(fù)盤了改進(jìn)措施,相關(guān)措施大多數(shù)會(huì)在雙十一之前上線,有些動(dòng)作會(huì)在11月30日前上線,主要是因?yàn)樾枰黾痈嗟臋C(jī)器做備份,整個(gè)采購到安裝的周期需要一個(gè)月的時(shí)間。


三、穩(wěn)定性治理的核心命題


從技術(shù)角度看,只要是系統(tǒng),出故障時(shí)早晚的事情。估計(jì)有商家說,這是屁話,為什么淘寶不出故障。有贊有大量的工程師同學(xué)都是阿里出來的,我本人也是,其實(shí)淘寶也出故障,只是因?yàn)榫?xì)化分解很足,每次出故障影響到的都是少部分商家(一般低于5%),我這么說不是為了推脫責(zé)任。特別想說的是,故障天然會(huì)發(fā)生,如何減少發(fā)生概率,發(fā)生了以后如何縮短故障恢復(fù)時(shí)間,如何減少故障影響面是工程技術(shù)角度要解決的最核心命題。


先得回顧一下:如果不做任何事情,故障概率到底有多大,通常一個(gè)程序員寫一段代碼,部署到線上能被用戶訪問到,用戶訪問一次,通常要經(jīng)歷10個(gè)以上的設(shè)備或者系統(tǒng),例如,數(shù)據(jù)庫系統(tǒng)、緩存系統(tǒng)、Web服務(wù)系統(tǒng)、交換機(jī)系統(tǒng)、安全系統(tǒng),還有部署這些系統(tǒng)的各種設(shè)備,其中只有極少數(shù)能做到99.99%可靠,大部分都是99%左右的可靠性,我們就簡化一下,每個(gè)系統(tǒng)和硬件都有99%的可靠性,理論上不發(fā)生故障的概率最終只有90%(0.99的10次方),換句話說,一年停機(jī)36.5天。而工程師要做的事情就是將36.5天故障替換到5小時(shí)乃至50分鐘。


如大家看今年國慶70周年閱兵一樣,習(xí)總書記坐的那輛車牌號(hào)為2019的紅旗轎車,后面還跟著其中一模一樣的車牌號(hào)為1949的車,如果前車發(fā)生故障,立即換一輛車?yán)^續(xù)閱兵。


四、有贊的穩(wěn)定性治理


有贊從2013年就開始使用云計(jì)算作為基礎(chǔ)設(shè)施,幾乎所有的服務(wù)都是有備份的,但還是不能滿足把一年36天的故障降低到一年5小時(shí)以內(nèi)的需求;我們?cè)?017年開始制定跨云的解決方案,把騰訊云和Ucloud兩個(gè)云計(jì)算廠商通過幾條光纖直接打通了,希望能做到任何一個(gè)廠商有問題都不會(huì)影響我們太長時(shí)間。當(dāng)然任何事情都是有代價(jià)的,雙機(jī)房的結(jié)果是,有贊每年都要多付出一倍多機(jī)房成本。


但是,這次出問題的恰恰是我們2019年初開始建設(shè)的金融云機(jī)房。這個(gè)機(jī)房我們也有備份機(jī)房,但是因?yàn)閮?yōu)先保障商家的雙十一項(xiàng)目,沒有充分演練,導(dǎo)致在切換的過程中大約花了40分鐘,所以部分商家在40分鐘后就開始開始恢復(fù)了服務(wù),不過剛剛恢復(fù)又遇到了某些大商家做活動(dòng),加劇了消費(fèi)者付款排隊(duì)的現(xiàn)象,不得不又臨時(shí)擴(kuò)充服務(wù)器數(shù)量,所以排隊(duì)現(xiàn)象又經(jīng)過了20分鐘才根治。


發(fā)生故障的時(shí)候,如何減少影響的商家數(shù)量,行業(yè)里通常的做法是給商家分區(qū),區(qū)和區(qū)之間是相互隔離的,一個(gè)區(qū)停機(jī)只影響自己。有贊在未來的12個(gè)月里會(huì)做到根據(jù)商家去隔離,每個(gè)區(qū)之間相對(duì)不影響。目前實(shí)際上也有隔離,只是隔離的比較少,每次影響的商家數(shù)還不算少。


穩(wěn)定性治理是一個(gè)非常復(fù)雜的命題,業(yè)界各種治理方法有贊技術(shù)團(tuán)隊(duì)都有過嘗試或者正在嘗試,包括藍(lán)綠發(fā)布、灰度發(fā)布、混沌工程等等治理方式。


再次向所有被故障影響到的商家鄭重道歉。系統(tǒng)故障放在任何技術(shù)團(tuán)隊(duì)都是一種恥辱,我們一定會(huì)知恥而后勇,銘記這次教訓(xùn),認(rèn)真檢查每個(gè)可能發(fā)生大規(guī)模故障的細(xì)節(jié),同時(shí)面向未來實(shí)施故障預(yù)防措施。



崔玉松

有贊產(chǎn)品技術(shù)負(fù)責(zé)人

2019-10-23


關(guān)聯(lián)閱讀:

《關(guān)于10月9日晚買家付款報(bào)錯(cuò)、排隊(duì)故障的復(fù)盤/致歉公告》

推薦經(jīng)營方案

剩余文章內(nèi)容, 繼續(xù)閱讀
繼續(xù)閱讀

打開微信掃一掃即可獲取

  • 1000+最佳實(shí)踐
  • 500+行業(yè)社群
  • 50+行業(yè)專家問診
  • 全國30+場(chǎng)增長大會(huì)
掃碼成功

請(qǐng)?jiān)谑謾C(jī)上確認(rèn)登錄

logo

有贊生意經(jīng)

店鋪?zhàn)o(hù)航
有贊安心入駐 服務(wù)中斷賠償102.4倍
主站蜘蛛池模板: 白银市| 锡林郭勒盟| 中江县| 宜都市| 隆子县| 花莲县| 合作市| 马边| 徐汇区| 三门峡市| 曲周县| 包头市| 开鲁县| 曲麻莱县| 和顺县| 赤峰市| 班玛县| 定西市| 若羌县| 随州市| 五峰| 玉山县| 齐河县| 枣强县| 荃湾区| 霍邱县| 赣榆县| 巴彦县| 临沭县| 河东区| 富阳市| 宝应县| 三河市| 泾源县| 铜川市| 昌平区| 宁晋县| 无极县| 赫章县| 拜泉县| 五原县|