從 2009 年 11 月 11 日,到 2019 年 11 月 11 日,從 2009 年的 5000 萬成交量、2018 年 2135 億成交量,到今天 1 小時 03 分 59 秒成交額便已突破 1000 億并實現全天成交額 2684 億,節節攀升的阿里雙十一,剛好迎來了第十一個狂歡購物節。
在阿里芝麻開門 102 問里記載著這樣兩問:
1. 為什么會誕生雙 11?
2. 為什么說雙 11 是阿里的大「團建」?
其一,今天回過頭來看阿里歷史,從初創于湖畔花園讓天下沒有難做的生意到今天構建阿里巴巴數字經濟體,阿里巴巴 20 年的每一個重要節點都分外傳奇,雙十一也不例外。「102 問」里是這樣說道:「2009 年,淘寶商城初創不久,逍遙子和團隊一起討論,琢磨著做一個網上的購物節,為商城造勢……11 月沒有大的節日。一群“無知者無畏”的阿里人就選了 11 月 11 日,籌備了第一屆雙 11,結果一炮而紅。」
其二,阿里人將雙 11 視為 Team Building,逍遙子說「打仗是最好的團建。沒有參加過雙 11 的叫同事,參加過雙 11 的叫戰友」,這一點已成阿里人深刻于骨的精神,在這全球嗨購雙十一之時,當筆者走進阿里西溪園區里,光芒四射的燈光之下,數不清的穿著天貓紅 T 的阿里同學的臉上,洋溢著激情的笑容,每突破一個標志性的數字,定勝鼓鏗鏘響起,十分具有感染力。
在今年雙十一當夜,阿里與我們分享了一個很典型的數據 ——「2019 天貓雙 11 交易峰值創下新紀錄,達到 54.4 萬筆/秒,是 2009 年第一次雙 11 的 1360 倍」。
十一年倏忽而逝,數據的變化背后是技術迅猛的更新迭代,以 11 年作為一個暫時復盤,我們能夠明顯地發現在雙 11 的快速發展下所促使的阿里技術體系變化。譬如拿電商架構來說,從五彩石項目開始,一路自集中式架構、分布式架構、單元粒度的分布式架構體系演進,同時伴隨支付架構體系的升級、自研 OceanBase、All in 無線的一系列演進;對混合云架構進行升級,逐步采用阿里云資源支撐大促;為了 100% 的穩定而實現全鏈路壓測;運用大數據和人工智能開啟個性化推薦;為了解決雙 11 后客服人力彈性問題而重構阿里智能客服技術等等。
今年雙十一,當高并發、維穩已經不再那么讓阿里人「如臨大敵」之時,阿里技術體系又發生了哪些重要變化?本文或許可以讓你一窺。
創紀錄的 54.4 萬筆/秒,阿里核心系統實現首次 100% 上云
許多人都知道阿里云是在一片對云計算的質疑聲中發展起來的,而其所經歷過的同樣的還有「阿里會將全部業務都放到阿里云公共云上嗎?」的懷疑。
前不久,行癲曾與我們分享過 —— 「我們做了一個非常大的決定,那就是阿里經濟體中所有的 IT 設施,所有的數據中臺全部遷移到阿里云上。」
我們在雙 11 得到了最直觀的印證。
在平穩度過 2019 天貓雙 11 流量峰值后,阿里巴巴正式宣布,其核心系統已 100% 跑在阿里云公共云上。國內唯一自研的飛天云操作系統,成功扛住全球最大規模的流量洪峰,由此,阿里巴巴成為全球首個將核心交易系統 100% 運行在公共云上的大型互聯網公司。
在雙十一現場,阿里巴巴集團 CTO 兼阿里云智能總裁行癲全方位總結并分享了當雙十一已經走過 11 年,是如何在用戶及商家完全無感知的情況下,將數以十萬計的物理服務器從線下數據中心遷移到了云上。
阿里巴巴集團 CTO 兼阿里云智能總裁行癲(作者攝于阿里西溪)
行癲說道:「過去的一天 20 多個小時里,是阿里技術上最經受考驗的一次,我們從去年開始,決定將整個阿里巴巴經濟體的核心系統全部上阿里云。在中國只有阿里云是完全從頭研發的一朵云,從十年前每一行代碼都是自己寫,它有一個特別的名字叫做“飛天操作系統”。」
緊接著,行癲講道:「很多人問我,核心系統上云究竟意味著什么?以前的云都是非核心負載放在云上,現在阿里巴巴最核心的系統放在云上。我們的云將原來專用的技術變為公有云,大家都可以來享受普惠服務。阿里云承載著阿里巴巴自己 100% 的核心系統是全球第一個做到的,未來,阿里所有的系統都將在阿里云飛天操作系統上,這在技術上是一個非常大的進步與挑戰,上云后性能有著非常大的提高。」
那么,從技術上講,為什么阿里巴巴能夠將此次雙 11 核心系統 100% 上云?行癲分享了阿里云智能完全自研的四種「武器」:
在核心虛擬機系統上,自主研發神龍架構,用自研服務器來做虛擬化。一般的服務器隨著壓力增長,最終負載能力會慢慢下降,但神龍服務器壓力越大,輸出也非常線性;
自研云原生數據庫 —— OceanBase 和 PolarDB,前者早已在雙 11 大促中證明了自己,并剛剛在 TPC-C 測試中拿下全球第一,后者也廣泛應用在此次雙 11 上,每秒峰值遠遠超于 Oracle 這樣的傳統數據庫;
計算與存儲進行分離。行癲表示,現在阿里巴巴存儲是有一個地方專門存放數據,數據都是從遠端存取的,所以存儲可以很方便地擴容;
為什么能夠實現遠端存取,甚至于比本地讀寫磁盤更快?行癲分享了第四個核心技術——RDMA 網絡,阿里可以說是全球第一個大規模做 RDMA 網絡的公司。
行癲表示,數據處理今年創了一個新高,2017 年當天處理了 300PB 的數據,2018 年處理了 600PB 的數據,今年要處理 970P 左右的數據,這是非常大的量,沒有一個先進的系統是撐不住的。
其次,是實時,這次雙 11 大促,在秒殺、會場等方面都是個性化、千人千面,數據不僅大,而且要做到非常實時。到目前為止,菜鳥物流系統已經產生了超過 10 億筆的物流單,這個數據還在快速上升,這些都需要依靠阿里云背后大量的計算能力。
今年的數據,除了批處理之外,還有流處理,就是實時處理所有數據,每分、每秒都在變,它并不是從數據庫里面統計出來的,而是每生成一筆訂單,系統自動一層層把數據匯集上來。今年這個系統每秒能處理 25 億筆記錄,這是流式的系統。
這么多服務器,要把它全部管理起來,除了飛天系統之外,還要管理所有的消息流轉,所以阿里自己開發了一個叫做 MQ 的消息系統,這也是全球目前最大的一個消息系統。
行癲總結道:「今天,從飛天系統、大數據處理平臺到智能化應用,這些技術疊加起來打造了一個新的分布式的基于云的平臺,才使得阿里整個經濟體所有核心應用都能夠跑在上面。從飛天云操作系統到神龍服務器、數據庫、交換機、交換機操作系統、RDMA 網絡,全部是阿里自研的。我們今天已經積累了非常豐富、非常強的能力,從硬件、數據庫、云計算操作系統,到上面的核心應用平臺,四位一體,這是這次雙 11 跟往年最大不一樣的地方。」
一直以來,技術圈都非常盛行著「One more thing」,在雙十一演講的最后,行癲還談到了前不久發布的含光 800,并帶來了一個頗讓人興奮的消息:明年雙 11 將大規模應用平頭哥自研的 AI 芯片上。
達摩院成立兩年,阿里小蜜的演進之路
阿里小蜜的誕生與雙十一緊密相關。達摩院資深總監、阿里小蜜團隊負責人空無曾撰文分享過在雙十一之中關于客服的痛點:「云計算解決了計算的可伸縮性,通過削峰填谷最大幅度地降低了成本,但是客服這種人力資源的彈性如何解決?」
對此,阿里巴巴智能客服經歷了長達 11 年的演進,從起于淘寶的問答機器人,2012 年面向支付領域服務的「智能小寶」機器人上線,2015 年阿里首款智能助理產品「阿里小蜜」,其所提供的不僅是單純的客服功能,更是以智能+人工的模式為用戶提供智能導購、服務、助理的對話式體驗,并于 2016 年首次走上雙 11 主戰場。到去年雙十一,阿里小蜜已經承接了淘寶、天貓平臺 98% 的在線服務需求。到今年,現在阿里客服服務量絕大多數都是通過阿里小蜜來承載。
在阿里西溪園區里,筆者見到了這位「小蜜之父」,聽他談起了小蜜幾年來的技術演進歷程。
達摩院資深總監、阿里小蜜團隊負責人空無(作者攝于阿里西溪園區)
空無對 CSDN(ID:CSDNnews)表示,「小蜜的演進,完全是基于技術的演進發展的,跟很多產品是不一樣的。很多產品是定義出來,但小蜜完全是由技術驅動的,算法能力會決定你產品的 0 和 1,因為如果技術不過關,業務方都不會讓我們上線。為什么從 16、17 年我們開始將小蜜的產品能力在業務中應用,主要是因為在這兩年里人工智能、深度學習技術取得了關鍵突破。」
今年在阿里小蜜上尤其不同的點是,不再僅僅關注在線服務覆蓋率,對此,空無說道:「用機器完全取代人并不是我們的方向,在客服領域,98% 已經是個極限了,如果再去提升,有可能會受限于技術能力,同時也無法達到預期的用戶體驗。」今年空無帶領小蜜團隊將客服與營銷方向相結合,幫助商家不僅解決海量的客服問題,更進一步提升轉化率。比如頗為新穎的「直播小蜜」,采用自然語言理解和 KBQA 基于知識圖譜問答等技術,能夠精確地解析直播間內對于商品和主播的多種復雜表達和問法,由此實現多對一溝通的快速響應,較大比例地提升直播間的客戶問題解決率。
雙十一走向全球:阿里智能翻譯技術研發
筆者在《阿里騰訊進擊韓國互聯網》一文中曾分享過螞蟻金服「全球收,全球付,全球匯」的全球化戰略,提供 Alipay 技術方案,聯合打造本土化的電子錢包,由此構建起移動支付生態圈,這是阿里生態經濟體 eWTP 全球化戰略中的重要一環。在今年雙十一上,筆者看到了阿里巴巴生態體系中更為全面的國際化應用,從優酷、UC、天貓國際、LAZADA 到阿里云、菜鳥等莫不如是。
在阿里雙十一全球化之中,語言成為需要解決的首要問題。跨境電商翻譯需求量大,同時,在不同場景中會出現非常規的翻譯任務,由此,阿里巴巴構建起國際化多語言技術與業務基礎設施,建立阿里翻譯平臺,由此來支撐整個集團的國際化業務開展。
達摩院資深算法專家、達摩院自然語言理解團隊成員駱衛華(花名聞彰)表示:「阿里翻譯平臺的愿景是讓商業沒有語言障礙,提供大規模多語言語料平臺、智能機器翻譯引擎、人機協作平臺。截至目前已實現日均 10 億次的調用,日峰值處理 1 億+商品,擁有數十億雙語語料、上千億單語語料,支持 20+ 種語言,60+ 個語言方向。」
具備能力如下:
翻譯:商品翻譯(標題、詳情、評論)、文檔翻譯(Word、PDF)、語音翻譯、圖片翻譯、多媒體翻譯(視頻翻譯)、地理信息翻譯(高德、菜鳥)、實時溝通。
多語言處理:語種識別、自動預料獲取、全球化知識庫、眾包平臺、質量自動檢測、多語言測試平臺、多語言搜索方案。
達摩院資深算法專家駱衛華(花名聞彰)
聞彰表示,電商本身就是非常復雜的場景,電商翻譯信息作為交易憑證對質量要求非常高,即「準合同」級翻譯。對此,聞彰從算法、數據、工程三個維度分享了阿里翻譯的技術特色,分別為:
算法:更深層神經網絡模型;融合知識的模型:通過各種內部數據建設,構建知識庫;多語言合一模型;高容錯多模態翻譯;
數據:QE 大腦;多語言知識庫自動構建;人機協同;
工程:高性能解碼;超大規模語料離線高速訓練;CPU 解碼;移動端解碼;私有化定制。
