恭喜百度滄海?存儲(chǔ)團(tuán)隊(duì)與中國(guó)科學(xué)技術(shù)大學(xué)、清華大學(xué)合作的論文《Mantle:EfficientHierarchicalMetadataManagementforCloudObjectStorageServices》已正式被計(jì)算機(jī)系統(tǒng)領(lǐng)域?qū)W術(shù)會(huì)議SOSP'25(SymposiumonOperatingSystemsPrinciples)錄用!
SOSP與OSDI并稱為操作系統(tǒng)與系統(tǒng)軟件領(lǐng)域具影響力的兩大學(xué)術(shù)會(huì)議,是全球計(jì)算機(jī)領(lǐng)域公認(rèn)的高榮譽(yù)殿堂。本屆SOSP共收到368篇投稿,僅錄用65篇,錄取率低至17.7%,代表了該領(lǐng)域當(dāng)前前沿、具影響力的研究成果。
該論文詳細(xì)介紹了百度智能云對(duì)象存儲(chǔ)BOS的分布式層級(jí)Namespace系統(tǒng)Mantle的核心設(shè)計(jì)。Mantle成功攻克了困擾業(yè)界多年的難題,使得對(duì)象存儲(chǔ)BOS的層級(jí)Namespace能夠同時(shí)具備可擴(kuò)展性與高性能,為AI時(shí)代的大數(shù)據(jù)上云徹底掃清了障礙。
入選SOSP'25:百度智能云對(duì)象存儲(chǔ)破解業(yè)界難題,掃清大數(shù)據(jù)上云障礙
注:標(biāo)*為共同一作,其中BiaoCao為百度智能云架構(gòu)師
傳統(tǒng)對(duì)象存儲(chǔ)的困境:層級(jí)Namespace難逃單機(jī)瓶頸
多年以來(lái),HDFS一直是大數(shù)據(jù)存儲(chǔ)的代名詞。然而,隨著數(shù)據(jù)規(guī)模的日益增大,其固有缺陷愈發(fā)凸顯:其一,三副本機(jī)制導(dǎo)致存儲(chǔ)成本高昂;其二,單Namenode的設(shè)計(jì)將文件規(guī)模限制在數(shù)億級(jí)別,難以滿足AI時(shí)代單桶百億甚至千億文件的擴(kuò)展性需求;其三,復(fù)雜的運(yùn)維工作對(duì)技術(shù)團(tuán)隊(duì)提出了極高要求。
在此背景下,具備「低成本、無(wú)限擴(kuò)展、云原生免運(yùn)維」等優(yōu)勢(shì)的對(duì)象存儲(chǔ),迅速成為構(gòu)建新一代數(shù)據(jù)湖存儲(chǔ)底座的共識(shí),以支撐更大數(shù)據(jù)規(guī)模的大數(shù)據(jù)計(jì)算業(yè)務(wù)。但一個(gè)關(guān)鍵瓶頸橫亙眼前:傳統(tǒng)對(duì)象存儲(chǔ)采用的「平坦Namespace」難以高效支持依賴文件系統(tǒng)語(yǔ)義的大數(shù)據(jù)計(jì)算任務(wù)(如目錄遍歷、遞歸刪除、路徑重命名等),導(dǎo)致其在特定場(chǎng)景下的性能遠(yuǎn)不如HDFS。
為了彌合這一鴻溝,業(yè)界普遍認(rèn)為,為對(duì)象存儲(chǔ)增加「層級(jí)Namespace」能力是必然趨勢(shì)。但遺憾的是,主流云廠商的現(xiàn)有方案始終未能擺脫單機(jī)性能瓶頸,其擴(kuò)展性與HDFS相比并無(wú)本質(zhì)飛躍。
兩大核心挑戰(zhàn):為何高性能的分布式層級(jí)Namespace如此難解?
構(gòu)建一套面向大規(guī)模對(duì)象存儲(chǔ)服務(wù)、真正分布式的層級(jí)Namespace,面臨著兩個(gè)長(zhǎng)期未被攻克的嚴(yán)峻性能挑戰(zhàn):
長(zhǎng)路徑解析開(kāi)銷巨大:解析一個(gè)深層文件路徑,如/A/B/C/D/file.txt,需要多次網(wǎng)絡(luò)通信,累積延遲極高,嚴(yán)重拖慢計(jì)算效率。傳統(tǒng)的客戶端緩存,在對(duì)象存儲(chǔ)基于RestfulAPI、無(wú)狀態(tài)Proxy的架構(gòu)下難以實(shí)施。而簡(jiǎn)單的并行路徑解析方案,在高并發(fā)場(chǎng)景下又因線程過(guò)度調(diào)度而引發(fā)資源爭(zhēng)搶,適得其反。
分布式事務(wù)沖突頻發(fā):當(dāng)數(shù)千乃至上萬(wàn)個(gè)計(jì)算任務(wù)并發(fā)地對(duì)同一目錄進(jìn)行創(chuàng)建、刪除或重命名操作時(shí),傳統(tǒng)分布式事務(wù)機(jī)制會(huì)產(chǎn)生海量的讀寫(xiě)沖突與重試,導(dǎo)致系統(tǒng)吞吐量斷崖式下跌。即便放寬隔離級(jí)別等緩解手段,也難以根治跨目錄重命名等復(fù)雜操作帶來(lái)的根本性沖突問(wèn)題。
正因?yàn)槿绱?業(yè)界一直缺乏一種既能發(fā)揮對(duì)象存儲(chǔ)成本與擴(kuò)展性優(yōu)勢(shì),同時(shí)又能媲美HDFS性能的真正可擴(kuò)展、高性能的層級(jí)命名空間解決方案,導(dǎo)致「對(duì)象存儲(chǔ)成為數(shù)據(jù)湖存儲(chǔ)底座」的愿景,在實(shí)際落地中屢屢受阻。
Mantle:全球破局者——融合文件和對(duì)象存儲(chǔ)的優(yōu)勢(shì),構(gòu)建數(shù)據(jù)湖堅(jiān)實(shí)底座
百度滄海?存儲(chǔ)研發(fā)的Mantle,正是全球范圍內(nèi)一個(gè)公開(kāi)的、完整解決上述兩大難題,并成功經(jīng)受了超大規(guī)模生產(chǎn)環(huán)境長(zhǎng)期檢驗(yàn)的「分布式層級(jí)Namespace系統(tǒng)」。
Mantle創(chuàng)新性地將傳統(tǒng)文件系統(tǒng)的強(qiáng)大語(yǔ)義優(yōu)勢(shì),與新型對(duì)象存儲(chǔ)的低成本、可擴(kuò)展、云原生易運(yùn)維特性融合,實(shí)現(xiàn)了革命性的突破,為EB級(jí)別的新一代數(shù)據(jù)湖打開(kāi)了想象空間。
此次入選SOSP'25的論文,所闡述的正是這套兼具擴(kuò)展性與卓越性能的方案,它標(biāo)志著對(duì)象存儲(chǔ)真正成為云原生數(shù)據(jù)湖的堅(jiān)實(shí)底座。
入選SOSP'25:百度智能云對(duì)象存儲(chǔ)破解業(yè)界難題,掃清大數(shù)據(jù)上云障礙
卓越性能:延遲降低高99.1%,吞吐提升高115倍
分布式層級(jí)Namespace系統(tǒng)Mantle不僅解決了理論難題,更在實(shí)踐中創(chuàng)造了令人驚嘆的性能表現(xiàn):
性能:與Tectonic、InfiniFS和LocoFS等業(yè)界新進(jìn)展相比,Mantle將元數(shù)據(jù)訪問(wèn)延遲降低了6.6%至99.1%,吞吐量提高了0.07倍至115.00倍。
業(yè)務(wù)加速:在交互式Spark分析場(chǎng)景,作業(yè)完成時(shí)間縮短了63.3%至93.3%。在AI驅(qū)動(dòng)的音頻預(yù)處理任務(wù)中,作業(yè)完成時(shí)間縮短了38.5%至47.7%。
目前,Mantle已在百度智能云對(duì)象存儲(chǔ)BOS的生產(chǎn)環(huán)境中大規(guī)模上線超過(guò)兩年,提供了成熟可靠的服務(wù)。它為云上眾多客戶的大數(shù)據(jù)分析、人工智能、自動(dòng)駕駛等關(guān)鍵業(yè)務(wù)提供了堅(jiān)實(shí)、高效的存儲(chǔ)底座。
不止于論文:百度滄海?存儲(chǔ)元數(shù)據(jù)面架構(gòu)的創(chuàng)新故事
關(guān)于Mantle論文技術(shù)解讀,以及百度滄海?存儲(chǔ)元數(shù)據(jù)面架構(gòu)的創(chuàng)新故事,后續(xù)將在微信公眾號(hào)百度智能云技術(shù)站,敬請(qǐng)期待!
