操bb国片四区三区,亚洲一片内射无码,91短视频福利导航,蜜桃臀成人免费在线视频观看

解密云計算背后的挑戰(zhàn):字節(jié)跳動是如何進行大規(guī)模服務(wù)器集群質(zhì)量運營的?

2024-06-26 09:17:53 Jinyu

伴隨近些年云計算行業(yè)的蓬勃發(fā)展,各大云廠商運營的服務(wù)器集群迎來了快速增長,龐大的服務(wù)器集群不僅僅是數(shù)字的堆砌,更是數(shù)字化時代的基石。然而,隨著服務(wù)器運營數(shù)量增加和硬件技術(shù)復雜度增大,對線上服務(wù)的穩(wěn)定性構(gòu)成了嚴峻挑戰(zhàn),服務(wù)器質(zhì)量管理工作的重要性日益凸顯。

特別是近兩年AI大模型應用的興起,為保障千卡甚至萬卡以上GPU集群的訓練任務(wù)連續(xù)性,服務(wù)器運營質(zhì)量工作面臨著前所未有的挑戰(zhàn)和機遇。

在這個背景下,探討如何有效運營大規(guī)模服務(wù)器集群成為了云計算行業(yè)的熱點話題。從硬件的選型到日常的維護,從質(zhì)量的監(jiān)控到故障的應對,都需要精心規(guī)劃和扎實開展。

如何未雨綢繆、精益求精地開展大規(guī)模服務(wù)器集群的線上硬件運營質(zhì)量工作?

2024年6月28日-29日,第二十三屆 GOPS 全球運維大會暨 XOps 技術(shù)創(chuàng)新峰會2024 · 北京站即將舉行。

來自字節(jié)跳動服務(wù)器運營質(zhì)量工程師,陳海超老師將帶來《大規(guī)模服務(wù)器集群的線上質(zhì)量運營實踐》主題演講,結(jié)合多年服務(wù)器運營工作經(jīng)驗,對大規(guī)模服務(wù)器集群線上質(zhì)量運營實踐進行分享和探討。

演講主題:大規(guī)模服務(wù)器集群的線上質(zhì)量運營實踐

圖片

陳海超

字節(jié)跳動  

服務(wù)器運營 質(zhì)量工程師

聽眾收益

1、了解線上質(zhì)量在服務(wù)器運營中的重要性

2、了解服務(wù)器線上質(zhì)量體系的建立

3、了解線上質(zhì)量運營實踐和重點專項介紹

4、展望線上質(zhì)量運營的發(fā)展趨勢

議題簡介

近些年,隨著互聯(lián)網(wǎng)迅猛發(fā)展,特別是云計算爆發(fā)式增長,各大云計算廠商的服務(wù)器運營總量劇增,陸續(xù)形成多家超過百萬級服務(wù)器的大規(guī)模集群。在數(shù)量增長的同時,服務(wù)器型號和配置也隨著業(yè)務(wù)應用場景多樣化而層出不窮,服務(wù)器底層硬件器件也在快速迭代。

因此,難免遇到各類服務(wù)器相關(guān)的質(zhì)量問題,嚴重時甚至威脅業(yè)務(wù)的穩(wěn)定性。特別是近兩年的AI大模型應用的興起,集群規(guī)模在千卡甚至萬卡以上規(guī)模,為保障整個訓練任務(wù)的連續(xù)性,對服務(wù)器穩(wěn)定性提出更高要求,線上硬件運營質(zhì)量工作尤為重要。

本主題,將結(jié)合多年服務(wù)器運營工作經(jīng)驗,對大規(guī)模服務(wù)器集群線上質(zhì)量運營實踐進行分享和探討。

個人簡介

陳海超,在字節(jié)負責服務(wù)器線上運營質(zhì)量工作,包括質(zhì)量體系建設(shè)、數(shù)據(jù)分析、以及質(zhì)量問題處理和改進。

曾負責大規(guī)模服務(wù)器集群的硬件監(jiān)控標準制定與運營流程建設(shè)、故障分析平臺搭建;主導過CPU\網(wǎng)卡\硬盤\GPU等關(guān)鍵部件的質(zhì)量數(shù)據(jù)分析與專項質(zhì)量提升;深度參與A100/A800/H800等大模型訓練集群的質(zhì)量重保;具備豐富的大規(guī)模服務(wù)器集群的運營和質(zhì)量提升經(jīng)驗。

曾擔任華為服務(wù)器兼容性測試工程師、售后支持負責人,組織并攻關(guān)解決國內(nèi)外運營商、互聯(lián)網(wǎng)、金融等領(lǐng)域重點客戶的服務(wù)器疑難問題;具備豐富的服務(wù)器硬件、OS兼容性問題處理經(jīng)驗。

我要咨詢