百度沈抖:百舸4.0升級發(fā)布,模型訓練有效時長達99.5%

2024-09-25 11:14:48   來源:新浪科技   評論:0   [收藏]   [評論]
導讀:  新浪科技訊 9月25日上午消息,今日舉辦的2024百度云智大會上,百度集團執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖宣布百度百舸AI異構計算平臺4.0升級發(fā)布,支持多芯混訓、多芯適配,在萬卡集群上實現(xiàn)了超過99.5...
  新浪科技訊 9月25日上午消息,今日舉辦的2024百度云智大會上,百度集團執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖宣布百度百舸AI異構計算平臺4.0升級發(fā)布,支持多芯混訓、多芯適配,在萬卡集群上實現(xiàn)了超過99.5%的有效訓練時長。

  在算力緊缺的當下,效率的提升將能夠幫助企業(yè)有效提升算力使用率,進而降低成本。據(jù)介紹,為解決算力資源短缺的問題,百舸4.0對“多芯混訓”能力進行了重點升級,實現(xiàn)了在萬卡規(guī)模集群上95%的多芯混合訓練效能,達到業(yè)務最領先水平。

  在集群部署環(huán)節(jié),升級后的百舸能夠實現(xiàn)工具層面的秒級部署,將萬卡集群運行準備時間從數(shù)周最快縮減至1小時,極大地提升部署效率,縮短業(yè)務上線周期。

  針對大模型訓練過程中故障頻發(fā)的問題,百舸4.0全面升級了故障檢測手段和自動容錯機制,可以有效降低故障發(fā)生頻次,大幅減少集群故障處置時間,在萬卡集群上實現(xiàn)了超過99.5%的有效訓練時長。

  在模型推理上,最重要的是速度和成本,F(xiàn)在長文本推理逐漸成為主流,百舸4.0整體上做到了推理速度和成本優(yōu)化,長文本推理效率提升了1倍以上。

分享到:
責任編輯:zsz

網友評論