專屬客服號
微信訂閱號
全面提升數據價值
賦能業務提質增效
大模型對數據數量和質量提出新要求
人工智能大語言模型的訓練需要強大的高性能算力和海量訓練數據供應,從行業發展前沿趨勢來看,大模型訓練使用的數據集規模呈現爆發式的持續增長。據工業和信息化部賽迪研究院發布的研究報告預測,到2024年年底我國將有5%~8%的企業大模型參數從千億級躍升至萬億級,算力需求增速會達到320%。
公開資料顯示,2018年GPT-1數據集約4.6GB,2020年GPT-3數據集達到了753GB,而2021年Gopher數據集已達10550GB,2023年GPT-4的數據量更是GPT-3的數十倍以上。同時,大模型快速迭代對訓練數據的數據量、多樣性和更新速度方面也提出了更高的要求。
大語言模型是基于注意力機制的預訓練模型,足夠多的用于自監督學習過程的基礎訓練數據是大模型區別于傳統人工智能算法模型的主要特點,海量數據可以為模型提供更多的學習樣本和更廣泛的知識覆蓋,有助于模型學習到更多的特征和關系。只有海量多源的數據支持預訓練,大模型在后續的專門任務中才會表現出更強大的性能和更具啟發性的生成能力。
數據的豐富性對大模型后續的泛化和涌現能力非常重要。豐富的數據可以為模型提供更多的學習場景和挑戰,有助于模型學習到更復雜的特征和關系,從而提高其泛化能力。大模型的目標是能夠適應各種不同的輸入,并對未見過的數據進行準確的預測。通過使用多維度的訓練數據,模型可以學習更廣泛的上下文和語言規律,提高其泛化能力,節約資源和時間,使模型更具有實用性和可靠性。數據維度多樣性的提升能夠推動大模型從單一領域向多領域知識的躍遷,而非僅僅是數量的增加,如果是簡單的同類型數據反饋,單條數據反饋和十條同類型數據反饋雖然在數據的數量上增加了10倍,但模型的智能并沒有得到拓展和增加,因此數據維度多樣性可直接提升大模型在跨領域知識的理解和應用的深度,實現了從單一領域向多領域知識遷移的質變。
數據的質量對模型的訓練結果至關重要。數據存在大量的噪聲、錯誤或冗余,模型可能會學習到錯誤的特征和關系,導致其性能下降。高質量的數據可以為模型提供更準確、更可靠的學習樣本,有助于模型學習到更真實的特征和關系,從而提高其性能和泛化能力。
數據的時效性對于大模型的即時學習和適應能力具有顯著作用。通過提高數據服務交付時效提升數據服務開發效率,實現大模型對新興趨勢和緊急事件的快速響應。
只有具備以上條件,大模型才能在訓練過程中學習到更多的知識和規律,從而在面對新數據時表現出更好的性能和泛化能力。
積極打造高性能大模型算力集群
在當前的數字科技領域,算力的發展已經達到了萬卡級別的龐大規模,即單體智算集群擁有上萬個GPU計算節點。這種前所未有的強大算力為深度學習等復雜計算任務提供了堅實的算力支撐。目前,我國骨干廠商正積極探索打造高性能算力集群,并通過協同優化、工具支持等實現高效穩定的大模型訓練,提高算力使用效率。
百度百舸2.0在計算、AI存儲、AI容器等模塊上增強能力、豐富功能,并發布了AI加速套件。AI加速套件通過存訓推一體化的方式,對數據的讀取和查詢、訓練、推理進行加速,進一步提升AI作業速度。為了提升集群通信效率,百度發布了彈性RDMA網卡,相比傳統專用的RDMA網絡,彈性RDMA網絡和VPC網絡進行了融合,使用戶的使用成本更低,同時通信延時降低了50%以上。此外,百度在萬卡集群的運維和穩定性方面也進行了大量優化工作,如通過自研的集群組網故障管理機制,降低了工程師在容錯和故障恢復上的時間成本,優秀的運維能力和穩定性為大模型的訓練提供了有力的保障。
騰訊云發布了新一代HCC高性能計算集群,用于大模型訓練、自動駕駛、科學計算等領域。基于新一代集群,騰訊團隊在同等數據集下,將萬億參數的AI大模型混元NLP訓練由50天縮短到4天。其自研星脈高性能計算網絡和高性能集合通信庫TCCL,具備業界最高的3.2T RDMA通信帶寬,在搭載同等數量的GPU情況下,為大模型訓練優化40%負載性能,消除多個網絡原因導致的訓練中斷問題。
浪潮信息AI團隊在2023年相繼研發了OGAI(Open GenAl Infra)大模型智算軟件棧、源2.0大模型,從軟硬協同層面去持續提升基礎大模型的能力,同時通過開放算力發展生態去探索可能突破的場景。OGAI面向以大模型為核心技術的生成式AI開發與應用場景,提供從集群系統環境部署到算力調度保障和大模型開發管理的全棧全流程的軟件,從而降低大模型算力系統的使用門檻、優化大模型的研發效率,保障大模型的生產與應用。
加快構建高質量數據集
首先,深入生產生活場景挖掘高質量數據集。數據是日常活動的科學記錄,人工智能之所以能夠發揮支撐和驅動數字經濟的重要作用,本質上在于忠實而有效地處理現實數據。深入生產生活場景中挖掘高質量數據集,是數據驅動時代的關鍵任務。
以明確的目標為先導,通過精準的數據采集策略,從源頭獲取真實、全面的原始數據。在數據清洗與預處理環節,要運用專業技術和細致的分析,去除噪聲、填補缺失值,確保數據的準確性和完整性。以制造業為例,企業可收集設備型號、維修記錄等靜態數據,以及溫度、振動等實時動態數據,經過清洗和標注后,用于訓練預測模型。數據集的劃分同樣重要,須確保訓練集、驗證集和測試集的合理分布,以充分驗證模型的性能和泛化能力。此外,數據集的文檔編寫和元數據管理也不容忽視,它們為數據集的長期維護和更新提供了堅實的基礎。
在實際操作中需要面對數據來源的多樣性、數據質量的參差不齊、數據采集和處理成本的高昂問題,需要制定周密的數據采集計劃,選擇合適的數據源,并運用先進的數據清洗和預處理技術,以確保數據的準確性和一致性。同時,還需要注重數據的時效性和動態性,及時更新和維護數據集,以適應業務的發展和變化,從海量數據中提煉出有價值的信息,為業務決策和模型訓練提供有力支持。同時,在數據集構建全流程過程中,人的因素同樣重要。需要組建專業的數據團隊,具備深厚的數據分析能力和豐富的業務知識,能夠深入理解業務需求,從海量數據中挖掘出有價值的信息。與此同時,還需要建立科學的數據管理制度和流程,確保數據的安全性和隱私性,防止數據泄露和濫用。能夠反映生產生活實際中深層次現實規律的數據是具有天然價值的,而對其進行科學的加工和處理則使其具備了工程上的利用價值,需要專門的團隊以科學的態度、專業的能力和嚴謹的精神,不斷探索和實踐。
其次,利用人工智能技術構建高質量數據集。目前,利用現有人工智能技術構建高質量數據集仍是一項富有挑戰性和發展前景的任務。通過充分發揮人工智能技術的優勢,可以提高數據集的準確性、效率和可解釋性,為人工智能應用的發展提供堅實的數據基礎。
一是借助人工智技術的自動標注工具正在成為基礎數據服務商和Al算法公司降低成本和提高效率的利器。首先,通過自然語言處理和機器學習技術,可以對大量的文本、圖像、音頻等數據進行自動標注和分類,從而快速生成帶有標簽的數據集。這種方法可以大大減少人工標注的成本和時間,同時提高標注的準確性和一致性。其次,人工智能技術還可以幫助進行數據清洗和預處理。利用數據清洗算法和異常檢測模型,可以自動識別和修正數據中的錯誤、噪聲和異常值,確保數據的準確性和可靠性。同時,通過數據增強技術,可以在不增加實際數據量的情況下,擴充數據集的多樣性和泛化能力。此外,人工智能技術還可以支持數據集的動態更新和維護。通過監控數據源的變化和引入新的數據,可以及時發現和更新數據集中的過時信息,保持數據集的時效性和準確性。另外,利用自動化測試和驗證技術,可以確保數據集的質量和性能在更新過程中得到保障。
二是利用現有大模型批量構建高質量數據。大語言模型憑借強大的上下文學習能力可以從示例樣本和原始素材中快速構建出高質量的指令-輸出對,形成種類多樣、內容翔實的指令微調數據集,有力地提升了指令數據的數量、質量和可控性,基于這些指令數據微調后的模型,其性能表現也得到了大幅增強。
作者:中國軟件評測中心 楊璨 莊金鑫 范振銳 來源:中國電子報、電子信息產業網
本文為本網轉載,出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其內容的真實性,如涉及侵權,請權利人與本站聯系,本站經核實后予以修改或刪除。
請完善以下信息,我們的顧問會在1個工作日內與您聯系,為您安排產品定制服務
評論