根據《2024-2029年中國一體化大數據中心市場深度分析及發展趨勢研究預測報告》分析,在人工智能領域,數據、算法和算力是構建AI系統的三大核心要素,三者的協同使現代AI技術實現了從理論到應用的飛躍。數據是Al的基礎,大量高質量的數據不僅能夠提高現有模型的準確率,還能促進模型的優化和創新。以ImageNet數據集為例,該數據集及相關挑戰賽推動了計算機視覺算法的快速發展,2017年是挑戰賽的最后一年,物體分類冠軍的準確率在7年時間里從71.8%上升到97.3%。近年來,Transformer等預訓練大模型在語言理解及生成等領域表現出色,大模型背后的Scaling Law(規模定律)進一步揭示了模型性能與數據量、算力之間的關系,強化了數據在提升AI表現中的關鍵作用。
根據AI基礎數據服務廠商LXT對322家有AI項目經驗的美國企業的調研,訓練數據的資金投入占這些企業的Al整體建設投入的15%,61%的企業認為未來2到5年對數據的需求量將會增加,62%的企業認為數據質量比數據量更為重要。LXT的調研結果揭示了企業在Al建設過程中對高質量數據的迫切需求。鑒于AI基礎數據服務廠商在高效提供高質量數據集方面的專業能力,它們已成為AI研發企業的重要合作伙伴,AI基礎數據服務已是推動AI產業發展的關鍵支撐。
AI基礎數據服務廠商是專注于為各行業的AI算法訓練與調優提供基礎數據產品服務的公司。這些公司通過提供標準數據集、定制數據集和配套產品工具服務,支持互聯網、大模型、智能駕駛等各領域的AI技術發展。數據集按內容格式可分為文本、圖像、視頻、語音等類型,核心生產流程主要包括方案設計、數據采集、數據清洗、數據標注和數據質檢等五個關鍵環節。標準數據集是由數據服務廠商研發并可多次銷售的數據集;定制數據集是依據客戶需求制作特定數據集,數據的知識產權歸客戶所有;配套產品工具服務包括標注工具、實訓平臺及A1模型評測等軟硬件工具服務,用于滿足高效標注數據、培訓數據標注、評估A1能力效果等不同層次的客戶需求,輔助和延展數據服務廠商的相關業務。
算法模型從理論到實踐的應用過程依賴于大量的訓練數據。訓練數據越多、越完整、質量越高,模型推理的結果就越可靠。在本報告的討論中,傳統Al泛指Transformer架構出現之前的Al架構,參數量通常相對較小,大模型架構則以Transformer為代表。作為應用大模型架構的代表,ChatGPT在2022年11月上線以來,掀起了AI乃至社會經濟各領域對大模型的研討與應用的熱潮。與傳統Al相似,大模型依然需要大量優質數據,但其所需數據量更大,數據維度更加多元,標注方式及質量評判標準也更為復雜多樣。
縱觀業界開源及閉源大模型的能力特性,結合艾瑞對大模型研發企業的調研,雖然當下主流大模型應用仍相對側重文本輸入、文本輸出的能力,但對圖像、視頻、語音等多模態數據的使用已越來越普遍,艾瑞預計大模型訓練數據中多模態數據的占比將在未來數年持續提升。根據艾瑞對部分通用大模型及綜合型AI廠商的調研,目前大模型的訓練數據主要來源于公開數據、網絡爬蟲數據等可公開獲取的數據,其次是采購數據。相比大模型初創企業,綜合型AI廠商憑借現有的互聯網應用和A業務積累,具備獨特的數據優勢。在模型的通用能力建設方面,公開數據和爬蟲數據已被廣泛利用,未來這兩類數據在整體上的提升空間相對有限,EpochAI等機構的研究人員于2024年6月更新的論文中表示,大語言模型將在大約2026至2032年之間耗盡所有公開的文本數據。艾瑞預計,大模型研發廠商將通過更多的采購數據來提升模型的通用能力;而在垂直場景優化及行業客戶的拓展中,公開數據和爬蟲數據仍有較大的獲取提升空間,大模型研發廠商也將更多地利用客戶側的合作數據,增強模型解決行業特定領域或企業特定問題的能力。
隨著大模型技術的快速迭代及其在眾多領域的廣泛應用,相關評測需求同步增長。對于模型研發企業,評測是發現模型在功能、性能、安全性和可靠性等方面優劣勢的關鍵步驟,并可與其他企業的模型橫向對比,進而針對性地優化模型,提高其表現和穩定性;對模型應用企業而言,評測是選型和項目驗收的重要工具,通過專業評測服務,企業能夠評估模型的實際應用適用性,確保所選模型滿足需求,并保障定制類模型項目的交付質量。相較傳統AI,大模型的應用空間更廣,評測本身也更加復雜和多樣化,市場對專業評測服務的需求潛力巨大。公開評測基準和商業化評測服務的發展,將為大模型評測提供重要支撐,促進技術與產業的健康發展。
在大模型和端到端技術的加持下,智能駕駛的自動化程度不斷提升,相關功能已成為部分消費者購車時的重要考慮因素。除個別廠商專注于純視覺路線外,當下高級別的智能駕駛系統中,攝像頭和激光雷達是兩大核心傳感器。攝像頭主要捕捉二維圖像,具有高分辨率和豐富的色彩細節;激光雷達則通過發射和接收激光脈沖生成高精度的三維點云數據,能夠精確測量物體的距離、尺寸和相對位置,受光照等環境條件影響較小。攝像頭和激光雷達等各類傳感器各具優勢,互為補充,數據標注需對來自不同傳感器的數據標簽對齊和交叉驗證工作。AI基礎數據服務是支撐智能駕駛、大模型等AI算法研發的基石,而AI算法也大幅提升了智駕研發領域數據標注的效率和效果,為數據服務行業的發展注入了新的活力。數據與AI彼此支撐、相互促進,共同推動著自動駕駛的實現。
AI基礎數據服務產業的中游即數據標注等數據服務的供應商,包括專業廠商及云廠商兩類,其中后者以支持內部算法研發及云業務客戶需求為主。上游提供原料數據、人力資源支持及IT基礎設施,其中人力資源服務供應商主要包括垂直做數據標注的廠商和綜合IT類廠商兩類,目前業界通常采用遠程線上服務即云BPO的模式進行人力支持。下游為數據服務的需求方,包括大模型、智能駕駛等各行業各領域投入AI算法研發的廠商。
圖表:AI基礎數據服務產業鏈圖譜
基于對數據服務專業廠商、云廠商、大模型研發廠商、智能駕駛研發廠商等中國AI基礎數據服務市場的供需兩側企業調研,結合艾瑞對中國人工智能市場整體及AI基礎數據服務市場的發展判斷,艾瑞推算2023年中國AI基礎數據服務市場規模為45億元。在需求側,隨著AI算法研發從面向特定任務領域的小模型向具備更強通用泛化能力的大模型過渡,數據服務需求企業將產生大量高質量、多模態的數據需求。同時,隨著大模型在通用及垂直場景中的應用拓展和智能駕駛等AI技術的規模化商業落地,良好的商業回報將進一步推動需求側加大對基礎數據的投入。在供給側,隨著數據要素等相關支持政策的持續深化,服務商將加快數據源的獲取及數據集的制作。數據工程技術、數據標準規范、標注方法等日益成熟,人才生態及服務軟件平臺的自動化、流程化也在不斷完善,供給側的供應能力和服務質量得以加強。綜合供需兩側的情況,艾瑞預計到2028年,中國AI基礎數據服務市場規模將達170億元,未來五年的復合增長率為30.4%。
圖表:2022-2028年中國AI基礎數據服務市場規模