可供大模型訓(xùn)練的人類數(shù)據(jù)越來越少,Scaling Law正在緩慢失效,如何再次突破智能的上限?
公司情報專家《財經(jīng)涂鴉》獲悉,9月12日,多位專家在2025 Inclusion·外灘大會“Data meets AI:智能時代的雙引擎”見解論壇中,對這一問題進行了充分討論,并給出了新解法。
其中一個共識是,數(shù)據(jù)驅(qū)動了AI發(fā)展,AI也讓數(shù)據(jù)迎來了新一輪的進化,雙引擎融合驅(qū)動才是演進方向。
論壇由中國人工智能學會、上海交通大學與螞蟻集團聯(lián)合主辦,并同步展示了數(shù)據(jù)與AI雙引擎協(xié)同發(fā)展的最新成果,為智能時代數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)提供了參考和實踐路徑。
「大模型數(shù)據(jù)實踐需要屠呦呦式的研究」
數(shù)據(jù)作為智能時代的第一引擎,正從輔助角色轉(zhuǎn)變?yōu)楹诵尿?qū)動力。
“當前,大模型發(fā)展正面臨嚴峻的‘數(shù)據(jù)墻’困境,無標簽語料對模型性能提升的貢獻日益減弱,更大規(guī)模數(shù)據(jù)帶來的性能提升與所需的訓(xùn)練開銷相比性價比顯著降低?!睆?fù)旦大學教授肖仰華指出,大模型數(shù)據(jù)科學需要從專家經(jīng)驗階段發(fā)展到量化科學、直至自進化階段?!按竽P偷臄?shù)據(jù)實踐需要屠呦呦式的研究,從海量雜亂的數(shù)據(jù)中提取出決定模型能力的關(guān)鍵成分”。
現(xiàn)場,他同步分享了通過語法復(fù)雜度指標和累積分布采樣方法篩選高質(zhì)量語料的實踐,實驗表明,從100億個token的財經(jīng)語料中僅篩選20%的高質(zhì)量數(shù)據(jù)進行訓(xùn)練,對模型進行持續(xù)預(yù)訓(xùn)練,相比于全量數(shù)據(jù)持續(xù)預(yù)訓(xùn)練,在領(lǐng)域問答任務(wù)上的準確率提升1.7%。
上海交通大學特聘教授翟廣濤強調(diào),無論是精煉數(shù)據(jù)還是合成數(shù)據(jù),都需要質(zhì)量優(yōu)先,而數(shù)據(jù)質(zhì)量分析要從“體驗質(zhì)量”入手,考慮人的體驗,也考慮機器的體驗,進而在數(shù)據(jù)為中心的范式下進一步提升大模型性能。
海天瑞聲CEO李科從產(chǎn)業(yè)實踐角度分享了全球AI數(shù)據(jù)行業(yè)的發(fā)展趨勢。他認為,數(shù)據(jù)產(chǎn)業(yè)正在經(jīng)歷從勞動密集型向技術(shù)密集型和知識密集型的重大轉(zhuǎn)型。通過動捕數(shù)據(jù)、自動駕駛標注、思維鏈數(shù)據(jù)集等多個實際案例,李科展示了高質(zhì)量數(shù)據(jù)如何服務(wù)千行百業(yè)。
上海庫帕思科技有限公司董事長山棟明說,模型之變引領(lǐng)“數(shù)據(jù)質(zhì)變”,他表示高質(zhì)量數(shù)據(jù)集應(yīng)滿足VALID(鮮活度、真實性、大樣本、完整性、多樣性、高知識密度)要求,并詳細介紹了語料數(shù)據(jù)在方法論、基礎(chǔ)設(shè)施和行業(yè)生態(tài)三個方面的體系化重構(gòu)探索。
數(shù)據(jù)處理技術(shù)需要重構(gòu)與再定義
作為第二引擎,AI技術(shù)正在深刻改變數(shù)據(jù)處理和利用的方式。
光輪智能總裁楊海波表示,具身智能對數(shù)據(jù)的需求量是大語言模型和自動駕駛的上千倍。合成數(shù)據(jù)是實現(xiàn)具身智能Scaling Law的重要基礎(chǔ),他強調(diào),合成數(shù)據(jù)必須滿足四個必備條件:真實的物理交互、人在環(huán)的示范、場景足夠豐富和數(shù)據(jù)閉環(huán)驗證。
“站在岸上學不會游泳,機器人需要進入物理可交互的環(huán)境去獲取物理世界反饋來優(yōu)化模型?!睏詈2ㄕJ為。
螞蟻技術(shù)研究院數(shù)據(jù)智能實驗室負責人趙俊博認為,下一代RL訓(xùn)練法則應(yīng)該從“對與錯”轉(zhuǎn)向“好與更好”。
他探索的“Rubric即Reward”新機制,只需使用5k數(shù)據(jù)和1萬條評分標準構(gòu)建高效RL回路,就能擺脫對海量SFT數(shù)據(jù)的依賴,實現(xiàn)“品味對齊”。這種方法可以在人文、創(chuàng)意、情感等領(lǐng)域?qū)崿F(xiàn)風格化生成,去除“機器味道”。
LanceDB CTO徐磊分享了開源多模態(tài)數(shù)據(jù)湖的創(chuàng)新實踐。他介紹,與傳統(tǒng)的Parquet、ORC等格式不同,新設(shè)計的Lance格式既是文件格式又是表格式,具備零拷貝數(shù)據(jù)演化和高效點查兩大核心特性。
以Runway ML為例,該公司將PB級視頻數(shù)據(jù)導(dǎo)入Lance后,能夠像使用SQL一樣簡單管理,實現(xiàn)30多位AI工程師在同一個主表上并行進行特征工程迭代。
“隨著計算范式的變化,數(shù)據(jù)處理技術(shù)無論主動還是被動,都需要重構(gòu)與再定義。重構(gòu)是為了解決已經(jīng)面臨的問題,再定義則是著眼于未來,解決可能面臨的問題”。專家們在圓桌討論一致認為。
作者:蘇打
編輯:tuya
出品:財經(jīng)涂鴉(ID:caijingtuya)
本文作者可以追加內(nèi)容哦 !
本文來源:財經(jīng)涂鴉
來源:財經(jīng)涂鴉
重要提示:本文僅代表作者個人觀點,并不代表樂居財經(jīng)立場。 本文著作權(quán),歸樂居財經(jīng)所有。未經(jīng)允許,任何單位或個人不得在任何公開傳播平臺上使用本文內(nèi)容;經(jīng)允許進行轉(zhuǎn)載或引用時,請注明來源。聯(lián)系請發(fā)郵件至ljcj@leju.com,或點擊【聯(lián)系客服】
樂居財經(jīng)APP
?2017-2025 北京怡生樂居財經(jīng)文化傳媒有限公司 北京市朝陽區(qū)西大望路甲22號院1號樓1層101內(nèi)3層S3-01房間756號 100016
京ICP備2021030296號-2京公網(wǎng)安備 11010502047973號