轉載:國家數據局 20250819
文 | 清華大學人工智能國際治理研究院副院長 梁正
《全國數據資源調查報告(2024年)》顯示,2024年我國高質量數據集數量同比增長27.4%,標志高質量數據集建設進入加速期。隨著人工智能技術更進一步發展,對高質量數據集的需求缺口必將繼續增大。加強優質數據供給,以高質量數據驅動人工智能創新發展變得愈發關鍵。
01 明確高質量數據集建設的戰略意義
習近平總書記圍繞“發揮數據的基礎資源作用和創新引擎作用”做過多項重要的戰略部署,近日發布的《人工智能全球治理行動計劃》《關于深入實施“人工智能+”行動的意見》也對“數據供給”議題予以特別關注。當前正值人工智能引領新一輪科技革命和產業變革的歷史性窗口,數據作為新型生產要素的重要作用空前凸顯,已經成為推動傳統產業轉型升級、培育新質生產力的中堅力量,數據領域的新技術、新模式、新業態不斷涌現,數據要素對于經濟社會發展的乘數效應進一步放大。在此背景下,高質量數據集建設的戰略意義已經遠超技術與應用層面。
一方面,高質量數據集是構筑國家核心競爭力的關鍵要素和維護國家安全的重要屏障。掌握高質量、主權可控的優質數據資源,不僅關乎我國是否能在全球數字經濟版圖占據有利地位,更是直接影響產業鏈、供應鏈的韌性與安全。尤其是對于金融、能源、交通、國防等關鍵領域,高質量數據集的建設與治理更是保障經濟社會穩定運行、提升國家治理體系和治理能力現代化的內在要求,是國家安全體系不可或缺的組成部分。
另一方面,高質量數據集是驅動產業深度轉型和催生重大科技突破的根本前提。產業應用方面,海量、優質、多樣的數據集是人工智能性能躍升的基礎。隨著人工智能模型不斷變“大”,數據供給不足已經成為亟待解決的問題。數據質量更是成為制約人工智能從“可用”向“好用”跨越,更深入賦能實體經濟的瓶頸。只有通過建設面向具體場景的高質量數據集,才能真正打通技術落地的“最后一公里”。而在科技創新方面,未來的科學發現愈發依賴數據驅動的研究范式。蘊含深刻領域知識“更聰明”的數據集,是科學家探索、發現新規律的“創新燃料”。
02 阻礙高質量數據集建設的三重挑戰
盡管我國高質量數據集建設已經取得初步進展,但其未來發展仍然面臨許多挑戰。供給側層面,結構性矛盾尤為突出。一是當前支撐前沿科研與關鍵行業應用的中文,以及垂類領域高質量數據集總量不足;二是跨部門、行業和地區的數據標準不統一與互操作性缺失,導致海量異構數據資源整合困難、處理成本高;三是現有數據質量評估大多止于完整性、一致性等基礎維度,普遍缺乏對于科學知識內涵與工程指標洞察的深度挖掘能力。所以,很多時候存在“量大質低”現象。
技術底座層面,高質量數據集建設的關鍵環節存在明顯薄弱點。當前的數據加工、處理的自動化水平較低,多依賴傳統的人工密集型方式。如此不僅成本高昂、效率低下,倘若標注者自身的學歷、能力參差不齊,數據集的實際效用也會大打折扣——這樣的情況會在醫療、建筑等專業性較強的領域尤為突出。面向復雜場景的數據合成、數據蒸餾等關鍵技術有待突破,盡管部分算法具備自主性的學習能力,但在很大程度上仍需要人來引導,難以規?;a專業領域所需的“高質量”數據。更為關鍵的一點是,目前各個行業普遍缺乏廣泛認可的高質量數據集評估標準、認證體系以及配套工具鏈。這不僅使數據價值難被客觀、科學地度量,更使高質量數據集建設的目標定位變得模糊,進而,導致“為數據而數據”的本末倒置行為出現。
管理機制層面,高質量數據集建設的系統規劃與協同能力仍有不足。一方面,從原始資源到高質量數據集的轉化路徑缺乏清晰的實施框架。因此,部分高質量數據集的建設呈現一定程度的碎片化、形式化。另一方面,跨部門、跨行業的協同機制缺位,致使難以匯聚資源合力,引起重復建設與資源分散問題。此外,由于數據要素本身兼具商業價值與社會價值,權屬界定、利益分配等機制不明本身即對高質量數據集建設造成制度性阻礙。
03 推進高質量數據集建設的實施路徑
首先,要盡快完善針對數據集質量的評價體系。針對通識類、行業通用類、行業專用類數據集制定分級分類標準與質量評估、認證體系,確保數據集質量能夠符合應用場景的真實需求。特別是對于行業專用類數據集的質量評估、認證,需要緊密切合場景需求進行專門設計,避免簡單追求所謂的完整性、一致性、正確性。此舉將為各個參與方提供清晰的指引,并確保數據集建設的合規性、安全性與可用性。其次,要堅持場景驅動與示范先行的策略。聚焦工業、農業、醫療、金融等數據密集且有明確需求的重點行業,基此開展試點示范工程。通過將該行業的高質量數據集建設成果與具體業務產品緊密結合,以點帶面形成可復制、可推廣的成功模式。再者,要深化人工智能技術的應用。逐步推進數據清洗、標注直至質量評估實現全流程智能化,保障數據完整性、一致性、可用性的同時,大幅提高效率、降低成本。面對冷門學科等“低資源”場景,則更應當發揮人工智能用于數據合成、數據增強方面的獨特優勢,補齊數據多樣性短板。最后,要大力建設開源與多方協同平臺。借助開源機制匯聚集體智慧、打破“數據孤島”,提升數據集的規模與質量。
為進一步確保我國高質量數據集建設的有效推進,還須同步構建三位一體的支撐體系。一是資源支持上,應設立國家人工智能數據集專項基金。加大對于數據合成、隱私計算等關鍵共性技術的研發支持,建設國家級的數據技術“測試場”與中試基地,加速新興技術的驗證、轉化與應用推廣。二是能力建設上,應高度重視跨學科人才的培養。尤其是注重吸納應用場景的相關專家,為數據集價值評估和治理提供全面的視角。此外,還應積極推動國際交流。借鑒全球先進經驗,參與國際數據治理規則制定。三是保障措施上,應建立明確的目標分解與責任機制。其一,需要統籌協調,避免重復建設與資源分散等問題。其二,需要通過常態化的效果評估與優化機制確保高質量數據集建設工作能夠持續、穩定推進。其三,需要加快數據權屬、數據合規等制度建設。明確相關主體的權利與義務,保障數據能在穩定、可預期的框架之內得到高效的流通利用。