人工智能的發(fā)展離不開高質量數(shù)據(jù)的“投喂”,數(shù)據(jù)標注工作是高質量數(shù)據(jù)誕生的基礎,是支撐人工智能技術演進和應用落地的基石。隨著人工智能向垂直領域滲透,高端數(shù)據(jù)標注基地和行業(yè)數(shù)據(jù)標注基地正成為突破數(shù)據(jù)瓶頸、釋放數(shù)據(jù)潛能的關鍵載體。
一、數(shù)據(jù)標注的重要性日益凸顯
數(shù)據(jù)標注是連接數(shù)據(jù)資源、算法模型與應用場景的關鍵橋梁,是人工智能高質量數(shù)據(jù)集建設的“基石”與“核心生產(chǎn)環(huán)節(jié)”。
(一)數(shù)據(jù)標注是數(shù)據(jù)要素價值充分釋放的基礎
數(shù)據(jù)標注對釋放數(shù)據(jù)要素價值的意義主要體現(xiàn)在三方面。一是有效促進數(shù)據(jù)流通和共享。數(shù)據(jù)標注將原始數(shù)據(jù)從“信息”轉化為結構清晰的“資產(chǎn)”,賦予數(shù)據(jù)明確的語義,使其更容易被不同用戶和系統(tǒng)理解和使用,促進數(shù)據(jù)的流通共享。二是有效增強數(shù)據(jù)的可用性和精度。數(shù)據(jù)標注將原始的、雜亂無章的數(shù)據(jù)轉化為結構化、有標簽的數(shù)據(jù),從而顯著提升數(shù)據(jù)質量和可用性。三是有效提高數(shù)據(jù)驅動的決策水平。標注后的數(shù)據(jù)能夠為數(shù)據(jù)分析提供更準確、更有價值的信息,幫助企業(yè)和組織更好理解數(shù)據(jù)背后的業(yè)務邏輯和趨勢,做出更科學的決策。
(二)數(shù)據(jù)標注是人工智能技術水平提升的關鍵
數(shù)據(jù)標注是人工智能的基礎工作,通過給原始數(shù)據(jù)打上標簽,為計算機提供學習數(shù)據(jù)特征與規(guī)律的素材,使模型獲得對未標注數(shù)據(jù)的識別能力,這是模型智能的起點。而高水平的數(shù)據(jù)標注是模型能力提升的關鍵,貫穿于模型訓練、評估、優(yōu)化和應用等環(huán)節(jié)。精準的標注能幫助模型更深刻地理解數(shù)據(jù)的特征和模式,進一步提高模型的準確性和預測能力。數(shù)據(jù)標注還是高質量數(shù)據(jù)集構建的核心,通過人工或智能標注對原始數(shù)據(jù)進行清洗、分類、去噪,才能形成驅動模型迭代的高質量數(shù)據(jù)集。DeepSeek V3、GPT 4o等在訓練階段均使用了總量約15萬億token、經(jīng)過嚴格清洗和標注的高質量數(shù)據(jù)。
(三)數(shù)據(jù)標注是人工智能賦能千行百業(yè)的支撐
數(shù)據(jù)標注支撐人工智能在垂直場景中深度應用。在醫(yī)療領域,醫(yī)療影像中病灶標注能顯著提升數(shù)據(jù)可用性,智源研究院醫(yī)療大模型經(jīng)專業(yè)醫(yī)生標注的影像、病例、文獻等數(shù)據(jù)訓練,比通用模型疾病診斷能力提升15%。在自動駕駛領域,數(shù)據(jù)標注為自動駕駛提供精準、可操作的數(shù)據(jù)輸入,百度自動駕駛大模型Apollo ADFM利用精細標注的車輛、交通標志、運動軌跡等數(shù)據(jù),顯著提升復雜場景行人識別能力。在工業(yè)質檢領域,像素級標注通過精確標識缺陷在圖像中的具體位置,為高精度缺陷檢測模型提供詳細監(jiān)督信息,提升質檢效能。AITEX織物數(shù)據(jù)集提供了織物缺陷的像素級標注,用于訓練無監(jiān)督分割模型。此外,數(shù)據(jù)標注還在智能家居、智慧城市、金融服務、生物醫(yī)藥等多領域多場景得到有效應用。
二、數(shù)據(jù)標注產(chǎn)業(yè)快速發(fā)展
當前,我國數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展駛入“快車道”,呈現(xiàn)出規(guī)模擴張與創(chuàng)新實踐并進的良好態(tài)勢。
(一)數(shù)據(jù)標注工作成效顯著
目前,四川成都、遼寧沈陽、安徽合肥、湖南長沙、海南海口、河北保定、山西大同7個數(shù)據(jù)標注基地數(shù)據(jù)標注總規(guī)模達到17282TB,約為國家圖書館數(shù)字資源總量的6倍。已形成醫(yī)療、工業(yè)、教育等行業(yè)的高質量數(shù)據(jù)集335個;賦能121個國產(chǎn)人工智能大模型研發(fā);引進和培育標注企業(yè)223家;標注從業(yè)人員達5.8萬人;帶動數(shù)據(jù)標注行業(yè)相關產(chǎn)值超過83億元。[1]
(二)數(shù)據(jù)標注基地展開實踐探索
各數(shù)據(jù)標注基地積極承接數(shù)據(jù)標注任務,并主動展開實踐探索。在技術創(chuàng)新方面,研發(fā)自動化和半自動化的標注工具,搭建一體化服務平臺;在行業(yè)賦能方面,通過數(shù)據(jù)標注帶動行業(yè)高質量數(shù)據(jù)集建設,推動傳統(tǒng)產(chǎn)業(yè)數(shù)字化、智能化轉型;在生態(tài)培育方面,加快數(shù)據(jù)標注龍頭企業(yè)引育,構建數(shù)據(jù)標注產(chǎn)業(yè)鏈、價值鏈和生態(tài)系統(tǒng);在標準應用方面,圍繞數(shù)據(jù)標注技術和行業(yè)需求,引導企業(yè)積極參與標準編制和應用;在人才培養(yǎng)方面,通過設立實訓基地、舉辦職業(yè)技能大賽等形式,推動產(chǎn)教融合,培育數(shù)據(jù)標注人才;在數(shù)據(jù)安全方面,探索數(shù)據(jù)分類分級安全保護制度,構建數(shù)據(jù)安全風險防控體系,推動常態(tài)化、規(guī)范化的數(shù)據(jù)安全運營。
(三)數(shù)據(jù)標注產(chǎn)業(yè)供需對接高效開展
數(shù)據(jù)供需各方積極開展對接,在4次數(shù)據(jù)標注產(chǎn)業(yè)供需對接會上,累計7個國家級數(shù)據(jù)標注基地、全國70余個省市級數(shù)據(jù)管理部門和數(shù)百家企業(yè)參與,簽約供需合作80余項,企業(yè)-基地簽約33項,共2300余人次參會。通過現(xiàn)場簽約、央企對接集市及共建可信數(shù)據(jù)空間等方式,釋放企業(yè)數(shù)據(jù)標注需求,支撐重點行業(yè)數(shù)據(jù)要素價值化應用。
三、加快建設高端數(shù)據(jù)標注基地和行業(yè)數(shù)據(jù)標注基地
隨著數(shù)據(jù)標注產(chǎn)業(yè)快速發(fā)展,數(shù)據(jù)標注基地建設也呈現(xiàn)出清晰的發(fā)展路徑:一方面是向“高精尖”邁進的高端數(shù)據(jù)標注基地;另一方面是深耕垂直場景的行業(yè)數(shù)據(jù)標注基地。高端數(shù)據(jù)標注基地和行業(yè)數(shù)據(jù)標注基地是在7個國家級數(shù)據(jù)標注基地建設經(jīng)驗總結的基礎上,向專業(yè)化縱深和區(qū)域廣泛覆蓋兩個方向的演進與補充。國家級數(shù)據(jù)標注基地將與高端和行業(yè)數(shù)據(jù)標注基地共同構成一個功能銜接、層次分明、協(xié)同發(fā)展的體系。
(一)加快建設高端數(shù)據(jù)標注基地
高端數(shù)據(jù)標注基地是高質量數(shù)據(jù)供給的關鍵,具備“高技術含量、高人才素質、高質量把控、高行業(yè)價值”的特征,其核心目標是通過人機協(xié)同標注、合成數(shù)據(jù)標注、大模型智能標注等前沿技術,結合多學科知識,實現(xiàn)數(shù)據(jù)標注的專業(yè)化、標準化與高質量輸出。
具體而言,高端數(shù)據(jù)標注基地以高技術、高水平的數(shù)據(jù)標注能力強化高質量數(shù)據(jù)供給,以產(chǎn)教融合新模式培養(yǎng)多元化數(shù)據(jù)標注人才,以權威的高質量數(shù)據(jù)集質量評估和模型驗證能力體系提升數(shù)據(jù)質量和模型能力,以數(shù)據(jù)生態(tài)服務矩陣繁榮數(shù)據(jù)要素市場、促進產(chǎn)業(yè)迭代升級。
對此,國家層面應通過政策引導和建設指引,明確高端數(shù)據(jù)標注基地的建設內容,推動關鍵技術突破和標準體系完善,與區(qū)域數(shù)據(jù)資源聯(lián)動,帶動數(shù)字經(jīng)濟發(fā)展。地方政府則應激勵骨干企業(yè)、科研院所等積極參與基地共建,加強技術研發(fā),建立合作網(wǎng)絡,形成從需求提出到成果應用的閉環(huán)。
(二)加快建設行業(yè)數(shù)據(jù)標注基地
行業(yè)數(shù)據(jù)標注基地是人工智能深度應用的重要支撐,具有強行業(yè)屬性、強場景導向和強專業(yè)需求的特征,旨在圍繞醫(yī)療健康、智慧交通、智能制造、能源電力、金融服務等重點行業(yè)場景,提供專業(yè)的定制化標注服務,結合行業(yè)標準和業(yè)務流程,將分散異構的原始數(shù)據(jù)轉化為符合行業(yè)應用需求的高質量數(shù)據(jù)集。
行業(yè)數(shù)據(jù)標注基地的建設,重點面向行業(yè)主管部門、龍頭企業(yè)和產(chǎn)業(yè)聯(lián)盟,特別是對行業(yè)數(shù)據(jù)安全、準確性和專業(yè)性要求高的領域。通過推動專業(yè)化標注體系建立和行業(yè)規(guī)范落地,提升行業(yè)數(shù)據(jù)的結構化與可用性水平,形成可復制推廣的標注標準,降低企業(yè)自行標注的成本;同時提升模型在特定任務上的訓練效果,推動模型精準解決行業(yè)痛點問題。
對此,建議通過政策引導,鼓勵龍頭央企承擔行業(yè)數(shù)據(jù)標注基地建設任務,加強行業(yè)數(shù)據(jù)的合規(guī)采集、分級管理與安全流通,打造一批行業(yè)標注標準和典型示范應用。鼓勵龍頭央企牽頭搭建行業(yè)標注平臺,帶動上下游企業(yè)協(xié)同參與,推動跨企業(yè)、跨行業(yè)的數(shù)據(jù)共享與標準統(tǒng)一。
四、做好高端和行業(yè)數(shù)據(jù)標注基地建設的要素保障
高端數(shù)據(jù)標注基地和行業(yè)數(shù)據(jù)標注基地的建設,除頂層設計外,還需依托完善的要素條件。為此,我們提出四點思考建議。
一是強化人才保障。數(shù)據(jù)標注需要既懂人工智能、又熟悉行業(yè)場景的復合型人才。應加快建設數(shù)據(jù)標注人才培養(yǎng)體系,支持高校開設相關課程和實踐平臺,鼓勵基地與科研院所、企業(yè)等聯(lián)合開展人才培養(yǎng)。二是建立多元化資金投入機制。標注基地建設周期長、投入大,需建立中央財政引導、地方專項資金配套、社會資本參與的多元化投入機制,提供長期穩(wěn)定的資金保障。三是加強智能化工具研發(fā)應用。傳統(tǒng)人工標注成本高、效率低,應加快自動化、半自動化標注工具研發(fā),推動自然語言處理、計算機視覺、生成式AI等技術與標注工具深度融合,推動建設一體化的智能標注平臺。四是促進產(chǎn)業(yè)轉型升級,加強示范引領。應引導數(shù)據(jù)標注企業(yè)和平臺向高端、智能方向轉型,鼓勵龍頭企業(yè)打造分領域特色標注平臺。支持有能力的基地先行先試,在技術、標準、安全等方面形成可復制推廣的典型經(jīng)驗,促進技術交流和成果轉化。
加快建設高端數(shù)據(jù)標注基地和行業(yè)數(shù)據(jù)標注基地,是推動數(shù)據(jù)標注產(chǎn)業(yè)向深向實發(fā)展、釋放數(shù)據(jù)要素價值、支撐人工智能賦能經(jīng)濟社會發(fā)展的關鍵。未來,需推動產(chǎn)學研用協(xié)同,共建繁榮產(chǎn)業(yè)生態(tài),以高質高效的數(shù)據(jù)標注,為我國人工智能產(chǎn)業(yè)的高水平自立自強筑牢根基。
[1] 數(shù)據(jù)來源:中國政府網(wǎng)《我國7個數(shù)據(jù)標注基地形成行業(yè)高質量數(shù)據(jù)集335個》
作者簡介
樊威,中國信息通信研究院人工智能研究所高級工程師。長期從事人工智能技術和產(chǎn)業(yè)相關研究,主要研究方向為人工智能高質量數(shù)據(jù)集以及數(shù)據(jù)標注相關政策、標準、產(chǎn)業(yè)研究,聚焦人工智能數(shù)據(jù)治理等領域方向,承擔多項部委政策文件起草支撐工作,完成多項人工智能領域研究報告撰寫。
燕江依,中國信息通信研究院人工智能研究所工程師。主要研究方向為模型性能與數(shù)據(jù)質量閉環(huán)反饋方法研究、高質量數(shù)據(jù)集標準體系建設等,參與多項國家部委省部級人工智能研究課題和項目,牽頭起草7項工信部人工智能行業(yè)標準,累計申請發(fā)表相關學術論文、國家發(fā)明專利、軟著10余項。
李蓀,中國信息通信研究院人工智能研究所平臺與工程化部副主任,高級工程師。長期從事人工智能技術和產(chǎn)業(yè)相關研究,主要研究方向為人工智能數(shù)據(jù)、大模型、語音等方向,參與多項人工智能標準制定工作和多篇人工智能相關研究報告編制工作。