国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

數據堂入選首批“北京市人工智能大模型高質量數據集”合作企業

數據堂
+ 關注
2024-03-08 15:59
865次閱讀
7月2日,“2023全球數字經濟大會人工智能高峰論壇”在京舉辦。本次論壇以“智能涌現,重塑未來”為主題,匯集10余位人工智能領域頂級專家學者和企業、機構代表圍繞當下最具熱度的大模型發展話題分享了深刻洞見和思考。

數據堂入選首批“北京市人工智能大模型高質量數據集”合作企業

本次論壇發布了首批“北京市人工智能大模型高質量數據集”,共有10家單位的18個高質量訓練數據集入選,包括數據堂多語言多模態視頻文本對齊數據集、中文高質量大模型預訓練文本數據集,以及人民日報語料數據集、國家法律法規語料數據集,兩會參政議政建言數據集、“科情頭條”全球科技動態數據集,中國科學引文數據庫數據集、科技文獻挖掘語義標注數據集等,涵蓋經濟、政治、文化、社會、生態等不同領域,總規模超過500T,將為通用大模型和行業大模型訓練提供有力保障。

 

全國首個政務服務需求應用場景、北京市首批人工智能大模型高質量數據集、近百個場景案例發布,十個合作項目集中簽約,展現出在推動通用人工智能產業發展和大模型創新應用成果方面的“北京力量”。
此次人工智能高峰論壇作為“2023全球數字經濟大會”同期舉辦的六大高峰論壇之一,超高的熱度吸引了近千名觀眾現場參與,也得到了政府及行業相關部門的高度重視。北京市經濟和信息化局黨組書記、局長姜廣智出席活動并致辭。

數據堂入選首批“北京市人工智能大模型高質量數據集”合作企業

數據堂大模型數據解決方案

數據堂通過豐富的項目實施和管理經驗,人機結合的數據生產平臺既可以提供無監督數據的獲取、清洗,也可以為后續監督學習階段提供定制化數據服務。

01

無監督學習數據

針對無監督學習需要的訓練數據,數據堂可以提供文本、圖像、語音、視頻、點云等單一模態及跨模態融合的數據獲取與清洗服務,數據質量更有保障。 
中文高質量無監督文本數據集,可應用于大模型預訓練,數據規模約1億篇,涵蓋語文、數學、地理、歷史、化學、物理、生物、政治、計算機等各類學科領域的高質量文本,所有文本均經過標簽分類、內容清洗和質量評估。
方言高質量無監督視頻數據集,avi格式,數據規模達10萬小時,100TB。涵蓋全國各地方言10萬小時的說話視頻,每段視頻都標注了具體的方言種類。
多語言平行語料文本數據集,涵蓋50多個語種的平行互譯語料,覆蓋各類書面語和口語。所有文本均經過人工校對,句對準確率達到90%以上。
多模態安防領域圖像描述數據集,涵蓋各種場景圖片、車輛圖片、人臉圖片、手勢圖片、人體圖片等常見安防場景圖片,對每張圖片都進行了詳細的內容描述。圖文對準確率達到97%以上。

 

手勢多模態數據

多模態多語言自然對話語音數據集,數量為3萬小時,涵蓋普通話、方言和少數民族語及60多個語種的對話音頻。每段音頻都人工標注了話題類型、說話人角色和說話內容。準確率達到95%以上。
多模態多語言視頻標注數據,20TB,可應用于視頻字幕識別。涵蓋普通話、方言和少數民族語及30多個語種的說話視頻。每段視頻都人工標注了話題類型、說話人角色和說話內容。準確率達到95%以上。
另外,領域數據質量參差不齊,需要清洗后才可以投入使用。數據堂可以根據客戶領域數據類型及特點,針對性的提供數據清洗方案及人員服務。

02

監督學習數據

針對監督學習需要的人工標注的高質量訓練數據,數據堂可以提供文本、圖片、音頻、視頻、點云等單一模態及跨模態的數據定制標注服務,包括問答對編寫(SFT)、基于強化學習的人類反饋(RLHF)等。
  • 監督微調(SFT)數據

數據堂可幫助客戶通過對prompt編寫/改寫、output編寫/改寫等工序,生成高質量的SFT數據,用于模型微調。

 

  • 敏感性Prompt編寫/改寫:

我們可以根據客戶要求編寫/改寫敏感性Prompt,如暴力、政治、臟話、色情及其他等敏感內容,及帶有誘導類的敏感內容。
  • 常見output數據標注:

相關性:問題和答案之間要準確貼合,避免答非所問
真實性:輸出準確無誤的信息,不可以誤導用戶
連貫性:不可出現錯別字、語法錯誤、語義不順等。盡量口語化,避免使用過于書面或直接從網絡摘抄下來的內容
有幫助的:遵循用戶意圖,并幫助用戶解決他們的任務。答案簡明扼要,避免冗長和信息重復

無害性:輸出內容不應對人造成身體、心理或社會傷害;設備或財產的損壞或損失;對環境的破壞;或損害人類福祉所必需的機構或資源

  • 基于人類反饋的強化學習(RLHF)
在這一階段,數據堂可以針對SFT訓練后模型生成的多個結果按照客戶給定的規則進行人工排名,或者提供多因素打分。通過培訓標注員對齊價值觀,以及多人擬合的方式提升反饋的質量,以此提升大模型輸出結果的質量,使之更加貼近人類價值觀并有益。
  • 常見RM數據人工排名標注:

對模型輸出的內容從最好到最差進行人工排名,對于相同分數的輸出內容進行排序。

 

  • 常見RM數據多因素評分標注規范:

對模型輸出的內容從最好(5分)到最壞(1分)進行打分,包括平分,如果輸出質量接近,則分數相同。

[免責聲明]

原文標題: 數據堂入選首批“北京市人工智能大模型高質量數據集”合作企業

本文由作者原創發布于36氪企服點評;未經許可,禁止轉載。

資深作者數據堂
數據堂
0
數據堂(北京)科技股份有限公司
實力廠商
實力廠商
優質服務
優質服務
及時響應
及時響應
立即詢價
相關文章
最新文章
查看更多
關注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內容
消息通知
咨詢入駐
商務合作