本報記者 田鵬
發展自主可控的大模型是我國搶占數據發展高地的必然選擇,而數據要素則是支撐大模型發展的重要引擎。
7月8日,上海數交所總經理湯奇峰在2023世界人工智能大會“大模型時代下的數據要素流通”論壇上表示,大模型建設中,語料庫是一個非常重要的方向,語料庫采購已經在不少大模型企業成本中占據重要比重,上海數交所希望以市場配置的方式組織數據要素推動語料庫建設。
在全球人工智能蓬勃發展背景下,數據與算力、算法共同構成了新一代人工智能發展過程中的三大要素。因此,意識到數據要素重要性的同時,更應該認清目前我國在數據要素利用過程中所面臨的阻礙。
目前存在的阻礙有哪些?
語料庫建設是一件長期性、專業性的工作,需要遵循相應的質量標準和規范,并保持持續更新和擴充,以適應大模型發展的新需求和新挑戰。
“從與大模型相關企業溝通的情況來看,我國語料庫建設還存在供給不足、質量不高、多樣性匱乏、標準欠缺等現狀。”湯奇峰指出。
“數據要素在人工智能大模型的發展中具有關鍵性的作用,決定了模型的訓練質量、性能表現和應用領域的廣度與深度。”在中國電子副總經理陸志鵬看來,大模型技術實現高質量發展,數據有效供給是關鍵,亟需建設安全可信的數據底座。當前數據合規確權、計量估價、協調分配、安全隱私保護等核心難題需要破解。
科大訊飛大數據研究院院長譚昶表示,我們對大模型語料數據方面有三大關注點:首先,語料數據更新問題亟待解決。目前,大模型訓練都是按月為周期,能否實現以天為周期值得思考。其次,語料偏見問題目前需要通過一些規則模式將其屏蔽,但這種模式對于大模型來說是一種約束和限制。第三,數據安全問題不容忽視。
在談及數據流通過程中面臨的問題時,中國知網副總經理張宏偉稱,在真正的交易流通里面有定價的問題,有確權的問題,有收益分配的問題,尤其是我們的數據,包括它的主體是多元的,有了數據分配之后,如何在這些利益主體之間分配,這個是非常難的問題。
“破題”關鍵在何方?
數據驅動三大變革,包括經濟結構、創新范式、企業模式。面向大模型,數據要素市場大有可為,多層次數據要素市場建設需要提供重要助力。因此,在認清數據要素流通過程中存在的問題之后,更應清楚“破題”關鍵所在。
關于語料庫建設的挑戰,湯奇峰認為,可以根據開放程度強弱和數據質量高低將語料數據生態機構分出四類供方,制定差異化工作策略。同時,從政府引導市場主導、豐富種類提高質量、統一標準規范建設、加強監管保障安全四個方向建設大模型時代下的語料庫。
湯奇峰稱,針對數據質量高但開放程度低的供方,可以通過數據交易鏈有效破解語料數據流通的信任問題,“核心之一在于產權和參與大模型后的收益分配問題。”
商湯科技聯合創始人楊帆認為,對于訓練數據的管理和監督必不可少。同時,要實現數據開源,特別是訓練數據相關領域的開源,只有開源才是更加健全。
在談及如何應對上述風險和阻礙時,張宏偉認為,各方權益的保護在某種程度為技術讓步的,但也不能過多讓步,保護創作者的利益仍然很重要。
大數據流通與交易技術國家工程實驗室常務副主任黃麗華表示,多層次數據要素市場的建設需要有明確的數據需求應用場景,數據要素產權制度可以提供重要支撐,合規安全機制提供保障,基于這樣的一個市場,數據產品低成本、大規??傻貌庞锌赡軐崿F,才能更好地賦能商業高效應用,促進數字化轉型。未來,顛覆性創新一定是基于數據+人工智能+行業專業知識發生的。
(編輯 孫倩)
22:44 | “弱冠之年”繼續向上:蘇農銀行總... |
21:59 | 中遠???025年第一季度凈利潤同比... |
21:58 | 蘇寧易購一季度實現營收128.94億元... |
21:58 | 多領域實現關鍵突破 山西汾酒2024... |
21:57 | 釋放可持續發展“壓艙石”信號 德... |
21:57 | 產品銷售持續放量 宣泰醫藥2024年... |
21:56 | 中公教育2024年扭虧為盈 經營性現... |
21:56 | 2025年穩健開局 重慶啤酒一季度銷... |
21:54 | 復星醫藥披露2025年一季報:營收94... |
21:53 | 接棒吳以芳 陳玉卿出任復星醫藥董... |
21:51 | 百龍創園:第三屆監事會第十四次會... |
21:51 | 長飛光纖:第四屆董事會第十三次會... |
版權所有證券日報網
互聯網新聞信息服務許可證 10120180014增值電信業務經營許可證B2-20181903
京公網安備 11010202007567號京ICP備17054264號
證券日報網所載文章、數據僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網站電話:010-83251800 網站傳真:010-83251801電子郵件:[email protected]
掃一掃,即可下載
掃一掃,加關注
掃一掃,加關注