8月16日,由廣東省首席信息官協(xié)會(huì)主辦的第八屆南方信息大會(huì)在廣州開幕。作為華南地區(qū)極具權(quán)威性與前瞻性的CIO年度巔峰盛會(huì),本屆大會(huì)匯聚AI領(lǐng)域頂尖學(xué)者、各行業(yè)頭部企業(yè)CIO及全球領(lǐng)先大模型廠商,其中包括南航、華為、阿里、字節(jié)、美的、西門子等世界500強(qiáng)公司的CIO,共同探討AI時(shí)代CIO的挑戰(zhàn)與機(jī)遇。
探跡科技創(chuàng)始人兼CTO、漢數(shù)科技創(chuàng)始人陳開冉受邀出席本次盛會(huì),他以《大模型時(shí)代下的高質(zhì)量數(shù)據(jù)云》為主題發(fā)表精彩演講,與一眾行業(yè)頂尖CIO嘉賓同臺(tái)分享AI技術(shù)趨勢,展現(xiàn)出卓越的行業(yè)洞察力與前瞻性思維。
作為本次主論壇首位演講嘉賓,陳開冉深入剖析高質(zhì)量數(shù)據(jù)集在AI發(fā)展進(jìn)程中的核心價(jià)值,為大模型在千行百業(yè)的應(yīng)用落地提供了清晰可行的“數(shù)據(jù)破局”路徑,引發(fā)嘉賓的廣泛關(guān)注與熱烈反響。
01高質(zhì)量數(shù)據(jù)集“高標(biāo)號(hào)汽油”,為AI產(chǎn)業(yè)落地賦能
人工智能浪潮席卷全球,數(shù)據(jù)作為驅(qū)動(dòng)AI發(fā)展的“新石油”,其戰(zhàn)略地位已毋庸置疑。而在陳開冉看來,高質(zhì)量數(shù)據(jù)集更是如同“高標(biāo)號(hào)汽油”,直接決定AI模型性能與應(yīng)用效果。
“人工智能已從‘以模型為中心’轉(zhuǎn)向‘以數(shù)據(jù)為中心’,”陳開冉引用吳恩達(dá)等學(xué)者的觀點(diǎn)強(qiáng)調(diào),“高質(zhì)量標(biāo)注數(shù)據(jù)是釋放AI價(jià)值的關(guān)鍵,直接決定了大模型的應(yīng)用效果與產(chǎn)業(yè)落地能力。只有經(jīng)過深度治理、精準(zhǔn)標(biāo)注的高質(zhì)量數(shù)據(jù),才能讓AI真正服務(wù)于產(chǎn)業(yè)實(shí)踐。”
02高質(zhì)量數(shù)據(jù)集解決“幻覺”,讓大模型從“通才”變“專才”
盡管大模型技術(shù)日新月異,但其在產(chǎn)業(yè)落地中仍面臨兩大核心痛點(diǎn),而高質(zhì)量數(shù)據(jù)集正是破解這些難題的關(guān)鍵。
1.解決“幻覺”問題:以權(quán)威數(shù)據(jù)筑牢模型可信度
大模型本質(zhì)是概率模型,“幻覺現(xiàn)象”(生成錯(cuò)誤或無依據(jù)信息)成為其落地行業(yè)的重要障礙,尤其在缺乏專業(yè)數(shù)據(jù)支撐時(shí)更為凸顯。陳開冉指出:“高質(zhì)量數(shù)據(jù)集能為模型提供權(quán)威依據(jù),從源頭減少‘無中生有’的錯(cuò)誤!蓖ㄟ^專業(yè)領(lǐng)域的高質(zhì)量數(shù)據(jù)集,可讓大模型輸出的信息有跡可循、有據(jù)可依。
2.突破“專業(yè)壁壘”:讓大模型從“通才”進(jìn)階“專才”
通用大模型雖能應(yīng)對(duì)基礎(chǔ)問題,卻在垂直行業(yè)的專業(yè)場景中“力不從心”。陳開冉解釋:“大模型在專業(yè)問題上的表現(xiàn),高度依賴垂直行業(yè)領(lǐng)域數(shù)據(jù)。只有融入行業(yè)專識(shí)數(shù)據(jù),大模型才能真正理解產(chǎn)業(yè)細(xì)節(jié),給出有價(jià)值的答案!
高質(zhì)量數(shù)據(jù)集正是打通這一壁壘的核心——通過注入行業(yè)知識(shí)、業(yè)務(wù)邏輯等專屬數(shù)據(jù),推動(dòng)大模型從“全而不精”的“通才”,轉(zhuǎn)變?yōu)椤皩6鴥?yōu)”的“行業(yè)專家”。
03曠湖數(shù)據(jù)云構(gòu)建大模型時(shí)代的高質(zhì)量數(shù)據(jù)底座
面對(duì)大模型對(duì)數(shù)據(jù)的高要求,以及針對(duì)企業(yè)在數(shù)智化轉(zhuǎn)型中“數(shù)據(jù)整合難、調(diào)用難”的痛點(diǎn),陳開冉詳細(xì)介紹了漢數(shù)科技推出的“曠湖”高質(zhì)量數(shù)據(jù)集平臺(tái)——這一平臺(tái)正是基于高質(zhì)量數(shù)據(jù)云所必備的“輸入輸出標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量高、適配大模型調(diào)用、高并發(fā)高性能、計(jì)費(fèi)方式靈活”五大核心能力構(gòu)建,為企業(yè)的行業(yè)大模型訓(xùn)練和應(yīng)用落地提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
1、全場景數(shù)據(jù)生態(tài):覆蓋18大垂直領(lǐng)域的“數(shù)據(jù)百科”
曠湖數(shù)據(jù)云整合了3.8億+企業(yè)、25萬+樓宇、30億+商品等海量數(shù)據(jù),覆蓋工商企業(yè)、實(shí)體制造、零售門店、產(chǎn)業(yè)招商、宏觀經(jīng)濟(jì)等18大垂直領(lǐng)域。通過統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)、分級(jí)治理體系與實(shí)時(shí)質(zhì)量監(jiān)控,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的高可信融合,為AI大模型提供“權(quán)威可信”的全場景數(shù)據(jù)供給。
2. “三段式”對(duì)接:讓數(shù)據(jù)獲取從“復(fù)雜開發(fā)”到 “簡單配置”
傳統(tǒng)數(shù)據(jù)對(duì)接流程復(fù)雜、周期長,難以適配敏捷的AI開發(fā)需求。曠湖創(chuàng)新“三段式數(shù)據(jù)對(duì)接”模式,將數(shù)據(jù)獲取簡化為:創(chuàng)建數(shù)據(jù)對(duì)接器(配置基礎(chǔ)信息,支持API、文件等多形式)、篩選數(shù)據(jù)范圍(利用上千個(gè)條件精準(zhǔn)框定)、選擇數(shù)據(jù)字段(在萬級(jí)維度中自由勾選,實(shí)時(shí)計(jì)價(jià)交付),大幅降低企業(yè)數(shù)據(jù)獲取門檻。
3. MCP服務(wù)市場:打通大模型落地“最后一公里”
當(dāng)大模型開始“無所不能”,卻卡在“最后一公里”,缺少連接內(nèi)外部數(shù)據(jù)與工具的標(biāo)準(zhǔn)化方式。為解決大模型實(shí)時(shí)調(diào)用高質(zhì)量數(shù)據(jù)的難題,曠湖利用多場景高質(zhì)量數(shù)據(jù)集,通過MCP服務(wù)跨越大數(shù)據(jù)與大模型的鴻溝。
目前,曠湖數(shù)據(jù)云已與字節(jié)、阿里、百度等頭部大模型廠商深度合作,并且上架火山引擎、百度千帆、阿里百煉、Github等知名大模型平臺(tái),為企業(yè)提供更豐富的調(diào)用方式。
“我們希望通過高質(zhì)量數(shù)據(jù)集,助力行業(yè)大模型解決幻覺問題,哪怕是在專業(yè)的應(yīng)用場景中,也能給出令人滿意的答案;同時(shí)積極擁抱各大模型生態(tài),降低數(shù)據(jù)調(diào)用門檻,更好地適配大模型的應(yīng)用場景!标愰_冉總結(jié)道。
從“新石油”到“高標(biāo)號(hào)汽油”,“通才”到“專才”,“數(shù)據(jù)孤島”到“數(shù)據(jù)即服務(wù)”,漢數(shù)科技以曠湖數(shù)據(jù)云為支點(diǎn),撬動(dòng)大模型落地千行百業(yè)的無限可能。未來將持續(xù)拓展數(shù)據(jù)覆蓋的廣度與深度,攜手合作伙伴構(gòu)建開放共贏的數(shù)據(jù)生態(tài),驅(qū)動(dòng)產(chǎn)業(yè)生產(chǎn)力發(fā)展。