老师办公室狂肉校花h,熟女体下毛毛黑森林,一个人在线视频免费观看WWW,年轻护士的滋味中文字幕

清博智能王歡:實時接入結構化數據的大語言模型是如何練成的?
原創
2023-06-27 20:15 星期二
科創板日報記者 徐賜豪
①從底層做個大模型有兩個關鍵點:一個是算力,一個是數據質量;算力的大小直接限制參數的大小,數據的質量決定了模型的好壞。
②先問基于2000億開源數據集、百萬級專業人工數據集,具有數據可溯源、實時同步、可視化分析、多參數版本特點,同時支持用戶本地化部署。

《科創板日報》6月27日訊(記者 徐賜豪) 今年以來,百度、360、阿里巴巴、科大訊飛等互聯網巨頭相繼發布自己的通用大模型,儼然形成了“千模大戰”局勢。

此外,更多垂直行業企業也加入了這場“狂熱”。日前,在中國江寧2023元宇宙產業·人才高峰論壇暨AIGC發展大會上,清博智能科技有限公司發布了針對融媒體行業的首個實時接入全網結構化數據的大語言模型——“先問”。

本期《元宇宙之約》我們對話了清博智能技術副總裁王歡。其在大數據與AI領域有十多年的從業經驗,其負責設計與研發的清博輿情平臺服務數十萬用戶,并且在一站式自動機器學習平臺、智能對話平臺的構建與研發有豐富的實踐經驗。

他透露,先問核心團隊有10多人,主要來自包括來自清華、中科大、合工大、華盛頓大學等國內外知名高校的技術人員。先問基于2000億開源數據集、百萬級專業人工數據集,具有數據可溯源、實時同步、可視化分析、多參數版本特點,同時支持用戶本地化部署。

在他看來,從底層做個大模型有兩個關鍵點:一個是算力,一個是數據質量;算力的大小直接限制參數的大小,數據的質量決定了模型的好壞。

image

我們注意到先問大模型提到數據可溯源,這個怎么來理解?

王歡:“先問”給了用戶“溯源”的權利。對于AI給出的每一句回答,用戶都可以單獨查詢它的來源。對于需要使用AI來產出正式內容的用戶,這種方式雖然會多花些時間,但能核實真實度。

在模型回答問題的實時性上,先問跟ChatGPT的不同在哪里?

王歡:比如你問ChatGPT對于埃隆馬斯克最近訪華怎么看,因為它是基于2018年那次訪問回答的,這個就不準確。當然ChatGPT可以基于插件來回答。

我們跟ChatGPT最大的差別是,我們的數據是結構化的。我知道哪些媒體的權重高,哪些媒體數據的質量更高。以及這些內容是否符合社會價值觀,包括正負面信息都可以被篩選出來。底層數據都會根據我們制定的200多個數據標簽分類好。

我們基于這些結構化的數據就可以很好召回用戶想要的數據。然后再結合模型的能力,實時生成比較好的回答。這就是先問跟ChatGPT的最大不同。

結構化數據和非結構化數據有何不同?

王歡:非結構化數據,比如說你現在訪問的網頁,你只看正文部分它就是文本,它的內容就是原始正文。搜素引擎看的就是原始正文,給它訓練的數據也是原始正文。

結構化數據不僅知道它的原始正文信息,還對這些信息做了結構化處理,包括發布提及的地域信息、文本分詞信息、內容分類以及正負面;另外還有發布的作者信息,比如發布媒體的畫像、權重等信息。這樣你可以找回一些質量更高或者可信度更高的信息。

先問如何兼顧模型的回答與人類價值觀相對齊兩個問題?

王歡:第一,本身數據源就很重要,因為國內的數據源基本上都是經過“審核”符合社會價值觀的。

第二,我們本身是結構化數據,對數據已經打了許多標簽,對數據是有畫像的。比如說人民日報、央視的數據內容肯定沒有問題,沒有依據的媒體的可能就不會被召回,這是數據層面。

第三,我們對模型本身做了一些無害訓練,以避免它去回答這些違反價值觀的提問,在“先問”平臺上,我們也前置了有害問題檢測模型,進一步防止模型被誘導輸出有害內容。

如何理解多模態大模型?

王歡:現在“先問”可以回答的主要還是文本,但以后其實還有圖像、視頻、音頻等回答模式。多模態的做法主要有兩種:一種是大語言模型只做語言,能理解你的需求,比如你需要畫一張畫,可以調用模型給你生成,目前這種方式比較多;另外一種就是融合性,這種模型的數據本身既包含了文本,又包含圖像、音頻、視頻,這種生成是端到端的模式。

做好大模型的關鍵在于算力和數據質量

清博智能是什么時候開始做大模型的?

王歡:在Transformer出來的時候我們就開始做生成式的語言模型了。因為我們內部也要寫報告,幾百人團隊的人力成本比較高,我們就想機器來寫。在ChatGPT火爆之前,我們嘗試了很多模型,但是效果不太好,一個是數據的問題,一個就是訓練方法不夠好,參數也不夠多,生成的報告可讀性不高。

ChatGPT大模型出來以后,我們發現它擅長寫文章,然后就采用這種模式,基于開源的基座模型結合自己的高質量報告數據,以及數據分析引擎,開發了“先問”,并且效果好了很多。

在做大模型過程中,你們團隊遇到哪些難點?又是如何克服困難的?

王歡:一個是數據本身,因為是結構化數據,怎樣召回這些數據是一個大的問題。我們要有自己的獨特算法,讓模型召回的數據質量更高。另外,它上下文的記憶長度是有限的,在有限長度之內給模型提供哪些數據,這是我們需要考慮的問題。此外就是如何讓模型理解上下文,特別是在多輪交互方面是很難的。

為了攻克這些難點,我們除了做大模型外,也做了一些小模型。數據方面比如排序模型、指數模型等,基于這些小模型讓召回的數據更加可靠。另外我們在大模型的基礎上,結合大量人工標注的數據來訓練模型對用戶意圖的理解能力,更好地理解用戶的提問意圖。

如果是100分制的話,“先問”可以達到七八十分,目前還在持續優化中。

回過頭來看,做好大模型的關鍵點在哪里?

王歡:關鍵點有兩個:一個就是算力的大小,一個就是數據質量的好壞。因為每家的底層算法其實都差不多。算力大小直接限制了參數的大小,數據的質量決定了模型的好壞。

對于做大模型來說,成本結構是怎樣的?

王歡:百分之六、七?十的成本花在算力上,人工、算法的成本比較低,其他成本就是數據標注與處理的成本,這個百分之二十左右。

訓練基座模型的成本很高,它本身需要上萬億Token的量級的數據,這個數據集的構建成本很高。但是對于垂直企業來說,比如說只是做醫療業務的,它的基座模型別人已經訓練好了,不用萬億的Token來訓練模型,這個訓練成本就低了很多。

收藏
60.08W
我要評論
圖片
歡迎您發表有價值的評論,發布廣告和不和諧的評論都將會被刪除,您的賬號將禁止評論。
發表評論
要聞
股市
關聯話題
5.27W 人關注
1.14W 人關注
1W 人關注
主站蜘蛛池模板: 班玛县| 搜索| 庐江县| 长沙县| 富民县| 南召县| 定西市| 清水县| 北票市| 长治市| 革吉县| 龙山县| 东兰县| 桂阳县| 米脂县| 成都市| 区。| 建始县| 蓬溪县| 进贤县| 常宁市| 宣恩县| 汉沽区| 江北区| 冀州市| 河南省| 黑龙江省| 佳木斯市| 清流县| 玉林市| 延川县| 青川县| 本溪市| 阿坝| 白朗县| 红安县| 桦甸市| 布尔津县| 蓝田县| 土默特左旗| 桐城市|