專題:2024中國AIGC創(chuàng)新發(fā)展論壇

孫洪軍:不斷研究如何減少大模型幻覺、讓邏輯全流程推理更好  第1張

  2024年服貿(mào)會專題活動之一——“第六屆中國金融科技論壇”于9月12日-13日在北京舉行。軟通動力信息技術(shù)(集團)股份有限公司金融事業(yè)群助理副總裁孫洪軍出席并演講。

  孫洪軍指出,金融行業(yè)各層面對大模型有了統(tǒng)一認識后,就可以快速推動企業(yè)內(nèi)部的轉(zhuǎn)型。但他也強調(diào),大模型是數(shù)學邏輯上的推理,因此,肯定會產(chǎn)生幻覺,“它回答100個問題,90個問題回答正確,但10個問題有可能會產(chǎn)生幻覺”。

  孫洪軍表示,大模型提供商也在不斷研究如何減少幻覺、讓邏輯全流程推理的更好。“我們在針對一些業(yè)務(wù)場景時,必須要消除一些幻覺,因為我們最終業(yè)務(wù)不知道來源,普通用戶包括我們自己內(nèi)部員工沒有全景,沒有大的判斷力,如果你給出了90個認為是對的,突然出現(xiàn)一個幻覺或者兩個幻覺,認為是一個錯誤的問題,會認為也是對的,有可能對業(yè)務(wù)帶來一些潛在危險和損失”。

  “業(yè)務(wù)層面目前可以解決這些問題,但是有代價的,有可能會對大模型本身訓練的一些知識會做一些放棄。也就是說我們會在應(yīng)用方面會做更多的付出”,他說。

  以下為演講實錄:

  孫洪軍:剛才聽兩位領(lǐng)導講的科技金融、科技創(chuàng)新,郵儲銀行也專門講了AIGC、AI大模型應(yīng)用,我們也是郵儲客戶,我們也深度參與了。今天我要講的是什么?2023年GPT出來之后,我們跟很多金融機構(gòu)不斷合作,很多案例不斷落地,我們做了很多場景,有的客戶在用,但越做的時候我個人思考就越多,包括未來挑戰(zhàn)也就越大,所以今天話題里面更多分享一下我們在做的過程中我們遇到什么問題,我們怎么來考慮這個問題的,包括未來大模型應(yīng)用、算力這一塊到底是什么情況。

  我的片子分為幾個部分:第一部分是理論思考。第二部分是我們的案例,從技術(shù)或者從應(yīng)用的遠景來看有一些共同性特點的案例。最后引入我們的思考在里面。

  實際上大模型在一年多的時間里,各個行業(yè)包括各個企業(yè)無論是金融還是制造業(yè)都在應(yīng)用,其實這里面有很多挑戰(zhàn),包括每個企業(yè)用AI推動我們的應(yīng)用時,都會存在一些問題需要去思考。

  第一,大模型不是100%準確的,問題的確定性在金融行業(yè)是特別關(guān)注的,數(shù)據(jù)必須是準的,不能一本正經(jīng)的胡說八道,那怎么來解決這些問題?

  第二,大模型是個黑盒子,怎么知道他給出的答案確實是正確的,決策鏈條是什么,決策的可解釋性,無論是內(nèi)部員工還是外部客戶都覺得這個決策鏈條是可信的。

  第三,大模型以前更多是一種語義推理、邏輯推理,現(xiàn)在我們逐步在往數(shù)據(jù)跟數(shù)字化結(jié)合轉(zhuǎn)型起來看,更強調(diào)的是數(shù)學計算能力。以前我們做的大屏、決策等等更多是數(shù)字化的。

  第四,對于一個更大企業(yè)思考一個更大挑戰(zhàn)是什么?是技術(shù)快速迭代,算力、芯片的快速迭代,大模型能力的快速迭代,我們應(yīng)用開發(fā)的快速迭代。

  第五,你的建設(shè)和你的投入成果預期的平衡。綜合來看你的成本怎么去規(guī)劃,這些都是需要去思考。

  第六,還有一塊是數(shù)據(jù)安全和隱私。大模型廠商包括在座各位很多人會用網(wǎng)上API的應(yīng)用,那些數(shù)據(jù)各大廠商會留。所以我們內(nèi)部會用哪些敏感數(shù)據(jù),哪些必須網(wǎng)上去用,哪些必須私有化用,這些需要區(qū)分。

  所有做大模型應(yīng)用服務(wù)的,都會有類似的架構(gòu)。我想說的,作為軟通動力來講有有什么?我們有一層算力,這是第一。第二,我們有技術(shù)軟件,操作系統(tǒng)、數(shù)據(jù)庫。我們不具備的是什么?我們不具備大模型,這是大模型廠商的。除了大模型這一層,我們網(wǎng)上應(yīng)用,包括我們跟客戶二十多年長期合作過程中有大量業(yè)務(wù)場景和客戶一起探討,這是軟通在金融行業(yè)的一個情況。

  下面十幾個案例,第一方面是大模型目前在業(yè)內(nèi)用的,大家相對都比較認可了,就是研發(fā)領(lǐng)域提高IT的開發(fā)效率,這不光是一個開發(fā),實際上涉及到我們的需求、需求解決,需求設(shè)計文檔,大模型可以直接提煉需求用戶故事,直接生成代碼。去年大模型還有限制,4K、8K,現(xiàn)在長度可以放到128K,代碼生成對軟件工程整個領(lǐng)域的改造帶來的價值是很大的。

  這是我們的一個應(yīng)用效果,在銀行的實際應(yīng)用,從去年9月份就開始去用了,用的過程中一直到現(xiàn)在不斷迭代,大規(guī)模需求結(jié)束是在今年年初1月份,現(xiàn)在已經(jīng)穩(wěn)定快9個月了,在實際應(yīng)用效果中確實能極大提高開發(fā)的效率,整個IT里面開發(fā)的效率。這里面最有意思的一個事情是,我們永遠不知道一個事情,無論你的產(chǎn)品設(shè)計的多么好,或者你開始的理念設(shè)計的多么好,但真正把這個產(chǎn)品用到極致的一定是我們的用戶,我們的用戶跟我們說,在這個代碼輔助或者需求解讀或者等等方面的情況,大家用的最好的場景是什么?是以前有大量的項目,很多人不懂,這時候要做數(shù)字化轉(zhuǎn)型,轉(zhuǎn)成微服務(wù)的,cover如何去轉(zhuǎn)成這樣的情況,而是要工程性的、系統(tǒng)性的,不是我們寫幾個代碼,或者我們讓代碼生成,我們用戶跟我們反向輸出了一條實時工藝,這是挺有意思的一件事情。

  第二個領(lǐng)域,在AIGC生成圖、生成視頻、生成文生圖包括文案創(chuàng)作,這個可能是比較小眾的事情,但跟客戶交流中我們發(fā)現(xiàn),我們在文生圖或者文生視頻有時候決定了你推出一個的速度,比如我們?nèi)プ霎a(chǎn)品宣傳,決策節(jié)點很多時候是外包的,或者外部設(shè)計公司要求出一個圖或者出一個海報,是最快的,可能得需要兩三天。在現(xiàn)在效率為王的年代,誰先推出第一個包括誰能及時的去調(diào)整,這是一個很大的場景。我們走了很多城商行,城商行對我們這塊需求很大,在UI包括行業(yè)服務(wù)的時候覺得人不多,七八個人負責整個手機銀行UI工作,但憶秦速度很慢,最關(guān)鍵的是文生圖,可以把一個企業(yè)文化要素通過大模型進行初步訓練,再通過應(yīng)用你對企業(yè)的理解,產(chǎn)生的圖確實是符合你企業(yè)文化的。這點是外部設(shè)計公司完全取決于人的能力是不太一樣的,進行了一些變化。我們二十四節(jié)氣,軟通動力公司內(nèi)部的二十四節(jié)氣都是利用AI來做的。

  而且還有一個變化,現(xiàn)在說用大模型應(yīng)用對算力要求很高,但文生圖對算力要求其實很低,最關(guān)鍵的是昇騰、910B這種高算力的,這種卡還是沒辦法做這件事情,我們需要傳統(tǒng)4090、4080普通的卡就可以,為什么它可以,因為在圖的渲染里面已經(jīng)圍繞著家數(shù)來做的。機械革命一臺筆記本一萬多塊錢,就可以快速地去做這件事情。這是一個場景。

  第二個場景是我們給銀行做的行史助手,把行里資料、知識傳上去記錄下來就可以了,但這個是由行器做的,2009年成立到2024年所有信息都上傳進去,包括機構(gòu)信息、人物信息、大使級、金融業(yè)務(wù)、文化建設(shè)、規(guī)章制度、財務(wù)數(shù)據(jù)、合規(guī)制度等數(shù)據(jù)信息,我們認為這些是知識,這些知識有可能有重疊的,有可能一個人的變遷在不同文檔里面都有,類似我們以前做數(shù)字化轉(zhuǎn)型、做數(shù)據(jù)中臺、做大數(shù)據(jù)平臺,我們需要去做知識梳理,但時間很緊,整個知識梳理大概只用了兩周時間,當然有些確實也沒有完全說這個知識是隔離的,只在一個地方出現(xiàn)的情況,但我們兩天時間就滿足了客戶提出的要求,說你回答的問題要么是準的、要么就不說,要是準的則必須是全的。比如郵儲和民生總行部門很多,總行一級部門有哪些,負責人是誰、主要負責的事項是什么,這些分布在不同的知識里,讓它有順序的輸出來,這個其實很有挑戰(zhàn)性。大家可以把這些知識放到大模型去推理,可能推出完整的,但順序不對;有的可能推不出完整的。這是我們做的行史,不光是檢索,也可以生成產(chǎn)品營銷的一些文案,包括撰寫感謝信或者撰寫一些其他的東西,都是可以的,不光是檢索,可以根據(jù)行里提供的資料去學習、去寫出來。

  這是咱們總結(jié)出來的一些,回答了開始的挑戰(zhàn),基本實現(xiàn)“白盒”,就是我知道這個知識哪兒來的,也知道大模型是根據(jù)什么推理出來的,這里面是我們行史在這塊的總結(jié)。

  第三個場景是AI的寫作,大家對AI寫作覺得無非是讓大模型幫我寫一篇報告的情況。但如果把這個場景擴了一下,要跟我們實際的應(yīng)用數(shù)據(jù)結(jié)合起來寫就有一定難度了。比如數(shù)據(jù)大數(shù)據(jù)平臺、大數(shù)據(jù)中臺,信貸數(shù)據(jù)、營銷數(shù)據(jù)都在里面,如果需要根據(jù)現(xiàn)有數(shù)據(jù)寫一篇新的報告或者營銷報告,里面有數(shù)據(jù)庫里的數(shù)據(jù),也有市場的形勢分析,這里面如何讓它自動化做這件事情,而且要準,這是我們在場景里嘗試去做的一件事情。

  這里面其實可以分為兩個點,第一個點,傳統(tǒng)取數(shù)據(jù)小模型或者小規(guī)則的方法很重要,也是很準。第二點,充分發(fā)揮大模型對數(shù)據(jù)的變化趨勢或者結(jié)合行業(yè)的信息,它的推理的總結(jié)能力。這塊就可以把報告很快寫出來,當然也涉及到報告里面對Agent的定義,就是說文檔結(jié)構(gòu)應(yīng)該是怎么去做的,哪些提示詞怎么去寫,然后自動化去輸。這是AI寫作的一個場景。

  當然還有很多,時間關(guān)系我就不去講了。

  這里面有些問題,我們在做過程中有一定的結(jié)論,有些在思考中。第一個,現(xiàn)階段的大模型不是一個發(fā)動機,我們都說第四代的工業(yè)革命過來了,創(chuàng)新過來了,但是在目前大模型也在不斷地創(chuàng)新,算力的短缺短時間也不太好解決。而且整個社會對大模型的認知還需要時間,所以說現(xiàn)階段大模型應(yīng)用不是一個發(fā)動機,而是一個加速器。這個加速器,我們分析每個業(yè)務(wù)環(huán)節(jié),哪些業(yè)務(wù)環(huán)節(jié)可以急速提高效率,比如客戶領(lǐng)域,以前客戶只能接20個電話,因為大量時間要寫報告,我們引入語音、引入我們的智能總結(jié),嵌入到客戶里面,那可能一天能接100個電話。這個是銀行客戶自己實踐的。所以這里面是個加速器,沒有改變我們原有的IT流程,也沒有改變我們的業(yè)務(wù)流程,但它極大提升了效率。

  第二個,針對一些企業(yè)在初創(chuàng)過程中到底是建一個平臺,還是直接上來就應(yīng)用,還是找一個切入點?我們的意見是先建一個平臺,去提供服務(wù)能力,在平臺上找一個點去把行里或者企業(yè)內(nèi)部所有對大模型的認知,從普通公眾的認知,一本正經(jīng)的胡說八道轉(zhuǎn)變成可以它可以精準地去控制、可以去提出的情況。

  第三個,如果從切入點來講,我們建議通用助手的意義遠遠大于現(xiàn)在專業(yè)助手的意義,去訓練一個垂直領(lǐng)域大模型,沒有通用能力建立起來后不是先去做垂直訓練,先做細節(jié),不會考慮更多的全景。

  第四個,外部推廣的時候,金融的話建議從APP角度去感受,無論是風控、營銷還是合規(guī),從APP,從內(nèi)部到外部的情況去做。

  第五個,這個事情也急不得,但我們又要不斷地去做,用一句話來講,如水滲透到金融行業(yè),滲透進去之后,各個層面對大模型產(chǎn)生統(tǒng)一認識之后就可以快速地去推動整個企業(yè)內(nèi)部的轉(zhuǎn)型。

  在做的過程中還有一些很有意思的問題,大模型是一個數(shù)學邏輯上的推理,肯定會產(chǎn)生幻覺,它能回答100個問題,90個問題回答正確,但10個問題有可能會產(chǎn)生幻覺。大模型提供商也不斷地如何減少幻覺、如何讓邏輯全流程推理的更好。我們在針對一些業(yè)務(wù)場景時必須要消除一些幻覺,因為我們最終業(yè)務(wù)不知道來源,普通用戶包括我們自己內(nèi)部員工沒有全景,沒有大的判斷力,如果你給出了90個認為是對的,突然出現(xiàn)一個幻覺或者兩個幻覺,認為是一個錯誤的問題,會認為也是對的,有可能對業(yè)務(wù)帶來一些潛在危險和損失。業(yè)務(wù)層面目前可以解決這些問題,但是有代價的,有可能會對大模型本身訓練的一些知識會做一些放棄。也就是說我們會在應(yīng)用方面會做更多的付出。

  第二,目標和數(shù)據(jù)哪個更重要,其實這兩個同等重要,是相輔相成的道理,不可能因為大模型多強忽視了我們自己數(shù)據(jù)的準備工作。我們也做了一些測試,自己做大模型應(yīng)用的時候有業(yè)務(wù)平臺,網(wǎng)上也有各種像知識庫助手這樣的應(yīng)用平臺,我們把我們的數(shù)據(jù)切分好之后放到外網(wǎng),這都是脫敏的數(shù)據(jù),它的準確度和我們自己的有差距,這里面對數(shù)據(jù)的理解和你業(yè)務(wù)上去做需要相輔相成。

  第三,模型需要微調(diào),我們建議還是做一定的微調(diào),對行業(yè)知識的理解會有更大的幫助。

  第四,外掛知識庫還是長上下文。什么意思?現(xiàn)在應(yīng)用包括大模型token很長,可以傳一本書上去,十萬字、二十萬字,它馬上可以對這本書進行提問,這里面和我們外掛知識庫經(jīng)過治理的還是有區(qū)別。我們在過程中遇到比較大的問題,是圖的精準識別問題,圖的達標。比如一個員工要部門轉(zhuǎn)正,打個標,我希望它識別出來是轉(zhuǎn)正申請的標簽,但識別出來的是績效考核,因為那張表里面大部分是績效、打分、評價。所以,圖,在目前行業(yè)里是還沒有很好突破的一件事情。早上我看到一篇文章,GPT-4對圖有比較大的突破,這個我們需要進一步去調(diào)研。國內(nèi)我們還沒有看見。包括知識識別表的問題也是一個大的問題,就是表格,中國式報表,人看起來沒有問題,但機器去讀懂而且不能出錯,表格里面都有數(shù),這是一個比較大的挑戰(zhàn),我們做了一些探討,再針對那些表格來講是100%,但針對合并單元格這種特別多的情況下,人讀起來比較費勁,大模型也解決不掉,這需要我們做額外的處理。

  第五,在企業(yè)應(yīng)用的時候經(jīng)常面臨這樣的問題:大模型有開源的和閉源的,怎么選?開源好處是便宜,不花錢,閉源的是花錢,但效果更好一些,啟動后續(xù)服務(wù)會更好。我們的建議是什么?當你去嘗試一個事情的時候,你可以選擇開源;當你上規(guī)模的時候還是應(yīng)該選擇閉源,提供更好的服務(wù)。當你上規(guī)模的時候有體系化的要求,對大模型廠商有定制化的要求,這是我們的建議。

  第六,大模型的項目誰牽頭?我們建議是業(yè)務(wù)牽頭,因為業(yè)務(wù)知道哪些地方需要改進、哪些地方需要提效,科技上不知道這個事情。

  第七,無論是代碼推、語義推理還是文生圖推理都存在一個普遍的問題,就是知識召回不足的問題,無論是采取知識庫還是采取其他手段,我們召回的長度總是有限制的,現(xiàn)在主流的,市面上用到主梁的是32K,最大的是128K,32K要去推問要提示詞,召回還要加上推理內(nèi)容,32K其實并不多。所以有些信息召回不了,推理就會缺失,這個問題需要引入更多的Agent,要從大Agent向小的Agent處理邏輯去固化。推理深度不夠的問題需要提升大模型的能力,它的數(shù)學的一些算法。

  這是我們在過程中的一些思考,實際上我們還強調(diào)一點,大模型來了,原來系統(tǒng)是不是都廢掉了?都更新掉了?我們做的過程中都不是的,這些是相輔相成的,以前IT系統(tǒng)無論是風控還是營銷都是把人的規(guī)則、專家規(guī)則、業(yè)務(wù)規(guī)則都固化下來,有答案,尋找起來比較困難。大模型是交互很簡單,我想要什么,一個語音或者一段話告訴我就好了,交互變得很快。但我們在實際做的過程中這兩個完全可以結(jié)合起來去做,很多很精準的,以前做到系統(tǒng)里面很多邏輯可以作為大模型的一些規(guī)則,甚至當成一些小模型來用,這里面結(jié)合起來,把整個大模型在業(yè)務(wù)的創(chuàng)新和以前IT建設(shè)留下來的資產(chǎn)很好的利用起來。這是我們的建議。

  另外一個簡易師什么?我們還是需要以AI中臺來連接算力和應(yīng)用,從規(guī)劃上來講,是需要把它隔離出來的,比如說我們在一個企業(yè)內(nèi)部來建設(shè)的話,可能有很多算力,可能會采取很多模型,因為不同大模型的能力是不一樣的,那你需要去解耦。第二點,當你在企業(yè)內(nèi)部上了一個大模型應(yīng)用的時候,會發(fā)現(xiàn)同類型的應(yīng)用可以快速復制、快速搭建的,我做了合規(guī)制度檢索就可以去做風控制度的檢索,我做了報告撰寫就可以做營銷報告撰寫,雖然業(yè)務(wù)內(nèi)容不一樣,但我們從技術(shù)上去看是一樣的,這里需要行強大的AI中臺,把共同的東西適配、增強技術(shù)、模型適配,叫Agent也好或者業(yè)務(wù)權(quán)限,通過組件方式、搭積木方式去搭建出來。從我們自己經(jīng)驗來講,有了中臺之后,去搭一個知識庫同類質(zhì)來講,時間就是耗在知識整理上了。

  同時我們在不同場景里面也總結(jié)了一些情況,不是所有的東西、所有產(chǎn)品都要追求高算力,要結(jié)合自己的實際業(yè)務(wù)場景,比如圖生文、AIPC,一個筆記本就可以了,要求簡單,不需要負責推理的,一般一個臺式機就可以。如果需要垂類或者代碼推理,華為昇騰機器就可以。但對數(shù)據(jù)要求特別高的可以上一些910,國內(nèi)情況是不一樣的。

  這是軟通動力在整個環(huán)節(jié)里面,包括適配、遷移、運維以及場景開發(fā)、模板定制我們提供全方位服務(wù),最后打了廣告,謝謝大家。

  新浪聲明:所有會議實錄均為現(xiàn)場速記整理,未經(jīng)演講者審閱,新浪網(wǎng)登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。