達(dá)觀數(shù)據(jù)的“曹植”大模型最近升級到7.4版本,經(jīng)過層層迭代,這一金融垂類大模型逐漸展現(xiàn)出“驚鴻”之才:作為“考生”,“曹植”已順利通過CFA(特許金融分析師)考試,專業(yè)技能獲得認(rèn)可;作為“員工”,“曹植”已在各大銀行、券商等機構(gòu)默默“上崗”,以智慧的長文本輸出,幫助金融從業(yè)人員將繁雜的工作變得高效。

達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人紀(jì)傳?。涸僭臁安苤病保芡ń鹑诖竽P唾惖? 第1張

紀(jì)傳?。ㄓ叶ьI(lǐng)團隊攀越文本智能的一座座高山

(圖片來源:文匯報)

有人說,大模型的“下半場”是落地應(yīng)用。達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人紀(jì)傳俊帶領(lǐng)近60人的團隊投身于這場數(shù)字化、智能化浪潮,以大模型的能力解決金融行業(yè)“痛點”,成為上海城市數(shù)字化轉(zhuǎn)型的實踐者和推動者。

01

“四倍速”里的加與減

大模型時代,把行業(yè)競爭推向“四倍速”——從英特爾時代的每18個月成長一倍“快進(jìn)”到現(xiàn)在的每年成長4倍。身處“四倍速”的競爭中,達(dá)觀數(shù)據(jù)有自己的先發(fā)優(yōu)勢:基于大模型底座的技術(shù)能力和金融專業(yè)數(shù)據(jù),去年推出“曹植”大模型。紀(jì)傳俊如此形容它的特長:“曹植七步成詩,其代表作《洛神賦》則是文采斐然的長文本經(jīng)典?!苤病膶iL就是做金融領(lǐng)域長文檔資料智能化的分析寫作?!?/p>

達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人紀(jì)傳俊:再造“曹植”,跑通金融大模型賽道  第2張

大模型“出生”是第一道關(guān),在“四倍速”的競爭環(huán)境里,如果什么都抓,反而什么都抓不住,唯有走向?qū)>獠拍苊摲f而出。但這道“加減法”,考驗的是團隊領(lǐng)導(dǎo)者的精準(zhǔn)判斷。

紀(jì)傳俊還記得當(dāng)時放在眼前的這道選擇題:“曹植”已確定要跑金融賽道,但大模型面臨的幻覺問題又與金融的嚴(yán)謹(jǐn)性相悖,在兩者之間“搭橋”,紀(jì)傳俊決定做加法?!拔覀兒茉缇烷_始研究大模型的邊界,第一時間決定研發(fā)RAG(檢索增強生成)。”他當(dāng)時很快拍板組建小分隊,在一周內(nèi)就把RAG的初級版本搭建出來,并在之后兩個月內(nèi)建立起業(yè)內(nèi)最早帶溯源的知識問答系統(tǒng),最終沉淀成后續(xù)產(chǎn)品的基礎(chǔ)。

“今天,RAG被證明是解決幻覺和安全性問題的有效方案,但在當(dāng)時,一切都是摸著石頭過河?!彼f,達(dá)觀數(shù)據(jù)對B端做了很多技術(shù)性改造,反映在最新的版本中,“曹植”的寫作能力更強了,而這種寫作并非開放式生成,而是能結(jié)合數(shù)據(jù)、報告、歷史材料整理后,輸出符合銀行、券商要求的可控生成,不僅具備從理解到生成的“思考”能力,也限制了“無序的想象力”。

達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人紀(jì)傳?。涸僭臁安苤病?,跑通金融大模型賽道  第3張

“曹植”大模型賦能多行業(yè)應(yīng)用

(圖片來源:達(dá)觀數(shù)據(jù))

除了加法外,也要做減法。紀(jì)傳俊說,最大的減法是技術(shù)路線的選擇。在大模型出來之前,好幾條技術(shù)路線都在向前延展,當(dāng)時達(dá)觀數(shù)據(jù)主攻的是BERT模型,這是一種預(yù)訓(xùn)練模型,在小模型階段的閱讀理解表現(xiàn)優(yōu)異,且成本較低。但當(dāng)大模型技術(shù)出現(xiàn)之后,紀(jì)傳俊反復(fù)比較,毅然決定放棄BERT模型路線,“做這樣的決定很艱難,當(dāng)時也不知道是對是錯,但現(xiàn)在看來,全力以赴轉(zhuǎn)到大模型是一個正確選擇?!?/p>

02

十年的堅守與奔跑

翻閱紀(jì)傳俊的履歷,簡單而清晰。作為復(fù)旦大學(xué)計算機專業(yè)碩士畢業(yè)生的他,是達(dá)觀數(shù)據(jù)的初創(chuàng)團隊成員之一,十年磨一劍,他始終堅守在技術(shù)開發(fā)的第一線。

達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人紀(jì)傳俊:再造“曹植”,跑通金融大模型賽道  第4張

“我一直在關(guān)注文本智能的研發(fā)方向,堅持算法技術(shù)與實用性結(jié)合的路徑?!被赝^去10年,紀(jì)傳俊坦言,技術(shù)的發(fā)展一日千里,文本智能的發(fā)展也越過了一座座看似難以攀登的高山,從文檔資料輸入到專業(yè)長文檔輸出,“一進(jìn)一出”之間有很高的技術(shù)門檻,涉及計算機科學(xué)、人工智能、語言學(xué)等交叉領(lǐng)域,比如:機器要首先識別文檔種類、進(jìn)行版面分析、表格等特殊結(jié)構(gòu)處理、印章處理等。而今年,企業(yè)正全力打造“曹植”的多模態(tài)能力,讓“曹植”更加智能。

達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人紀(jì)傳?。涸僭臁安苤病?,跑通金融大模型賽道  第5張

在堅守既定目標(biāo)的同時,也要快速奔跑?!白鲞@個行業(yè),不能一成不變,要有擁抱變化的心態(tài)。”紀(jì)傳俊說,去年12月,在他的牽頭下,達(dá)觀數(shù)據(jù)與復(fù)旦大學(xué)攜手共建“金融垂域應(yīng)用大模型校企聯(lián)合研究中心”,共同探索新的技術(shù)領(lǐng)域、解決實際問題,推動技術(shù)創(chuàng)新和進(jìn)步。

達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人紀(jì)傳俊:再造“曹植”,跑通金融大模型賽道  第6張

今年世界人工智能大會期間,達(dá)觀數(shù)據(jù)與復(fù)旦大學(xué)金融科技研究院、國泰君安、燧原科技達(dá)成協(xié)議,四方簽署戰(zhàn)略合作協(xié)議,共同推進(jìn)基于國產(chǎn)算力的金融行業(yè)大模型研發(fā)與應(yīng)用。

作為計算機與金融復(fù)合型人才,更多時候,紀(jì)傳俊奔跑在業(yè)務(wù)一線。他喜歡去現(xiàn)場和客戶打交道,在交流間體會對方的個性化需求,然后思考業(yè)務(wù)的匹配度。比如,“曹植”的最強技能之一,是在自然語言交流中判斷業(yè)務(wù)流程、內(nèi)部審計的合規(guī)問題。紀(jì)傳俊說,他在業(yè)務(wù)一線交流時,經(jīng)常會聽到機構(gòu)員工吐槽,查一個條例、規(guī)則需要花半天時間。這給了他新的啟迪。如今,機構(gòu)員工只需對著“曹植”闡述情況,大模型就會給出有著溯源功能的初步判斷,大大節(jié)省了時間。

十年如一日的技術(shù)積淀與匠心堅守,換來今天金融垂類大模型的高速成長。紀(jì)傳俊判斷認(rèn)為,如今大模型應(yīng)用落地百花齊放,明年一定會跑出一批“滬產(chǎn)大模型”,他期待“曹植”也能成就“仙才”之名。

人物小傳

紀(jì)傳俊,達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人,上海市人工智能高級工程師職稱獲得者,中國計算機學(xué)會(CCF)會員;負(fù)責(zé)達(dá)觀數(shù)據(jù)信息挖掘和金融智能產(chǎn)品研發(fā),擁有10年以上架構(gòu)設(shè)計和產(chǎn)品研發(fā)管理工作經(jīng)驗;上海市青年科技啟明星獲得者,獲得2023上海城市數(shù)字化轉(zhuǎn)型“智慧工匠”提名。

(轉(zhuǎn)自:你好張江)