本研究在前期報告《GPT因子工廠:多智能體與因子挖掘》(20240220)的基礎(chǔ)上,將大模型因子挖掘擴(kuò)展至基本面與高頻因子挖掘場景。本文繼續(xù)沿用前期報告中的多智能體架構(gòu),核心改變在于針對基本面與高頻因子定制化設(shè)計算子,以盡可能保證因子表達(dá)式的合乎邏輯。從結(jié)果上看,GPT因子工廠2.0在基本面因子挖掘中表現(xiàn)尚可,在高頻因子挖掘中表現(xiàn)優(yōu)異,因子相關(guān)性均普遍偏低。此外,本文利用GPT因子工廠產(chǎn)出的因子進(jìn)行指增策略實踐,基于高頻因子構(gòu)建中證1000指增策略(回測區(qū)間20161230- 20240920),年化超額收益率為31.32%,信息比率為4.20,策略效果較為出色。

人工智能82:GPT因子工廠擴(kuò)展至基本面與高頻因子挖掘

本研究在前期報告《GPT因子工廠:多智能體與因子挖掘》(20240220)的基礎(chǔ)上,將大模型因子挖掘擴(kuò)展至基本面與高頻因子挖掘場景。本文繼續(xù)沿用前期報告中的多智能體架構(gòu),核心改變在于針對基本面與高頻因子定制化設(shè)計算子,以盡可能保證因子表達(dá)式的合乎邏輯。在基本面因子挖掘中,因子周度IC均值為0.011,周度RankIC均值為0.013;對于高頻因子挖掘,因子周度IC均值為0.020,周度RankIC均值為0.031,GPT因子工廠2.0挖掘高頻因子質(zhì)量較高。利用GPT因子工廠2.0產(chǎn)出的高頻因子構(gòu)建中證1000指增策略(回測區(qū)間20161230- 20240920),年化超額收益率為31.32%,信息比率為4.20。

因子挖掘與GPT因子工廠:大模型因子挖掘或成為因子挖掘新興方案

因子挖掘在量化研究中占據(jù)核心地位,是為多因子模型補(bǔ)充Alpha源的重要途徑。傳統(tǒng)的因子挖掘主要包括人工手動挖掘和算法自動挖掘兩種方案:人工手動挖掘依賴于量化研究員對市場的理解與直覺,離不開研究員的專業(yè)素養(yǎng),需消耗高昂的人力成本;算法自動挖掘?qū)⒁蜃油诰蛄鞒套詣踊?,有效降低人力成本,然而其缺陷是過擬合風(fēng)險與可解釋性難題。大模型因子挖掘或?qū)⒊蔀樾屡d的因子挖掘方案,其可行性在前期報告中已得到證明,同時大模型可給予清晰的邏輯解釋,過擬合風(fēng)險或更可控。

基本面與高頻因子挖掘:或是自動化因子挖掘難涉之境

算法自動化因子挖掘相比于人工挖掘存在諸多優(yōu)勢,但卻鮮有針對基本面或高頻因子的自動化因子挖掘,人工挖掘因子似乎更具優(yōu)勢。對于基本面因子挖掘而言,傳統(tǒng)算法在無法利用專業(yè)知識的前提下,難以構(gòu)造具備邏輯性的基本面因子。對于高頻因子而言,傳統(tǒng)算法可能難以在表達(dá)式中融入日頻化采樣,高頻因子表達(dá)式的復(fù)雜性形成一道隱形的墻。大模型或許是解決之道,一方面在于大模型近乎人類的邏輯推理能力,另一方面在于,從自然語言中誕生的大模型擁有更靈活的因子構(gòu)建與因子計算能力。

因子挖掘效果:基本面因子表現(xiàn)尚可,高頻因子效果優(yōu)異

本文對GPT因子工廠2.0產(chǎn)出的基本面因子和高頻因子挖掘效果進(jìn)行測試,分別進(jìn)行30次因子挖掘,每次因子挖掘僅包括首次挖掘。因子IC方面,30個基本面因子IC均值為0.011,RankIC均值為0.013,|t|均值為1.542;23個篩選后的高頻因子IC均值為0.020,RankIC均值為0.031,|t|均值為4.588。因子相關(guān)性方面,基本面因子相關(guān)系數(shù)絕對值均值為0.10,高頻因子相關(guān)系數(shù)絕對值均值為0.17,因子工廠產(chǎn)出的因子相關(guān)性普遍偏低。

指數(shù)增強(qiáng)策略實踐:基于量價與高頻因子的指增策略均表現(xiàn)較出色

本文基于量價和高頻因子分別進(jìn)行指增策略實踐檢驗。對于前期報告初次挖掘產(chǎn)出的量價因子,滬深300、中證500、中證1000指增策略年化超額收益率分別為7.18%、10.34%、18.50%,對于高頻因子,三類指增年化超額分別為13.78%、18.40%、31.32%。將合成后的量價因子與高頻因子按1:4權(quán)重合并,合并后因子三類指增年化超額分別為12.38%、17.74%、30.72%。指增策略實踐表明,GPT因子工廠產(chǎn)出的高頻因子效果總體優(yōu)于量價因子,基于高頻因子可構(gòu)建效果較出色的指增策略。

01 導(dǎo)言

“一法通,萬法通”? ——諺語

自多因子框架誕生以來,因子挖掘便成為無數(shù)量化從業(yè)者與學(xué)術(shù)研究者百談不厭的話題。因子挖掘的常規(guī)技法不外乎兩種:人工挖掘與機(jī)器挖掘,后者包括遺傳規(guī)劃、深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)等。與常規(guī)技法不同,隨著大語言模型的興起,利用大模型挖掘因子也成為大模型在量化領(lǐng)域的先鋒應(yīng)用之一,華泰金工在前期報告《GPT因子工廠:多智能體與因子挖掘》(20240220)中做了深度探索。

量價因子挖掘是自動化因子挖掘的“起手式”,遺傳規(guī)劃等如此,大模型亦是如此。對于狹義的因子挖掘而言,產(chǎn)出的因子需要具備明確的因子表達(dá)式,量價數(shù)據(jù)恰恰擁有形成明確表達(dá)式的諸多優(yōu)勢:含義清晰、格式整齊、維度一致等等。然而,在面對基本面與高頻因子時,遺傳規(guī)劃等方案常陷入困境,原因在于,一方面基本面因子往往需要清晰的邏輯支撐,僅憑算子的組合很難形成邏輯效果兼?zhèn)涞囊蜃樱硪环矫娓哳l因子日頻化操作需要復(fù)雜的格式轉(zhuǎn)換,需要考量算子間細(xì)致的邏輯關(guān)系。大模型近乎人類的邏輯推理能力或許能成為基本面因子與高頻因子挖掘困境的解決之道。

本文是對前序研究GPT因子工廠在基本面與高頻因子挖掘場景下的擴(kuò)展。在框架設(shè)計上,本文沿用了GPT因子工廠的多智能體框架:FactorGPT負(fù)責(zé)因子挖掘,CodeGPT負(fù)責(zé)代碼撰寫,EvalGPT負(fù)責(zé)因子評估。字段方面,對于基本面因子挖掘,我們篩選資產(chǎn)負(fù)債表、現(xiàn)金流量表、利潤表中的部分財務(wù)指標(biāo)作為底層字段;對于高頻因子挖掘,我們使用分鐘頻原始量價數(shù)據(jù)作為底層字段,包括最高價、最低價、開盤價、收盤價、成交額、成交量和成交筆數(shù)7個字段。算子方面,為了貼合基本面與高頻因子挖掘,本文設(shè)計構(gòu)建定制化的算子列表,以實現(xiàn)不同場景下的因子挖掘功能。

GPT因子工廠2.0顯示出較優(yōu)異的因子挖掘性能。對于基本面因子,因子工廠產(chǎn)出的30個基本面因子IC均值為0.011,RankIC均值為0.013,|t|均值為1.542,因子總體效果尚可,因子相關(guān)系數(shù)為正的系數(shù)均值為0.10,相關(guān)系數(shù)為負(fù)的系數(shù)均值為-0.09,所有相關(guān)系數(shù)絕對值的均值為0.10,總體相關(guān)性較低。對于高頻因子,因子工廠產(chǎn)出30個因子,經(jīng)篩選后保留23個因子,其IC均值為0.020,RankIC均值為0.031,|t|均值為4.588,因子表現(xiàn)較為出色,相關(guān)性方面,相關(guān)系數(shù)為正的系數(shù)均值為0.20,相關(guān)系數(shù)為負(fù)的系數(shù)均值為-0.13,所有相關(guān)系數(shù)絕對值的均值為0.17,因子相關(guān)性同樣偏低。

與此同時,本文利用前序研究GPT因子工廠中產(chǎn)出的量價因子與本文產(chǎn)出的高頻因子進(jìn)行指增策略實證。對于前序研究初次挖掘產(chǎn)出的量價因子,滬深300指增策略年化超額收益率為7.18%,信息比率1.53,中證500指增策略年化超額收益率為10.34%,信息比率1.61,中證1000指增策略年化超額收益率為18.50%,信息比率2.61。對于高頻因子,滬深300指增策略年化超額收益率為13.78%,信息比率2.73,中證500指增策略年化超額收益率為18.40%,信息比率為2.68,中證1000指增策略年化超額收益率為31.32%,信息比率4.20。將合成后的量價因子與高頻因子按1:4權(quán)重合并,量價高頻合并因子滬深300指增策略年化超額收益率為12.38%,信息比率2.45,中證500指增策略年化超額收益率為17.74%,信息比率為2.56,中證1000指增策略年化超額收益率為30.72%,信息比率4.08。上述結(jié)果表明,僅基于GPT因子工廠產(chǎn)出因子即可構(gòu)建效果較出色的指增策略,有效彰顯了GPT因子工廠的實用價值。

02大語言模型與因子挖掘

近幾年來,由ChatGPT引發(fā)的大模型浪潮席卷各行各業(yè),大模型應(yīng)用在不同領(lǐng)域不斷帶來技術(shù)革新。金融領(lǐng)域亦是如此,大語言模型的海量文本處理能力、邏輯推理能力、生成能力使其在金融領(lǐng)域具有廣闊的應(yīng)用前景。Zhao et al.(2024)認(rèn)為,大模型在金融任務(wù)中展現(xiàn)出的能力可分為5種:問答、情感分析、命名實體識別、時序預(yù)測、以及數(shù)學(xué)推理,基于這些能力,大模型在金融工程、金融預(yù)測、金融風(fēng)險管理、金融實時問答等任務(wù)中的應(yīng)用被廣泛探索。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第1張

在大模型自身能力的基礎(chǔ)上,合理的應(yīng)用架構(gòu)是提升大模型應(yīng)用效果的必經(jīng)之路,例如多智能體(Multi-Agent)架構(gòu)。舉例而言,Zhang et al.(2024)提出專為金融交易場景設(shè)計的大模型智能體架構(gòu)FinAgent。FinAgent通過其多模態(tài)能力處理金融市場數(shù)值、文本和視覺數(shù)據(jù)在內(nèi)的多模態(tài)數(shù)據(jù),同時利用低層反思模塊分析市場價格變動、高層反思模塊評估歷史交易決策,在融合專家指導(dǎo)與技術(shù)分析指標(biāo)后實現(xiàn)最終的交易決策。從測試結(jié)果上看,F(xiàn)inAgent的交易盈利效果顯著好于傳統(tǒng)技術(shù)交易策略(MACD、KDJ&RSI等)和其他復(fù)雜算法(SAC、PPO、DQN、FinGPT和FinMem),顯示出智能體架構(gòu)加持下的大模型應(yīng)用潛力。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第2張

基于大模型的因子挖掘

因子挖掘在量化研究中占據(jù)核心地位,是為多因子模型補(bǔ)充Alpha源的重要途徑。傳統(tǒng)的因子挖掘主要有兩種方案,一種是人工手動挖掘,另一種是算法自動挖掘。對于人工手動挖掘而言,量化研究員將其對市場的理解與直覺轉(zhuǎn)化為因子表達(dá)式,進(jìn)而捕捉Alpha,這一過程將會不斷循環(huán),依賴的是研究員的專業(yè)素養(yǎng)以及高昂的人力成本。對于算法自動挖掘,因子表達(dá)式將由算法生成,例如遺傳規(guī)劃在上百個算子與字段構(gòu)成的探索空間中不斷試錯,以逐漸提升因子IC值等為優(yōu)化目標(biāo),而這類方案的缺陷在于龐大探索空間帶來的高昂算力成本,并且算法無法提供任何因子含義,可解釋性往往受到詬病。

利用大模型進(jìn)行因子挖掘或許是一種解決之道。在前期研究“GPT因子工廠”中,我們基于GPT+多智能體架構(gòu)搭建了大模型驅(qū)動的因子挖掘框架,為大模型的因子挖掘能力提供證據(jù)支持。在GPT因子工廠中,三個智能體有序分工:FactorGPT負(fù)責(zé)因子表達(dá)式與因子釋義生成,CodeGPT基于FactorGPT產(chǎn)出的因子表達(dá)式撰寫因子計算代碼,EvalGPT對因子回測結(jié)果進(jìn)行評估并提出優(yōu)化建議。在多智能體架構(gòu)的加持下,我們完成了因子挖掘流程的拆解,使得GPT因子工廠的因子產(chǎn)出過程穩(wěn)定且有效。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第3張

學(xué)界同樣對基于大模型的因子挖掘進(jìn)行了諸多探索,港科大和IDEA研究院等機(jī)構(gòu)開發(fā)的Alpha-GPT是其中的代表。Alpha-GPT的設(shè)計理念是提供一個可交互的自動化因子挖掘框架,因此在其架構(gòu)設(shè)計中,大模型發(fā)揮的作用在于將研究人員的思路轉(zhuǎn)化為遺傳規(guī)劃算法參數(shù),再由遺傳規(guī)劃算法進(jìn)行因子挖掘,最后將表現(xiàn)較好的因子返回給研究人員。Alpha-GPT的優(yōu)勢在于既能將研究人員的想法融入到因子挖掘過程中,又能結(jié)合大模型與遺傳算法的優(yōu)勢,大大節(jié)省人力成本。

Alpha-GPT 2.0借助多智能體架構(gòu)對Alpha-GPT進(jìn)行了全面升級。Alpha-GPT 2.0由Alpha Mining Agent,Alpha Modeling Agent和Alpha Analysis Agent構(gòu)成,其中,Alpha Mining Agent負(fù)責(zé)根據(jù)市場數(shù)據(jù)進(jìn)行因子挖掘,結(jié)合研究人員見解構(gòu)建因子或進(jìn)行因子增強(qiáng),Alpha Modeling Agent負(fù)責(zé)因子的機(jī)器學(xué)習(xí)建模、構(gòu)建有效的Alpha信號,Alpha Analysis Agent則結(jié)合實時知識,對因子進(jìn)行全面的投資組合分析和風(fēng)險管理。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第4張

基本面與高頻因子挖掘

盡管算法自動化因子挖掘相比于人工挖掘有諸多優(yōu)勢,但卻鮮有針對基本面因子和高頻因子的自動化因子挖掘,人工挖掘因子在這些場景下似乎更具優(yōu)勢。對于基本面因子挖掘而言,底層字段主要來源于各類財務(wù)報表,報表與指標(biāo)間的勾稽關(guān)系較為復(fù)雜,傳統(tǒng)算法在無法利用專業(yè)知識的前提下,難以構(gòu)造具備邏輯性的基本面因子。對于高頻因子而言,傳統(tǒng)算法挖掘方案的困境在于難以在表達(dá)式中融入日頻化采樣,當(dāng)前主流的高頻因子挖掘方案實際是利用時序神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)高頻數(shù)據(jù)的隱含規(guī)律,直接預(yù)測未來股票收益,本質(zhì)上已經(jīng)脫離了公式化的傳統(tǒng)因子挖掘方案,但神經(jīng)網(wǎng)絡(luò)“黑箱”問題仍然是難解之痛。

在前序研究“GPT因子工廠”的基礎(chǔ)上,本文嘗試?yán)^續(xù)使用大模型進(jìn)行基本面因子與高頻因子挖掘。對于基本面因子挖掘,我們篩選資產(chǎn)負(fù)債表、現(xiàn)金流量表、利潤表中的部分財務(wù)指標(biāo)作為底層字段,同時設(shè)計了基本面因子構(gòu)造中常用的算子;對于高頻因子挖掘,我們使用分鐘頻原始量價數(shù)據(jù)作為底層字段,同樣也為高頻因子構(gòu)造了一批定制算子。除此之外,本文嘗試分別利用GPT因子工廠產(chǎn)出的量價因子與高頻因子構(gòu)建指數(shù)增強(qiáng)策略,最終將經(jīng)過LGBM模型合成后的量價因子與高頻因子加權(quán)合成,構(gòu)建最終的指數(shù)增強(qiáng)策略。

03?方法

本文主要探究“GPT因子工廠”在基本面與高頻因子挖掘場景下的適用性。在應(yīng)用架構(gòu)設(shè)計層面,本文仍然遵循以往“GPT因子工廠”的多智能體架構(gòu):FactorGPT、CodeGPT與EvalGPT。核心改進(jìn)在于字段與算子方面,基本面因子挖掘主要基于原始財務(wù)指標(biāo)數(shù)據(jù),高頻因子挖掘主要基于分鐘K線量價數(shù)據(jù),算子則針對因子特性進(jìn)行個性化設(shè)計及篩選。無論是基本面還是高頻因子挖掘,所有步驟均由智能體自動執(zhí)行,因子工廠將依據(jù)參數(shù)設(shè)定源源不斷產(chǎn)出因子,同時將因子的表達(dá)式、含義、計算代碼、回測結(jié)果以及優(yōu)化建議保存至本地。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第5張

基本面因子挖掘

字段

基本面因子版GPT因子工廠主要依賴于Wind數(shù)據(jù)源中的AShareCashFlow、AShareBalanceSheet和AShareIncome三張表,具體底層字段如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第6張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第7張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第8張

算子

基本面因子版GPT因子工廠主要依賴于以下算子:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第9張

高頻因子挖掘

字段

高頻因子版GPT因子工廠依賴于以下底層字段:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第10張

算子

高頻因子版GPT因子工廠依賴于以下算子:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第11張

選股組合構(gòu)建

為檢驗GPT因子工廠產(chǎn)出因子的實用性,我們基于前期報告《GPT因子工廠:多智能體與因子挖掘》(20240220)挖掘的量價因子與本期報告挖掘的高頻因子構(gòu)建指數(shù)增強(qiáng)選股組合。通過將因子輸入LightGBM模型中進(jìn)行訓(xùn)練,利用訓(xùn)練完成的模型預(yù)測股票未來收益,最后基于股票預(yù)測收益構(gòu)建選股組合。模型訓(xùn)練與選股組合構(gòu)建的參數(shù)如下表所示。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第12張

04?結(jié)果

在GPT因子工廠2.0的測試中,我們共產(chǎn)出30個基本面因子和30個高頻因子。對于FactorGPT而言,我們使用的模型為gpt-4-1106-preview,與前期報告GPT因子工廠中的一致,而其他智能體均改為gpt-4o,這意味著對于產(chǎn)出的因子而言,其樣本外區(qū)間為2023年11月6日之后,保留較長的樣本外區(qū)間能夠提供因子及策略效果的觀察窗口,確保結(jié)論的可靠性。此次測試中我們僅對因子進(jìn)行初次挖掘,未進(jìn)行因子優(yōu)化循環(huán),一方面盡可能反映大模型直接產(chǎn)出因子的能力,另一方面為避免可能的未來信息。

基本面因子挖掘?qū)嵗?/p>

以下展示基本面因子版GPT因子工廠2.0的產(chǎn)出實例。圖表13-15展示GPT因子工廠2.0挖掘出的一個基本面因子實例:從因子釋義看,該因子被GPT命名為“短期償債能力因子”,因子同時考慮企業(yè)貨幣資金同比增長排名和短期負(fù)債排名,并將二者相除,試圖反映企業(yè)流動性管理水平,因子釋義與因子表達(dá)式相符;從累計周度IC和RankIC看,因子表現(xiàn)尚可,正向趨勢較為明顯;從分層回測結(jié)果上看,分層1年化收益率、夏普比率和年化超額收益率優(yōu)于其他分層,因子總體分層效果在可接受范圍內(nèi)。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第13張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第14張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第15張

基本面因子挖掘效果

我們對30個基本面因子進(jìn)行總體效果評估。圖表16與17展示所有基本面因子的累計周度IC和累計RankIC,總體而言,大部分基本面因子的周度IC或RankIC累計趨勢較為明確,少數(shù)因子累計值趨近于0或存在較大波動,局部看,不乏累計周度IC和RankIC持續(xù)單調(diào)且波動較小的優(yōu)質(zhì)基本面因子。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第16張

從相關(guān)性上看,GPT因子工廠2.0產(chǎn)出的基本面因子相關(guān)性普遍偏低。因子相關(guān)系數(shù)最大值為0.91,最小值為-0.94,相關(guān)系數(shù)為正的系數(shù)均值為0.10,相關(guān)系數(shù)為負(fù)的系數(shù)均值為-0.09,所有相關(guān)系數(shù)絕對值的均值為0.10。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第17張

高頻因子挖掘?qū)嵗?/p>

對于高頻因子挖掘,我們同樣展示一個GPT因子工廠2.0的產(chǎn)出實例。圖表19-21是一個高頻因子實例:從因子釋義看,該因子被GPT命名為“高頻價格量相關(guān)波動因子”,通過計算收盤價滾動波動性與成交量滾動波動性間的相關(guān)系數(shù)得到因子值,大模型認(rèn)為價格與成交量之間的短期相關(guān)性反映了市場的情緒變動;從累計周度IC和RankIC看,因子方向為負(fù)向,周度IC與RankIC均較為穩(wěn)定;從分層回測結(jié)果上看,分層5各項指標(biāo)均優(yōu)于其他分層,因子總體分層效果較優(yōu)。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第18張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第19張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第20張

高頻因子挖掘效果

總體效果上,GPT因子工廠在高頻因子挖掘上展現(xiàn)出較大的潛力。從累計周度IC和RankIC的結(jié)果中看,因子的累計周度IC與RankIC趨勢均較為明確,部分因子展現(xiàn)出持續(xù)強(qiáng)勁的IC和RankIC累計趨勢,表明因子效果較為穩(wěn)定。值得強(qiáng)調(diào)的是,部分因子的累計曲線中間部分為直線且后續(xù)存在缺失值,原因可能在于因子計算過程中出現(xiàn)極端值導(dǎo)致長期空值。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第21張

從因子相關(guān)性上看,GPT因子工廠2.0產(chǎn)出的高頻因子相關(guān)性同樣普遍偏低。將周度IC與RankIC累計曲線異常的因子剔除,我們保留剩下的23個因子進(jìn)行相關(guān)性檢驗:因子相關(guān)系數(shù)最大值為0.97,最小值為-0.86,相關(guān)系數(shù)為正的系數(shù)均值為0.20,相關(guān)系數(shù)為負(fù)的系數(shù)均值為-0.13,所有相關(guān)系數(shù)絕對值的均值為0.17。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第22張

基于GPT因子工廠的指數(shù)增強(qiáng)策略實踐

作為因子挖掘的一種手段,GPT因子工廠并不直接輸出投資組合或量化策略。為驗證GPT因子工廠因子產(chǎn)出的實際效果,我們將因子輸入機(jī)器學(xué)習(xí)模型,基于模型預(yù)測結(jié)果構(gòu)建指數(shù)增強(qiáng)策略。由于基本面因子頻率較低,較難與量價因子和高頻因子混合,這里我們僅對量價因子和高頻因子進(jìn)行測試。

基于合成量價因子的指數(shù)增強(qiáng)策略

對于前期報告《GPT因子工廠:多智能體與因子挖掘》(20240220)中產(chǎn)出的量價因子,我們選取首次挖掘的50個因子,不進(jìn)行額外篩選,直接輸入LGBM模型中進(jìn)行訓(xùn)練,具體訓(xùn)練參數(shù)請參考圖表12。

經(jīng)LGBM模型合成后的因子TOP層相對凈值及累計雙周度IC和RankIC如圖表25和26,因子TOP層在樣本外并未衰減,雙周度IC與RankIC保持穩(wěn)定。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第23張

基于LGBM合成量價因子構(gòu)建的滬深300指數(shù)增強(qiáng)組合策略凈值與績效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第24張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第25張

基于LGBM合成量價因子構(gòu)建的中證500指數(shù)增強(qiáng)組合策略凈值與績效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第26張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第27張

基于LGBM合成量價因子構(gòu)建的中證1000指數(shù)增強(qiáng)組合策略凈值與績效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第28張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第29張

基于合成高頻因子的指數(shù)增強(qiáng)策略

對于GPT因子工廠2.0產(chǎn)出的高頻因子,我們選取前文中保留的23個因子,同樣不再進(jìn)行額外篩選,直接輸入LGBM模型中進(jìn)行訓(xùn)練,具體訓(xùn)練參數(shù)請參考圖表12。經(jīng)LGBM模型合成后的因子TOP層相對凈值及累計雙周度IC和RankIC如圖表33和34。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第30張

基于LGBM合成高頻因子構(gòu)建的滬深300指數(shù)增強(qiáng)組合策略凈值與績效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第31張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第32張

基于LGBM合成高頻因子構(gòu)建的中證500指數(shù)增強(qiáng)組合策略凈值與績效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第33張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第34張

基于LGBM合成高頻因子構(gòu)建的中證1000指數(shù)增強(qiáng)組合策略凈值與績效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第35張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第36張

基于量價高頻合并因子的指數(shù)增強(qiáng)策略

我們將經(jīng)過LGBM合成后的量價因子與高頻因子按1:4的權(quán)重合并,形成量價高頻合并因子,基于該因子構(gòu)建分別構(gòu)建滬深300、中證500與中證1000指數(shù)增強(qiáng)策略?;诹績r高頻合并因子構(gòu)建的滬深300指數(shù)增強(qiáng)組合策略凈值與績效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第37張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第38張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第39張

基于量價高頻合并因子構(gòu)建的中證500指數(shù)增強(qiáng)組合策略表現(xiàn)如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第40張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第41張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第42張

基于量價高頻合并因子構(gòu)建的中證1000指數(shù)增強(qiáng)組合策略表現(xiàn)如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第43張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第44張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第45張

總結(jié)而言,量價高頻合并因子的效果主要來源于高頻合成因子,量價合成因子一定程度上成為拖累?;诹績r高頻合并因子構(gòu)建的滬深300增強(qiáng)策略年化超額收益率為12.38%,略遜于合成高頻因子的13.78%?;诹績r高頻合并因子的中證500增強(qiáng)策略歷史表現(xiàn)優(yōu)異,年化超額收益率,但近一年來效果平平。而中證1000增強(qiáng)策略歷史區(qū)間超額收益穩(wěn)定,在2024年年內(nèi)測試區(qū)間也獲得了11%左右的年化超額收益,總體效果較好。

此外,我們測試了華泰金工前期報告《基于全頻段量價特征的選股模型》(20231208)中全頻段因子與本文因子間的相關(guān)性,結(jié)果如下表。全頻段因子與本文產(chǎn)出的量價合成因子、高頻合成因子與量價高頻合并因子總體相關(guān)性較低,分別為0.38、0.26與0.31;量價合成因子與高頻合成因子相關(guān)性略高,為0.57。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第46張

05?總結(jié)

本文是GPT因子工廠擴(kuò)展至基本面與高頻因子挖掘場景的深入實踐。在GPT因子工廠2.0中,架構(gòu)上基本沿用之前的多智能體架構(gòu),即FactorGPT生成因子表達(dá)式和因子釋義,CodeGPT生成因子計算代碼,EvalGPT負(fù)責(zé)評估因子結(jié)果以及生成優(yōu)化建議。在因子效果方面,30個基本面因子IC均值為0.011,RankIC均值為0.013,|t|均值為1.542;23個篩選后的高頻因子IC均值為0.020,RankIC均值為0.031,|t|均值為4.588。因子相關(guān)性方面,基本面因子相關(guān)系數(shù)絕對值均值為0.10,高頻因子相關(guān)系數(shù)絕對值均值為0.17,因子工廠產(chǎn)出的因子相關(guān)性普遍偏低。基本面因子效果總體尚可,高頻因子表現(xiàn)出色。

因子挖掘一直是量化研究皇冠上的明珠之一,基于大模型的因子挖掘在未來或?qū)⒊蔀闃O具潛力的新興方案。傳統(tǒng)因子挖掘無論是基于人工還是自動化算法,皆存在得此失彼的現(xiàn)狀,大模型一方面能夠降低人工挖掘因子的高人力成本,另一方面能夠有效彌補(bǔ)自動化算法缺乏可解釋性與靈活性的缺陷。華泰金工前期報告《GPT因子工廠:多智能體與因子挖掘》(20240220)是對大模型挖掘因子可行性的有力證明,而本文不僅進(jìn)一步將這種可行性擴(kuò)展至基本面與高頻因子挖掘,同時利用GPT產(chǎn)出因子構(gòu)建出較出色的中證1000指數(shù)增強(qiáng)策略,有效彰顯了GPT因子工廠的實用價值。

本文的主要結(jié)果及結(jié)論如下:

1. GPT因子工廠可擴(kuò)展至基本面與高頻因子挖掘場景,因子產(chǎn)出質(zhì)量較好。因子工廠產(chǎn)出的30個基本面因子IC均值為0.011,RankIC均值為0.013,因子工廠產(chǎn)出的23個高頻因子IC均值為0.020,RankIC均值為0.031。

2. GPT產(chǎn)出的因子相關(guān)性偏低繼續(xù)在基本面與高頻因子挖掘中得到體現(xiàn)。基本面因子相關(guān)系數(shù)絕對值均值為0.10,高頻因子相關(guān)系數(shù)絕對值均值為0.17。

3. GPT因子工廠產(chǎn)出的因子可構(gòu)建較出色的中證1000指增策略。僅基于前期報告《GPT因子工廠:多智能體與因子挖掘》(20240220)產(chǎn)出的量價因子可構(gòu)建出年化超額收益率達(dá)18.50%的中證1000指增策略,基于本文產(chǎn)出的高頻因子可構(gòu)建出年化超額收益率達(dá)31.32%的中證1000指增策略,二者加權(quán)合成后中證1000指增策略年化超額為30.72%。

本文仍有多項未盡之處:(1)本研究挖掘的高頻因子僅限于分鐘K線,尚未嘗試更高頻量價數(shù)據(jù)的因子挖掘;(2)本研究僅涉及較低頻的財報基本面因子挖掘,未來可嘗試將量價與基本面指標(biāo)融合、以及使用例如一致預(yù)期數(shù)據(jù),構(gòu)建更為高頻的基本面因子;(3)本文并未將基本面因子融入指增策略構(gòu)建中,未來可嘗試向策略中融入多維信息,以提升指增策略穩(wěn)定性。

參考文獻(xiàn)

Wang, S., Yuan, H., Zhou, L., Ni, L. M., Shum, H. Y., & Guo, J.(2023). Alpha-gpt: Human-ai interactive alpha mining for quantitativeinvestment.arXiv preprint arXiv:2308.00016.

Yuan, H., Wang, S., & Guo, J. (2024). Alpha-GPT 2.0:Human-in-the-Loop AI for Quantitative Investment.arXiv preprintarXiv:2402.09746.

Zhang, W., Zhao, L., Xia, H., Sun, S., Sun, J., Qin, M., ... & An,B. (2024). FinAgent: A Multimodal Foundation Agent for Financial Trading:Tool-Augmented, Diversified, and Generalist.arXiv preprintarXiv:2402.18485.

Zhao, H., Liu, Z., Wu, Z., Li, Y., Yang, T., Shu, P., ... & Liu, T.(2024). Revolutionizing finance with llms: An overview of applications andinsights.arXiv preprint arXiv:2401.11641.

風(fēng)險提示:

GPT挖掘因子是對歷史的總結(jié),具有失效風(fēng)險。GPT挖掘因子可解釋性受限,使用需謹(jǐn)慎。大模型訓(xùn)練集廣泛,可能存在過擬合風(fēng)險。

(轉(zhuǎn)自:華泰證券金融工程)