來源:少數派投資 作者:王煜東
原標題:量化研究的5點思考
近年來,在主動研究的基礎上,我們進行了一些量化探索,對相關方法的認知也在逐步深化,尤其是具體策略背後的基本原則,直接決定了後續研究的取舍。
本文將以問答的形式,分享個人在量化研究中的5點思考:
1. 統計結果能夠說明什麽?
《從擲骰子到阿爾法狗》中有個故事:
賈格爾是一名優秀的機械工程師,他被賭場的轉盤機吸引:轉盤上有38個數字,理想情況,每個數字出現的概率都是1/38,但在當時的工藝下,機器無法做到完美對稱,缺陷的存在將導致轉盤偏向某些數字。
他雇了6個助手,持續幾天記錄每台輪盤機轉出的每個數字,並分析其中的規律。他發現,在第六個輪盤上,有9個數字出現的頻率明顯要高。於是,他對著這台存在偏向性的轉盤機,大量投注這9個數字,當天就賺了7萬元。
量化回測,可以類比為轉動轉盤:統計不同策略在歷史上的轉盤結果,找到“偏向性”,從而下注於大概率獲利的投資方向。
賈格爾的故事還沒有結束,賭場的管理人員發現了異常,改變了第六個轉盤的機械設置,他無法繼續賺到錢,最終只能離開賭場。
股市中,價格的形成是參與者各自追求自身利益最大化下博弈的結果,與有著特定機械結構缺陷、明確無人改變的客觀轉盤有明顯不同:
股市的“偏向性”是就參與者的行為互動特征而言的(並非客觀物理性),而各方人士會依據歷史及當下變化調整自己的行為,乃至基於對交易對手行為的預期、再多考慮一步;更有甚者,不少“博弈點”對特定群體竟然是“可調節”的。
由此一來,不能簡單認為回測中的規律性就是參與者行為偏差的結果,基於歷史指標的靜態押注,很可能會被有著更慢一層思維的動態博弈者所獵殺。那麽,如何判斷股市中的“特定轉盤”有沒有被人改變過?
辦法有兩類:
第一,是數據導向的高頻交易:更快地反饋、更快地調整,只要在虧損吞噬掉利潤前撤離,不必太在意此前到底做對了什麽及背後的原因(即便客觀上必然有原因);
第二,是邏輯導向的偏低頻刻畫:要理解數據背後的微觀結構,尤其是特定規則及相關方的利益表達,關注規則變化、跟隨演繹進程,並調整自身參與姿勢。
本文只針對第二類方法展開,底層的邏輯是:
統計結果只能告訴我們過去發生過什麽,但歷史數據的表層關系並不會天然地適用於未來,真正發揮作用的是數據背後的“微觀結構”。
即,能夠反復上演的是特定規則下的具體的微觀結構及其因果關系,而不是神秘的數字遊戲。如果博弈規則與微觀結構改變了,歷史上再顯著的規律,當前也不再適用了。
2. 我們給出的解釋真的合理嗎?
於是,一個存在異常收益的歷史統計結果,只能是研究的起點。
對於觀察到的現象,我們要給出解釋,並進一步推論、檢驗,乃至找到明確的微觀結構及對應的規則與環境。現象-解釋-推論-驗證4步法,是所有研究的必由之路。
現實中,不少人存在這樣一個誤區:對於一個市場異象,只要給出一個“合理”的經濟學解釋,那麽該規律就具有可重復性。
就好比,亞里士多德發現石頭比羽毛落地更快,給出“重的物體比輕的物體落地更快”的解釋,問題的關鍵是,如果這個解釋成立,那麽它的推論也要經得起數據驗證:10公斤的羽毛會比5公斤的鐵球落地更快嗎?顯然,亞里士多德的“合理”解釋是錯的,但該理論卻統治了歐洲近2000年。
不要低估人自圓其說的能力,不要滿足於多數人已經在講的理由、或是一些文獻中給出的解釋。如果這些解釋成立,那麽會有哪些推論?是不是與客觀數據相違背?有沒有更加合理且推論被數據驗證的其他解釋?
尤其警惕“萬金油”式的解釋:比如只要一個策略在一定時間內有超額收益,就是“市場反應過度或不足”嗎?那麽,合理的市場反應該是怎樣?再比如,某個策略或因子失效了,就是因為“交易擁擠”嗎?
這樣的解釋只能填充為了有解釋而其實沒有找到明確解釋的理解空洞,缺少必要的微觀結構,沒有明確的推論,只是圍繞已有數據打轉,無法推動研究更進一步,甚至可能自以為已經有了合理解釋而盲目自信、過度承擔風險。
沒有哪個解釋是絕對合理的,但一個新的合理解釋的提出,在能理解更多異象的同時,從實踐看,其推論要能夠打開新的維度、融入增量信息,推動研究的深入。理論上,每個解釋都是“有待證偽”,有價值的研究就是一個不斷找到新解釋,並持續檢驗及思辨的過程,解釋的關鍵是要指向明確的做法。
股票研究中,怎樣的解釋會相對合理、邏輯更硬一些?從已有經驗看,直接涉及到相關方的利益,尤其是優勢方利益最大化必然選擇所帶來的規律性,更有可把握的價值。
3. 是否偷換了概念?
量化方法在一定程度上使得很多策略具有了可檢驗性。但是,在量化的過程中,很容易出現“偷換概念”的問題。
換言之,為了量化而量化,卻忽視了本來要解決的問題,乃至檢驗的對象其實是一個關系不大的其他選股方法。
比如價值因子,買低估值(如PE)的就是價值投資嗎?再疊加個高ROE(高盈利能力)的質量因子就是價值投資嗎?
按照這樣的思路構建回測,你檢驗的只是被檢驗指標本身,而不是最初要解決的問題,過度簡化讓量化驗證失去了意義。
對於價值投資,按照格雷厄姆的定義,是以低於內在價值的價格買入,而“內在價值”是指“事實證明合理的價值”。
比如一家公司市值跌到淨流動資本以下,買入公司清償債務、破產清算都有利可圖,這是“套利”視角的價值投資;再比如,假設你能看清一家高成長公司未來能夠確定地達到某個盈利水平,那麽,即使當前PE很高,也可能內在價值高於市價,這是“成長”視角的價值投資……
基於PE、PB等指標的量化策略,只是強調了這個指標本身的高低,卻沒有刻畫出上文表達的“價值投資”的實質:首先要判斷出什麽是合理價值,市價要“相對”合理價值低、而不是“絕對”的低。(繞開了關鍵的問題,偷換了概念)
再以銀行股為例,PB最低的幾只過去幾年反而是應該回避的,原因在於更深層的“微觀結構”:它們歷史包袱很重,且監管不會允許它們一次性風險出清,會在很長時間業績弱於同業,導致股價持續承壓。基於低PB買入與價值投資很可能南轅北轍。
此類問題在不少的量化研究中頻繁出現:“噱頭”很大,但究其實質,什麽問題都沒有解決,只是強調了幾個沒什麽關系的變量在歷史上的搭配會有不錯的回測效果。
明確刻畫對象是量化研究的起點。我們到底在刻畫什麽?有沒有偷換概念?是否偏離了最初要檢驗的命題?我們最終檢驗了什麽?哪些存在“可把握點”?這是值得反思的。
4. 有沒有被具體指標綁架?
不少人可能有這樣的觀點:歷史回測,檢驗了特定指標的有效性。
事實上,具體指標只是對應原理前置因素的代理變量,表面上歷史數據驗證了指標,其實是檢驗了背後的原理(微觀結構)。
更底層的邏輯是,同一個原理下,換一個指標來刻畫,應當取得差不多的結果;如果同樣原理下,僅略微調了下參數、或從另一個角度刻畫,指標就無效了,那麽此前再好的回測結果也沒有意義。(原理的推論被證偽)
所謂“被指標綁架”,是指將某些歷史上有超額收益的指標“神秘化”,仿佛它有著某種神秘的“選股能力”,哪怕偏差一點都會“神力”不再,產生這樣的神秘感是人性的弱點。
不要過分糾結於一個指標的細枝末節,而應該倒退回去,看到它所指向的原理,乃至同一因素不同刻畫的共同指向或明確證偽。
歷史股價行情有很大的偶然性,在理論上,同樣原理的不同代理指標的結果是一樣的。即便反復排列組合、拷問出一個更好的回測結果,也沒有給原理本身帶來任何增益,更沒有理由在未來取得更好的實際收益。
更何況,不少指標,究其本質,未必是“因子”,而只能算是一種分類的標準。
可以試想這樣的情景:未來某一時間,我們回頭反思當前選股得失,總結經驗教訓,某些股票表現好或不好,難道就是因為它們市值偏小、換手率偏低、或是近幾日漲跌幅較大?這樣用現象解釋現象的歸因在事前存在“可把握點”嗎?
當我們基於特定的原理,以邏輯為導向進行投資時,必然要有一個發生在未來、可明確的“博弈點”變化,可能是更好的業績、可能是蹭上某個熱點或題材,甚至可能是發生實質性重組等等。
反觀這些指標(不少人稱之為“因子”),可能會是上述“博弈點”變化的原因嗎?可以輔助我們在事前對“博弈點”的變化做出更好的判斷嗎?還是僅僅因為這樣的堆疊可以取得更好的回測結果?
當我們面對一個指標,思考是否應該將其納入已有模型時,不妨先問一句:它刻畫了什麽?和模型本身的原理是否有關?拒絕指標綁架,遵從已驗證原理本身,才是實事求是的態度。
5. 有哪些增量維度能提升“相對優勢”?
無論是主動研究,還是量化模型,最終目標都是要能找到一個相對占優的點,並通過持續積累,將之鞏固、放大,這是市場博弈的必然要求。
所謂“相對優勢”,包括對投資工具及市場規則的熟悉,對博弈定價特征的認知,對特定事件下參與各方利益點與行為方式的理解,乃至對產業層面博弈進程的洞察等等,甚至更直接——更廣的人脈、更多更及時的信息,以及處理海量數據的能力。
愛因斯坦說,“你無法在製造問題的同一思維層次上解決這個問題。”
股票投資中,市場博弈的焦點是股價漲跌,最直接的信息就是交易產生的價量數據,價格變化無非動量與反轉,但是導致趨勢延續或改變的原因卻未必在量價層面。
比如本文開頭講的轉盤機,第六個轉盤上的9個數字出現頻率較高,是由於特定的微觀結構:機械設置不完美、有偏向性,而並非動量本身導致動量,同時當前機器尚未被重新調整是下注獲利的重要前提。
在股價以外,我們可以引入公司業績的數據:如果未來淨利潤增長持續加速,一般會導致股價“動量”;但如果業績變臉或出現拐點,則可能帶來股價“反轉”。這樣,量化的刻畫延伸到了基本面維度的動量。
如果對於公司未來的經營情況還是無從把握,能不能跳出線性外推的怪圈,從更高維度,比如公司融資行為等角度找到影響利潤釋放節奏的可把握點?於是,增量的信息維度被不斷引入……
除此以外,我們還可以縮小研究範圍:比如從全市場來看,很難得出明確的判斷,但特定的行業會不會明確地高景氣或反轉?另外,處於幾條線索交叉處的特定公司當前是否存在機會?不能苛求某一維度一定要有結論,而應試探各個維度嚐試找到可落腳點。
股票研究,不是以各種模式來反復拷問已知數據,而是圍繞著要解決的問題本身,逐層拆解:從股價到業績,再到上市公司行為……乃至縮小包圍圈、聚焦交叉點等等,在“遍歷”中,挨個維度排查,基於清單逐一落實,以求在某個維度、某些點上覓得“可把握性”、取得相對優勢。甚至在探索中,發現前所未有的思考角度,進一步推動信息維度的完善。
計算機程序可以在給定的數據集下,最大程度地優化已知維度與給定信息。比如,從股價動量找到業績層面的動量,並給出歷史最佳參與姿勢。但是,如果這兩個層面都不存在“可把握點”呢?如果最關鍵的因果關系並不在當前已給的數據之中呢?如果相關“可把握點”只涉及其中的一小類股票,但相關分類的標準並不在給定信息中呢?……
再驚人的算力,也難以超越給定的數據範圍。
此時,更進一步的研究,並不在對數據本身的反復拷問,而是要引入哪些增量的維度、增量的信息,乃至更加明確的針對性、更加細致的分類及相關標準。
此時,人的介入是必要的,主觀探索會帶來更加豐富的視角,主觀降維與增維是量化研究更進一步的重要推力。機器無法做到既定邊界以外的事情,這只能由人來補充。
文章的最後,我們借用胡適先生的名句:
“怕什麽真理無窮,進一寸有一寸的歡喜”。
沒有什麽研究方法是可以一勞永逸的,任何一個量化模型都處在持續優化、不斷完善的進程中,對市場異象的認知也在否定之否定中曲折前行。
不要局限於既定因子的排列組合與反復拷問,要打破已知邊界,直面待解問題本身,在量化與主動的互補中,找到“可把握點”,進而在具體問題上取得“相對優勢”。
編輯/lambor