Big data és a tőzsdék: csodaszer vagy high-tech horoszkóp?

2019. február 19. 11:55 - Pintér András

Elsősorban a bal szívkamrán múlik a dolog. Persze a túl kicsi lép vagy a túl hangos zihálás sem jó jel, de a legerősebb indikátor mégis csak a szívkamra mérete.

Legalábbis erre jutott többévnyi adatelemzést követően a lóversenyzéssel foglalkozó szakértő, Jeff Seder. A munka nem volt egyszerű, az adatelemzés ebben az esetben többek között az orrlyukak nagyságának mérését, az elhunyt állatok izomszerkezetének vizsgálatát, és szó szerint a lótrágyában való turkálást jelentette.

Minél több adatot elemzett Seder, egy dologban egyre biztosabbá vált: az addig legfontosabbnak tartott tényezőnek, egy adott ló pedigréjének, felmenői vérvonalának nincs sok jelentősége a jövőbeli siker szempontjából. Adataiból ugyanakkor egyre egyértelműbben látszott, hogy egy versenyló várható sikereit legjobban bizonyos belső szervek mérete, kiemelten pedig a bal szívkamra nagysága prognosztizálja.

Jeff Seder és csapata ezek alapján tanácsolta 2013-ban egyik kliensének, az anyagi gondokkal küszködő egyiptomi sörmágnásnak, Ahmed Zayatnak, hogy adjon el bármit, csak ne az akkor egyéves lovát. Nem mintha egyébként különösebben tolongtak volna a vevőjelöltek a nem túl meggyőző testfelépítés és az átlagos felmenők láttán. Sedernek igaza lett, két évvel később a ló American Pharoah néven az első lett a történelemben, aki megcsinálta a lóverseny grand slam-et, a négy kiemelt amerikai verseny egy évben történő megnyerését.

Hogy mit látott a lóban? A bal szívkamra kiugró méretét. A ló ebből a szempontból a 99,6-ik percentilisbe tartozott, azaz a hozzá hasonló korú versenyló jelöltekhez képest hatalmas szíve volt – és mivel az adatbázisa alapján fontosnak tartott további belső szervei is átlagon felüli méretűek voltak, Seder tudta, hogy különleges adottságokkal áll szemben.

A történetet bemutató könyvében Seth Stephens-Davidowitz kiemel egy fontos részletet – mégpedig azt, hogy Seder sem tudja pontosan megmagyarázni, hogy miért van ilyen nagy jelentősége pár kiemelt belső szerv méretének. Feltételezései persze vannak, de a lényeg, hogy van egy modellje, ami működik. Az pedig az ő szempontjából már sokkal kevésbé fontos, hogy pontosan miért, hiszen ahogy Stephens-Davidowitz fogalmaz, Seder nem a magyarázatgyártó, hanem az előrejelző üzletben utazik. 

Vannak ugyanakkor olyan vélemények, amelyek szerint nem lehet ennyivel elintézni a dolgot – különösen nem a befektetések területén. Mennyit ér egy működőképesnek tűnő modell, vagy egy befektetési stratégia, ha nem értjük pontosan, miért is működik? Higgyünk-e annak, amit az ilyen „fekete dobozok" kidobnak, anélkül, hogy lenne elfogadható (viselkedési vagy közgazdasági) elméletünk a miértekre? Hogyan lehetünk biztosak abban, hogy ami tegnap működött, az holnap is fog? Kérdések sora merül fel, igazán meggyőző válaszokat azonban ritkán olvas az ember. Így nem csoda, hogy a nagy adatbázisokra és a big data elemzésekre épülő kvantitatív befektetési stratégiákkal kapcsolatban is egyre több a kritikus hang. (Jó összefoglaló cikkek itt és itt, illetve foglalkoztunk már a blogon is a big data témájával itt és itt).

Az ilyen stratégiákkal kapcsolatos fő kételyt pedig a legérthetőbben a lenti ábra mutatja meg. A rendelkezésre álló egyre több információ egyre komplexebb módszerekkel történő elemzése miatt ugyanis komoly veszély, hogy olyan modelleknek kezdünk el hinni, amelyek valós magyarázatok helyett csak hamis együttmozgásokat képesek azonosítani.

20190219_1.png

Amíg csak pár változót elemzünk pár módszerrel, a hamis korrelációk esélye nem túl nagy. Ha viszont több ezer változóra engedjük rá egyre összetettebb adatelemzési módszereinket, a szignifikánsnak tűnő, de valójában fals találatok száma is exponenciálisan megugorhat – figyelmeztet Nassim Nicholas Taleb cikke. Aki nagyon keres, az előbb utóbb találni fog valamit. Ahogy a statisztikusok mondani szokták: ha eleget kínzod az adatokat, a végén vallani fognak. Tudjátok például, hogy mi korrelál például kimondottan erősen az amerikai részvénypiaccal? A bangladesi vajtermelés. Nem vicc.

A piacok dinamikus változása miatt a múlt nem egyenlő a jövővel, a tőkepiac nehezen modellezhető adaptív komplex rendszer, a modellek túlillesztése (overfitting) nagy veszély, a működő stratégiák is gyorsan lemásolásra kerülnek – a problémák hosszan sorolhatóak. Nincs kétség persze, több adat = több hasznos információ. De még több haszontalan. És ezért is van az, hogy a kvantitatív stratégiáknál is ugyanazt látjuk, mint a tőkepiacon oly sokszor: néhány kiemelkedő teljesítmény, és nagyon sok felejthető.

További fontos szempont, hogy a jó szándékú, de téves következtetések mellett azokról az esetekről sem feledkezhetünk meg, ahol az „adatkínzás" hátterében üzleti megfontolások állnak. Nem véletlenül figyelmeztet mindenkit Cliff Asness, a kvantitatív befektetések atyja arra, hogy míg a vagyonkezelők impresszív back tesztekkel sokkal könnyebben jutnak ügyfelekhez (és ezáltal bevételhez), az adatok csűrésére-csavarására, toldozására-foldozására (nehezen írom le: manipulálására) mindig nagy lesz a késztetés.

Szóval csodaszer, vagy a találó megfogalmazás szerint csupán high-tech horoszkóp? Csűrhetjük-csavarhatjuk, nekem úgy tűnik, hogy ahogy az lenni szokott, az igazság feltételezhetően a két szélsőséges nézőpont között van. A big data hatalmas lehetőségeket rejt magában, de ahogy azt Jack Bogle (R.I.P) is mondta, ha rosszul használjuk, nagyobb lehet a kár, mint a haszon. 

Szóval csak megfontoltan és ésszel. Nincs hova sietned, a sok hasonlóság ellenére a befektetés nem lóverseny!