Big data és a tőzsdék: csodaszer vagy high-tech horoszkóp?

2019. február 19. 11:55 - Pintér András

Elsősorban a bal szívkamrán múlik a dolog. Persze a túl kicsi lép vagy a túl hangos zihálás sem jó jel, de a legerősebb indikátor mégis csak a szívkamra mérete.

Legalábbis erre jutott többévnyi adatelemzést követően a lóversenyzéssel foglalkozó szakértő, Jeff Seder. A munka nem volt egyszerű, az adatelemzés ebben az esetben többek között az orrlyukak nagyságának mérését, az elhunyt állatok izomszerkezetének vizsgálatát, és szó szerint a lótrágyában való turkálást jelentette.

Minél több adatot elemzett Seder, egy dologban egyre biztosabbá vált: az addig legfontosabbnak tartott tényezőnek, egy adott ló pedigréjének, felmenői vérvonalának nincs sok jelentősége a jövőbeli siker szempontjából. Adataiból ugyanakkor egyre egyértelműbben látszott, hogy egy versenyló várható sikereit legjobban bizonyos belső szervek mérete, kiemelten pedig a bal szívkamra nagysága prognosztizálja.

Jeff Seder és csapata ezek alapján tanácsolta 2013-ban egyik kliensének, az anyagi gondokkal küszködő egyiptomi sörmágnásnak, Ahmed Zayatnak, hogy adjon el bármit, csak ne az akkor egyéves lovát. Nem mintha egyébként különösebben tolongtak volna a vevőjelöltek a nem túl meggyőző testfelépítés és az átlagos felmenők láttán. Sedernek igaza lett, két évvel később a ló American Pharoah néven az első lett a történelemben, aki megcsinálta a lóverseny grand slam-et, a négy kiemelt amerikai verseny egy évben történő megnyerését.

Hogy mit látott a lóban? A bal szívkamra kiugró méretét. A ló ebből a szempontból a 99,6-ik percentilisbe tartozott, azaz a hozzá hasonló korú versenyló jelöltekhez képest hatalmas szíve volt – és mivel az adatbázisa alapján fontosnak tartott további belső szervei is átlagon felüli méretűek voltak, Seder tudta, hogy különleges adottságokkal áll szemben.

A történetet bemutató könyvében Seth Stephens-Davidowitz kiemel egy fontos részletet – mégpedig azt, hogy Seder sem tudja pontosan megmagyarázni, hogy miért van ilyen nagy jelentősége pár kiemelt belső szerv méretének. Feltételezései persze vannak, de a lényeg, hogy van egy modellje, ami működik. Az pedig az ő szempontjából már sokkal kevésbé fontos, hogy pontosan miért, hiszen ahogy Stephens-Davidowitz fogalmaz, Seder nem a magyarázatgyártó, hanem az előrejelző üzletben utazik.

Vannak ugyanakkor olyan vélemények, amelyek szerint nem lehet ennyivel elintézni a dolgot – különösen nem a befektetések területén. Mennyit ér egy működőképesnek tűnő modell, vagy egy befektetési stratégia, ha nem értjük pontosan, miért is működik? Higgyünk-e annak, amit az ilyen „fekete dobozok" kidobnak, anélkül, hogy lenne elfogadható (viselkedési vagy közgazdasági) elméletünk a miértekre? Hogyan lehetünk biztosak abban, hogy ami tegnap működött, az holnap is fog? Kérdések sora merül fel, igazán meggyőző válaszokat azonban ritkán olvas az ember. Így nem csoda, hogy a nagy adatbázisokra és a big data elemzésekre épülő kvantitatív befektetési stratégiákkal kapcsolatban is egyre több a kritikus hang. (Jó összefoglaló cikkek itt és itt, illetve foglalkoztunk már a blogon is a big data témájával itt és itt).

Az ilyen stratégiákkal kapcsolatos fő kételyt pedig a legérthetőbben a lenti ábra mutatja meg. A rendelkezésre álló egyre több információ egyre komplexebb módszerekkel történő elemzése miatt ugyanis komoly veszély, hogy olyan modelleknek kezdünk el hinni, amelyek valós magyarázatok helyett csak hamis együttmozgásokat képesek azonosítani.

Amíg csak pár változót elemzünk pár módszerrel, a hamis korrelációk esélye nem túl nagy. Ha viszont több ezer változóra engedjük rá egyre összetettebb adatelemzési módszereinket, a szignifikánsnak tűnő, de valójában fals találatok száma is exponenciálisan megugorhat – figyelmeztet Nassim Nicholas Taleb cikke. Aki nagyon keres, az előbb utóbb találni fog valamit. Ahogy a statisztikusok mondani szokták: ha eleget kínzod az adatokat, a végén vallani fognak. Tudjátok például, hogy mi korrelál például kimondottan erősen az amerikai részvénypiaccal? A bangladesi vajtermelés. Nem vicc.

A piacok dinamikus változása miatt a múlt nem egyenlő a jövővel, a tőkepiac nehezen modellezhető adaptív komplex rendszer, a modellek túlillesztése (overfitting) nagy veszély, a működő stratégiák is gyorsan lemásolásra kerülnek – a problémák hosszan sorolhatóak. Nincs kétség persze, több adat = több hasznos információ. De még több haszontalan. És ezért is van az, hogy a kvantitatív stratégiáknál is ugyanazt látjuk, mint a tőkepiacon oly sokszor: néhány kiemelkedő teljesítmény, és nagyon sok felejthető.

További fontos szempont, hogy a jó szándékú, de téves következtetések mellett azokról az esetekről sem feledkezhetünk meg, ahol az „adatkínzás" hátterében üzleti megfontolások állnak. Nem véletlenül figyelmeztet mindenkit Cliff Asness, a kvantitatív befektetések atyja arra, hogy míg a vagyonkezelők impresszív back tesztekkel sokkal könnyebben jutnak ügyfelekhez (és ezáltal bevételhez), az adatok csűrésére-csavarására, toldozására-foldozására (nehezen írom le: manipulálására) mindig nagy lesz a késztetés.

Szóval csodaszer, vagy a találó megfogalmazás szerint csupán high-tech horoszkóp? Csűrhetjük-csavarhatjuk, nekem úgy tűnik, hogy ahogy az lenni szokott, az igazság feltételezhetően a két szélsőséges nézőpont között van. A big data hatalmas lehetőségeket rejt magában, de ahogy azt Jack Bogle (R.I.P) is mondta, ha rosszul használjuk, nagyobb lehet a kár, mint a haszon.

Szóval csak megfontoltan és ésszel. Nincs hova sietned, a sok hasonlóság ellenére a befektetés nem lóverseny!

komment

Címkék: portfolioblogger

Big data és a tőzsdék: csodaszer vagy high-tech horoszkóp?

Ajánlott bejegyzések: