Miért bukik el sok előrejelzés?

Avagy hogyan verik át az elemzők a főnököt és saját magukat is?

Gulyás Attila

Hajlamosak vagyunk sokszor összefüggéseket látni ott is, ahol nincsenek. A zajok valódi jelekkel való összetévesztése egyáltalán nem ritka, ez a rossz előrejelzések egyik legtipikusabb oka. A cikkben a fukushimai atomreaktor tragédiáját okozó tohokui földrengésen keresztül mutatom be az egyik leggyakoribb előrejelzési hibát, a túlillesztést, amely a vállalati gyakorlatban is rendszeresen előfordul.

A cikket elsősorban a következő olvasóknak ajánljuk:

controllereknek, akik most kezdenek el előrejelzési modellekkel foglalkozni.
data scientisteknek, akik a hatalmas adathalmazon ülve a meglepően jó pontossági mutatókban kételkednek, hogy ez most tényleg ilyen jó lett-e.
döntéshozóknak, felsővezetőknek, akiket érdekel a tudomány és szívesen belenéznek, mi történik „a motorháztető alatt”, hiszen sokszor ők tudják felismerni a túlillesztettséget azzal, hogy felteszik a helyes kritikus üzleti kérdéseket az elemzőknek.

Az alábbi cikkben szereplő példa Nate Silver: Signal and Noise c. könyv „Desperately seeking signal” fejezete alapján íródott, a szerző saját gondolataival kiegészítve.

Felmerül a kérdés, hogy a koronavírus-járvány kellős közepén miért érdemes a fukushimai atomkatasztrófáról vagy a földrengésekről olvasni. Nos, azért, mert most nagyon könnyű olyan hibákat elkövetni az előrejelzéseknél, amelyeket annak idején Fukushimában is elkövettek.

Az üzleti életben az előrejelzések készítése ma kifejezetten nehéz. Ez főleg arra vezethető vissza, hogy sok az információs zaj, a vállalati döntéshozókat pedig rengeteg, sokszor egymásnak ellentmondó impulzusok érik, így nehéz tisztán látni a jövővel kapcsolatban. Mint látni fogjuk, a zajok valódi jelként való azonosítása rossz előrejelzéseket eredményez. Rossz előrejelzések alapján pedig nem lehet jól tervezni. Pontosan ez történt Japánban is, az utólagos vizsgálatok alapján egyértelmű, hogy a fukushimai katasztrófához a rossz földrengés-előrejelzés jelentősen hozzájárult. A megalapozott, jó tervek pedig most, a válságból való kilábaláshoz kulcsfontosságúak lesznek a vállalatok számára. Íme egy példa, amelyből megéri tanulni.

Földrengés gyorstalpaló

A tudomány mai álláspontja szerint a földrengések jelentős része a földkéreg kőzetlemezeinek találkozása miatt alakul ki. Erősségét a Richter skálán mérjük, amely egy logaritmikus skála, így egy egypontos emelkedés a skálán 32-szer erősebb földrengést jelent. Ez azt jelenti, hogy például a 2020. október 30-ai törökországi Izmirben a több, mint 1100 ember sérülését okozó és 100 ember halálát követelő 7.0 erősségű földrengéstől a 2011-es japán tohokui 9.1-es erősségű földrengés kb. 1400-szor erősebb volt.

Háttérinfónak érdemes tudni, hogy 1944-ben Richter (akiről a skálát is elnevezték) és Gutenberg megalkotott egy törvényt, amely egyszerű összefüggést teremt a földrengés erőssége és gyakorisága között. Richter és Gutenberg azt mondták, hogy ez ún. hatványfüggvény-eloszlást követ, ami azt jelenti, hogy a kis magnitúdójú földrengések sokkal gyakoribbak, mint az erősek, viszont ritkán szélsőségesen erős földrengések is ki tudnak alakulni.

Földrengések a világban 1964. január – 2012. március, forrás: Nate Silver (2012)

Az adatpontokat logaritmizálva lineáris összefüggést kapunk.

Földrengések a világban, logaritmikus skálán, 1964. január – 2012. március, forrás: Nate Silver (2012)

Érdemes még kiemelni, hogy a Gutenberg-Richter törvény mind az egész Földre mind a Föld egyes területeire érvényes. A törvény jelentősége abban áll, hogy kis magnitúdójú földrengésekből lehet előrejelezni nagy magnitúdójúakra és vica versa, olyan értelemben, hogy milyen gyakorisággal fordulnak elő. Amit a törvény nem mond meg, az az, hogy pontosan mikor lesz a földrengés.

Az előrejelzések egyik legnehezebb területe a földrengés előrejelzés. Míg a hurrikánok, tornádók, áradások, vulkánitörések gyakran elég jól előrejelezhetők, addig a földrengések előrejelzésében alig tud többet a mai ember, mint több száz ével ezelőtt. Az amerikai USGS (Földrajtudományi Intézet), amely a világ talán legkomolyabb szaktekintélyének számít a témában, a honlapján is közli, hogy sem ők, sem más nem tudott még egyetlen jelentős földrengést sem prediktálni. A szeizmológus terminológia ez alatt azt érti, hogy nem lehet megmondani azt, hogy 1) mikor, 2) hol és 3) milyen erősségű földrengés várható. Amire képesek a szeizmológusok, az az, hogy megmondják, egy adott területen mi a valószínűsége annak, hogy földrengés lesz adott számú éven belül. Például azt tudják megmondani, hogy a szeizmikusan aktívnak számító San Francisco 50 mérföldes körzetében egy legalább 6.75 erősségű földrengés 35 évente egyszer fordul elő, tehát minden évben 1:35-höz a valószínűsége annak, hogy ilyen erősségű földrengés lesz ott. Ezzel szemben mondjuk a keleti parton, Washingtonban csak 1:55.000 a valószínűsége ugyanennek.

Mi kell ahhoz, hogy valami jól előrejelezhető legyen?

Ahhoz, hogy egy esemény jól előrejelezhető legyen, három dolognak kell teljesülnie egyszerre:

Hatásfüggetlenség. Ha az előrejelzés hatással van arra, amit épp próbálunk előrejelezni, az olyan, mint a saját farkát kergető kutya. Tipikus példa állami szervek előrejelzésénél (MNB, KSH, kormány), hogy a gazdasági szereplők várakozásait érdemben határozzák meg az előrejelzéseik. Például, ha hitelesnek ítélik meg a gazdasági szereplők a Jegybank árstabilitási politikáját (amely a transzmissziós mechanizmus várakozási csatornáján ezt aktívan befolyásolja), akkor a várakozások lehorgonyoznak (horgony hatás) és önbeteljesítő módon megvalósulnak. Ebben az esteben tehát a Jegybank hatással van saját előrejelzésének megvalósulására. Vállalati gyakorlatban az előrejelzések teljesítményre gyakorolt hatása közvetetten szintén meg tud jelenni – gondoljunk csak a vállalati tervekre, amelyek az előrejelzések alapján készülnek és a vállalati teljesítmény függvényében valósulnak meg. Éppen ezért fontos, hogy az előrejelzések ne a tervek alapján készüljenek, hanem objektív képet szolgáljanak a jövővel kapcsolatban, és így ezek képezzék a tervek alapját.
Földrengés előrejelzésnél ilyen hatás nyilvánvalóan nincs.
Releváns adat. A jó előrejelzés második fontos összetevője a releváns és megfelelő mennyiségű adat. Nos, az időjárás előrejelzés azért tud jól működni, mert a légkör különböző szenzorokkal elég jól mérhető, így rengeteg adat áll rendelkezésre a megértést segítő elemzéshez és az előrejelzéshez. Ezzel szemben a földrengés előrejelzéshez ilyen adatok nem állnak rendelkezésre. A legtöbb releváns tevékenység 15 km-rel alattunk történik, ilyen mélységű mérések nélkül pedig nem állnak rendelkezésre azok az adatok, amelyek alapján sikerülne teljes mértékben megérteni a földrengések kialakulását. A rendelkezésre álló adatok (többnyire, hogy mikor, hol, milyen erősségű fölrengés volt korábban) nagyon zajosak, nem rajzolódnak ki szabályszerűségek a földrengések időzítésére vonatkozóan a korábbi földrengések alapján.
Értés. A harmadik, de talán a legfontosabb szempont az, hogy mennyire jól értjük a tényezőket, amelyek hozzájárulnak az előrejelzéshez. Ez az ismeret segít abban, hogy az irreleváns információt jelentő zajt különválasszuk a mögöttes összefüggésektől (jel). A fundamentális összefüggések mély ismerete magában foglalja, hogy a módszertani értés és az adott területnek az értése nem válik el élesen egymástól: a probléma ismerete nélkül nem lehet jól modellezni, illetve modellezés nélkül nem lehet elég mélyen ismerni az adott területet az előrejelzés-készítéshez. Földrengések esetén a fundamentális összefüggések értése nem teljes, limitált.

Túlillesztés és Akerlof tragacspiaca - az egyik leggyakoribb modellezési probléma

A földrengés-előrejelzés esete jól mutatja be, hogy mi történik akkor, ha a rendelkezésre álló adat zajos és a mögöttes folyamatok megértése gyenge (a gazdasági és politikai folyamatok is ilyenek többnyire). Ilyen esetekben nagyon valószínű, hogy az előrejelző modell túl lett illesztve (angolul overfitting). A túlillesztés fogalma azt írja le, amikor a zajt tévesen jelnek azonosítjuk, magyarul olyan összefüggést látunk az adatokban, amely nem is létezik – mintázatot látunk ott, ahol nincs.

Mielőtt rátérnénk, mi történt Japánban, nézzünk egy szemléltető példát, hogy mit is jelent a túlillesztés.

Egy jól illesztett modell és egy túlillesztett modell. Forrás: Nate Silver (2012)

Tegyük fel, hogy a fenti ábrákon a szaggatott vonal jelenti a valós kapcsolatot két változó között. Mivel ezt a valós összefüggést közvetlenül nem tudjuk megfigyelni, a gyűjtött egyedi (a képen szürke) adatpontok alapján kell következtetnünk a mintázatra. Azonban vannak nem megmagyarázható körülmények (hiszen a modellünk mindig a valóság egyszerűsített mása), így a valós összefüggés (jel) mellett vannak zajok is.

Ha ismerjük a valós összefüggést (értjük a problémát) akkor a bal oldali ábrához hasonlóan egy egyszerű (kvadratikus) függvényt definiálunk, ami jól megragadja a valós kapcsolatot (a szaggatott vonal közel van a becsült folytonos vonalhoz). Ez a modell jó előrejelzéshez vezet. Ha azonban nem ismerjük a valós összefüggést, akkor hajlamosak vagyunk ott is mintázatot látni, ahol nincs. A jobb oldali ábra azt az esetet mutatja, amikor egy komplex függvénnyel dolgozunk, amely a zajokat is megpróbálja leírni. Ez a modell rossz előrejelzéshez vezet.

A modell túlillesztése nem szükségszerű, de mégis gyakori jelenség. Miért? Mert így a modell pontosabbnak tűnik a legtöbb statisztikai teszttel. Pl. az egyik leggyakoribb statisztikai mérőszám (R-négyzet) azt fejezi ki, hogy az adatokban rejlő varianciának hány százalékát magyarázza a modellünk. A jobb oldali ábrán ez 85%, a bal oldali ábrán pedig csak 56%. A jobb oldali túlillesztett modell mégis sokkal rosszabbul tudja magyarázni a valódi összefüggést.

Ez nem újkeletű megfigyelés, viszont sok esetben a modellezők hajlamosak figyelmen kívül hagyni. Ennek oka leginkább az, hogy papíron a túlillesztett modellek sokkal impresszívebbek. Ezáltal könnyebben kommunikálható, hogy fejlődés történt a korábbi módszertanhoz képest, könnyebben eladható a főnöknek / ügyfélnek / tudományos szaklapnak. Sajnos ennek van egy olyan hatása is, amit Akerlof tragacspiaci példája jól leír, hogy a rossz, kamu modellek kiszorítják a tisztességes modelleket az aszimmetrikus információ miatt. A történethez hozzátartozik, hogy megfelelő modellvalidációval a túlillesztés elkerülhető, ennek a módszertana megtanulható. Viszont ha ezt a főnök / megrendelő nem követeli meg a modellezőktől, akkor (tudatosan, de sokszor anélkül is) meg fogják vezetni.

Mi történt Japánban?

A fukushimai atomreaktort úgy tervezték, hogy egy nagyon erős, 8,6 erősségű földrengésnek is ellenálljon. Azonban 2011. márciusában 9,1-es erősségű földrengés rázta meg Japán keleti partvidékét. A földrengést egy hatalmas cunami követte. Óriási károkat okozott a katasztrófa. A földrengés hatására a fukushimai atomerőmű négy reaktorblokkja károsodott szerkezetileg. Az erőműből nagy mennyiségben kijutott radioaktív anyagok több tíz kilométeres távolságig beszennyezték a környezetet. A Nemzetközi Atomenergiai Ügynökség a létező legsúlyosabb, 7-es fokozatba (nagyon súlyos) sorolta be a balesetet. Az okokat természetesen azonnal elkezdték kivizsgálni. A kormány számára publikált független parlamenti bizottsági jelentés a katasztrófa fő okának egyértelműen az emberi felelőtlenséget jelölte meg. A beszámoló szerint mind az atomerőművet üzemeltető vállalat vezetősége, mind az állami ellenőrző hatóság lebecsülte a lehetséges kockázatokat, így fontos biztonsági intézkedéseket mulasztottak el.

A következő két ábra szemlélteti, mi történt Japánban. A fekete pontok a térségben korábban megfigyelt földrengéseket írják le (azóta, hogy mérik). Erre próbálunk modellt illeszteni. Az látszik, hogy 1964 óta 8-as erősségűnél csak gyengébb földrengés volt ott.

Az első ábra mutatja azt a helyzetet, amikor a Richter-Gutenberg törvényhez szigorúan ragaszkodunk. Tehát azt mondjuk, igaz a két tudós állítása a Föld egészét illetően, így Japánban is. Azt is mondjuk, hogy a lineáris vonal azért nem illeszkedik tökéletesen a megfigyelt pontokra, mert még nem telt el elég idő ahhoz 1964 óta, hogy elég sok nagyobb földrengés legyen, ehhez valószínűleg évszázadoknak kell eltelnie.

Gutenberg-Richter illesztés, forrás: Nate Silver (2012)

A második ábra azt a helyzetet mutatja, amikor azt mondjuk, hogy alapvetően igaznak gondoljuk Richter és Gutenberg törvényét, de van valamiféle lokális jellemző, ami miatt jó okunk van azt feltételezni, hogy 7,6-es erősségűnél nagyobb földrengés ebben a régióban nem valószínű, hogy elő fog fordulni. Szeizmológusok ezt karakterisztikus illesztésnek hívják. Ez az ábrán úgy jelenik meg, hogy a logskálán eredetileg becsült lineáris összefüggés megtörik.

Ez a második ábra írja le, hogy mi történt. Japán szeizmológusok elkezdték megindokolni, hogy miért térjenek el a Gutenberg-Richter törvény becslésétől. Például olyan magyarázatokat adtak, hogy 9-es erősségű földrengés még sosem volt olyan területen, ahol olyan az összetevője (relatíve hideg és sűrű) a tengerfenéknek, mint Japán keleti partjain. Ezelőtt az eset előtt mindössze három, legalább 9-es erősségű földrengést rögzítettek az egész világon, ami elég kevés adat ahhoz, hogy ilyen specifikus konklúziót lehessen levonni. Mi történt? Túlillesztették a modellt, mintát láttak ott is, ahol nincs.

Karakterisztikus illesztés, forrás: Nate Silver (2012)

A két ábrát megnézve látszólag nagyon kicsi a különbség. Viszont ha jobban megnézzük, látjuk, hogy a gyakorlatban óriási jelentősége volt a túlillesztésnek és annak megracionalizálásának. A 2. modell szerint 9-es erősségű földrengés mindössze minden 13.000. évben várható, belátható időn belül nem reális kockázat. Azonban Gutenberg-Richter törvénye szerint minden 300. évben előfordul a térségben ilyen erős földrengés, ami már emberi szemmel belátható időtáv. Ebben az esetben tehát az történt, hogy a túlillesztett modell radikálisan alábecsülte egy földrengés okozta katasztrófa valószínűségét.

Mit tanulhatunk a fukushimai esetből?

A jó előrejelzés készítéséhez az adatok mellett fontos az összefüggések értése is. Ez magában foglalja a modellezési módszertant és az adott terület mély ismeretét is. Modellezni nem lehet csak adatok alapján és előrejelezni sem lehet megfelelő módszertan nélkül.
A túlillesztés felismerése sokszor múlik az üzlet, vagy szakmai tudáson, amik mögött az adatok rejlenek, és a megfelelő kritikai kérdések megfogalmazásán.
Ne akarjuk túlracionalizálni a dolgokat. Ne keressünk mintát a zajban.
A kisebb komplexitású modell sokszor jobb előrejelző képességgel bír.
Ne harapjunk citromba! Követeljük meg a transzparens modellvalidációt, hogy a vállalati modellek ne csak papíron mutassanak jól, hanem a valóságban is alkalmazhatók legyenek.
Ha egy modell nagyon pontos, az elsőre legyen mindig nagyon gyanús.
Olykor egy kis modellezési hiba jelentős méretű károkat tud okozni.

A szerző az IFUA Horváth & Partners Kft vezető tanácsadója