Teoria kontra praktyka, czyli regresja wielokrotna zamiast kosztownych eksperymentów

Podejmując próby rozszyfrowania struktury przyczynowej otaczającej nas rzeczywistości, pierwszą poważną i pewnie największą barierą jest liczba zmiennych. Greenspan, omawiając konstruowanie modeli ekonometrycznych, nie bez przyczyny wskazywał na mozolność dobierania zmiennych i założeń przygotowywanych równań, zanim pojawi się rezultat oddający wystarczająco dobrze dane historyczne, aby zidentyfikowaną korelację obserwowanych zmiennych uznać za oparcie dla prognoz dotyczących przyszłości.

Skutki działania amatorów szukania związków przyczynowo-skutkowych przy pomocy regresji wielokrotnej otaczają nas nieustannym szumem informacyjnym w mass-mediach. Co rusz dowiadujemy się, że naukowcy takiej czy innej proweniencji wykazali, że kawa szkodzi na serce albo wręcz przeciwnie

Wychodząc naprzeciw zapotrzebowaniu na analizę związków i korelacji pomiędzy wielkościami odzwierciedlającymi parametry rzeczywistości, statystyka oddaje w ręce analityków narzędzie regresji wielokrotnej. Jest to technika korelacyjna, która polega na równoczesnym obliczaniu korelacji między wieloma zmiennymi niezależnymi (objaśniającymi) a daną zmienną zależną (objaśnianą), czyli próba odpowiedzi na pytanie, jaki jest wpływ badanej zmiennej, po uwzględnieniu oddziaływania wszystkich innych obserwowanych zmiennych, na zmienną zależną. A odrzucając statystyczny żargon, chodzi o to, co jest przyczyną a co skutkiem? Jeżeli jakaś obserwowana zmienna jest przyczyną danego zjawiska, to w jakim stopniu? A może są to zmienne współzależne a przyczyna ich zmienności leży głębiej?

Skutki działania amatorów szukania związków przyczynowo-skutkowych przy pomocy regresji wielokrotnej otaczają nas nieustannym szumem informacyjnym w mass-mediach. Co rusz dowiadujemy się, że naukowcy takiej czy innej proweniencji wykazali, że kawa szkodzi na serce albo wręcz przeciwnie, że alkohol nawet w najdrobniejszej dawce generuje jakieś tam ryzyka lub też jest dobroczynny dla zdrowia. Jesteśmy bombardowani zapewnieniami, że zbadano jakiś rodzaj diety, suplementu diety, ekstraktu z wątroby rekina czy oleju z wiesiołka, które to badanie wykazało, że itd., itp. Jakiś czas później możemy natrafić na informacje, objawione już mniejszą czcionką i nie na pierwszej stronie, że jednak może nie do końca jest tak, jak oznajmiano na początku.

Sama liczba informacji generowanych przez badania korzystające z dobrodziejstw analiz dokonywanych metodami regresji wielokrotnej może wydawać się uciążliwa, ale nie wydaje się groźna. Nic bardziej złudnego. Badania mające ustalić związki przyczynowo-skutkowe oparte o regresję wielokrotną niosą (jak pisze w swojej książce „Mindware” Richard E. Nisbett) niebezpieczeństwo podstawowego błędu poznawczego – autoselekcji⁴⁶. Dobór próby analizowanych przypadków może, przy dużej ilości zmiennych i przy nieświadomości badającego, nie być losowy. W dobór ten, mimo starań o zachowanie doboru losowego, wkradają się deformacje niereprezentatywności, a więc skażenia próby drugą, trzecią czy wieloma wspólnymi dla grupy cechami, które mogą nie być nieistotnymi pasażerami na gapę, ale tymi właściwymi przyczynami, których szukamy, ale których istnienia w próbie reprezentatywnej nie podejrzewamy. Analiza statystyczna pokazuje wtedy korelatywność zmiennych, ich współwystępowalność, ale wywołuje również złudzenie przyczynowości.

Fałszywe zależności, pisze Taleb, widać najszybciej⁴⁷. Gdy badający ma pewien obraz, pewną intuicję, koncepcję, którą chce obserwacyjnie potwierdzić, korzystając z dostępnych statystyk badawczych, to zostać zwiedzionym przez własne, behawioralne okulary jest niezwykle łatwo – setki takich przypadków opisuje w „Pułapkach myślenia” Kahneman czy w książce „Mindware”, dość szczegółowo omawiającej różne poziomy błędów generowanych pod wpływem analizy regresji wielokrotnej, Richard E. Nisbett. Narzędziem, które pozwala obronić się przed błędami poznawczymi generowanymi nieuchronnie przez naszą głowę jest randomizowany eksperyment z podwójną ślepą próbą. Randomizacja to losowy rozdział badanych obiektów do grup porównawczych. Podwójnie ślepa próba oznacza, że uczestnicy badania i prowadzący je nie mają dostępu do kluczowych informacji na temat przeprowadzanego badania. A sam eksperyment oznacza duże koszty – szybko rosnące wraz ze wzrostem liczebności próby.

W pogoni za korzyściami nie dostrzegamy zagrożeń wynikających z tego, że świat jest pełen wzajemnych, mocno nieliniowych zależności pozostających poza naszym poznaniem

Rozumiejąc koszty prowadzonych badań z jednej strony i chęć – bez wątpienia pozytywną – kreowania dobra z drugiej, bilans łatwo jest przechylić na rzecz pozyskiwania nowych leków, instrumentów finansowych, nowych wydatków rządowych czy regulacji prawnych. Nie dostrzegając znaczącej różnicy pomiędzy (neo)klasycznym przybliżeniem opartym na prostym osiąganiu korzyści przez jednostkę dotykaną czasami napadem „zwierzęcych instynktów” a systemem złożonym, emergentnym, relacyjnym, adaptatywnym, z wewnętrzną pamięcią, w którym wprowadzane zmiany mogą podlegać efektowi skalowalności, narażamy się – jak określił to Taleb – na kruchość. W pogoni za korzyściami nie dostrzegamy zagrożeń wynikających z tego, że świat jest pełen wzajemnych, mocno nieliniowych zależności pozostających poza naszym poznaniem. A idea, parafrazując znane powiedzenie, wylatuje z naszych ust wróblem, a wraca wołem.

46 R. E. Nisbett, Mindware…, dz. cyt., s. 186.

47 N. N. Taleb, Antykruchość dz. cyt., s. 537.

Następny rozdziałBig data – złudzenie mocy

Świat może działać lepiej

Spis treści

O eseju i autorze

Zamiast wstępu: różne teorie mówią o tym samym

Jeździec na słoniu, czyli behawioralne okulary

Gdzie podziały się dinozaury, czyli teoria złożoności

Jak fizyk naprawia firmę? Tworząc teorię ograniczeń!

Jak wykorzystać przypadki, czyli teoria prawdopodobieństwa

Czy ludzie działają racjonalnie? Behawioryzm i teoria złożoności a modele ekonometryczne

Usprawnianie przemysłowego wytwarzania przy pomocy teorii ograniczeń

Dzwon i fraktale, czyli Gauss kontra Mandelbrot

Prawica i lewica – idee modelują świat

Systemy skalowalne i nieskalowalne

Teoria kontra praktyka, czyli regresja wielokrotna zamiast kosztownych eksperymentów

Big data – złudzenie mocy

Kiedy złożone systemy antropogeniczne bywają stabilne, czyli szanse i zagrożenia, które przynosi globalizacja

Poprawianie systemów złożonych, czyli architektura wyboru

Kruchość i antykruchość, czyli jak oceniać możliwe rozwiązania dylematów generowanych przez systemy złożone

Teoria ograniczeń, czyli siodłanie systemów złożonych

Konflikty a behawioralny problem plemienności

Myślenie ma przyszłość, czyli jak sprzyjać powstawaniu rozwiązań

Posłowie

Bibliografia

Świat może działać lepiej

Teoria kontra praktyka, czyli regresja wielokrotna zamiast kosztownych eksperymentów