Podejmując próby rozszyfrowania struktury przyczynowej otaczającej nas rzeczywistości, pierwszą poważną i pewnie największą barierą jest liczba zmiennych. Greenspan, omawiając konstruowanie modeli ekonometrycznych, nie bez przyczyny wskazywał na mozolność dobierania zmiennych i założeń przygotowywanych równań, zanim pojawi się rezultat oddający wystarczająco dobrze dane historyczne, aby zidentyfikowaną korelację obserwowanych zmiennych uznać za oparcie dla prognoz dotyczących przyszłości.
Skutki działania amatorów szukania związków przyczynowo-skutkowych przy pomocy regresji wielokrotnej otaczają nas nieustannym szumem informacyjnym w mass-mediach. Co rusz dowiadujemy się, że naukowcy takiej czy innej proweniencji wykazali, że kawa szkodzi na serce albo wręcz przeciwnie
Wychodząc naprzeciw zapotrzebowaniu na analizę związków i korelacji pomiędzy wielkościami odzwierciedlającymi parametry rzeczywistości, statystyka oddaje w ręce analityków narzędzie regresji wielokrotnej. Jest to technika korelacyjna, która polega na równoczesnym obliczaniu korelacji między wieloma zmiennymi niezależnymi (objaśniającymi) a daną zmienną zależną (objaśnianą), czyli próba odpowiedzi na pytanie, jaki jest wpływ badanej zmiennej, po uwzględnieniu oddziaływania wszystkich innych obserwowanych zmiennych, na zmienną zależną. A odrzucając statystyczny żargon, chodzi o to, co jest przyczyną a co skutkiem? Jeżeli jakaś obserwowana zmienna jest przyczyną danego zjawiska, to w jakim stopniu? A może są to zmienne współzależne a przyczyna ich zmienności leży głębiej?
Skutki działania amatorów szukania związków przyczynowo-skutkowych przy pomocy regresji wielokrotnej otaczają nas nieustannym szumem informacyjnym w mass-mediach. Co rusz dowiadujemy się, że naukowcy takiej czy innej proweniencji wykazali, że kawa szkodzi na serce albo wręcz przeciwnie, że alkohol nawet w najdrobniejszej dawce generuje jakieś tam ryzyka lub też jest dobroczynny dla zdrowia. Jesteśmy bombardowani zapewnieniami, że zbadano jakiś rodzaj diety, suplementu diety, ekstraktu z wątroby rekina czy oleju z wiesiołka, które to badanie wykazało, że itd., itp. Jakiś czas później możemy natrafić na informacje, objawione już mniejszą czcionką i nie na pierwszej stronie, że jednak może nie do końca jest tak, jak oznajmiano na początku.
Sama liczba informacji generowanych przez badania korzystające z dobrodziejstw analiz dokonywanych metodami regresji wielokrotnej może wydawać się uciążliwa, ale nie wydaje się groźna. Nic bardziej złudnego. Badania mające ustalić związki przyczynowo-skutkowe oparte o regresję wielokrotną niosą (jak pisze w swojej książce „Mindware” Richard E. Nisbett) niebezpieczeństwo podstawowego błędu poznawczego – autoselekcji46. Dobór próby analizowanych przypadków może, przy dużej ilości zmiennych i przy nieświadomości badającego, nie być losowy. W dobór ten, mimo starań o zachowanie doboru losowego, wkradają się deformacje niereprezentatywności, a więc skażenia próby drugą, trzecią czy wieloma wspólnymi dla grupy cechami, które mogą nie być nieistotnymi pasażerami na gapę, ale tymi właściwymi przyczynami, których szukamy, ale których istnienia w próbie reprezentatywnej nie podejrzewamy. Analiza statystyczna pokazuje wtedy korelatywność zmiennych, ich współwystępowalność, ale wywołuje również złudzenie przyczynowości.
Fałszywe zależności, pisze Taleb, widać najszybciej47. Gdy badający ma pewien obraz, pewną intuicję, koncepcję, którą chce obserwacyjnie potwierdzić, korzystając z dostępnych statystyk badawczych, to zostać zwiedzionym przez własne, behawioralne okulary jest niezwykle łatwo – setki takich przypadków opisuje w „Pułapkach myślenia” Kahneman czy w książce „Mindware”, dość szczegółowo omawiającej różne poziomy błędów generowanych pod wpływem analizy regresji wielokrotnej, Richard E. Nisbett. Narzędziem, które pozwala obronić się przed błędami poznawczymi generowanymi nieuchronnie przez naszą głowę jest randomizowany eksperyment z podwójną ślepą próbą. Randomizacja to losowy rozdział badanych obiektów do grup porównawczych. Podwójnie ślepa próba oznacza, że uczestnicy badania i prowadzący je nie mają dostępu do kluczowych informacji na temat przeprowadzanego badania. A sam eksperyment oznacza duże koszty – szybko rosnące wraz ze wzrostem liczebności próby.
W pogoni za korzyściami nie dostrzegamy zagrożeń wynikających z tego, że świat jest pełen wzajemnych, mocno nieliniowych zależności pozostających poza naszym poznaniem
Rozumiejąc koszty prowadzonych badań z jednej strony i chęć – bez wątpienia pozytywną – kreowania dobra z drugiej, bilans łatwo jest przechylić na rzecz pozyskiwania nowych leków, instrumentów finansowych, nowych wydatków rządowych czy regulacji prawnych. Nie dostrzegając znaczącej różnicy pomiędzy (neo)klasycznym przybliżeniem opartym na prostym osiąganiu korzyści przez jednostkę dotykaną czasami napadem „zwierzęcych instynktów” a systemem złożonym, emergentnym, relacyjnym, adaptatywnym, z wewnętrzną pamięcią, w którym wprowadzane zmiany mogą podlegać efektowi skalowalności, narażamy się – jak określił to Taleb – na kruchość. W pogoni za korzyściami nie dostrzegamy zagrożeń wynikających z tego, że świat jest pełen wzajemnych, mocno nieliniowych zależności pozostających poza naszym poznaniem. A idea, parafrazując znane powiedzenie, wylatuje z naszych ust wróblem, a wraca wołem.
46 R. E. Nisbett, Mindware…, dz. cyt., s. 186.
47 N. N. Taleb, Antykruchość dz. cyt., s. 537.