Zapotrzebowanie na wiedzę, co w otaczającym nas świecie jest skutkiem, a co przyczyną i w jakim stopniu, generuje zapotrzebowanie na dane eksperymentalne. Koszty takich badań są bez wątpienia pochodną wielkości próby. Ale są też takie sytuacje, gdy eksperymentu w zasadzie przeprowadzić nie można lub jest to wręcz nieetyczne. Wtedy korzysta się z „eksperymentów naturalnych”. A więc szuka się grupy przypadków pod kątem interesujących nas zmiennych zarejestrowanych przy okazji innych badań lub powodów, dla których zbierano lub zbiera się nadal na masową skalę jakieś informacje. Spektakularnym przykładem są media społecznościowe i przypadek Cambridge Analytica.
Współczesne, nieustannie rozwijane bazy danych, ankiet, badań naukowych, danych rządowych, epidemiologicznych, spisów powszechnych, statystyk medycznych, sondaży opinii publicznej, mediów społecznościowych dają nam możliwość oparcia badań statystycznych na próbach wcześniej – ze względu na koszty lub ograniczenia etyczne – nieosiągalnych. Jednocześnie coraz mocniejsze komputery, internetowa dostępność, wyrafinowane techniki obliczeniowe regresji wielokrotnej stwarzają pole do nieograniczonego – wydawałoby się – działania.
Działanie z wykorzystaniem Big Data dość szybko trafia jednak na ograniczenia wynikające z nieprzejrzystości epistemologicznej świata. Im więcej zmiennych, tym więcej korelacji, które mogą się okazać statystycznie istotne, ale w rzeczywistości są błędne.
Żonglowanie danymi w oparciu o bazy Big Data, pozbawione eksperymentalnej weryfikacji na odpowiednio małą skalę, wystawia nas na bardzo duże ryzyko. „Odkrywcom” domniemanej zależności przyczynowo-skutkowej prowadzącej do zbawiennej w skutkach teorii przynosi potencjał zysków. Nam, obywatelom – potencjał strat
Przy 1000 zmiennych liczba pozornych korelacji przekracza 20 000. Przy 2000 przekracza 80 000. Przyrost fałszywych związków geometrycznie przekracza przyrost ilości prawdziwych informacji. To dlatego między innymi – jak twierdzi Taleb – po zdekodowaniu ludzkiego genomu analiza gigantycznej, zdobytej w ten sposób bazy danych, jeszcze nic spektakularnego nie przyniosła. Ale za to gdy szuka się potwierdzenia z góry przyjętej tezy, intuicji badawczej, pomysłu politycznego – to hulaj dusza, piekła nie ma. Chęci wzmocnione przez behawioralne okulary przyniosą opartą o Big Data teorię dotyczącą tego, co potrzeba. Intuicja badacza z kolei, polityka, ekonomisty chcącego zbawić ludzkość na skalę przemysłową nowymi koncepcjami, wzmocniona świadectwami samopotwierdzenia w oczach innych przekonanych, w ramach procesu skalowania idei na cały system złożony, wielokrotnie już przyniosła tej ludzkości katastrofalne decyzje.
Żonglowanie danymi w oparciu o bazy Big Data, ale pozbawione eksperymentalnej weryfikacji na odpowiednio małą skalę, wystawia nas – jako elementy systemu złożonego – na bardzo duże ryzyko. „Odkrywcom” domniemanej zależności przyczynowo-skutkowej prowadzącej do zbawiennej w skutkach teorii przynosi potencjał zysków. Nam, obywatelom – potencjał strat48. „Odkrywca” trafiając na potwierdzenie swoich intuicji, ma opcję: przestać szukać, nie weryfikować swojej teorii do końca, aby nie narażać się na porażkę, nie zostać z niczym. Jest gotów już teraz swoje koncepcje podać dalej, wdrożyć w życie. Już teraz jest gotów skorzystać z efektu skali i zarobić pieniądze. Duże pieniądze. A kto znajdzie pieniądze i chętnych na powtórzenie i potencjalne obalenie istniejących badań, wyglądających pozornie na całkiem dobrze udokumentowane? Nam, elementom systemu, instynkt samozachowawczy powinien podpowiedzieć, że trzeba obserwować dane, stawiać hipotezy, a następnie ponosić koszty ich weryfikacji i kalibracji, czyli dostosowywania do rzeczywistości proponowanych algorytmów działania czy kierunków zmian. I wdrażać zmiany najpierw na małą skalę, a nie pozwalać od razu na potęgowanie ich do skali całego systemu.
48 N. N. Taleb, Antykruchość…, s. 537