Huber Plisiecki, Paweł Lenartowicz
Wiarygodność Polskiej Psychologii
Co możemy powiedzieć o replikowalności polskiej psychologii akademickiej?
Jaki wpływ na rzetelność naukową miała ewaluacja prowadzona przez ministerstwo?
O projekcie:
Projekt Estimating Replicability of Polish Psychology, zainicjowany w 2022 roku, ma na celu analizę wiarygodności wyników badań psychologicznych i obecności wątpliwych praktyk badawczych w Polsce. Inicjatywa powstała w ramach Studenckiego Koła Otwartej Nauki na Uniwersytecie SWPS w Warszawie, a od 2023 roku jest realizowana w Stowarzyszeniu na rzecz Otwartej Nauki
Celem projektu jest przeprowadzenie badań metanaukowych opartych na możliwie kompletnej bazie danych artykułów z dziedziny psychologii. Baza obejmuje artykuły opublikowane w latach 2017-2021, a więc okres ostatniej ewaluacji ministerialnej.
W projekcie prerejestrowano wybrane hipotezy badawcze, które są dostępne pod adresem: https://osf.io/jgrbf
W projekt zaangażowanych było dotychczas 15 osób, a jego koordynatorami są Hubert Plisiecki i Paweł Lenartowicz. Wszystkie osoby biorące udział w projekcie działają na zasadzie wolontariatu, a pozostałe koszty są pokrywane z prywatnych środków Pawła i Huberta.
Baza danych:
Baza danych obejmuje: 1650 badaczek i badaczy, którzy zadeklarowali psychologię jako swoją dyscyplinę i znajdują się w bazie RAD-on1, w tym 1201 osób, których głównym miejscem pracy były instytuty podlegające ewaluacji w psychologii. Dla tych 1201 osób ręcznie wyszukano i przyporządkowano profile w bazie ORCID2 oraz ID w Polskiej Bibliografii Naukowej3 (PBN).
Z przyporządkowanych profili w bazach ORCID i PBN pobrano i wyczyszczono odpowiednio 6488 i 8347 rekordów prac naukowych (część artykułów była zduplikowana).
Następnym krokiem była próba pobrania wszystkich dostępnych prac naukowych oraz równoległego kodowania czasopism, poprawienia literówek w tytułach i nazwach czasopism itp. Artykuły pobierano dwutorowo: rekordy z DOI ściągano automatycznie, a pozostałe ręcznie, aby wyeliminować błędy (ręczne ściąganie artykułów jest wykonane w około 40%).
Obecnie w bazie znajduje się ponad 5 tysięcy unikalnych artykułów naukowych w formacie PDF. Do ekstrakcji wyników testów statystycznych użyto oprogramowania Statcheck. Na potrzeby projektu oprogramowanie zostało przepisane na język Python (https://github.com/hplisiecki/statcheck_python).
Czym jest Z-Curve
Z-curve4 to metoda statystyczna, która na podstawie dystrybucji p-value oszacowuje potencjał replikacyjny badań oraz umożliwia ocenę skali wątpliwych praktyk badawczych. Metoda ta pozwala przewidzieć, jaka część badań z danego zbioru mogłaby zostać powtórzona z podobnym wynikiem oraz oszacować, ile wyników nie zostało opublikowanych z powodu 'nieistotnych’ wyników.
Pierwszym krokiem metody Z-Curve jest przekształcenie p-value na wartości z (odpowiadające liczbie odchyleń standardowych od hipotezy zerowej). W idealnych warunkach testy o tej samej mocy statystycznej będą miały wartości z pochodzące z rozkładu normalnego o odchyleniu standardowym równym 1. Dla wielu badań będzie to suma rozkładów normalnych z różnych badań. Na tej podstawie, przy założeniu selekcji wyników tylko dla progu p = 0.05, można w drugim kroku oszacować teoretyczną dystrybucję wyników testów, zakładając pełne raportowanie nieistotnych wyników.
Na rzeczywistą dystrybucję p-value wpływa wiele czynników, takich jak:
- Efekt szuflady – selektywne publikowanie jedynie wyników, które osiągnęły poziom istotności statystycznej.
- Wątpliwe praktyki badawcze – różnorodne nierzetelne metody modyfikacji wyników testów statystycznych, które mają na celu osiągnięcie istotności statystycznej, mimo że nie odzwierciedlają rzeczywistego stanu rzeczy. Przykłady:
- Wybiórcze raportowanie – przeprowadzanie wielu analiz, manipulowanie zmiennymi i modelami, a następnie wybiórcze raportowanie korzystnych wyników.
- HARKing – dopasowywanie hipotezy po uzyskaniu wyników.
- p-hacking – manipulowanie wielkością próby i usuwanie obserwacji odstających w celu uzyskania istotności statystycznej.
Dodatkowo metoda ta pozwala na obliczenie wskaźników takich jak:
- Observed Discovery Rate (ODR) – procent statystyczie istotnych wyników w zaobserwowanym zbiorze badań.
- Expected Discovery Rate (EDR) – oczekiwany procent istotnych statystycznie wyników, jeżeli zdecydujemy się powtórzyć te eksperymenty.
Jak interpretować wykresy Z-Curve
Niewątpliwą zaletą metody Z-Curve jest możliwość wizualizacji efektów p-hackingu i wybiórczej publikacji. Dzięki transformacji p-value na wartości odchylenia standardowego możliwe jest odtworzenie ich ważnej właściwości — rozkład tych wartości powinien być w przybliżeniu normalny dla pojedynczego eksperymentu lub sumą rozkładów normalnych dla wielu badań.
Oznacza to, że wizualizując te wartości za pomocą histogramu, powinniśmy uzyskać rozkład bez „stromych spadków” lub „ostrych cięć”. Przykładem takiego rozkładu jest Z-Curve dla Davida Matsumoto5, psychologa znanego z badań nad mikroekspresjami, prowadzonych wspólnie z Paulem Eckmanem. Taki kształt wykresu oraz brak wyraźnych różnic między „Observed Discovery Rate (DR)” a „Expected Discovery Rate (DR)” nie wskazuje na obecność p-hackingu ani tendencyjności publikacyjnej w analizowanych pracach.
Na powyższym wykresie na osi x mamy p-values przekształcone na z-values. Z-value równe 0 odpowiada p-value = 1, natomiast z-score = 1.94 odpowiada progowi istotności p-value = 0.05 (dla testu dwustronnego). Z-score powyżej 5 odpowiada bardzo niskiemu p-value < 0.0001. Czerwone pionowe linie oznaczają próg istotności p = 0.05 dla testów jedno- i dwustronnych.
Jak interpretować wykresy Z-Curve
Z-curve obliczony dla Shelly Chaiken5 jest przeciwieństwem przedstawionego wcześniej wykresu i jest charakterystyczny dla dziedzin, w których zaobserwowano powszechne problemy z replikacją badań (w tym przypadku 'dual process theory’). Na tym histogramie widzimy wyraźne „odcięcie” na granicy istotności statystycznej oraz różnice, które trudno uzasadnić statystycznie, w liczbie efektów tuż poniżej i tuż powyżej tej granicy. Obserwujemy dużą różnicę między ODR a EDR. Analiza dopasowania rozkładu sugeruje, że oprócz 379 zaraportowanych wyników brakuje około 1000 nieistotnych statystycznie wyników, które nie zostały opublikowane.
Jak wypadają polskie badania?
Zaprezentowaliśmy wyniki dla 7 uczelni z największą liczbą opublikowanych testów statystycznych oraz analogiczny wykres dla Uniwersytetu Harvarda6, który pod względem wykrytej tendencyjności i p-hackingu plasuje się mniej więcej w połowie amerykańskich uczelni. Warto podkreślić, że polskie uczelnie wypadają w tej analizie całkiem dobrze, jednak istnieją wyraźne różnice między nimi, które mogą być interesującym tematem dalszej analizy.
Aby uniknąć kontrowersji związanych z prezentowaniem wyników dla poszczególnych badaczy i badaczek oraz przenieść nacisk z indywidualnych działań na aspekty instytucjonalne, zdecydowaliśmy nie publikować wyników dla konkretnych osób.
Z-Curve w kolejnych latach
Jednym z celów badania, jest analiza wpływu ewaluacji na praktyki publikacyjne. W tym celu analizujemy, zgodnie z prerejestracją, różnice pomiędzy latami. Szczególnie istotne jest to, co zadziało się w 2021 roku – ostatnim roku, w którym publikowane artykuły mogły zostać uwzględnione w zbliżającej się wtedy ewaluacji. Mamy do czynienia ze skokowym wzrostem oznak p-hackingu w publikacjach.
Podsumowanie i dyskusja
Warto podkreślić, że problemy związane z jakością badań oraz praktykami publikacyjnymi są wieloaspektowe i trudno je jednoznacznie wyjaśnić. Wpływają na nie zarówno niedociągnięcia w znajomości metod statystycznych przez badaczy, jak i presja związana z koniecznością zwiększania liczby publikacji, a także źle rozumiana jakość tych publikacji, definiowana głównie przez obecność w wysoko ocenianych czasopismach. Te czasopisma również nie są wolne od szkodliwych praktyk wydawniczych, takich jak utrudnianie publikacji replikacji badań czy wyników, które nie spełniają progu istotności statystycznej.
Problemy te nie są jednak unikalne dla Polski – od lat stanowią przedmiot międzynarodowej debaty7. Nie istnieje jedno rozwiązanie, które mogłoby natychmiast uzdrowić system. Co więcej, nieprzemyślane reformy mogą pogorszyć sytuację, prowadząc do trudnych do przewidzenia negatywnych konsekwencji.
Wyniki tego projektu nie są zaskakujące — w porównaniu do USA, gdzie kariera akademicka jest silniej nastawiona na rywalizację w publikacjach, w Polsce obserwujemy mniej manipulacji wynikami. Zaskakująca może być jedynie skala zjawiska p-hackingu w ostatnim roku ewaluacji. Z pewnością będziemy chcieli, poza skrupulatnie zaplanowaną i prerejestrowaną analizą dotyczącą wpływu ewaluacji, zweryfikować także alternatywne wyjaśnienia, takie jak wpływ publikacji „okołocovidowych”.
W miarę rozwoju naszego projektu będziemy publikować coraz bardziej precyzyjne estymacje potencjału replikacyjnego, zarówno w rozbiciu na konkretne instytuty, jak i lata. Pracujemy także nad poprawą metod analitycznych, co może stanowić znaczący wkład projektu na polu statystyki. Chcielibyśmy, aby wyniki uzyskane w ramach projektu zwiększyły wagę argumentów opartych na danych empirycznych w dyskusji nad trwającymi reformami. Mamy nadzieję, że dyskusja, która rozwinie się wokół powyższych wyników przyczyni się do podwyższenia jakości badań prowadzonych w naszym kraju.
Bibliografia
- Baza RAD-ON https://radon.nauka.gov.pl/
- Baza ORCID https://orcid.org/
- Baza PBN https://pbn.nauka.gov.pl/core/#/home
- Schimmack and Bartoš Z-Curve 2.0: Estimating Replication and Discovery Rates https://replicationindex.com/2020/01/10/z-curve-2-0/
- Przykładowe wykresy z-curve https://replicationindex.com/2021/01/19/personalized-p-values/
- Z-curve Uniwersytetu Harvard https://replicationindex.com/2022/02/23/rr22-harvard/
- Lista lektur dotyczących problemów z replikowalnością (zapożyczona z projektu Reproducibilitea) https://osf.io/qxbcs