Konkurs analizy danych – zasady

O konkursie

Zasada konkursu jest prosta, ściągasz dane, analizujesz je, a potem wysyłasz raport z analizy do nas, za pośrednictwem formularza. Szukany w zbiorze danych efekt jest duży (odpowiedni test będzie miał >99% mocy by go wykryć), ale też mocno ukryty.

Do analizy możesz użyć dowolnych oprogramowania i metody. Przeprowadzając odpowiednią analizę, wystarczy z pewnością Excel, ale i używając metod ML-owych i zaawansowanych modeli szeregów czasowych znajdziemy poprawne rozwiązanie. Zadanie zostało pomyślane w ten sposób, że ważniejsze są dobre intuicje (lub wybitna wiedza matematyczna) niż znajomość zaawansowanych technik.

Ślepa analiza danych

W badaniach wyróżnia się czasami pojęcie podwójnej ślepej próby oznaczające, że zarówno osoba badana, jak i przeprowadzająca badanie nie wie, czy dana osoba przydzielona została do grupy kontrolnej czy badawczej.

W potrójnej ślepej próbie, nie tylko osoba badana i przeprowadzająca, ale także osoba która analizuje dane robi to „na ślepo” – to znaczy posiada tylko podstawowe informacje na temat zmiennych, aby nie sugerować się nimi w czasie przeprowadzania analizy.

Przed wami zadanie właśnie takiej „ślepej analizy danych”, a do przeanalizowania zbiór danych, w którym zmienne – także te oznaczające potencjalną grupę kontrolną i badawczą – zostały „zanonimizowane”. Powodzenia.

Tutaj, w momencie wystartowania konkursu, pojawi się link do ściągnięcia danych.

Do kiedy i w jakiej formie zbieramy odpowiedzi?

Odpowiedzi zbieramy do XX godziny XXX. Należy je anonimowo przesłać za pomocą formularza, który znajdziecie tutaj strona do przesyłania rozwiązań.

Dla kogo?

Konkurs jest skierowany do indywidualnych osób jak i zespołów składających się z osób studiujących, na doktoracie, oraz tych, które nie skończyły jeszcze 33 roku życia.

Nagroda

Jako nagroda są przewidziane tom I i II Antologii Reportażu.

Co będzie oceniane?

  • Analizę danych (0-4 punktów)
  • Poprawność wyciąganych wniosków (0-3 punkty)
  • Znalezienie i przedstawienie efektu/ów (0-3 punkty)

Szczegółowe kryteria zostaną podane wraz z zamknięciem przyjmowania rozwiązań.

Wyniki

Wyniki konkursu umieścimy na stronie i grupie. To jak szybko je udostępnimy, będzie zależało przede wszystkim od tego, jak dużo osób nadeśle rozwiązania.

Opis danych – codebook:

Zmienne
  • ‘kat_1’ – to zmienna kategoryczna która może mieć wartość 0 lub 1 (na przykład płeć, grupa kontrolna itd).
  • ‘kat_2’ – to zmienna kategoryczna która może mieć wartość 0 lub 1.
  • ‘kat_3’ – to zmienna kategoryczna o czterech poziomach: 1, 2, 3 lub 4 (na przykład miejsce zamieszkania, wykształcenie).
  • ‘ciagla’ – to zmienna ciągła, zaokrąglona do liczb całkowitych, jej minimalna wartość to 18, maksymalna to teoretycznie 70 (przykładem takiej zmiennej może być wiek w latach).
Wyniki pomiarów
  • Dla każdego przedmiotu przeprowadzono 21 obserwacji w równych odstępach czasu.
  • ‘okres_0’ oznacza obserwację na początku badania, ‘okres_1’, ‘okres_2’ itd. to kolejne obserwacje w okresach 1. 2. itd.
  • Dla każdego okresu przeprowadzano dwa różne pomiary oznaczone jako ‘[]zmienna_A’ oraz ‘[]zmienna_B’.
  • ‘okres_15_zmienna_B’ oznacza pomiar zmiennej ‘B’, który miał miejsce w 15 okresie.
  • Pomiary są zmiennymi ciągłymi, zaokrąglonymi do liczby całkowitej. Teoretycznie minimalny pomiar to 0, maksymalny to 250.
English (UK)