Statystyki opisowe w analizie danych

 

Jednym z pierwszych kroków w analizie statystycznej, który powinniśmy wykonać zaraz po usystematyzowaniu danych zebranych podczas badania, jest obliczenie statystyk opisowych. Stanowią one zbiór metod statystycznych, wykorzystywanych m.in. w analizie do prac naukowych. Ponadto, dają wstępny ogląd na zebrane dane, pomagają w wyciąganiu pierwszych wniosków popartych przez późniejszą analizę.

 

Stosowane miary analizy statystycznej

 

Do najpopularniejszych miar statystycznych możemy zaliczyć średnią, odchylenie standardowe, medianę, ale również rozstęp kwartylowy, który informuje o przedziale, w którym znajduje się 50% wartości (często wykorzystywany w statystyce medycznej, gdzie w ten sposób przedstawia się wartości ciśnienia, temperatury i inne dane liczbowe charakteryzujące pacjentów).

 

Analizy statystyczne wykorzystują również wartość wariancji np. do przeprowadzenia testu F, który sprawdza równość wariancji dla dwóch serii lub testu Cochrana, który porównuje wariancje dla wielu serii. Odrzucenie hipotezy zerowej, mówiącej o równości wariancji generuje pytanie - które grupy znacząco różnią się między sobą? Aby odpowiedzieć na to pytanie należy przeprowadzić test NIR (post-hoc).

 

Miary asymetrii

 

Współczynnik skośności informuje o asymetrii rozkładu (wartość 0 wskazuje na rozkład symetryczny – normalny). Aby potwierdzić normalność rozkładu należy wykonać test statystyczny np. test Shapiro- Wilka – współczynnik skośności stanowi tylko wstępną informacje, wykorzystaną do późniejszej analizy statystycznej.

 

Średnia arytmetyczna czy mediana?

 

Warto zwrócić również uwagę na wartości średniej arytmetycznej i mediany. Pierwsza interpretowana jest jako wartość przeciętna danej cechy, natomiast druga jako wartość środkowa. Często pojawia się pytanie – która z tych charakterystyk lepiej oddaje średnią wartość badanej cechy? Co jest szczególnie istotne, kiedy chcemy jej użyć jako estymatora do zastąpienia brakujących danych? Mediana jest bardziej odporna na wartości odstające, przez co lepiej sprawdza się w sytuacji, kiedy wartość minimalna lub maksymalna znacząco różnią się od pozostałych danych.

 

Statystyki opisowe można przedstawić nie tylko w postaci tabeli zawierającej wartości poszczególnych charakterystyk, ale także z wykorzystaniem wykresów tj. histogramy czy wykresy pudełkowe. Analizując surowe dane, dochodzi się do wniosku, że takie wykresy to nieoceniona pomoc statystyczna przy wyciąganiu wstępnych wniosków, a zarazem świetne uzupełnienie analizy do prac naukowych.