Ders2: Sayısal ve Görsel Özetleme

MBG1032 - Doç.Dr.Alper YILMAZ - 28 Şubat 2024

Özet

  • ortalama ve standart sapma
  • dağılımların çeşitli ölçümleri
    • range, IQR
    • histogram
    • boxplot

Ortalama ve median

Ortalama: Değerler toplamının değer sayısına bölünmesi ile hesaplanır.

\[ \overline{x} = \frac{\displaystyle\sum_{i=1}^{n} x_i}{n} \]

Median: Sıralı değerlerin orta noktasıdır. Çift sayıda değer varsa, median, ortadaki iki sayının ortalamasıdır.

Ortalama ve median

Soru

Bir veri setine çok büyük veya çok küçük bir sayı eklendiğinde, hangisi daha çok etkilenir, ortalama mı, median mı?

Aşağıdaki örnekte, deneme vektörüne 100 sayısını ekleyip ortalama ve median değerlerini hesaplayın ve karşılaştırın.

Dağılımların çeşitli ölçümleri

Range/Aralık: En küçük ve büyük değer arasındaki farktır. R’da range() fonskiyonu en düşük ve yüksek değerleri gösterir. Farkı bulmak için max() ve min() fonksiyon çıktıları kullanılabilir.

IQR: (Interquartile range veya Çeyrekler Arası Aralık) verilerin 1. ve 3. çeyreğinin arasındaki farkı gösterir. R’da IQR() fonksiyonu bu değerleri hesaplar.

range(iris$Sepal.Length)
[1] 4.3 7.9
IQR(iris$Sepal.Length)
[1] 1.3
quantile(iris$Sepal.Length)
  0%  25%  50%  75% 100% 
 4.3  5.1  5.8  6.4  7.9 

Varyans ve standart sapma

Varyans: \(s^2\) ile gösterilir, veri setindeki sayıların ortalamadan ne kadar uzak/yakın olduğunu gösterir.

\[ s^2 = \frac{\sum_{i=1}^n (x_i - \overline{x})^2}{n-1} \]

Standard sapma: Varyansın kareköküdür.

\[ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^n (x_i - \overline{x})^2}{n-1}} \]

Formülden anlaşılacağı üzere, veri setindeki dağınıklık, ortalamadan uzaklık arttıkça varyans da artmaktadır. Varyans var() fonskiyonu ile, standart sapma ise sd() fonksiyonu ile hesaplanır.

Görsel Özetleme

Histogram: Bir veri setindeki değerlerin dağılımını göstermak için, belirli aralıktaki değerlerin frekansını gösteren grafiklerdir. hist() fonksiyonu ile çizilebilir.

Histogram ayarlar

breaks parametresi ile histogramın ayrılacağı aralık sayısı ayarlanabilir

hist(iris$Sepal.Length)

hist(iris$Sepal.Length, 
     breaks = 15)

Histogram

Daha güzel ve karmaşık bir görselleştirme için ggplot2 paketi kullanılabilir.

library(ggplot2)
ggplot(iris, aes(Sepal.Length)) +
  geom_histogram(color = "#000000", fill = "#0099F8") 

ggplot2 ile histogram

ggplot(iris, aes(Sepal.Length)) +
  geom_histogram(color = "#000000", fill = "#0099F8") +
  geom_vline(aes(xintercept = mean(Sepal.Length)), color = "#000000", size = 1.25) +
  geom_vline(aes(xintercept = mean(Sepal.Length) + sd(Sepal.Length)), color = "#000000", size = 1, linetype = "dashed") +
  geom_vline(aes(xintercept = mean(Sepal.Length) - sd(Sepal.Length)), color = "#000000", size = 1, linetype = "dashed") +
  theme_bw()

Boxplot

R ile Boxplot

boxplot() fonksiyonu bir vektör (sütün) veya veri tablosu (data frame) için çalıştırılabilir.

boxplot(iris$Sepal.Length)

R ile Boxplot - veri tablosu

boxplot(iris)

Farklı görselleştirmeler

ggplot2 veya temel R’da farklı görselleştirmeler yapılabilir.

Ek kaynaklar

  • STHDA sitesinde “Descriptive Statistics and Graphics” adlı sayfa, bu sunumdaki bilgilere ek bilgiler içerir.