[1] 4.3 7.9
[1] 1.3
0% 25% 50% 75% 100%
4.3 5.1 5.8 6.4 7.9
MBG1032 - Doç.Dr.Alper YILMAZ - 28 Şubat 2024
Ortalama: Değerler toplamının değer sayısına bölünmesi ile hesaplanır.
\[ \overline{x} = \frac{\displaystyle\sum_{i=1}^{n} x_i}{n} \]
Median: Sıralı değerlerin orta noktasıdır. Çift sayıda değer varsa, median, ortadaki iki sayının ortalamasıdır.
Soru
Bir veri setine çok büyük veya çok küçük bir sayı eklendiğinde, hangisi daha çok etkilenir, ortalama mı, median mı?
Aşağıdaki örnekte, deneme
vektörüne 100 sayısını ekleyip ortalama ve median değerlerini hesaplayın ve karşılaştırın.
Range/Aralık: En küçük ve büyük değer arasındaki farktır. R’da range()
fonskiyonu en düşük ve yüksek değerleri gösterir. Farkı bulmak için max()
ve min()
fonksiyon çıktıları kullanılabilir.
IQR: (Interquartile range veya Çeyrekler Arası Aralık) verilerin 1. ve 3. çeyreğinin arasındaki farkı gösterir. R’da IQR()
fonksiyonu bu değerleri hesaplar.
Varyans: \(s^2\) ile gösterilir, veri setindeki sayıların ortalamadan ne kadar uzak/yakın olduğunu gösterir.
\[ s^2 = \frac{\sum_{i=1}^n (x_i - \overline{x})^2}{n-1} \]
Standard sapma: Varyansın kareköküdür.
\[ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^n (x_i - \overline{x})^2}{n-1}} \]
Formülden anlaşılacağı üzere, veri setindeki dağınıklık, ortalamadan uzaklık arttıkça varyans da artmaktadır. Varyans var()
fonskiyonu ile, standart sapma ise sd()
fonksiyonu ile hesaplanır.
Histogram: Bir veri setindeki değerlerin dağılımını göstermak için, belirli aralıktaki değerlerin frekansını gösteren grafiklerdir. hist()
fonksiyonu ile çizilebilir.
breaks
parametresi ile histogramın ayrılacağı aralık sayısı ayarlanabilir
Daha güzel ve karmaşık bir görselleştirme için ggplot2
paketi kullanılabilir.
ggplot(iris, aes(Sepal.Length)) +
geom_histogram(color = "#000000", fill = "#0099F8") +
geom_vline(aes(xintercept = mean(Sepal.Length)), color = "#000000", size = 1.25) +
geom_vline(aes(xintercept = mean(Sepal.Length) + sd(Sepal.Length)), color = "#000000", size = 1, linetype = "dashed") +
geom_vline(aes(xintercept = mean(Sepal.Length) - sd(Sepal.Length)), color = "#000000", size = 1, linetype = "dashed") +
theme_bw()
Görsel kaynak: Box Plot with Minitab
boxplot()
fonksiyonu bir vektör (sütün) veya veri tablosu (data frame) için çalıştırılabilir.
ggplot2
veya temel R’da farklı görselleştirmeler yapılabilir.
Görsel kaynak: Plot Grouped Data: Box plot, Bar Plot and More