Korelasyon

MBG1032 - Doç.Dr.Alper YILMAZ

Özet

  • Korelasyon nedir?
  • Korelasyon türleri
  • Pearson korelasyon katsayısı
  • Spearman korelasyon katsayısı
  • Korelasyon ≠ Nedensellik
  • Anscombe dörtlüsü
  • Örnekler ve R uygulamaları

Korelasyon nedir?

Korelasyon, iki değişken arasındaki doğrusal ilişkinin yönünü ve gücünü ölçen istatistiksel bir yöntemdir. Korelasyon katsayısı (r) −1 ile +1 arasında değer alır.

  • r = +1: Mükemmel pozitif doğrusal ilişki
  • r = −1: Mükemmel negatif doğrusal ilişki
  • r = 0: Doğrusal ilişki yok

Korelasyon yalnızca doğrusal ilişkiyi ölçer; eğrisel veya karmaşık ilişkileri yakalayamaz.

Korelasyon türleri

Korelasyon kuvvetinin yorumlanması

r
0.00 – 0.19 Çok zayıf
0.20 – 0.39 Zayıf
0.40 – 0.59 Orta
0.60 – 0.79 Güçlü
0.80 – 1.00 Çok güçlü

Bu eşik değerler genel bir kılavuzdur; biyolojik verilerde r = 0.5 bile anlamlı bir ilişki gösterebilir.

Pearson korelasyon katsayısı

İki sürekli değişken arasındaki doğrusal ilişkinin gücünü ve yönünü ölçer. Varsayımları:

  • Her iki değişken de sürekli (continuous) olmalı
  • Her iki değişken yaklaşık normal dağılmalı
  • İlişki doğrusal olmalı
  • Aykırı değerlere (outlier) duyarlıdır

Pearson formülü

\[ r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \cdot \sum_{i=1}^{n}(y_i - \bar{y})^2}} \]

veya eşdeğer olarak

\[ r = \frac{n\sum x_i y_i - \sum x_i \sum y_i}{\sqrt{[n\sum x_i^2 - (\sum x_i)^2][n\sum y_i^2 - (\sum y_i)^2]}} \]

r değeri birimden bağımsızdır; cm veya inç ile ölçün, aynı r değerini elde edersiniz.

Pearson korelasyon — R uygulaması

Pearson korelasyon — görselleştirme

Spearman korelasyon katsayısı

İki değişken arasındaki monoton (tek yönlü, ama mutlaka doğrusal olmayan) ilişkiyi ölçer. Pearson’dan farklı olarak:

  • Değerler yerine sıralamalar (rank) kullanılır
  • Normal dağılım varsayımı gerekmez (non-parametrik)
  • Aykırı değerlere daha dayanıklıdır
  • Ordinal (sıralı) veriler için de kullanılabilir

Spearman formülü

Değerler sıralamaya çevrilir, sonra sıralamalar üzerinden Pearson hesaplanır. Eşit sıra yoksa:

\[ r_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} \]

\(d_i\) = her çiftin sıra farkı, \(n\) = gözlem sayısı

Spearman korelasyon — R uygulaması

Pearson vs Spearman — ne zaman hangisi?

Özellik Pearson Spearman
Ölçer Doğrusal ilişki Monoton ilişki
Veri tipi Sürekli Sürekli veya ordinal
Varsayım Normal dağılım Varsayım yok
Aykırı değer Duyarlı Dayanıklı
Kullanım Parametrik analiz Non-parametrik analiz

Şüphede kalırsanız: önce scatter plot çizin, doğrusal görünüyorsa Pearson, değilse Spearman tercih edin.

Korelasyon ≠ Nedensellik

Sahte korelasyon örnekleri

İstatistiksel olarak anlamlı ama anlamsız korelasyonlar biyolojik araştırmalarda da karşımıza çıkabilir:

  1. Genomik: Binlerce gen arasında korelasyon taraması yapıldığında, çoklu test düzeltmesi yapılmazsa çok sayıda sahte korelasyon bulunur (çoklu test problemi).

  2. Epidemiyoloji: Bir bölgedeki organik gıda satışı ile otizm tanısı arasında yüksek korelasyon gözlenmiştir — ama bu sadece ikisinin de zaman içinde artmasından kaynaklanır (trend korelasyonu).

  3. Ekoloji: Ada büyüklüğü ile tür sayısı arasında korelasyon vardır ama nedensellik çok daha karmaşıktır (habitat çeşitliliği, izolasyon, iklim).

Çözüm: Korelasyonu hipotez üretmek için kullanın, doğrulamak için kontrollü deney veya çok değişkenli analiz yapın.

Anscombe dörtlüsü

Biyolojik veri ile uygulama

Korelasyon matrisi

Korelasyon matrisi — görselleştirme

Soru

Kedilerde vücut ağırlığı ile kalp ağırlığı arasındaki korelasyonu hesaplayıp cinsiyete göre karşılaştırınız