Veri tipleri ve işleme

FEF3001 Yapay zekaya giriş - Ders2

Alper Yılmaz

2024-07-05

Veri analizi, veri bilimi, makine öğrenmesi

Veri tipleri

  • record data
  • transaction data
  • data matrix
    • sparse data matrix
  • graph-based data

Sıralı veri / Ordered data


  • Sequential / Temporal data
  • Sequence data
  • Time series data
  • Spatial data

Veri kalitesi


Hatırlanacağı üzere, veri biliminde veri temizliği aşaması toplam sürenin %80’ini oluşturmaktadır.

  • Ölçüm hataları / measurement error : ölçüm sırasında sayısal hata yapılması veya dahil edilmemesi gereken verinin dahil edilmesi
  • Gürültü / Noise and artifacts: ölçüm hatalarındaki rastgele olan bileşendir. Sinyal işleme yöntemleri ile gürültü kaldırılabilir ama bu sırada gerçek veri kaybı da gerçekleşebilir.

Veri kalitesi - 2

  • Uç değer / Outlier
  • Kayıp veya eksik ölçüm / Missing value
    • Çıkarma / Eliminate
    • Tahmin etme, doldurma / Estimate
    • Göz ardı etme / Ignore
  • Uyumsuz ölçümler / Inconsistent values : örn. Ölçüm yapılan tekniğin değişmesi veya farklı tekniklerle toplanan değerlerin uyuşmazlığı
  • Tekrar eden veri / Duplicate data : aynı kişi bir veritabanında birden çok kez bulunabilir ama ismi aynı iki kişi tekrar sayılmaz

Veri işleme


  • Aggregation
  • Sampling
  • Dimensionality reduction
  • Feature subset selection
  • Feature creation
  • Discretization and binarization
  • Variable transformation

Aggregation

  • Group by - sum, mean
  • Histogram

Aggregation / Histogram

Sampling / Örnekleme

  • Simple random sampling
  • Stratified sampling

Dimensionality reduction


The Curse of Dimensionality”: özellik/attribute sayısı arttıkça algoritmaların veya hesapların daha zor hale gelmesi. “Sparse” veri durumunda artık hesaplamaların (uzaklık, benzerlik) doğruluğunu yitirmesi


  • Linear algebra techniques
    • PCA: Principal Components Analysis
    • SVD: Singular Value Decomposition

Others

  • Feature Subset Selection
    • remove Redundant features or Irrelevant features
    • Feature Weighting
  • Feature Creation
    • Feature Extraction: e.g Photo -> edges, important areas, color scheme
    • Mapping the Data to a New Space : e.g Fourier Transformation
  • Discretization and Binarization
    • Category -> Binary values
    • Continous data -> bins, categories, intervals
  • Variable Transformation

Fourier Transformation

Category to binary

Variable Transformation


  • Simple functions: \(x^k\) , log(x), \(e^x\) , sqrt(x), \(1/x\), sin(x), or |x|
  • Normalization or Standardization
    • for each value subtract mean and divide by standard deviation
    • e.g. age and income data, find similarity between individuals
    • mean = 0, sd = 1