Veri tipleri ve işleme
FEF3001 Yapay zekaya giriş - Ders2
2024-07-05
Veri analizi, veri bilimi, makine öğrenmesi
Veri tipleri
- record data
- transaction data
- data matrix
- graph-based data
Sıralı veri / Ordered data
- Sequential / Temporal data
- Sequence data
- Time series data
- Spatial data
Veri kalitesi
Hatırlanacağı üzere, veri biliminde veri temizliği aşaması toplam sürenin %80’ini oluşturmaktadır.
- Ölçüm hataları / measurement error : ölçüm sırasında sayısal hata yapılması veya dahil edilmemesi gereken verinin dahil edilmesi
- Gürültü / Noise and artifacts: ölçüm hatalarındaki rastgele olan bileşendir. Sinyal işleme yöntemleri ile gürültü kaldırılabilir ama bu sırada gerçek veri kaybı da gerçekleşebilir.
Veri kalitesi - 2
- Uç değer / Outlier
- Kayıp veya eksik ölçüm / Missing value
- Çıkarma / Eliminate
- Tahmin etme, doldurma / Estimate
- Göz ardı etme / Ignore
- Uyumsuz ölçümler / Inconsistent values : örn. Ölçüm yapılan tekniğin değişmesi veya farklı tekniklerle toplanan değerlerin uyuşmazlığı
- Tekrar eden veri / Duplicate data : aynı kişi bir veritabanında birden çok kez bulunabilir ama ismi aynı iki kişi tekrar sayılmaz
Veri işleme
- Aggregation
- Sampling
- Dimensionality reduction
- Feature subset selection
- Feature creation
- Discretization and binarization
- Variable transformation
Aggregation
- Group by - sum, mean
- Histogram
Aggregation / Histogram
Sampling / Örnekleme
- Simple random sampling
- Stratified sampling
Dimensionality reduction
“The Curse of Dimensionality”: özellik/attribute sayısı arttıkça algoritmaların veya hesapların daha zor hale gelmesi. “Sparse” veri durumunda artık hesaplamaların (uzaklık, benzerlik) doğruluğunu yitirmesi
- Linear algebra techniques
- PCA: Principal Components Analysis
- SVD: Singular Value Decomposition
Others
- Feature Subset Selection
- remove Redundant features or Irrelevant features
- Feature Weighting
- Feature Creation
- Feature Extraction: e.g Photo -> edges, important areas, color scheme
- Mapping the Data to a New Space : e.g Fourier Transformation
- Discretization and Binarization
- Category -> Binary values
- Continous data -> bins, categories, intervals
- Variable Transformation
Category to binary