Pandas Kütüphanesi İle Veri Temizleme Örnekleri

Doktor & Medikal Web Sitesi

Onlarca Doktor & Medikal Web sitesinden biri mutlaka size göre!

*256 Bit SSL Sertifikası * Full Mobil Uyumlu * Full SEO Uyumlu
İsterseniz Mobil Uygulama Seçeneğiyle

Adı : Pandas Kütüphanesi İle Veri Temizleme Örnekleri

Pandas Kütüphanesi İle Veri Temizleme Örnekleri
Pandas kütüphanesi, veri manipülasyonu ve analizi için sıklıkla kullanılan bir Python kütüphanesidir. Bu yazıda, pandas kütüphanesi kullanarak veri temizleme işlemlerini gösteren örnekler sunacağız.
1. Eksik Verilerin İşlenmesi
Bir veri kümesinde eksik veriler olması oldukça yaygındır. Pandas kütüphanesi, eksik verilerle başa çıkmak için birkaç farklı yöntem sunar.
İlk olarak, eksik verileri içeren satırların veya sütunların kaldırılması mümkündür. Bunun için drop() yöntemi kullanılır. Örneğin, aşağıdaki örnek veri kümesinde \"B\" sütunundaki eksik verileri içeren satırları kaldıralım:

```
import pandas as pd
df = pd.read_csv(\"veri.csv\")
df.dropna(subset=[\"B\"], inplace=True)
print(df)
```
Bu kodda, dropna() yöntemi \"B\" sütununda eksik veri olan satırları (subset=[\"B\"]) kaldırır ve inplace=True parametresi, değişikliklerin doğrudan veri kümesine uygulanacağını belirtir.
İkinci olarak, eksik verilerin ortalama, medyan veya en sık görülen değer gibi bir istatistiksel metrik ile doldurulması mümkündür. Bunun için fillna() yöntemi kullanılır.
Örneğin, aşağıdaki örnek veri kümesinde \"B\" sütunundaki eksik verileri medyan değerle dolduralım:

```
import pandas as pd
df = pd.read_csv(\"veri.csv\")
median = df[\"B\"].median()
df[\"B\"].fillna(median, inplace=True)
print(df)
```
Bu kodda, fillna() yöntemi \"B\" sütunundaki eksik verileri medyan değerle doldurur.
2. Aykırı Değerlerin İşlenmesi
Aykırı değerler, veri kümesindeki gerçekçi olmayan veya nadir görülen verilerdir. Aykırı değerler, analiz sonuçlarını yanıltabilir ve doğruluğu azaltabilir.
Pandas kütüphanesi, aykırı değerleri tespit etmek ve işlemek için birkaç yöntem sunar.
İlk olarak, aykırı değerleri tespit edebilmek için describe() yöntemini kullanabiliriz. Bu yöntem, veri kümesi için birkaç temel istatistiksel metrik döndürür, bununla birlikte, aykırı değerleri belirlemek için özellikle \"min\" ve \"max\" değerlerine bakarız.
Örneğin, aşağıdaki örnek veri kümesinde \"B\" sütunundaki aykırı değerleri tespit edelim:

```
import pandas as pd
df = pd.read_csv(\"veri.csv\")
describe = df[\"B\"].describe()
q1 = describe[4]
q3 = describe[6]
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
outliers = df[(df[\"B\"] < lower_bound) | (df[\"B\"] > upper_bound)]
print(outliers)
```
Bu kodda, describe() yöntemi ile \"B\" sütunundaki temel istatistiksel metrikleri (q1, q3, iqr) hesapladık ve 1.5'e çarparak alt ve üst sınırları bulduk. Sonra, bu sınırların dışında kalan verileri (outliers) belirledik.
İkinci olarak, aykırı değerleri doldurmak veya kaldırmak mümkündür. Eğer aykırı değerler şüpheli veriler içeriyorsa, kaldırmak daha uygun bir seçenek olabilir. Eğer aykırı değerler daha çok gerçek değerlere benziyorsa, ortalama veya medyan gibi bir istatistiksel metrik ile doldurmak daha uygun olabilir.
3. Veri Türlerinin Dönüştürülmesi
Veri kümesinde farklı tiplerde veriler bulunabilir (örneğin, sayılar, metinler, tarihler vb.). Pandas kütüphanesi, bu veri tiplerinin dönüştürülmesi için birkaç yöntem sunar.
Örneğin, aşağıdaki örnek veri kümesinde \"Date\" sütunundaki tarihleri datetime tipine dönüştürelim:

```
import pandas as pd
df = pd.read_csv(\"veri.csv\")
df[\"Date\"] = pd.to_datetime(df[\"Date\"])
print(df.dtypes)
```
Bu kodda, to_datetime() yöntemi \"Date\" sütunundaki verileri datetime tipine dönüştürür.
Sık Sorulan Sorular
1. Pandas kütüphanesi neden bu kadar önemlidir?
Pandas kütüphanesi, veri manipülasyonu ve analizi için birçok çok yönlü fonksiyon ve veri yapıları sunar. Bu nedenle, verilerle çalışan birçok bilim adamı, mühendis ve veri analisti için vazgeçilmez bir araç haline gelmiştir.
2. Pandas kütüphanesindeki missingno neden kullanılır?
missingno, pandas kütüphanesiyle birlikte kullanılan bir görselleştirme aracıdır. Bu araç, veri kümesindeki eksik verilerin görselleştirilmesi ve analizi için kullanılır.
3. Pandas kütüphanesindeki DataFrame ve Series arasındaki fark nedir?
DataFrame, veri kümesindeki bir veya daha fazla sütunun bulunduğu bir nesnedir. Series ise tek bir sütun veya veri serisi içerir. DataFrame, Series nesnelerinin bir araya gelmesiyle oluşturulur.