NumPy ve Pandas Kullanarak Veri Gruplama ()

Adı : NumPy ve Pandas Kullanarak Veri Gruplama ()

Veri gruplama, verilerin belirli bir kategorideki özelliklerine göre gruplanması ve bu gruplara özgü istatistiklerin analiz edilmesi işlemidir. Bu işlem, büyük verilerin analizinde en sık kullanılan tekniklerden biridir. NumPy ve Pandas, gruplama işlemlerini gerçekleştirmek için kullanılan en popüler araçlardan biridir. Bu yazıda, NumPy ve Pandas kullanarak veri gruplama işlemini detaylı bir şekilde ele alacağız.

NumPy Kullanarak Veri Gruplama

NumPy, veri bilimi ve matematiksel işlemler için kullanılan bir kütüphanedir. NumPy, diziler ve matrisler üzerinde işlem yapmak için birçok fonksiyon ve araç sağlar. Veri gruplama işlemi de bu araçlar arasındadır.

Aşağıdaki gibi bir NumPy dizimiz olsun:

```
import numpy as np

dizi = np.array([
['Mehmet', 'Erkek', 25],
['Ayşe', 'Kadın', 32],
['Ahmet', 'Erkek', 45],
['Fatma', 'Kadın', 29],
['Ali', 'Erkek', 37],
['Zeynep', 'Kadın', 21],
['Hakan', 'Erkek', 41],
['Nur', 'Kadın', 26]
])
```

Bu diziyi, cinsiyet ve yaşa göre gruplamak için NumPy'nin `split` ve `mean` fonksiyonlarını kullanabiliriz. İlk olarak, diziyi cinsiyete göre bölelim:

```
cinsiyet = np.split(dizi, 2, axis=1)
```

Bu kod, diziyi ikinci boyuta göre, yani cinsiyete göre böler. Yani, cinsiyete göre ayrılmış iki farklı dizimiz olacak. Daha sonra, yaş ortalamalarını hesaplamak için `mean` fonksiyonunu kullanabiliriz:

```
erkek_yas = np.mean(cinsiyet[0][:,2])
kadin_yas = np.mean(cinsiyet[1][:,2])

print('Erkeklerin yaş ortalaması:', erkek_yas)
print('Kadınların yaş ortalaması:', kadin_yas)
```

Bu kod, iki ayrı dizi oluşturduktan sonra, her bir dizinin üçüncü sütununu seçerek yaş verilerini aldı. Daha sonra, `mean` fonksiyonunu kullanarak yaş ortalamalarını hesapladı.

Pandas Kullanarak Veri Gruplama

Pandas, veri gruplama işlemlerinde popüler bir kütüphanedir. Pandas, verileri tablo şeklinde düzenlemeye ve yönetmeye olanak tanır. Veri gruplama işlemi de bu tablolar üzerinde gerçekleştirilebilir.

Aşağıdaki gibi bir Pandas DataFrame'imiz olsun:

```
import pandas as pd

sozluk = {'isim': ['Mehmet', 'Ayşe', 'Ahmet', 'Fatma', 'Ali', 'Zeynep', 'Hakan', 'Nur'],
'cinsiyet': ['Erkek', 'Kadın', 'Erkek', 'Kadın', 'Erkek', 'Kadın', 'Erkek', 'Kadın'],
'yas': [25, 32, 45, 29, 37, 21, 41, 26]}
df = pd.DataFrame(sozluk)
```

Bu DataFrame, önceki NumPy örneğiyle aynı verileri içerir. Ancak, Pandas DataFrame'lerinin kullanımı daha kolaydır.

Öncelikle, cinsiyet sütunu için gruplama işlemi yapalım:

```
cinsiyete_gore_grup = df.groupby(['cinsiyet'])
```

Bu kod, `groupby` fonksiyonunu kullanarak DataFrame'i cinsiyete göre grupladı. Daha sonra, gruplara ait yaş ortalamalarını hesaplamak için `mean` fonksiyonunu kullanabiliriz:

```
yas_ortalamasi = cinsiyete_gore_grup.mean()['yas']
```

Bu kod, her bir grup için yaş ortalamasını hesaplar ve sonuçları bir Series (Seri) olarak döndürür.

Örnekler

NumPy ve Pandas kullanarak veri gruplama işlemlerini gerçekleştirme yöntemlerimizi daha iyi anlamak için farklı örnekler inceleyebiliriz:

1. Ülkelerin öğrenci sayısına göre gruplanması:

```
ulkeler = pd.DataFrame({'ulke': ['ABD', 'İngiltere', 'Fransa', 'Almanya', 'Çin', 'Japonya'],
'ogrenci_sayisi': [25678, 18765, 34256, 41578, 26789, 32549]})
# öğrenci sayısına göre gruplama
ogrenci_grup = ulkeler.groupby(['ogrenci_sayisi'])
```

Bu kod, ülkeleri öğrenci sayısına göre grupladı.

2. Şirketlerin çalışan sayısına göre yönetici maaşları:

```
sirketler = pd.DataFrame({'sirket': ['ABC', 'DEF', 'GHI', 'JKL', 'MNO', 'PQR'],
'yonetici_maas': [87000, 92500, 110000, 125000, 98000, 135000],
'calisan_sayisi': [135, 157, 186, 206, 157, 235]})
# çalışan sayısına göre gruplama
calisan_grup = sirketler.groupby(['calisan_sayisi'])
# grupların yonetici_maas sütunlarındaki değerlerin ortalamalarını al
yonetici_grup = calisan_grup.mean()['yonetici_maas']
```

Bu kod, şirketleri çalışan sayısına göre grupladı ve her grup için yönetici maaşlarının ortalamasını hesapladı.

Sık Sorulan Sorular

1. Veri gruplama işlemi ne işe yarar?
- Verilerin belirli bir kategoriye göre gruplanarak daha kolay yönetimi ve analizi sağlanır.

2. Pandas'ta groupby() fonksiyonunun çalışma prensibi nedir?
- Gruplanacak özellikler belirlenir ve bu özelliklere göre gruplar oluşturulur. Oluşturulan gruplara özgü verileri, özelleştirilebilir işlemler yaparak analiz edebiliriz.

3. NumPy ve Pandas'ın üstün olduğu diğer veri gruplama araçları nelerdir?
- R ve MATLAB gibi kütüphaneler veri gruplama işlemleri için kullanılan diğer popüler araçlardır. Ancak, Python tabanlı NumPy ve Pandas, daha da gelişmiş özellikler sunarak fark yaratıyorlar."

Adı : NumPy ve Pandas Kullanarak Veri Gruplama ()

NumPy Pandas Veri Gruplama DataFrame GroupBy Pivot Aggregasyon İstatistik

NumPy ve Pandas Kullanarak Veri Gruplama ()

Adı : NumPy ve Pandas Kullanarak Veri Gruplama ()

Adı : NumPy ve Pandas Kullanarak Veri Gruplama ()

İlgili Yazılar