Python, veri analizi ve işleme konusunda birçok güçlü kütüphane sunmaktadır. Bu yazıda, veri analizi için en popüler kütüphanelerden biri olan Pandas hakkında detaylı bilgi vereceğiz. Pandas, özellikle tabular veriler üzerinde çalışmak için oldukça kullanışlı bir araçtır ve veri bilimi projelerinde sıkça tercih edilmektedir.

 

Nedir ve Ne İşe Yarar?

Pandas, Python'da veri manipülasyonu ve analizi yapmak için kullanılan bir kütüphanedir. Veri yapıları (DataFrame ve Series) ve çeşitli veri işleme yöntemleri sunarak, büyük veri setleri üzerinde kolayca işlem yapmanıza olanak tanır. Pandas, özellikle zaman serisi verileri, eksik veriler, filtreleme ve gruplama gibi işlemler için oldukça kullanışlıdır.

 

Kurulum

Pandas kütüphanesini kullanmak için öncelikle sisteminize yüklemeniz gerekmektedir. Aşağıdaki komut, terminal veya komut istemcisinde çalıştırılarak Pandas'ın en son sürümünü yüklemenizi sağlar:

pip install pandas

 

Temel Özellikler

Pandas'ın sağladığı temel özelliklerden bazıları şunlardır:

  • DataFrame: İki boyutlu, etiketli veri yapısıdır. Satır ve sütunlara sahip, veri tablosu gibi düşünülebilir.
  • Series: Tek boyutlu, etiketli veri yapısıdır. Bir dizi veri ve bu verilere karşılık gelen etiketlerden oluşur.
  • Veri Temizleme: Eksik verileri tespit etme, doldurma ve silme işlemleri yapmanıza olanak tanır.
  • Gruplama ve Filtreleme: Veri setini belirli kriterlere göre gruplama ve filtreleme işlemleri gerçekleştirebilirsiniz.

 

Kullanım Örneği

Aşağıda, Pandas kullanarak basit bir DataFrame oluşturma ve veri analizi yapma örneği bulunmaktadır:


import pandas as pd

# DataFrame oluşturma
data = {
    'İsim': ['Ali', 'Ayşe', 'Mehmet', 'Fatma'],
    'Yaş': [23, 25, 22, 28],
    'Şehir': ['İstanbul', 'Ankara', 'İzmir', 'Bursa']
}

df = pd.DataFrame(data)
print("DataFrame:\n", df)

# Temel istatistiksel bilgiler
print("Temel İstatistikler:\n", df.describe())

# Belirli bir şehirdeki kişileri filtreleme
ankara_dakiler = df[df['Şehir'] == 'Ankara']
print("Ankara'daki Kişiler:\n", ankara_dakiler)

 

DataFrame Kullanımı

DataFrame, Pandas'ın en temel veri yapısıdır. Aşağıda DataFrame kullanarak bazı temel işlemleri göstereceğiz:


# DataFrame sütunlarına erişim
isimler = df['İsim']
print("İsimler:\n", isimler)

# Yeni bir sütun ekleme
df['Gelir'] = [3000, 4000, 3500, 4500]
print("Yeni Sütun Eklenmiş DataFrame:\n", df)

# Sütunları silme
df = df.drop(columns=['Gelir'])
print("Gelir Sütunu Silinmiş DataFrame:\n", df)

 

İleri Düzey Fonksiyonlar

Pandas, ileri düzey veri analizi için birçok fonksiyon içerir. Örneğin, veri gruplama, pivot tablolar oluşturma ve zaman serisi analizi gibi işlemleri gerçekleştirmek için aşağıdaki örnekleri inceleyebilirsiniz:


# Yaşlara göre gruplama ve ortalama hesaplama
ortalama_yas = df.groupby('Şehir')['Yaş'].mean()
print("Şehirlere Göre Ortalama Yaş:\n", ortalama_yas)

# Pivot tablo oluşturma
pivot_tablo = df.pivot_table(values='Yaş', index='Şehir', aggfunc='mean')
print("Pivot Tablo:\n", pivot_tablo)

# Zaman serisi verisi oluşturma
tarih = pd.date_range(start='2021-01-01', periods=5, freq='D')
zaman_serisi = pd.Series([1, 3, 5, 7, 9], index=tarih)
print("Zaman Serisi:\n", zaman_serisi)

 

Kullanım Alanları

Pandas, özellikle aşağıdaki alanlarda sıklıkla kullanılır:

  • Veri Bilimi: Veri analizi ve manipülasyonu için temel bir araçtır.
  • Mühendislik Uygulamaları: Verilerin işlenmesi ve analizi için kullanılır.
  • Finans: Finansal verilerin analizi ve raporlanması için kullanılabilir.
  • Pazarlama: Müşteri verileri üzerinde analiz yaparak pazarlama stratejilerini optimize eder.

 

Pandas, Python'da veri analizi ve işleme için vazgeçilmez bir kütüphanedir. DataFrame ve Series veri yapıları ile veri manipülasyonunu kolaylaştırırken, zengin fonksiyon seti sayesinde karmaşık veri analizlerini basit hale getirir. Veri bilimi, mühendislik, finans ve pazarlama gibi birçok alanda kullanılmaktadır. Pandas, kullanıcıların verilerle etkileşimde bulunmasını ve derinlemesine analiz yapmasını sağlar.