آشنایی با کتابخانه NumPy و Pandas؛ داده‌کاوی با پایتون به زبان ساده

محمد
برنامه نویسی و طراحی وب

مقدمه

با گسترش حوزه داده‌کاوی و علم داده، نیاز به ابزارهایی سریع و آسان در پایتون بیش از گذشته احساس می‌شود. دو کتابخانه‌ی بسیار پرکاربرد و مهم در این زمینه، NumPy و Pandas هستند. این مقاله به معرفی این دو ابزار می‌پردازد و نحوه استفاده مقدماتی آن‌ها را با مثال‌های ساده و قابل فهم آموزش می‌دهد.

بخش اول: NumPy چیست و چه کاربردی دارد؟

NumPy مخفف Numerical Python، کتابخانه‌ای برای کار با آرایه‌ها و انجام عملیات عددی و ریاضی پیشرفته در پایتون است.

نصب NumPy

ابتدا باید NumPy‌ را نصب کنید. کافی‌ست این دستور را در ترمینال وارد کنید:

pip install numpy

ساخت آرایه در NumPy

در پایتون، لیست‌ها را می‌شناسیم اما آرایه‌های NumPy سریع‌تر و برای محاسبات عددی حرفه‌ای‌تر هستند:

import numpy as np

arr = np.array([1, 2, 3, 4, 5])
print(arr)

خروجی:
[1 2 3 4 5]

عملیات پایه در NumPy

افزودن مقدار ثابت به کل آرایه:

arr_plus_10 = arr + 10
print(arr_plus_10)

محاسبه میانگین:

avg = np.mean(arr)
print("میانگین آرایه:", avg)

بخش دوم: Pandas چیست و چه کاربردی دارد؟

Pandas یک ابزار بسیار قدرتمند برای کار با داده‌های جدولی (مانند اکسل یا CSV) است و بسیار در حوزه داده‌کاوی و تحلیل داده استفاده می‌شود.

نصب Pandas

دستور نصب:

pip install pandas

ساخت DataFrame ساده

DataFrame شبیه یک جدول اکسل است و ستون و سطر دارد:

import pandas as pd

data = {
    "نام": ["علی", "زهرا", "پویا"],
    "نمره": [18, 20, 17]
}

df = pd.DataFrame(data)
print(df)

خروجی:

      نام  نمره
0    علی     18
1   زهرا     20
2   پویا     17

خواندن فایل CSV با Pandas

df2 = pd.read_csv('data.csv')
print(df2.head())

head() پنج سطر اول داده را نمایش می‌دهد.

محاسبات ساده روی جدول

مثلاً محاسبه معدل از ستون نمره‌ها:

mean_score = df["نمره"].mean()
print("میانگین نمره‌ها:", mean_score)

نکات و جمع‌بندی

اگر با داده‌های عددی و ماتریسی زیاد کار داری، NumPy انتخاب اول توست.
اگر می‌خواهی داده‌های جدولی (مانند اکسل و CSV) را به راحتی پردازش و تحلیل کنی، Pandas را استفاده کن.
ترکیب این دو کتابخانه قدرت زیادی به پردازش داده‌های حجیم و استخراج اطلاعات مفید می‌دهد.