آشنایی با کتابخانه NumPy و Pandas؛ دادهکاوی با پایتون به زبان ساده

مقدمه
با گسترش حوزه دادهکاوی و علم داده، نیاز به ابزارهایی سریع و آسان در پایتون بیش از گذشته احساس میشود. دو کتابخانهی بسیار پرکاربرد و مهم در این زمینه، NumPy و Pandas هستند. این مقاله به معرفی این دو ابزار میپردازد و نحوه استفاده مقدماتی آنها را با مثالهای ساده و قابل فهم آموزش میدهد.
بخش اول: NumPy چیست و چه کاربردی دارد؟
NumPy مخفف Numerical Python، کتابخانهای برای کار با آرایهها و انجام عملیات عددی و ریاضی پیشرفته در پایتون است.
نصب NumPy
ابتدا باید NumPy را نصب کنید. کافیست این دستور را در ترمینال وارد کنید:
pip install numpy
ساخت آرایه در NumPy
در پایتون، لیستها را میشناسیم اما آرایههای NumPy سریعتر و برای محاسبات عددی حرفهایتر هستند:
import numpy as np
arr = np.array([1, 2, 3, 4, 5])
print(arr)
خروجی:[1 2 3 4 5]
عملیات پایه در NumPy
افزودن مقدار ثابت به کل آرایه:
arr_plus_10 = arr + 10
print(arr_plus_10)
محاسبه میانگین:
avg = np.mean(arr)
print("میانگین آرایه:", avg)
بخش دوم: Pandas چیست و چه کاربردی دارد؟
Pandas یک ابزار بسیار قدرتمند برای کار با دادههای جدولی (مانند اکسل یا CSV) است و بسیار در حوزه دادهکاوی و تحلیل داده استفاده میشود.
نصب Pandas
دستور نصب:
pip install pandas
ساخت DataFrame ساده
DataFrame شبیه یک جدول اکسل است و ستون و سطر دارد:
import pandas as pd
data = {
"نام": ["علی", "زهرا", "پویا"],
"نمره": [18, 20, 17]
}
df = pd.DataFrame(data)
print(df)
خروجی:
نام نمره
0 علی 18
1 زهرا 20
2 پویا 17
خواندن فایل CSV با Pandas
df2 = pd.read_csv('data.csv')
print(df2.head())
- head() پنج سطر اول داده را نمایش میدهد.
محاسبات ساده روی جدول
مثلاً محاسبه معدل از ستون نمرهها:
mean_score = df["نمره"].mean()
print("میانگین نمرهها:", mean_score)
نکات و جمعبندی
- اگر با دادههای عددی و ماتریسی زیاد کار داری، NumPy انتخاب اول توست.
- اگر میخواهی دادههای جدولی (مانند اکسل و CSV) را به راحتی پردازش و تحلیل کنی، Pandas را استفاده کن.
- ترکیب این دو کتابخانه قدرت زیادی به پردازش دادههای حجیم و استخراج اطلاعات مفید میدهد.