스터디노트 (통계적 회귀)

KloudHyun 2023. 9. 28. 21:37

📌 통계적 회귀

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

data = pd.read_csv('../data/ecommerce.csv', sep=',')

data.drop(['Email', 'Address', 'Avatar'], axis=1, inplace=True)
data.head()

🔻Boxplot을 그려보자

plt.figure(figsize=(12, 8))
sns.boxplot(data=data.iloc[:, :-1]);

plt.figure(figsize=(12, 8))
sns.boxplot(data=data['Yearly Amount Spent']);

🔻Pairplot으로 경향성을 확인해보자

- 멤버쉽과 연간 지불 금액의 양이 상관관계가 있는 것을 확인할 수 있다.

plt.figure(figsize=(12, 6))
sns.pairplot(data=data);

🔻더 자세하게 확인해보기

- 상관관계가 있는 것으로 파악이 된다.

plt.figure(figsize=(12, 6))
sns.lmplot(x='Length of Membership', y= 'Yearly Amount Spent', data=data);

📌 상관성이 높은 것을 활용하여 회귀를 해보자

import statsmodels.api as sm

X=data['Length of Membership']
y=data['Yearly Amount Spent']
lm = sm.OLS(y, X).fit()

lm.summary()

🔻더 자세하게 확인해보기

pred = lm.predict(X)

sns.scatterplot(x=X, y=y)
plt.plot(X, pred, 'r', ls='dashed', lw=3)

sns.scatterplot(x=y, y=pred)
plt.plot([min(y), max(y)], [min(y), max(y)], 'r', ls='dashed', lw=3)
plt.plot([0, max(y)], [0, max(y)], 'b', ls='dashed', lw=3)

🔻상수항 넣어주기

X = np.c_[X, [1]*len(X)]
X[:5]
>>>>
array([[4.08262063, 1.        ],
       [2.66403418, 1.        ],
       [4.1045432 , 1.        ],
       [3.12017878, 1.        ],
       [4.44630832, 1.        ]])

lm = sm.OLS(y, X).fit()
lm.summary()

🔻확인해보자

- R-squared

- AIC (만들어낸 모델이 데이터를 얼마나 잘 반영하는지 측정하는 도구)

📌 sklearn 해보기

from sklearn.model_selection import train_test_split

X = data.drop('Yearly Amount Spent', axis=1)
y = data['Yearly Amount Spent']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=13)

lm = sm.OLS(y_train, X_train).fit()
lm.summary()

pred = lm.predict(X_test)

sns.scatterplot(x=y_test, y=pred)
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r');