스터디노트 (ML6

스터디노트 (ML6_Wine)

KloudHyun 2023. 9. 22. 19:53

📌 plotly.express

import pandas as pd
red = pd.read_csv('../data/winequality-red.csv', sep=';') 
white = pd.read_csv('../data/winequality-white.csv', sep=';')

red['color']= 1.
white['color'] = 0.
wine =pd.concat([red,white])
wine.info()

wine['quality'].unique()
>>>>
array([5, 6, 7, 4, 8, 3, 9], dtype=int64)

import plotly.express as px
fig = px.histogram(wine, x='quality')
fig.show()

fig = px.histogram(wine, x='quality', color = 'color')
fig.show()

X = wine.drop(['color'], axis=1)
y = wine['color']

from sklearn.model_selection import train_test_split
import numpy as np

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=13)
np.unique(y_train, return_counts=True)
>>>>
(array([0., 1.]), array([3913, 1284], dtype=int64))

📌 Train 데이터와 Test 데이터의 각 등급별 개수

import plotly.graph_objects as go

fig = go.Figure()
fig.add_trace(go.Histogram(x=X_train['quality'], name='Train'))
fig.add_trace(go.Histogram(x=X_test['quality'], name='Test'))

fig.update_layout(barmode='overlay')
fig.update_traces(opacity=0.7)
fig.show()

📌 데이터 accuracy, 예측해보자

from sklearn.tree import DecisionTreeClassifier

wine_tree = DecisionTreeClassifier(max_depth=2, random_state=13)
wine_tree.fit(X_train, y_train)

from sklearn.metrics import accuracy_score

y_pred_tr = wine_tree.predict(X_train)
y_pred_test = wine_tree.predict(X_test)

print('Train Acc : ', accuracy_score(y_train, y_pred_tr))
print('Test Acc : ', accuracy_score(y_test, y_pred_test))
>>>>
Train Acc :  0.9553588608812776
Test Acc :  0.9569230769230769

X.columns
>>>>
Index(['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
       'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
       'pH', 'sulphates', 'alcohol', 'quality'],
      dtype='object')

📌boxplot 만들어보자

fig = go.Figure()
fig.add_trace(go.Box(y=X['fixed acidity'], name='fixed acidity'))
fig.add_trace(go.Box(y=X['chlorides'], name='chlorides'))
fig.add_trace(go.Box(y=X['quality'], name='quality'))
fig.show()

- 컬럼 간의 범위 격차가 심할 경우에 제대로 학습이 안될 '수도' 있다 (컬럼의 최대/최소 범위가 각각 다르고, 평균과 분산이 각각 다르다)

- 특성의 편향 문제는 최적의 모델을 찾는데 방해가 될 수 있다.

- 일반적으로 scaler를 적용하는 것은 효과적일 수 있다

- 결론은 .. 해봐야 안다..

from sklearn.preprocessing import MinMaxScaler, StandardScaler

MMS = MinMaxScaler()
SS = StandardScaler()

SS.fit(X)
MMS.fit(X)

X_ss = SS.transform(X)
X_mms = MMS.transform(X)

X_ss_pd = pd.DataFrame(X_ss, columns=X.columns)
X_mms_pd = pd.DataFrame(X_mms, columns=X.columns)

X_mms
>>>>
array([[0.29752066, 0.41333333, 0.        , ..., 0.19101124, 0.20289855,
        0.33333333],
       [0.33057851, 0.53333333, 0.        , ..., 0.25842697, 0.26086957,
        0.33333333],
       [0.33057851, 0.45333333, 0.02409639, ..., 0.24157303, 0.26086957,
        0.33333333],
       ...,
       [0.2231405 , 0.10666667, 0.11445783, ..., 0.13483146, 0.20289855,
        0.5       ],
       [0.14049587, 0.14      , 0.18072289, ..., 0.08988764, 0.69565217,
        0.66666667],
       [0.18181818, 0.08666667, 0.22891566, ..., 0.05617978, 0.55072464,
        0.5       ]])

📌min_max scaler? -- 최대 최솟값을 1과 0으로 강제로 맞추는 것

fig = go.Figure()
fig.add_trace(go.Box(y=X_mms_pd['fixed acidity'], name='fixed acidity'))
fig.add_trace(go.Box(y=X_mms_pd['chlorides'], name='chlorides'))
fig.add_trace(go.Box(y=X_mms_pd['quality'], name='quality'))
fig.show()

📌Standard scaler? -- 평균을 0으로 표준편차를 1로 맞추는 것

X = wine.drop(['taste'], axis=1)
y = wine['taste']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=13)

wine_tree = DecisionTreeClassifier(max_depth=2, random_state=13)
wine_tree.fit(X_train, y_train)
print('Train Acc : ', accuracy_score(y_train, y_pred_tr))
print('Test Acc : ', accuracy_score(y_test, y_pred_test))
>>>>
Train Acc :  0.9553588608812776
Test Acc :  0.9569230769230769

import matplotlib.pyplot as plt
import sklearn.tree as tree

plt.figure(figsize = (12, 8))
tree.plot_tree(wine_tree, feature_names=X.columns)

📌Quality를 빼고 다시 fit

- taste 라는 컬럼이 결국엔 Quality를 기반으로 만들어진 컬럼이기 때문에 결과 값이 높게 나온다

- Quality 컬럼을 빼고 진행

X = wine.drop(['taste', 'quality'], axis=1)
y = wine['taste']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=13)

wine_tree = DecisionTreeClassifier(max_depth=2, random_state=13)
wine_tree.fit(X_train, y_train)

y_pred_tr = wine_tree.predict(X_train)
y_pred_test = wine_tree.predict(X_test)

print('Train Acc : ', accuracy_score(y_train, y_pred_tr))
print('Test Acc : ', accuracy_score(y_test, y_pred_test))
>>>>
Train Acc :  0.7294593034442948
Test Acc :  0.7161538461538461

plt.figure(figsize=(12, 8))
tree.plot_tree(wine_tree, feature_names=X.columns,
               rounded=True,
               filled=True)
plt.show()