스터디노트 (ML_모델 평가, ROC와 AUC)

Study_note(zb_data)/Machine Learning

스터디노트 (ML_모델 평가, ROC와 AUC)

KloudHyun 2023. 9. 25. 21:07

📌모델 평가는 어떻게 하는 걸까?

🔻 Model evaluation

- 기존에는 0.5를 기준으로 0, 1로 결과를 반영하였으나 (if 이진분류), 이제는 가변성을 가지고 결과를 반영해보자

🔻 Accuracy

- 전체 데이터 중 맞게 예측한 것의 비율

🔻 Precision (TP / (TP + FP))

- 양성이라고 예측한 것 중에서 실제 양성의 비율

🔻 RECALL (TP / (TP+FN))

- 참인 데이터들 중에서 참이라고 예측한 것

🔻 FALL-OUT (FP / (FP+TN))

- 실제 양성이 아닌데, 양성이라고 잘못 예측한 경우

📌F1 - Score

🔻 Recall과 Precision을 결합한 지표

- Recall과 Precision이 어느 한쪽으로 치우치지 않고, 둘 다 높은 값을 가질 수록 높은 값을 가진다.

📌ROC와 AUC

🔻 ROC - Recall과 Precision을 결합한 지표

- 분류 성능이 나쁘면 머신러닝 모델의 성능이 직선에 가깝다

- ROC 곡선에서 Fall Out (FPR) 값이 같을 땐, Recall (TPR) 값이 낮은 것을 선택한다

🔻 AUC

- ROC 곡선 아래의 면적

- 일반적으로 1에 수렴할 수록 좋은 수치이다

📌ROC Curve 그려보기

🔻 머신러닝 데이터 가져오기

import pandas as pd
red_wine = pd.read_csv('../data/winequality-red.csv', sep=';') 
white_wine = pd.read_csv('../data/winequality-white.csv', sep=';') 

# wine의 컬러로 나누기
red_wine['color'] = 1.
white_wine['color'] = 0.

# red_wine, white_wine 합치기
wine = pd.concat([red_wine, white_wine])

# wine quality 를 숫자로 나누기
wine['taste'] = [1. if grade > 5 else 0. for grade in wine['quality']]

# 데이터 나누기
X = wine.drop(['taste', 'quality'], axis=1)
y = wine['taste']

🔻 결정 트리 진행 및 예측

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 데이터를 훈련용 데이터와 테스트 데이터로 나누기
X_train, X_test, y_train, y_test =train_test_split(X, y, test_size=0.2, random_state=13)

# 결정트리
wine_tree =DecisionTreeClassifier(max_depth=2, random_state=13)
wine_tree.fit(X_train, y_train)

# 예측하기
y_pred_tr = wine_tree.predict(X_train)
y_pred_test = wine_tree.predict(X_test)

print('Train Acc : ', accuracy_score(y_train, y_pred_tr))
print('test Acc : ', accuracy_score(y_test, y_pred_test))
>>>>
Train Acc :  0.7294593034442948
test Acc :  0.7161538461538461

from sklearn.metrics import (accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, roc_curve)

print('Accuracy : ', accuracy_score(y_test, y_pred_test))
print('Precision_score', precision_score(y_test, y_pred_test))
print('Pricision : ', precision_score(y_test, y_pred_test))
print('AUC Score : ', roc_auc_score(y_test, y_pred_test))
print('F1 Score : ', f1_score(y_test, y_pred_test))
>>>>
Accuracy :  0.7161538461538461
Precision_score 0.8026666666666666
Pricision :  0.8026666666666666
AUC Score :  0.7105988470875331
F1 Score :  0.7654164017800381

🔻 곡선 그리기

import matplotlib.pyplot as plt
%matplotlib inline

pred_proba = wine_tree.predict_proba(X_test)[:, 1]
fpr, tpr, thresholds = roc_curve(y_test, pred_proba)

plt.figure(figsize=(10, 8))
plt.plot([0,1], [0,1])
plt.plot(fpr, tpr)
plt.grid
plt.show()