스터디 노트 (ML)

📌 Machine Learning

- 명시적으로 프로그래밍 하지 않아도 컴퓨터에 학습할 수 있는 능력을 부여하는 학문

- 주어진 데이터를 통해 규칙을 찾는 것이다.

📌 iris 데이터 셋 import 하기

- sklearn.datasets에서 iris 데이터를 import

- 데이터 셋을 활용하여 setosa, versicolor, virginica를 구분해보자

from sklearn.datasets import load_iris
iris = load_iris()

iris.keys()
>>>>
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

print(iris['target_names'])
>>>>
['setosa' 'versicolor' 'virginica']

import pandas as pd
iris_pd = pd.DataFrame(iris.data, columns=iris['feature_names'])
iris_pd

📌 iris 데이터를 그래프로 그려보자

- 데이터를 확인, petal length와 petal width를 가지고 품종을 구분할 수 있을 것 같다는 가능성 확인

import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 6))
sns.boxplot(x='sepal length (cm)', y='species', data=iris_pd, orient='h');

plt.figure(figsize=(12, 6))
sns.boxplot(x='petal length (cm)', y='species', data=iris_pd, orient='h');

plt.figure(figsize=(12, 6))
sns.boxplot(x='petal width (cm)', y='species', data=iris_pd, orient='h');

sns.pairplot(data=iris_pd,
             vars=['petal length (cm)', 'petal width (cm)'],
             hue = 'species', height=4);

plt.figure(figsize=(12, 10))
sns.scatterplot(data=iris_pd,
             x='petal length (cm)', y='petal width (cm)', hue='species');

📌 Decision Tree의 분할 기준

🔻 entropy의 개념

- 얼마나 정보가 무질서하고 불확실 한가? (무질서의 정도를 나타낸다.)

- 분할하면 엔트로피가 낮아지는 것을 확인할 수 있다.

🔻 Gini 계수

- Gini index 혹은 불순도율

- 엔트로피의 계산량이 많아서 보다 계산량이 적은 지니계수를 사용하는 경우가 많다.

- 분할하면 지니계수가 낮아지는 것을 확인할 수 있다.

--> 엔트로피나 지니 계수는 낮을 수록 좋다

📌 Scikit Learn

- iris data의 petal width, length 데이터를 활용하여 'setosa', 'versicolor', 'virginica' 를 구분할 수 있도록 학습 시켜보자

# fit을 활용, 데이터를 학습
from sklearn.tree import DecisionTreeClassifier
iris_clf = DecisionTreeClassifier()
iris_clf.fit(iris.data[:, 2:], iris.target)

🔻 학습 한 데이터와 그 아래의 정답 데이터를 비교해보자.

# 학습한 데이터를 기반으로 예측하기
from sklearn.metrics import accuracy_score
y_pred_tr = iris_clf.predict(iris.data[:, 2:])
y_pred_tr
>>>>
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

iris.target
>>>>
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

🔻 정확도를 알아보자

## 얼마나 정확한지 알아보자
accuracy_score(iris.target, y_pred_tr)
>>>>
0.9933333333333333

'Study_note(zb_data) > Machine Learning' 카테고리의 다른 글

스터디노트 (ML6_Wine) (0)	2023.09.22
스터디노트 (ML5) (0)	2023.09.21
스터디노트 (ML4) (0)	2023.09.21
스터디노트 (ML3) (0)	2023.09.21
스터디 노트 (ML2) (0)	2023.09.19

Kloud

스터디 노트 (ML)

📌 Machine Learning

📌 iris 데이터 셋 import 하기

📌 iris 데이터를 그래프로 그려보자

📌 Decision Tree의 분할 기준

🔻 entropy의 개념

🔻 Gini 계수

--> 엔트로피나 지니 계수는 낮을 수록 좋다

📌 Scikit Learn

🔻 학습 한 데이터와 그 아래의 정답 데이터를 비교해보자.

🔻 정확도를 알아보자

'Study_note(zb_data) > Machine Learning' 카테고리의 다른 글

티스토리툴바

스터디 노트 (ML)

📌 Machine Learning

📌 iris 데이터 셋 import 하기

📌 iris 데이터를 그래프로 그려보자

📌 Decision Tree의 분할 기준

🔻 entropy의 개념

🔻 Gini 계수

--> 엔트로피나 지니 계수는 낮을 수록 좋다

📌 Scikit Learn

🔻 학습 한 데이터와 그 아래의 정답 데이터를 비교해보자.

🔻 정확도를 알아보자

'Study_note(zb_data) > Machine Learning' 카테고리의 다른 글

'Study_note(zb_data)/Machine Learning' Related Articles

티스토리툴바