스터디노트 (PCA)

📌 PCA

🔻PCA 개념 알기

→ 가장 널리 사용되는 자원 축소 기법 중 하나, 원 데이터의 분포를 최대한 보존하면서 고차원 공간의 데이터를 저차원 공간으로 변환→ 기존의 변수를 조합, 주성분을 만들어 낸다.

출처 : http://matrix.skku.ac.kr/math4ai-intro/W12/

🔻데이터 셋으로 진행 해보기

import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_pd = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_pd['species'] = iris.target
iris_pd.head(6)

sns.pairplot(iris_pd, hue='species', height=3,
            x_vars=['sepal length (cm)', 'petal width (cm)'],
            y_vars=['petal length (cm)', 'sepal width (cm)']);

🔻StandardScaler 활용

from sklearn.preprocessing import StandardScaler

iris_ss = StandardScaler().fit_transform(iris.data)
iris_ss[:3]
>>>>
array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ]])

🔻PCA 적용

→ Parameter : n_components (변수의 개수)

→ pca.fit

from sklearn.decomposition import PCA

# pca 결과 반환 함수 지정
# StandardScaler 적용된 데이터셋와 n_components 값 대입
# pca 변수 지정
# pca 함수에 데이터 셋을 fit
# pca 결과 return
def get_pca_data(ss_data, n_components=2):
    pca = PCA(n_components=n_components)
    pca.fit(ss_data)
    return pca.transform(ss_data), pca

iris_pca, pca = get_pca_data(iris_ss, 2)
iris_pca.shape
>>>>
(150, 2)

🔻PCA 적용 된 데이터를 DataFrame 화

→ 확인 해보면, 4개였던 기존의 변수에서 2개의 변수로 축소 된 것을 확인할 수 있다

def get_pd_from_pca(pca_data, cols=['PC1', 'PC2']):
    return pd.DataFrame(pca_data, columns=cols)

iris_pd_pca = get_pd_from_pca(iris_pca)
iris_pd_pca['species'] = iris.target
iris_pd_pca.head()

🔻결과 값 확인 1

→ 원본 데이터에 비해서 약 94%의 비중을 차지한다→ 차원을 축소하면서 약 원본에 비해 6%가 줄었다는 것

pca.explained_variance_ratio_
>>>>
array([0.72962445, 0.22850762])

🔻결과 값 확인 2

→ RandomForest 적용해보기→ 원본 데이터와 PCA를 적용한 데이터의 차이가 0.06점 정도 차이나는 것을 확인할 수 있다.

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

def rf_scores(X, y, cv=5):
    rf = RandomForestClassifier(random_state=13, n_estimators=100)
    score_rf = cross_val_score(rf, X, y, scoring='accuracy', cv=cv)
    print('Score : ', np.mean(score_rf))
    
rf_scores(iris_ss, iris.target)
>>>>
Score :  0.96

pca_X = iris_pd_pca[['PC1', 'PC2']]
pca_X
rf_scores(pca_X, iris.target)
>>>>
Score :  0.9066666666666666

'Study_note(zb_data) > Machine Learning' 카테고리의 다른 글

스터디노트 (HAR Data_PCA) (0)	2023.10.06
스터디노트 (TF-IDF 활용) (0)	2023.10.06
스터디노트 (문장의 유사도 vectorize 활용하기) (0)	2023.10.06
스터디노트 (나이브 베이즈 분류) (1)	2023.10.04
스터디노트 (법령 관련 분석) (1)	2023.10.04

Kloud

스터디노트 (PCA)

📌 PCA

🔻PCA 개념 알기

🔻데이터 셋으로 진행 해보기

🔻StandardScaler 활용

🔻PCA 적용

🔻PCA 적용 된 데이터를 DataFrame 화

🔻결과 값 확인 1

🔻결과 값 확인 2

'Study_note(zb_data) > Machine Learning' 카테고리의 다른 글

티스토리툴바

스터디노트 (PCA)

📌 PCA

🔻PCA 개념 알기

🔻데이터 셋으로 진행 해보기

🔻StandardScaler 활용

🔻PCA 적용

🔻PCA 적용 된 데이터를 DataFrame 화

🔻결과 값 확인 1

🔻결과 값 확인 2

'Study_note(zb_data) > Machine Learning' 카테고리의 다른 글

'Study_note(zb_data)/Machine Learning' Related Articles

티스토리툴바