본문 바로가기

Study_note(zb_data)

(97)
스터디 노트 (Understanding DL) 📌 유형에 따른 DL 이해하기 ➡️ Regression → 출력층의 activation은 회귀 문제일 때 설정하지 않는다.→ 변수가 추가될 때마다 차원이 하나씩 추가된다. 🔻 Linear Regression → 데이터를 가장 잘 표현하는 선형식을 찾는다 → MSE를 최소로 하는 w를 찾아라! (평균 제곱 에러) → Error 값도 중요하지만, Model 별로 상대적인 비교가 더 중요하다. ➡️ 이진 분류 → 출력 계층에서 Sigmoid를 활용, 0.5를 기준으로 1과 0을 분류한다. 🔻 Logistic → 엔트로피를 최소화 한다. ➡️ 다중 분류 → 출력 계층에서 Softmax를 활용 각 출력은 해당 class에 속할 확률을 의미한다. 🔻 OneHotEncoding, Sparse Vector 📌 각 레이..
스터디 노트 (tensorflow, LeNET) 📌 Classify Wearing Mask ➡️ Data Source → https://www.kaggle.com/datasets/ashishjangra27/face-mask-12k-images-dataset ➡️ Find file path using keyword ls → ls 명령어로 현재 경로에 존재하는 파일을 알 수 있다. ls >>> 2023-11-01 오후 01:37 . 2023-10-30 오후 04:04 .. 2023-10-31 오후 09:59 .ipynb_checkpoints 2023-10-31 오후 09:57 3,172,365 1. Beginning of Deeplearning.ipynb 2023-10-31 오후 09:56 1,298,479 2. Deep Learning from scra..
스터디 노트 (tensorflow, MNIST | CNN) 📌 MNIST 🔻데이터 import → 각 픽셀이 255값이 최댓값이기 때문에, 0과 1사이의 값으로 조정 (min-max scaler 느낌) → OneHotEncoding 방식이나, sparse_categorical_crossentropy로 설정 가능 import tensorflow as tf mnist = tf.keras.datasets.mnist (X_train, y_train), (X_test, y_test) = mnist.load_data() x_train, x_test, =x_train / 255.0, x_test/255.0 🔻Modeling model = tf.keras.models.Sequential([ tf.keras.layers.Flatten(input_shape=(28,28)), tf..
스터디 노트 (tensorflow, Regression | XOR) 📌Blood Fat Data (Regression) 🔻데이터 import → index, 구분선, weight, age, blood fat 순으로 나열되어있다. import numpy as np raw_data = np.genfromtxt('./data/x09.txt', skip_header=36) raw_data >>>> array([[ 1., 1., 84., 46., 354.], [ 2., 1., 73., 20., 190.], [ 3., 1., 65., 52., 405.], [ 4., 1., 70., 30., 263.], [ 5., 1., 76., 57., 451.], [ 6., 1., 69., 25., 302.], [ 7., 1., 63., 28., 288.], [ 8., 1., 72., 36., ..
스터디노트 (HAR Data_PCA) 📌 HAR PCA 진행 🔻데이터 import → 데이터 량이 많은 경우는 어떻게 불러와질까? import pandas as pd feature_name_df = pd.read_csv('../data/features.txt', sep='\s+', header=None, names=['columns_index', 'column_name']) feature_name_df.head() feature_name = feature_name_df.iloc[:,1].values.tolist() X_train_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/HAR_dataset/train/X_train.txt' X_test_url =..
스터디노트 (PCA) 📌 PCA 🔻PCA 개념 알기 → 가장 널리 사용되는 자원 축소 기법 중 하나, 원 데이터의 분포를 최대한 보존하면서 고차원 공간의 데이터를 저차원 공간으로 변환→ 기존의 변수를 조합, 주성분을 만들어 낸다. 🔻데이터 셋으로 진행 해보기 import pandas as pd from sklearn.datasets import load_iris iris = load_iris() iris_pd = pd.DataFrame(iris.data, columns=iris.feature_names) iris_pd['species'] = iris.target iris_pd.head(6) sns.pairplot(iris_pd, hue='species', height=3, x_vars=['sepal length (cm)', ..
스터디노트 (TF-IDF 활용) 📌 TF-IDF 🔻Vectorize 한 문장을 Tfidf 벡터라이저에 변환하기 → Term Frequency - Inverse Document Frequency → TF -- 특정한 단어가 문서 내에 얼마나 자주 등장하는 지를 나타내는 값 → IDF -- 원자라는 낱말은 일반적 문서에서는 잘 나타나지 않지만, 원자에 대한 문서를 모아놓은 문서군의 경우 해당 단어는 상투어가 된다---> 각 문서들을 세분화 하여 구분할 수 있는 다른 단어들이 높은 가중치를 얻게 된다. from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer(min_df=1, decode_error='ignore') # 띄어쓰기 기준 합친 ..
스터디노트 (문장의 유사도 vectorize 활용하기) 📌 문장의 유사도 🔻CountVectorizer → 문장을 벡터로 변환하는 함수 (CountVectorizer) → 문장을 점 처럼 일종의 벡터로 표현하여, 두 문장 사이의 거리를 구하여 유사한 문장을 찾는 것 # 유사도 측정할 문자열 생성 contents = [ '상처받은 아이들은 너무 일찍 커버려', '내가 상처받은 거 아는 사람 불안해', '잘 사는 사람들은 좋은 사람 되기 쉬워', '아무 일도 아니야 괜찮아' ] # 각 문장을 형태소로 분할 from konlpy.tag import Okt t = Okt() contents_tokens = [t.morphs(row) for row in contents] contents_tokens >>>> [['상처', '받은', '아이', '들', '은', '너무..