스터디노트 (TF-IDF 활용)

KloudHyun 2023. 10. 6. 13:31

📌 TF-IDF

🔻Vectorize 한 문장을 Tfidf 벡터라이저에 변환하기

→ Term Frequency - Inverse Document Frequency

→ TF -- 특정한 단어가 문서 내에 얼마나 자주 등장하는 지를 나타내는 값

→ IDF -- 원자라는 낱말은 일반적 문서에서는 잘 나타나지 않지만, 원자에 대한 문서를 모아놓은 문서군의 경우 해당 단어는 상투어가 된다---> 각 문서들을 세분화 하여 구분할 수 있는 다른 단어들이 높은 가중치를 얻게 된다.

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(min_df=1, decode_error='ignore')

# 띄어쓰기 기준 합친 문장을 Tfidf 벡터라이저에 변환
# [' 상처 받은 아이 들 은 너무 일찍 커버 려',
# ' 내 가 상처 받은 거 아는 사람 불안해',
# ' 잘 사는 사람 들 은 좋은 사람 되기 쉬워',
# ' 아무 일도 아니야 괜찮아']
X = vectorizer.fit_transform(contents_for_vectorize)
num_samples, num_features = X.shape
num_samples, num_features
>>>>
(4, 17)

# 이전에 띄어쓰기 기준으로 합쳤던 테스트 문장을 벡터라이즈화
# [' 상처 받기 싫어 괜찮아']
new_post_vec = vectorizer.transform(new_post_for_vectorize)

🔻Vectorize 한 문장을 Tfidf 벡터라이저에 변환하기

# 기준 문장과 테스트 문장 사이의 거리 구하기
def dist_norm(v1, v2):
    v1_normalized = v1 / sp.linalg.norm(v1.toarray())
    v2_normalized = v2 / sp.linalg.norm(v2.toarray())

    delta = v1_normalized - v2_normalized
    return sp.linalg.norm(delta.toarray())

dist = [dist_norm(each, new_post_vec) for each in X]
dist
>>>>
[1.254451632446019, 1.2261339938790283, 1.4142135623730951, 1.1021396119773588]

print('Best post is ', dist.index(min(dist)), ', dist = ', min(dist))
print('Test post is --> ', new_post)
print('Best dist post is --> ', contents[dist.index(min(dist))])
>>>>
Best post is  3 , dist =  1.1021396119773588
Test post is -->  ['상처받기 싫어 괜찮아']
Best dist post is -->  아무 일도 아니야 괜찮아