스터디노트 (나이브 베이즈 분류)

📌 Naive Bayes Classifier 감성 분석 (eng)

🔻tokenize를 활용한다.

→ 지도학습이기 때문에 train 데이터 처럼 정답을 알려주어야 한다.

→ 전체 말뭉치를 만든다

from nltk.tokenize import word_tokenize
import nltk

# 1. train 데이터에서 각 sentence (문장)를 받아온다.
# 2. 각 sentence의 문장을 tokenize 화 한다. (분할)
# 3. set 명령이 있어서 중복이 제거 된다.

train = [
    ('i like you', 'pos'),
    ('i hate you', 'neg'),
    ('you like me', 'neg'),
    ('i like her', 'pos'),
]

all_words = set(
    word.lower() for sentence in train for word in word_tokenize(sentence[0])
)
all_words
>>>>
{'hate', 'her', 'i', 'like', 'me', 'you'}

🔻단어의 유무 파악 (말뭉치 대비)

# 1. train 에서 데이터 한쌍씩 (문장, 감정) 가져온다
# ->  ex)  ('i like you', 'pos')
# 2. 문장만 가지고 와서 띄어쓰기로 분리
# ->  ex)  ('i like you')
# 3. 분리한 단어들이 all_words에 있는지 파악

t = [({word : (word in word_tokenize(x[0])) for word in all_words}, x[1]) for x in train]
t
>>>>
[({'me': False,
   'like': True,
   'her': False,
   'you': True,
   'hate': False,
   'i': True},
  'pos'),
...

🔻train!

# NaiveBayesClassifier 활용
# 특성 파악

classifier = nltk.NaiveBayesClassifier.train(t)
classifier.show_most_informative_features()
>>>>
Most Informative Features
                    hate = False             pos : neg    =      1.7 : 1.0
                     her = False             neg : pos    =      1.7 : 1.0
                       i = True              pos : neg    =      1.7 : 1.0
                    like = True              pos : neg    =      1.7 : 1.0
                      me = False             pos : neg    =      1.7 : 1.0
                     you = True              neg : pos    =      1.7 : 1.0

🔻이제 테스트 데이터를 넣어보자

# for문을 통해 all_words에서 word를 하나씩 빼온다
# 각 word가 test_sentence를 tokenize한 것에 있는 지 없는 지 파악

test_sentence = 'i like MeRui'
test_sent_features = {
    word.lower() : (word in word_tokenize(test_sentence.lower())) for word in all_words
}
test_sent_features
>>>>
{'me': False, 'like': True, 'her': False,  'you': False,  'hate': False,  'i': True}

# 파악한 데이터를 분류기에 넣는다

classifier.classify(test_sent_features)
>>>>
'pos'

📌 Naive Bayes Classifier 감성 분석 (kor)

🔻tokenize를 활용한다.

→ 한글이기 때문에 konlpy 활용

from konlpy.tag import Okt
pos_tagger = Okt()

train = [
    ("메리가 좋아", "pos"),
    ("고양이도 좋아", "pos"),
    ("난 수업이 지루해", "neg"),
    ("메리는 이쁜 고양이야", "pos"),
    ("난 마치고 메리랑 놀거야", "pos"),
]

all_words = set(
    word for sentence in train for word in word_tokenize(sentence[0])
)
all_words
>>>>
{'고양이도',  '고양이야',  '난',  '놀거야',  '마치고',  '메리가',  '메리는',  '메리랑',  '수업이',  '이쁜',  '좋아',  '지루해'}

🔻단어의 유무 파악

t = [({word : (word in word_tokenize(x[0])) for word in all_words}, x[1]) for x in train]
t
>>>
[({'메리가': True,
   '마치고': False,
   '지루해': False,
   '놀거야': False,
   '메리는': False,
   '난': False,
   '이쁜': False,
   '메리랑': False,
   '수업이': False,
   '고양이도': False,
   '좋아': True,
   '고양이야': False},
  'pos'),
  ....

🔻특성 파악

classifier = nltk.NaiveBayesClassifier.train(t)
classifier.show_most_informative_features()
>>>>
Most Informative Features
                       난 = True              neg : pos    =      2.5 : 1.0
                      좋아 = False             neg : pos    =      1.5 : 1.0
                    고양이도 = False             neg : pos    =      1.1 : 1.0
                    고양이야 = False             neg : pos    =      1.1 : 1.0
                     놀거야 = False             neg : pos    =      1.1 : 1.0
                     마치고 = False             neg : pos    =      1.1 : 1.0
                     메리가 = False             neg : pos    =      1.1 : 1.0
                     메리는 = False             neg : pos    =      1.1 : 1.0
                     메리랑 = False             neg : pos    =      1.1 : 1.0
                      이쁜 = False             neg : pos    =      1.1 : 1.0

🔻테스트 문장 넣어서 확인

→ 테스트 문장을 확인 해보니, 형태소 분석이 필수적으로 이루어져야 더 정확한 결과가 나오는 것이 확인된다.

test_sentence = '난 수업이 마치면 메리랑 놀거야'
test_sent_features = {
    word.lower() : (word in word_tokenize(test_sentence.lower())) for word in all_words
}
test_sent_features
>>>>
{'메리가': False,  '마치고': False,  '지루해': False,  '놀거야': True,  '메리는': False,  '난': True,  '이쁜': False,  '메리랑': True,
 '수업이': True,  '고양이도': False,  '좋아': False,  '고양이야': False}

classifier.classify(test_sent_features)
>>>>
'neg'

🔻형태소 분석을 한 후 다시 시도

→ 형태소 분석 후 품사를 단어 뒤에 붙여 넣도록 해보자

def tokenize(doc):
    return ["/".join(t) for t in pos_tagger.pos(doc, norm=True, stem=True)]

train_docs = [(tokenize(row[0]), row[1]) for row in train]
train_docs
>>>>
[(['메리/Noun', '가/Josa', '좋다/Adjective'], 'pos'),
 (['고양이/Noun', '도/Josa', '좋다/Adjective'], 'pos'),
 (['난/Noun', '수업/Noun', '이/Josa', '지루하다/Adjective'], 'neg'),
 (['메리/Noun', '는/Josa', '이쁘다/Adjective', '고양이/Noun', '야/Josa'], 'pos'),
 (['난/Noun', '마치/Noun', '고/Josa', '메리/Noun', '랑/Josa', '놀다/Verb'], 'pos')]

tokens = [t for d in train_docs for t in d[0]]
tokens
>>>>
['메리/Noun',  '가/Josa',  '좋다/Adjective',  '고양이/Noun',  '도/Josa',  '좋다/Adjective',  '난/Noun',  '수업/Noun', '이/Josa',
 '지루하다/Adjective',  '메리/Noun',  '는/Josa',  '이쁘다/Adjective',  '고양이/Noun',  '야/Josa',  '난/Noun',  '마치/Noun',  '고/Josa',
 '메리/Noun',  '랑/Josa',  '놀다/Verb']

🔻단어의 유무 파악

# tokens에 있는 word가 set(doc)에 있는지 유무 파악

def term_exists(doc):
    return {word : (word in set(doc)) for word in tokens}

# 1. train_docs에 있는 d(문장),c(감정)를 추출한다
# 2. term_exists에 문장을 넣어 각 단어가 있는지 확인 및 반환 

train_xy = [(term_exists(d), c) for d,c in train_docs]
train_xy
>>>>
[({'메리/Noun': True,
   '가/Josa': True,
   '좋다/Adjective': True,
   '고양이/Noun': False,
   '도/Josa': False,
   '난/Noun': False,
   '수업/Noun': False,
   '이/Josa': False,
   '지루하다/Adjective': False,
   '는/Josa': False,
   '이쁘다/Adjective': False,
   '야/Josa': False,
   '마치/Noun': False,
   '고/Josa': False,
   '랑/Josa': False,
   '놀다/Verb': False},
  'pos'),
  ....

🔻주요 특성 파악

classifier = nltk.NaiveBayesClassifier.train(train_xy)
classifier.show_most_informative_features()
>>>>
Most Informative Features
                  난/Noun = True              neg : pos    =      2.5 : 1.0
                 메리/Noun = False             neg : pos    =      2.5 : 1.0
                고양이/Noun = False             neg : pos    =      1.5 : 1.0
            좋다/Adjective = False             neg : pos    =      1.5 : 1.0
                  가/Josa = False             neg : pos    =      1.1 : 1.0
                  고/Josa = False             neg : pos    =      1.1 : 1.0
                 놀다/Verb = False             neg : pos    =      1.1 : 1.0
                  는/Josa = False             neg : pos    =      1.1 : 1.0
                  도/Josa = False             neg : pos    =      1.1 : 1.0
                  랑/Josa = False             neg : pos    =      1.1 : 1.0

🔻테스트 문장 확인하기

test_sentence = [('난 수업이 마치면 메리랑 놀거야')]

test_docs = pos_tagger.pos(test_sentence[0])
test_docs

test_sent_features = {word : (word in tokens) for word in test_docs}
test_sent_features
>>>>
{('난', 'Noun'): False,
 ('수업', 'Noun'): False,
 ('이', 'Josa'): False,
 ('마치', 'Noun'): False,
 ('면', 'Josa'): False,
 ('메리', 'Noun'): False,
 ('랑', 'Josa'): False,
 ('놀거야', 'Verb'): False}

classifier.classify(test_sent_features)
>>>>
'pos'

※ 참고

→ 한글의 특성상 조사 등이 많이 붙기 때문에, 정확한 결과를 위해서는 형태소 분석은 필수로 진행하여야 한다.
→ for문 등이 많이 등장하는데 이해하기 어려운 부분은 복습이 필요.

'Study_note(zb_data) > Machine Learning' 카테고리의 다른 글

스터디노트 (TF-IDF 활용) (0)	2023.10.06
스터디노트 (문장의 유사도 vectorize 활용하기) (0)	2023.10.06
스터디노트 (법령 관련 분석) (1)	2023.10.04
스터디노트 (자연어 처리) (0)	2023.10.04
스터디노트 (credit card data 3, 4) (1)	2023.10.02

Kloud

스터디노트 (나이브 베이즈 분류)

📌 Naive Bayes Classifier 감성 분석 (eng)

🔻tokenize를 활용한다.

🔻단어의 유무 파악 (말뭉치 대비)

🔻train!

🔻이제 테스트 데이터를 넣어보자

📌 Naive Bayes Classifier 감성 분석 (kor)

🔻tokenize를 활용한다.

🔻단어의 유무 파악

🔻특성 파악

🔻테스트 문장 넣어서 확인

🔻형태소 분석을 한 후 다시 시도

🔻단어의 유무 파악

🔻주요 특성 파악

🔻테스트 문장 확인하기

※ 참고

→ 한글의 특성상 조사 등이 많이 붙기 때문에, 정확한 결과를 위해서는 형태소 분석은 필수로 진행하여야 한다.
→ for문 등이 많이 등장하는데 이해하기 어려운 부분은 복습이 필요.

'Study_note(zb_data) > Machine Learning' 카테고리의 다른 글

티스토리툴바

스터디노트 (나이브 베이즈 분류)

📌 Naive Bayes Classifier 감성 분석 (eng)

🔻tokenize를 활용한다.

🔻단어의 유무 파악 (말뭉치 대비)

🔻train!

🔻이제 테스트 데이터를 넣어보자

📌 Naive Bayes Classifier 감성 분석 (kor)

🔻tokenize를 활용한다.

🔻단어의 유무 파악

🔻특성 파악

🔻테스트 문장 넣어서 확인

🔻형태소 분석을 한 후 다시 시도

🔻단어의 유무 파악

🔻주요 특성 파악

🔻테스트 문장 확인하기

※ 참고

→ 한글의 특성상 조사 등이 많이 붙기 때문에, 정확한 결과를 위해서는 형태소 분석은 필수로 진행하여야 한다.→ for문 등이 많이 등장하는데 이해하기 어려운 부분은 복습이 필요.

'Study_note(zb_data) > Machine Learning' 카테고리의 다른 글

'Study_note(zb_data)/Machine Learning' Related Articles

티스토리툴바

→ 한글의 특성상 조사 등이 많이 붙기 때문에, 정확한 결과를 위해서는 형태소 분석은 필수로 진행하여야 한다.
→ for문 등이 많이 등장하는데 이해하기 어려운 부분은 복습이 필요.