책 가격 회귀 분석 (With. Naver.api)

Clone Project로 진행

📌 책 가격의 상관관계 파악

🔻Naver.Api?

→ 기존에 있는 네이버 Api를 활용하여 대량으로 데이터를 추출해보고 분석을 해보자

🔻naver.api 불러오기

import urllib.request

client_id = "6ywEQoHEOqpRJMopg74j"
client_secret = "YAeC1wvboT"

# api_node -> choose type 
#	ex) shop, book, etc..
# search_text -> input text that you want searching
# start_num -> start_number (page)
# disp_num -> display_number (How many display result on page

def gen_search_url(api_node, search_text, start_num, disp_num):
    base = "https://openapi.naver.com/v1/search"
    node = "/" + api_node + ".json"
    param_query = "?query=" + urllib.parse.quote(search_text)
    param_start = "&start=" + str(start_num)
    param_disp = "&display=" + str(disp_num)
    
    return base + node + param_query + param_start + param_disp

url=gen_search_url('book', '파이썬', 10, 3)

import json
import datetime

def get_result_onpage(url):
    request = urllib.request.Request(url)
    request.add_header("X-Naver-Client-Id",client_id)
    request.add_header("X-Naver-Client-Secret",client_secret)
    response = urllib.request.urlopen(request)
    print("[%s] Url Request Success" % datetime.datetime.now())
    return json.loads(response.read().decode("utf-8"))

one_result = get_result_onpage(url)
one_result
>>>>
[2023-10-06 15:21:42.494415] Url Request Success
{'lastBuildDate': 'Fri, 06 Oct 2023 15:21:42 +0900',
 'total': 928,
 'start': 10,
 'display': 3,
 'items': [{'title': '코딩은 처음이라 with 파이썬 (VS Code로 시작하는 파이썬)',
   'link': 'https://search.shopping.naver.com/book/catalog/39049935621',
   'image': 'https://shopping-phinf.pstatic.net/main_3904993/39049935621.20230919123144.jpg',
   'author': '남규진',
   'discount': '17280',
   'publisher': '영진닷컴',
   'pubdate': '20230405',
   'isbn': '9788931467994',
   'description': '이 책은 총 12장의 파트로 구성되어 있습니다만 사실 1장부터 11장까지는 모두 12장 파이썬 프로젝트의 프로그램을 이해하고 작성하기 위한 내용이라고 볼 수 있습니다.\n\n내용은 다음과 같이 구성되어 있습니다. \nㆍ\tPart 1 파이썬 입문 \nㆍ\tPart 2 파이썬 실습 환경\nㆍ\tPart 3 파이썬 입출력\nㆍ\tPart 4 변수와 자료형\nㆍ\tPart 5 연산자\nㆍ\tPart 6 조건문과 반복문\nㆍ\tPart 7 함수\nㆍ\tPart 8 클래스\nㆍ\tPart 9 모듈과 라이브러리\nㆍ\tPart 10 파일 입출력\nㆍ\tPart 11 예외처리\nㆍ\tPart 12 파이썬 프로젝트\n\n학습 순서는 Part 1부터 순서대로 학습하면 되겠습니다. 1장부터 11장까지 공부한 모든 내용을 접목하여 이제 실제 동작 가능한 프로그램을 만들어봅니다. 숫자 맞추기 게임, 영어 단어 맞추기 게임, 숫자 야구 게임, 콘솔 계산기, 타자 게임, 로또 번호 생성기, 파이썬으로 엑셀 파일 불러오고 생성하기, 파이썬으로 MS-WORD 파일 작성하기로 총 9개의 실습 프로그램을 만들어보고 있습니다. 단순히 완성된 코드를 설명하는 방식이 아닌 실제 코드를 하나씩 살을 붙여 완성해 나가는 형태로 진행합니다.\n프로그래밍을 공부할 때, 얼만큼 많이 지식을 알고 있느냐가 아니라 내가 알고 있는 내용을 어떻게 잘 활용할 줄 아느냐가 중요합니다. 그렇기 때문에 이 책에서 나오는 내용과 문제들을 보면서 여러 방면으로 해결해보시기 바랍니다. 소스코드에서 제공하는 정답은 예시일 뿐 꼭 그것만이 정답은 아닙니다.\n파이썬 프로젝트도 실행해보면서 어떻게 하면 더 좋은 프로그램으로 업그레이드할 수 있는지 부족한 부분을 보완해가며 공부해보시기 바랍니다.\n\n【 대상 독자층 】\n- 파이썬을 처음 접하는 분\n- 파이썬 프로그래밍 입문자 및 학생\n- 파이썬 기초 문법만 알고 활용하기 어려운 분'},
  {'title': '혼자 공부하는 데이터 분석 with 파이썬 (1:1 과외하듯 배우는 데이터 분석 자습서)',
   'link': 'https://search.shopping.naver.com/book/catalog/36555425618',
   'image': 'https://shopping-phinf.pstatic.net/main_3655542/36555425618.20231004072457.jpg',
   'author': '박해선',
   'discount': '23400',
   'publisher': '한빛미디어',
   'pubdate': '20230102',
   'isbn': '9791169210287',
   'description': '혼자 해도 충분하다! 1:1 과외하듯 배우는 데이터 분석 자습서\n\n이 책은 독학으로 데이터 분석을 배우는 입문자가 ‘꼭 필요한 내용을 제대로 학습’할 수 있도록 구성했습니다. 뭘 모르는지조차 모르는 입문자의 막연한 마음에 십분 공감하여 과외 선생님이 알려주듯 친절하게, 핵심적인 내용만 콕콕 집어 줍니다. 책의 첫 페이지를 펼쳐서 마지막 페이지를 덮을 때까지, 혼자서도 충분히 데이터 분석을 배울 수 있다는 자신감과 확신이 계속될 것입니다!\n\n베타리더 검증으로, ‘함께 만든’ 입문자 맞춤형 도서\n베타리더와 함께 입문자에게 맞는 난이도, 분량, 학습 요소 등을 고민하고 이를 적극 반영했습니다. 어려운 용어와 개념은 한 번 더 풀어쓰고, 복잡한 설명은 눈에 잘 들어오는 그림으로 풀어냈습니다. ‘혼자 공부해 본’ 여러 입문자의 초심과 눈높이가 책 곳곳에 반영된 것이 이 책의 가장 큰 장점입니다.\n\n누구를 위한 책인가요?\n\n●\t데이터 분석을 어떻게 시작할지 막막한 비전공자\n●\t파이썬을 배운 다음 의미 있는 실습을 해 보고 싶은 파이썬 입문자\n●\t프로그래밍은 알지만, 분석(통계)에 대한 이해가 필요한 개발자\n●\t데이터에서 유의미한 결과를 도출해 이를 기획이나 마케팅에 적용해 보고 싶은 직장인\n●\t데이터 분석가, 데이터 사이언티스트라는 직업에 관심 있는 모든 사람'},
  {'title': '파이썬으로 쉽게 배우는 자료구조 (개정판)',
   'link': 'https://search.shopping.naver.com/book/catalog/40595743620',
   'image': 'https://shopping-phinf.pstatic.net/main_4059574/40595743620.20230711115354.jpg',
   'author': '최영규^천인국',
   'discount': '26100',
   'publisher': '생능출판',
   'pubdate': '20230626',
   'isbn': '9791192932187',
   'description': '자료구조(data structure)는 컴퓨터로 처리할 자료들을 효율적으로 관리하고 구조화시키기 위한 학문으로 컴퓨터 분야에서 매우 중요하고 기초적인 과목이다. 그러나 개념의 이해와 함께 코딩을 통한 구현 능력이 필수적으로 요구되기 때문에 학생들이 어려워하는 과목이기도 하다.\n이 책은 입문자들이 보다 쉽고 재미있게 자료구조를 공부하고 다양한 문제 해결에 활용할 수 있는 능력을 기르는데 초점을 맞추었다.'}]}

🔻sample df

import pandas as pd

def get_fields(json_data):
    title = [each["title"] for each in json_data["items"]]
    price = [each["discount"] for each in json_data["items"]]
    publisher = [each["publisher"] for each in json_data["items"]]
    isbn = [each["isbn"] for each in json_data["items"]]
    link = [each["link"] for each in json_data["items"]]
    
    result_pd = pd.DataFrame({
        "title" : title,
        "price" : price,
        "publisher" : publisher,
        "isbn" : isbn,
        'link' : link
    }, columns=["title", "price", "publisher", "isbn", 'link'])
    return result_pd

get_fields(one_result)

🔻대량으로 추출하기

# 100개 씩 10번 추출하는 방식
# Naver Api가 한 번에 할 수 있는 개수가 정해져 있어서 concat으로 단순히 DF를 붙여준다
# index가 꼬이기 때문에, reset_index 과정을 거치는 건 필수
result_book = []
for n in range(1, 1000, 100):
    url = gen_search_url("book", "파이썬", n, 100)
    json_result = get_result_onpage(url)
    pd_result = get_fields(json_result)
    
    result_book.append(pd_result)
    
result_book = pd.concat(result_book)

result_book.reset_index(drop=True, inplace=True)
result_book

🔻가격 정보 type 수정

result_book.info()
>>>>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 928 entries, 0 to 927
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   title      928 non-null    object
 1   price      928 non-null    object
 2   publisher  928 non-null    object
 3   isbn       928 non-null    object
 4   link       928 non-null    object
dtypes: object(5)
memory usage: 36.4+ KB

result_book['price'] = result_book['price'].astype('float')

🔻쪽 수 정보 가져오기 (book page)

import numpy as np

def get_page_num(soup):
    try:
        tmp = soup.find_all(class_="bookBasicInfo_spec__qmQ_N")[0].get_text()
    except:
        print('--> out of list error')

    try:
        result = tmp[:-1]
        return result
    except:
        print("--> Error in get_page_num")
        return np.nan

get_page_num(soup)

import time
page_num_col = []
# result_book의 link 컬럼에서 url을 하나씩 뽑아온다.
for url in result_book['link']:
    print(url)
    # 각 책의 페이지 수를 get_page_num 함수를 통해서 구하기
    try:
        page_num = get_page_num(BeautifulSoup(urlopen(url), 'html.parser'))
        page_num_col.append(page_num)
    # try, except를 활용하여 오류가 날 때, NaN 데이터로 처리하기
    except:
        print('--> Error')
        page_num_col.append(np.nan)
    print(len(page_num_col))
    time.sleep(0.5)
# 페이지 수 append 한 데이터를 적용
result_book['page_num'] = page_num_col

result_book['page_num'] = result_book['page_num'].astype('float')

🔻NaN 데이터 나온 부분을 다시 구해보기

for i, r in result_book.iterrows():
    if np.isnan(r['page_num']):
        print(r['link'])
        page_num = get_page_num(BeautifulSoup(urlopen(r['link']), 'html.parser'))
        result_book.loc[i, 'page_num'] = page_num
        time.sleep(0.5)

📌 결측치 확인 후 처리하기

🔻raw_data

→ NaN 데이터와 Price 값이 0인 데이터 등 결측치 처리 후 835개의 행이 남았다.

📌 상관관계 확인

🔻페이지 수와 가격과의 상관관계

→ 쪽수가 많을 수록, 가격이 높아지는 관계를 가지고 있다.

→ 100,000원 부근에 이상치가 있는 것 같다?..

import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

plt.figure(figsize=(12, 8))
sns.regplot(x='page_num', y='price', data = raw_data)
plt.show()

🔻관련 책을 많이 출판한 출판사와 가격의 상관관계

# 많이 출판한 출판사의 데이터를 가지고 진행
raw_1 = raw_data[raw_data['publisher'] == '에이콘출판']

plt.figure(figsize=(12, 8))
sns.regplot(x='page_num', y='price', data=raw_1)
plt.show()

raw_2 = raw_data[raw_data['publisher'] == '한빛미디어']

plt.figure(figsize=(12, 8))
sns.regplot(x='page_num', y='price', data=raw_1)
plt.show()

raw_3 = raw_data[raw_data['publisher'] == '위키북스']

plt.figure(figsize=(12, 8))
sns.regplot(x='page_num', y='price', data=raw_1)
plt.show()

📌 train, test 데이터

🔻선형 회귀 진행 (raw_data)

from sklearn.model_selection import train_test_split

X = raw_data['page_num'].values
y = raw_data['price'].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=13)

X_train = X_train.reshape(-1, 1)
X_test = X_test.reshape(-1, 1)

from sklearn.linear_model import LinearRegression

reg = LinearRegression()
reg.fit(X_train, y_train)

from sklearn.metrics import mean_squared_error
pred_tr = reg.predict(X_train)
pred_test =  reg.predict(X_test)

rmse_tr = (np.sqrt(mean_squared_error(y_train, pred_tr)))
rmse_test = (np.sqrt(mean_squared_error(y_test, pred_test)))
# 에러 계산
print("RMSE of Train Data : ", rmse_tr)
print("RMSE of Train Data : ", rmse_test)
>>>>
RMSE of Train Data :  5488.9696012934755
RMSE of Train Data :  4469.722562719371

plt.scatter(y_test, pred_test)
plt.xlabel('Actual')
plt.ylabel('Predict')
plt.plot([0, 80000],[0, 80000],'r')
plt.show()

🔻선형 회귀 진행 (1등 출판사 기준)

X = raw_1['page_num'].values
y = raw_1['price'].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=13)

X_train = X_train.reshape(-1, 1)
X_test = X_test.reshape(-1, 1)

reg.fit(X_train, y_train)

pred_tr = reg.predict(X_train)
pred_test =  reg.predict(X_test)

rmse_tr = (np.sqrt(mean_squared_error(y_train, pred_tr)))
rmse_test = (np.sqrt(mean_squared_error(y_test, pred_test)))

print("RMSE of Train Data : ", rmse_tr)
print("RMSE of Train Data : ", rmse_test)
>>>>
RMSE of Train Data :  3468.6898753299415
RMSE of Train Data :  4445.502939270577

plt.scatter(y_test, pred_test)
plt.xlabel('Actual')
plt.ylabel('Predict')
plt.plot([0, 80000],[0, 80000],'r')
plt.show()

🔻결론?

→ raw_data 전체를 진행했을 때 보다 출판사 별로 진행한 데이터가 좀 더 예측을 잘 하는 것 같다.

→ raw_data는 특정 부분에 많이 뭉쳐 있는 것 같다 (아무래도 데이터가 한 곳에 몰려 있는 것이 많으니 그런 것 같다.)

→ 분야별로 점검하는 것도 해보면 좋을 듯?

Kloud