본문 바로가기

Study_note(zb_data)/EDA

(18)
스터디 노트 (BeautifulSoup Web data 2-3) 📌 BeautifulSoup - Web data 2-3 🚩 찾은 데이터 위치 값으로 지도 시각화 🚩 지도 시각화 import folium, pandas, numpy, googlemaps 🚩 위도와 경도 값 추가 해주기 lat = [] lng = [] for idx, row in tqdm(df.iterrows()): if not row["Address"] == "Multiple location": # 데이터를 확인해보니, Address 데이터에 Multiple location 값 발견 # if 문으로 값을 제외한 곳을 확인 target_name=row["Address"] + ", " + "Chicago" # Address 값에 Chicago 값을 str으로 합쳐준다 gmaps_output = gmaps.g..
스터디 노트 (BeautifulSoup Web data 2-2) 📌 BeautifulSoup - Web data 2-2 🚩 목표 데이터 가게 이름 대표 메뉴 대표 메뉴의 가격 가게 주소 🚩 데이터 찾기 pandas, urllib, fake_useragent, BeautifulSoup 🚩 데이터 찾기 p tag의 addy 클래스의 값에 가격, 주소가 나와있다. [0] 인덱스에 가격, 주소 / [1] 인덱스에 전화번호, 사이트 주소 regular expression 사용 더보기 📒 re.search 구문의 뜻 \$\d+\.(\d+)? 달러 기호, 연속적인 숫자, (.) , 연속적인 숫자가 올지 안 올지 모름 📒 price_tmp[len(tmp) +2:] 기존의 tmp (달러) 데이터의 길이 + 2 (데이터 상태를 보니 현재 띄어쓰기가 두번 되어있음) price_tmp의 ..
스터디 노트 (BeautifulSoup Web data 2-1) 📌 BeautifulSoup - Web data 2-1 🚩 목표 데이터 가게 이름 대표 메뉴 대표 메뉴의 가격 가게 주소 🚩 Web data 크롤링시 403 error 해결하기 headers 값에 User-Agent 값을 주면 된다 User-Agent 값? Ctrl+shift+i 개발자 도구 열기 네트워크 - 헤더 - User-Agent 값 확인 또는, fake_useragent를 사용하여 User-Agent 값을 사용하면 된다 아니면 {"User-Agent" : "Chrome" } 도 대체 가능 🚩 Data 구조 확인하기 순위가 50위 까지 있으며, 1개당 sammy 클래스에 담겨져 있는 구조. 데이터 확인 🚩 Data 체크 하기 div 태그에 sammy 클래스 자료 찾기 총 50개인 것 까지 확인 s..
스터디 노트 (BeautifulSoup Web data_한글 웹 주소 확인하기) 📌 urllib, Request, BeautifulSoup 활용, 한글 웹 주소의 데이터 열기 🚩 한글 웹 주소를 가져오면 벌어지는 일 🚩 코드 확인하기 html 변수에 기본 주소 뒤에 한글 웹주소 부분을 {search_words}로 만들어 주자. url(html) - urlopen - BeautifulSoup 단계 중 중간에 한글을 url로 인코딩하는 작업이 필요하다. search_words = urllib.parse.quote("한글 웹 주소 입력")
스터디 노트 (BeautifulSoup Web data 1) 📌 BeautifulSoup - Web data 1 🚩 목표 데이터 (환율) 나라 이름 현재 환율 변동 폭 상승 or 하락 값 🚩 urllib, BeautifulSoup 활용 데이터를 가져오려는 url과 urlopen, BeautifulSoup 등의 함수를 사용 html.parser, prettify 함수로 정리된 web data를 볼 수 있다. 가져오려는 지표 https://finance.naver.com/marketindex/ https://finance.naver.com/marketindex/ 환전 고시 환율 2023.08.11 18:39 하나은행 기준 고시회차 499회 finance.naver.com status 함수, 200이 출력되면 웹 데이터를 이용할 수 있다 더보기 📒 HTTP 상태 코드 ..
스터디 노트 (BeautifulSoup basic) 📌 BeautifulSoup - Basic 🚩 pip install beautifulsoup4 from bs4 import BeautifulSoup html 파일을 open 명령어로 선언, page 변수에 담아준다 BeautifulSoup에 page, "html. parser" 이용, html 파일을 읽는다 prettify() 함수를 이용하여 보기좋게 정리한다 🚩 Tag 확인 클래스를 지정하지 않을 시, 처음 발견된 태그만 출력 된다. 📌 find, find_all 함수 🚩 find 함수 find("tag_name", class_="class_name") find("tag_name", {"class":"class_name"}) 🚩 다중 조건 🚩 text, get_text(),string, strip() ..
스터디 노트 (Analysis Seoul Crime) 📌 데이터 개요 🚩 Data 불러오기 thousands 명령어 (,)를 사용하고 있어서 문자로 인식될 가능성이 있다. 명령어를 통해 숫자형으로 데이터를 읽어온다. 🚩 Data Check info() 명령어를 통해 데이터 확인 Rangeindex를 보니 총 65534개의 데이터가 있다, 확인이 필요! unique() 함수를 이용해 확인, NaN 데이터 확인 DataFrame.isnull() 함수로 확인해보니 NaN 데이터가 많다. 이를 notnull() 함수로 제거, 데이터가 정리된 것을 확인할 수 있다 🚩 pivot_table() index, columns, values, aggfunc margin=True : 총계를 표시 fill_value : NaN data를 채워준다 pivot_table() 함수를..
스터디 노트 (Analysis Seoul CCTV with population) 📌 데이터 읽기 import pandas as pd pandas를 기본적으로 import pandas.read_csv(확장자) 함수를 이용하여 다양한 엑셀 확장자를 불러올 수 있다. 🚩CCTV_Seoul 데이터 확인하기 columns 함수를 통해 컬럼 데이터를 확인할 수 있다. rename 함수를 통해 기관명 컬럼을 구별로 이름 변경 🚩 Seoul_Population 데이터 확인하기 header (index를 몇번째부터 불러올 것인지?) usecols (컬럼을 몇번을 사용할 것인지?) 실제 csv 파일을 열어보고, 데이터를 확인하는 작업이 필요 rename 함수를 통해 column들의 이름을 변경 🚩CCTV_Seoul 데이터 확인하기 2 sort 함수를 이용하여, 확인하고 싶은 데이터를 전체적으로 정렬한..