๐ BeautifulSoup - Web data 2-1
๐ฉ ๋ชฉํ ๋ฐ์ดํฐ
- ๊ฐ๊ฒ ์ด๋ฆ
- ๋ํ ๋ฉ๋ด
- ๋ํ ๋ฉ๋ด์ ๊ฐ๊ฒฉ
- ๊ฐ๊ฒ ์ฃผ์
๐ฉ Web data ํฌ๋กค๋ง์ 403 error ํด๊ฒฐํ๊ธฐ
- headers ๊ฐ์ User-Agent ๊ฐ์ ์ฃผ๋ฉด ๋๋ค
- User-Agent ๊ฐ?
- Ctrl+shift+i ๊ฐ๋ฐ์ ๋๊ตฌ ์ด๊ธฐ
- ๋คํธ์ํฌ - ํค๋ - User-Agent ๊ฐ ํ์ธ


- ๋๋, fake_useragent๋ฅผ ์ฌ์ฉํ์ฌ User-Agent ๊ฐ์ ์ฌ์ฉํ๋ฉด ๋๋ค
- ์๋๋ฉด {"User-Agent" : "Chrome" } ๋ ๋์ฒด ๊ฐ๋ฅ

๐ฉ Data ๊ตฌ์กฐ ํ์ธํ๊ธฐ
- ์์๊ฐ 50์ ๊น์ง ์์ผ๋ฉฐ, 1๊ฐ๋น sammy ํด๋์ค์ ๋ด๊ฒจ์ ธ ์๋ ๊ตฌ์กฐ.


๐ฉ Data ์ฒดํฌ ํ๊ธฐ
- div ํ๊ทธ์ sammy ํด๋์ค ์๋ฃ ์ฐพ๊ธฐ
- ์ด 50๊ฐ์ธ ๊ฒ ๊น์ง ํ์ธ
- select(".sammy") ์ฌ์ฉ๊ฐ๋ฅ


- ์ฒซ ๋ฒ์งธ index ๋ง ์ฒดํฌ์ฉ์ผ๋ก ํ์ธ

- ์์์ ๋ฉ๋ด, ๊ฐ๊ฒ ์ด๋ฆ์ ํ์ธํ ์ ์๋ค

- ๋ฉ๋ด ์ด๋ฆ, ๊ฐ๊ฒ ์ด๋ฆ ๋ฐํ ํ๊ธฐ
- split์ผ๋ก ๋๋๊ธฐ
- \n|\r\n ?
- \n ๋๋ \r\n ๊ธฐ์ค์ผ๋ก ๋๋ ์ค๋ผ ๋ผ๋ ๋ป!
- ์ฐธ๊ณ ๋งํฌ



- ์๋์ฃผ์ (ํ์์ฃผ์) ๋ฐํํ๊ธฐ

๐ฉ ์ํ๋ Data ์ถ์ถํ๊ธฐ!
- urllib.parse, urljoin ์ ์ธ (url ํฉ์น ๋ ์ฌ์ฉ)
- urljoin(url_base, "์๋์ฃผ์ ๋ฐ์ดํฐ")

- ๊ฐ ๋ฐ์ดํฐ๊ฐ ์ ์ถ์ถ๋์๋์ง ํ์ธํ๊ธฐ

๐ฉ DataFrame ์ ์
- ๋์ ๋๋ฆฌ ์์ ๋ฆฌ์คํธ๋ก ๊ฐ์ผ๋ค



'Study_note(zb_data) > EDA' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์คํฐ๋ ๋ ธํธ (BeautifulSoup Web data 2-3) (0) | 2023.08.12 |
---|---|
์คํฐ๋ ๋ ธํธ (BeautifulSoup Web data 2-2) (0) | 2023.08.12 |
์คํฐ๋ ๋ ธํธ (BeautifulSoup Web data_ํ๊ธ ์น ์ฃผ์ ํ์ธํ๊ธฐ) (0) | 2023.08.11 |
์คํฐ๋ ๋ ธํธ (BeautifulSoup Web data 1) (0) | 2023.08.11 |
์คํฐ๋ ๋ ธํธ (BeautifulSoup basic) (0) | 2023.08.11 |