Study_note(zb_data)/Statistics

μŠ€ν„°λ”” λ…ΈνŠΈ (톡계학)

KloudHyun 2023. 9. 5. 23:06

πŸ“Œ 데이터와 κ·Έλž˜ν”„

🧷 EDA 

- 데이터λ₯Ό λΆ„μ„ν•˜λŠ” κ³Όμ • 쀑에 κ°€μž₯ 많이 μ‚¬μš©ν•˜λŠ” 뢄석 방법- λ„ν‘œ, κ·Έλž˜ν”„, μš”μ•½ 톡계 등을 μ‚¬μš©ν•˜μ—¬ 데이터λ₯Ό λΆ„μ„ν•˜λŠ” 방법 쀑 ν•˜λ‚˜

 

🧷 μ‹œκ°ν™” μ’…λ₯˜

좜처 : 제둜베이슀 데이터 슀쿨

πŸ“Œ 기초 ν†΅κ³„λŸ‰

- ν†΅κ³„λŸ‰μ€ ν‘œλ³ΈμœΌλ‘œ μ‚°μΆœν•œ κ°’μœΌλ‘œ, 기술 ν†΅κ³„λŸ‰μ΄λΌκ³ λ„ ν‘œν˜„ν•¨- ν†΅κ³„λŸ‰μ„ 톡해 데이터 νŠΉμ„±μ„ 이해할 수 μžˆλ‹€.

 

🧷  쀑심 κ²½ν–₯치

- ν‘œλ³Έμ˜ 쀑심을 μ„€λͺ…ν•˜λŠ” 값을 λŒ€ν‘œ 값이라고 ν•˜λ©° 이λ₯Ό 쀑심 κ²½ν–₯치라고 함

- λŒ€ν‘œμ μΈ 쀑심 κ²½ν–₯μΉ˜λŠ” 평균이며, 쀑앙값, μ΅œλΉˆκ°’, μ ˆμ‚¬ 평균 등이 있음

- 평균은 ν‘œλ³ΈμœΌλ‘œ μΆ”μΆœλœ ν‘œλ³Έ 평균이라고 ν•˜λ©°, λͺ¨μ§‘λ‹¨μ˜ 평균을 λͺ¨ν‰κ· μ΄λΌκ³  μ •μ˜

 

πŸ“Œ μš©μ–΄ 정리

좜처 : 제둜베이슀 데이터 슀쿨

🧷 산포도

- λ°μ΄ν„°μ˜ 흩어짐을 확인, λ‚˜νƒ€λ‚΄λŠ” μΈ‘λ„λ‘œλŠ” λ²”μœ„, μ‚¬λΆ„μœ„μˆ˜, λΆ„μ‚°, ν‘œμ€€νŽΈμ°¨, 변동 κ³„μˆ˜ 등이 μžˆλ‹€

🧷 μ‚¬λΆ„μœ„μˆ˜

- 전체 데이터λ₯Ό μ˜€λ¦„μ°¨ 순으둜 μ •λ ¬ν•˜μ—¬ 4λ“±λΆ„ ν•˜μ˜€μ„ λ•Œ

Q1 - 제1μ‚¬λΆ„μœ„μˆ˜, Q2 - 제2μ‚¬λΆ„μœ„μˆ˜, Q3 - 제3μ‚¬λΆ„μœ„μˆ˜λ‘œ μ •μ˜

- μ‚¬λΆ„μœ„μˆ˜ λ²”μœ„ : IQR >> 제 3μ‚¬λΆ„μœ„μˆ˜ (Q3) - 제 1μ‚¬λΆ„μœ„μˆ˜ (Q1)

 

🧷 λ°±λΆ„μœ„μˆ˜

- 전체 데이터λ₯Ό μ˜€λ¦„μ°¨μˆœμœΌλ‘œ μ •λ ¬ν•˜μ—¬ μ£Όμ–΄μ§„ λΉ„μœ¨μ— μ˜ν•΄ λ“±λΆ„ν•œ κ°’, 제 pλ°±λΆ„μœ„μˆ˜λŠ” p%에 μœ„μΉ˜ν•œ 자료 값을 의미

 

>> 데이터λ₯Ό μ˜€λ¦„μ°¨μˆ˜λ‘œ λ°°μ—΄ν•˜κ³  μžλ£Œκ°€ n개 μžˆμ„ λ•Œ, 제(100*p) λ°±λΆ„μœ„μˆ˜λŠ” μ•„λž˜μ™€ κ°™λ‹€

1) npκ°€ μ •μˆ˜μ΄λ©΄, npλ²ˆμ§Έμ™€ (np+1)번째 자료의 평균

2) npκ°€ μ •μˆ˜κ°€ μ•„λ‹ˆλ©΄, np보닀 큰 μ΅œμ†Œμ˜ μ •μˆ˜λ₯Ό m이라고 ν• λ•Œ m번째 자료

 

🧷 λΆ„μ‚°

- λ°μ΄ν„°μ˜ 뢄포가 μ–Όλ§ˆλ‚˜ 흩어져 μžˆλŠ”μ§€λ₯Ό μ•Œ 수 μžˆλŠ” 츑도

🧷 ν‘œμ€€ 편차

- λΆ„μ‚°μ˜ 제곱근으둜 μ •μ˜

 

좜처 : 제둜베이슀 데이터 슀쿨

πŸ“Œ ν™•λ₯ 

- 0κ³Ό 1μ‚¬μ΄μ˜ ν™•λ₯ μ— 100을 κ³±ν•΄ 0κ³Ό 100μ‚¬μ˜ λ°±λΆ„λ₯ λ‘œ λ‚˜νƒ€λƒ„

🧷 ν‘œλ³Έ 곡간

- μ–΄λ–€ μ‹€ν—˜μ—μ„œ λ‚˜μ˜¬ 수 μžˆλŠ” λͺ¨λ“  κ°€λŠ₯ν•œ κ²°κ³Όλ“€μ˜ μ§‘ν•©

πŸ“Œ ν™•λ₯ μ˜ μ„±μ§ˆ

좜처 : 제둜베이슀 데이터 슀쿨
좜처 : 제둜베이슀 데이터 슀쿨