본문 바로가기

Study_note(zb_data)/Statistics

(3)
책 데이터 사이언스 입문 3 (기술 통계량 ~ 표준편차) 📌 데이터를 값으로 요약하는 기술 통계량의 4가지 분류 🔻 중심 경향성 - 평균 값, 중앙 값, 최빈 값 등이 중심 경향성이다 - 어느 값이 빈번하게 나타나는 지, 정 가운데 값은 무엇인지 등을 나타내므로 일상에서도 많이 사용된다. 🔻산포도 - 데이터의 흩어져 있는 정도, 최댓값과 최솟값은 가장 큰 데이터와 가장 작은 데이터를 나타낸다. - 범위 내에서 데이터가 전반적으로 어떻게 흩어져 있는지, 얼마나 변화하는지 나타내기 위해 분산, 표준편차, 표준오차 등이 쓰인다. 🔻분포의 형태 - 중심 경향성과 산포도를 이용하면, 데이터 중심이 어디 인지와 각 데이터가 중심으로부터 어느 정도 흩어져 있는지 알 수 있다. - but 어느 쪽으로 쏠려 있는지는 확인이 어렵다. -- 이를 해결하기 위해 첨도와 왜도를 사용..
스터디 노트 (통계학 2) 📌 확률 변수 ❓ 확률 분포 - 확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수 📌 확률 분포의 분류 📌 이산형 확률 분포의 종류 📌 연속형 확률 분포의 종류 - 확률 밀도 함수 (연속형 확률 변수 X에 대해서 함수 f(x)가 아래 조건을 만족하면 확률 밀도 함수라고 정의 - 누적 분포 함수 (확률 밀도 함수를 적분하면 누적분포함수가 된다) - 정규분포
스터디 노트 (통계학) 📌 데이터와 그래프 🧷 EDA - 데이터를 분석하는 과정 중에 가장 많이 사용하는 분석 방법- 도표, 그래프, 요약 통계 등을 사용하여 데이터를 분석하는 방법 중 하나 🧷 시각화 종류 📌 기초 통계량 - 통계량은 표본으로 산출한 값으로, 기술 통계량이라고도 표현함- 통계량을 통해 데이터 특성을 이해할 수 있다. 🧷 중심 경향치 - 표본의 중심을 설명하는 값을 대표 값이라고 하며 이를 중심 경향치라고 함 - 대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균 등이 있음 - 평균은 표본으로 추출된 표본 평균이라고 하며, 모집단의 평균을 모평균이라고 정의 📌 용어 정리 🧷 산포도 - 데이터의 흩어짐을 확인, 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있다 🧷 사분위수 - ..