머신러닝 14. 지도학습: 모형 진단과 정규분포화
Written on October 22nd , 2019 by MJ 목차
1. 변수컬럼에 정규성 탐색
(1) 데이터셋 로딩&조회&기술통계: head() / str() / tibble::glimpse / psych::describe() / skimr::skim()
(2) 개별 변수 탐색: plot($) / boxplot($) / summary($) / psych::describe($) / shapiro.test($)
(3) 개별 변수 정규성 탐색: shapiro.test($) / qqnorm($) / qqline($)
(4) 개별 변수 분포 그래프: rcompanion::plotNormalHistogram($) / ggplot()+geom_histogram()/+geom_density()
(5) 두 개 변수간 관계 탐색: plot() / ggplot()
2. 변수컬럼에 정규성 부족할 때 데이터 변환해 정규분포화: Box-cox 변환
(1) 파워변환에 적합한 람다 값 추정1: car::powerTransform()%>%summary()
(2) 파워변환(거듭제곱(Power))변환 방식: λ값에 따라 sqrt() / log() / ()^() / 및 그 역수
(3) 변환 후 변수의 정규성 재탐색
(4) 파워변환에 적합한 람다 값 추정2: rcompanion::transformTukey()
023
—————코딩——————————————————————————————————
1. 변수컬럼에 정규성 탐색
(1) 데이터셋 로딩&조회&기술통계: head() / str() / tibble::glimpse / psych::describe() / skimr::skim()
(2) 개별 변수 탐색: plot($) / boxplot($) / summary($) / psych::describe($) / shapiro.test($)
(3) 개별 변수 정규성 탐색: shapiro.test($) / qqnorm($) / qqline($)
(4) 개별 변수 분포 그래프: rcompanion::plotNormalHistogram($) / ggplot()+geom_histogram()/+geom_density()
(5) 두 개 변수간 관계 탐색: plot() / ggplot()
2. 변수컬럼에 정규성 부족할 때 데이터 변환해 정규분포화: Box-cox 변환
(1) 파워변환에 적합한 람다 값 추정1: car::powerTransform()%>%summary()
(2) 파워변환(거듭제곱(Power))변환 방식: λ값에 따라 sqrt() / log() / ()^() / 및 그 역수
(3) 변환 후 변수의 정규성 재탐색
(4) 파워변환에 적합한 람다 값 추정2: rcompanion::transformTukey()
<참고 문헌="">참고>
- 최점기 박사님 강의
자유롭게 공유하세요!