머신러닝 14. 지도학습: 모형 진단과 정규분포화


    목차
    1. 변수컬럼에 정규성 탐색
      (1) 데이터셋 로딩&조회&기술통계: head() / str() / tibble::glimpse / psych::describe() / skimr::skim()
      (2) 개별 변수 탐색: plot($) / boxplot($) / summary($) / psych::describe($) / shapiro.test($)
      (3) 개별 변수 정규성 탐색: shapiro.test($) / qqnorm($) / qqline($)
      (4) 개별 변수 분포 그래프: rcompanion::plotNormalHistogram($) / ggplot()+geom_histogram()/+geom_density()
      (5) 두 개 변수간 관계 탐색: plot() / ggplot()
    2. 변수컬럼에 정규성 부족할 때 데이터 변환해 정규분포화: Box-cox 변환
      (1) 파워변환에 적합한 람다 값 추정1: car::powerTransform()%>%summary()
      (2) 파워변환(거듭제곱(Power))변환 방식: λ값에 따라 sqrt() / log() / ()^() / 및 그 역수
      (3) 변환 후 변수의 정규성 재탐색
      (4) 파워변환에 적합한 람다 값 추정2: rcompanion::transformTukey()



023


—————코딩——————————————————————————————————


1. 변수컬럼에 정규성 탐색


(1) 데이터셋 로딩&조회&기술통계: head() / str() / tibble::glimpse / psych::describe() / skimr::skim()



(2) 개별 변수 탐색: plot($) / boxplot($) / summary($) / psych::describe($) / shapiro.test($)



(3) 개별 변수 정규성 탐색: shapiro.test($) / qqnorm($) / qqline($)



(4) 개별 변수 분포 그래프: rcompanion::plotNormalHistogram($) / ggplot()+geom_histogram()/+geom_density()



(5) 두 개 변수간 관계 탐색: plot() / ggplot()




2. 변수컬럼에 정규성 부족할 때 데이터 변환해 정규분포화: Box-cox 변환


(1) 파워변환에 적합한 람다 값 추정1: car::powerTransform()%>%summary()



(2) 파워변환(거듭제곱(Power))변환 방식: λ값에 따라 sqrt() / log() / ()^() / 및 그 역수



(3) 변환 후 변수의 정규성 재탐색



(4) 파워변환에 적합한 람다 값 추정2: rcompanion::transformTukey()




<참고 문헌="">


  1. 최점기 박사님 강의
comments powered by Disqus