Search
🤖

[ML] Scaler 정리

ai-tech-interview
boost-devs
위의 내용 필사하면서 공부함.

2. 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요?

정규화란 개별 피처의 크기를 모두 똑같은 단위로 변경하는 것.
피처의 스케일이 심하게 차이가 나는 경우 값이 큰 피처가 더 중요하게 여겨질 수 있기 때문.
따라서 피처 모두 동일한 스케일로 반영되도록 하는 것
정규화 방식은 대표적으로 두가지가 존재한다.
최소-최대 정규화(Min-Max Normalization)
각 피처의 최소값을 0, 최대값을 1로 두고 정규화
Z Score 정규화(Z-score Normalization) = Standard Scaler
각 피처의 표준편차와 평균으로 값을 정규화

Z-score란?

표준편차를 단위로 보았을 때 측정치가 평균에서 얼마만큼 일탈 하였는가를 보는 것
평균과 표준편차를 사용하여 구하며 평균에서 각 측정값이 얼마나 통계적으로 떨어져 있는지 구할 수 있다.
Z-score를 통해서 계산하면 좋은점은 각 데이터의 단위가 다르더라도 동일선상에서 얼만큼 평균에서 떨어져있는지 같은 Z-Score 기준으로 변환해서 볼 수 있습니다.

+ ) Robust Scaler

중앙값(median)과 IQR(Interquartile range)을 사용하는 스케일러, 아웃라이어의 영향을 줄일 수 있다.
위의 그림을 보면 이해가 쉽다.
각 샘플에 평균이 아닌 중앙값을 빼주며, Q3에서 Q1을 뺀 값으로 나눠준다.
따라서 스케일링을 할 때 아웃라이어의 영향을 거의 받지 않는다.
fin