Search
🤖

[ML] 기본적인 Metric 정리

ai-tech-interview
boost-devs
위의 내용 필사하면서 공부함.

1. 알고 있는 Metric에 대해 설명해주세요.

1-1. 분류 작업에 적용될 수 있는 Metric

정확도(Accuracy)
모델의 예측이 얼마나 정확한지 의미
(정답 수) / (전체 예측 데이터 수)
데이터 불균형이 있는 데이터에서는 정확도를 사용하면 안된다.
True : False 의 비율이 9 : 1일 때, 모두 True로 예측하면 정확도가 90%가 나오기 때문
따라서 이런 상황에서는 다른 Metric을 사용해야한다.
오차 행렬(Confusion Matrix)
오차 행렬을 통헤 모델이 예측을 하면서 얼마나 헷갈리고 있는지를 알 수 있다.
주로 이진 분류에서 많이 사용
용어 설명
True Positive : 긍정으로 예측을 했는데, 실제로 긍정인 경우
False Positive : 긍정으로 예측했는데, 실제로 부정인 경우
False Negative : 부정으로 예측했는데, 실제로 긍정인 경우
True Negative : 부정으로 예측했는데, 실제로 부정인 경우
이 때, 정확도(Accuracy)는 (TN + TP) / (TN + TP + FN + FP)로 계산 가능
정밀도(Precision), 재현율(Recall)
정밀도와 재현율은 Positive 데이터 예측 성능에 초점을 맞춘 평가지표이다.
정밀도 : 예측을 Positive으로 한 데이터(TP+FP) 중 실제로 Positive(TP)인 비율
재현율 : 실제로 Positive인 데이터 중 Positive으로 예측한 비율
정밀도와 재현율은 Trade Off 관계를 갖는다.
정밀도는 FP를 낮춤으로서 Positive 예측의 성능을 높인다.
재현율은 FN을 낮춤으로서 Positive 예측의 성능을 높인다.
따라서 정밀도가 높아지면 재현율은 낮아지고, 재현율이 높아지면 정밀도가 낮아진다. → 두 지표가 적절히 높은 경우가 제일 좋다.
F1-Score
정밀도와 재현율 한 쪽에 치우치지 않고 둘 다 균형을 이루는 것을 나타낸 것
정밀도와 재현율의 조화평균으로 계산 가능
ROC-AUC
ROC는 FPR(False Positive Rate)가 변할 때, TPR(True Positive Rate)가 어떻게 변하는지를 나타내는 곡선
FPR = FP / (FP + TN)
TPR = TP / (FN + TP) = 재현율(Recall)
분류 결정을 내리는 Threshold를 변경함으로서 FPR 수정 가능
FPR이 0이 되려면 Threshold를 1로 설정하면 됨 → 모두 Negative로 예측
FPR이 1이 되려면 Threshold를 0으로 설정하면 됨 → 모두 Positive로 예측
AUC는 ROC 곡선의 넓이
AUC가 높을수록(AUC가 왼쪽 위로 휘어질수록) 좋은 성능이 나온다고 판단
즉, TPR이 높고, FPR이 낮을수록 예측 오류가 낮아지기때문에 성능이 잘나온다고 판단.

1-2. 회귀 작업에 적용될 수 있는 Metric

MAE(Mean Absolute Error)
예측값과 정답 사이 차이의 절댓값 평균
MSE(Mean Squared Error)
예측값과 정답 사이 차이의 제곱의 평균
MAE와 달리 제곱을 했기 때문에, 이상치에 민감하다.
RMSE(Root Mean Squared Error)
MSE에 루트를 씌운 값
RMSLE(Root Mean Squared Logarithmic Error)
RMSE와 비슷하나, 예측값과 정답값에 각각 로그를 씌워 계산
R Squared
분산을 기반으로 예측 성능을 평가하는 지표
정답의 분산 대비 예측값의 분산 비율을 지표로 하며, 1에 가까울수록 정확도가 높다.
fin