🤖

[ML] 기본적인 Metric 정리

•

위의 내용 필사하면서 공부함.

1. 알고 있는 Metric에 대해 설명해주세요.

1-1. 분류 작업에 적용될 수 있는 Metric

•

정확도(Accuracy)

◦

모델의 예측이 얼마나 정확한지 의미

◦

(정답 수) / (전체 예측 데이터 수)

◦

데이터 불균형이 있는 데이터에서는 정확도를 사용하면 안된다.

▪

True : False 의 비율이 9 : 1일 때, 모두 True로 예측하면 정확도가 90%가 나오기 때문

▪

따라서 이런 상황에서는 다른 Metric을 사용해야한다.

•

오차 행렬(Confusion Matrix)

◦

오차 행렬을 통헤 모델이 예측을 하면서 얼마나 헷갈리고 있는지를 알 수 있다.

◦

주로 이진 분류에서 많이 사용

◦

용어 설명

▪

True Positive : 긍정으로 예측을 했는데, 실제로 긍정인 경우

▪

False Positive : 긍정으로 예측했는데, 실제로 부정인 경우

▪

False Negative : 부정으로 예측했는데, 실제로 긍정인 경우

▪

True Negative : 부정으로 예측했는데, 실제로 부정인 경우

◦

이 때, 정확도(Accuracy)는 (TN + TP) / (TN + TP + FN + FP)로 계산 가능

•

정밀도(Precision), 재현율(Recall)

◦

정밀도와 재현율은 Positive 데이터 예측 성능에 초점을 맞춘 평가지표이다.

▪

정밀도 : 예측을 Positive으로 한 데이터(TP+FP) 중 실제로 Positive(TP)인 비율

▪

재현율 : 실제로 Positive인 데이터 중 Positive으로 예측한 비율

◦

정밀도와 재현율은 Trade Off 관계를 갖는다.

▪

정밀도는 FP를 낮춤으로서 Positive 예측의 성능을 높인다.

▪

재현율은 FN을 낮춤으로서 Positive 예측의 성능을 높인다.

▪

따라서 정밀도가 높아지면 재현율은 낮아지고, 재현율이 높아지면 정밀도가 낮아진다. → 두 지표가 적절히 높은 경우가 제일 좋다.

•

F1-Score

◦

정밀도와 재현율 한 쪽에 치우치지 않고 둘 다 균형을 이루는 것을 나타낸 것

◦

정밀도와 재현율의 조화평균으로 계산 가능

•

ROC-AUC

◦

ROC는 FPR(False Positive Rate)가 변할 때, TPR(True Positive Rate)가 어떻게 변하는지를 나타내는 곡선

▪

FPR = FP / (FP + TN)

▪

TPR = TP / (FN + TP) = 재현율(Recall)

▪

분류 결정을 내리는 Threshold를 변경함으로서 FPR 수정 가능

•

FPR이 0이 되려면 Threshold를 1로 설정하면 됨 → 모두 Negative로 예측

•

FPR이 1이 되려면 Threshold를 0으로 설정하면 됨 → 모두 Positive로 예측

◦

AUC는 ROC 곡선의 넓이

▪

AUC가 높을수록(AUC가 왼쪽 위로 휘어질수록) 좋은 성능이 나온다고 판단

▪

즉, TPR이 높고, FPR이 낮을수록 예측 오류가 낮아지기때문에 성능이 잘나온다고 판단.

1-2. 회귀 작업에 적용될 수 있는 Metric

•

MAE(Mean Absolute Error)

◦

예측값과 정답 사이 차이의 절댓값 평균

•

MSE(Mean Squared Error)

◦

예측값과 정답 사이 차이의 제곱의 평균

◦

MAE와 달리 제곱을 했기 때문에, 이상치에 민감하다.

•

RMSE(Root Mean Squared Error)

◦

MSE에 루트를 씌운 값

•

RMSLE(Root Mean Squared Logarithmic Error)

◦

RMSE와 비슷하나, 예측값과 정답값에 각각 로그를 씌워 계산

•

R Squared

◦

분산을 기반으로 예측 성능을 평가하는 지표

◦

정답의 분산 대비 예측값의 분산 비율을 지표로 하며, 1에 가까울수록 정확도가 높다.

fin