•
위의 내용 필사하면서 공부함.
1. 알고 있는 Metric에 대해 설명해주세요.
1-1. 분류 작업에 적용될 수 있는 Metric
•
정확도(Accuracy)
◦
모델의 예측이 얼마나 정확한지 의미
◦
(정답 수) / (전체 예측 데이터 수)
◦
데이터 불균형이 있는 데이터에서는 정확도를 사용하면 안된다.
▪
True : False 의 비율이 9 : 1일 때, 모두 True로 예측하면 정확도가 90%가 나오기 때문
▪
따라서 이런 상황에서는 다른 Metric을 사용해야한다.
•
오차 행렬(Confusion Matrix)
◦
오차 행렬을 통헤 모델이 예측을 하면서 얼마나 헷갈리고 있는지를 알 수 있다.
◦
주로 이진 분류에서 많이 사용
◦
용어 설명
▪
True Positive : 긍정으로 예측을 했는데, 실제로 긍정인 경우
▪
False Positive : 긍정으로 예측했는데, 실제로 부정인 경우
▪
False Negative : 부정으로 예측했는데, 실제로 긍정인 경우
▪
True Negative : 부정으로 예측했는데, 실제로 부정인 경우
◦
이 때, 정확도(Accuracy)는 (TN + TP) / (TN + TP + FN + FP)로 계산 가능
•
정밀도(Precision), 재현율(Recall)
◦
정밀도와 재현율은 Positive 데이터 예측 성능에 초점을 맞춘 평가지표이다.
▪
정밀도 : 예측을 Positive으로 한 데이터(TP+FP) 중 실제로 Positive(TP)인 비율
▪
재현율 : 실제로 Positive인 데이터 중 Positive으로 예측한 비율
◦
정밀도와 재현율은 Trade Off 관계를 갖는다.
▪
정밀도는 FP를 낮춤으로서 Positive 예측의 성능을 높인다.
▪
재현율은 FN을 낮춤으로서 Positive 예측의 성능을 높인다.
▪
따라서 정밀도가 높아지면 재현율은 낮아지고, 재현율이 높아지면 정밀도가 낮아진다. → 두 지표가 적절히 높은 경우가 제일 좋다.
•
F1-Score
◦
정밀도와 재현율 한 쪽에 치우치지 않고 둘 다 균형을 이루는 것을 나타낸 것
◦
정밀도와 재현율의 조화평균으로 계산 가능
•
ROC-AUC
◦
ROC는 FPR(False Positive Rate)가 변할 때, TPR(True Positive Rate)가 어떻게 변하는지를 나타내는 곡선
▪
FPR = FP / (FP + TN)
▪
TPR = TP / (FN + TP) = 재현율(Recall)
▪
분류 결정을 내리는 Threshold를 변경함으로서 FPR 수정 가능
•
FPR이 0이 되려면 Threshold를 1로 설정하면 됨 → 모두 Negative로 예측
•
FPR이 1이 되려면 Threshold를 0으로 설정하면 됨 → 모두 Positive로 예측
◦
AUC는 ROC 곡선의 넓이
▪
AUC가 높을수록(AUC가 왼쪽 위로 휘어질수록) 좋은 성능이 나온다고 판단
▪
즉, TPR이 높고, FPR이 낮을수록 예측 오류가 낮아지기때문에 성능이 잘나온다고 판단.
1-2. 회귀 작업에 적용될 수 있는 Metric
•
MAE(Mean Absolute Error)
◦
예측값과 정답 사이 차이의 절댓값 평균
•
MSE(Mean Squared Error)
◦
예측값과 정답 사이 차이의 제곱의 평균
◦
MAE와 달리 제곱을 했기 때문에, 이상치에 민감하다.
•
RMSE(Root Mean Squared Error)
◦
MSE에 루트를 씌운 값
•
RMSLE(Root Mean Squared Logarithmic Error)
◦
RMSE와 비슷하나, 예측값과 정답값에 각각 로그를 씌워 계산
•
R Squared
◦
분산을 기반으로 예측 성능을 평가하는 지표
◦
정답의 분산 대비 예측값의 분산 비율을 지표로 하며, 1에 가까울수록 정확도가 높다.
fin