[ 빅데이터 처리 기사 필기 ] 혼동 행렬과 ROC 곡선
🎁 자격증/빅데이터처리기사

[ 빅데이터 처리 기사 필기 ] 혼동 행렬과 ROC 곡선

반응형

 

안녕하세요? 수구리입니다.

 

제가 이번에 빅분기 필기시험을 준비중인데요..

 

공부를 하다가 정말 헷갈리기도 하고 한번에 외우고 싶어서 정리를 하게 되었습니다.

 

시험이 얼마 남지 않아서 포스팅에 신경을 못쓰고 있네요 ㅠ


혼동 행렬?

혼동 행렬은 Confusion Matrix 라고 하며 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표 형태로 정리한 행렬입니다.

혼동 행렬 쉽게 이해하기

우선 혼동 행렬이란 아래와 같은 형태입니다.

- 예측 범주 값(Predicted Condition)
Predicted Positive Predicted Negative
실제 범주 값
(Actual Condition)
Actual Positive True Positive (TP) False Negative (FN)
Actual Negative False Positive (FP) True Negative (TN)

 

우선 위의 형태를 한번에 외우면 정말 좋겠지만..

시간을 절약해보자!

 

1단계. 실제값과 예측값이 동일하면 T, 아니면 F 로 표시

- 예측값
Positive Negative
실제값 Positive T F
Negative F T

 

2단계. Positive면 P를 붙이고 Negative면 N을 붙이자

- 예측값
Positive Negative
실제값 Positive TP FN
Negative FP TN

 

이렇게하면 굳이 외우지 않아도 금방 혼동 행렬을 떠올릴 수 있다!

 

※ 실제 범주값과 예측 범주값의 위치가 바뀔 수 있음! 문제를 자세히 보자.

 


혼동 행렬을 이용한 분류 모형의 평가지표

정확도

  • 실제 분류 범주를 정확하게 예측한 비율
  • 전체 예측에서 참 긍정(TP)와 참 부정(TN)이 차지하는 비율

 

참 긍정률 (=재현율, 민감도)

  • 실제값이 '긍정'인 범주 중에서 '긍정'으로 올바르게 예측(TP)한 비율
  • Hit Rate라고도 부름

 

정밀도

  • '긍정'으로 예측한 비율 중에서 실제로 '긍정'(TP) 인 비율

 

F1 - Measure (F1 - Score)

  • 정밀도(Precision)민감도(Recall)을 하나로 합한 성능평가 지표
  • 0 ~ 1 사이의 값을 가진다.
  • 정밀도와 민감도 모두 크면 F1 점수가 크다.

 

[ 평가지표 공식 암기 Tip ]

위의 혼동 행렬 표에서 정확도 같은 경우는 모든 값을 더해주고 대각선에 있는 값 (TP, TN)이라고 유추를 할 수 있지만

 

나머지 공식 같은 경우는 아래의 그림과 같이 외웠습니다!

 

 

빨간색 : 정밀도를 계산하기 위해

 

파란색 : 참 긍정도(재현율, 민감도)를 계산하기 위해

 

초록색 : 특이도를 계산하기 위해

 

이런식으로 색깔별로 영역을 나눈 친구들의 합이 분모로 가게되고,

정밀도참 긍정도의 분자는 TP값, 

특이도의 분자는 TN값 즉, 분자는 T가 들어간 값으로 암기했습니다.

 

더 어려워보이나요..?

 

하지만 위에서 설명했다시피 문제에서는 실제값과 예측값의 위치가 바뀌어서 나올 수 있으므로 주의!!

 

※  참고 ※ 
만약, F1- score를 구하기 전에, 정밀도와 재현율이 같다면
F1 - score의 결과도 결국에 같아진다!

 


ROC 곡선

  • ROC 곡선의 x축 : 거짓 긍정률 (FP Rate)
  • ROC 곡선의 y축 : 참 긍정률 (TP Rate)
  • 이를 시각화 한 그래프이다.

 

ROC 곡선의 특징

  • 그래프가 좌측 상단으로 가까이 갈수록 분류 성능이 우수
  • 거짓 긍정률과 참 긍정률은 대체로 비례한다는 것을 알 수 있다.
  • ROC 곡선 아래의 면적을 모형의 평가지표로 삼는 AUC를 사용하여 진단의 정확도를 측정한다.
  • AUC의 값은 항상 0.5 ~ 1 사이의 값을 가지며 1에 가까울 수록 좋은 모형임
반응형

'🎁 자격증 > 빅데이터처리기사' 카테고리의 다른 글

[ 빅분기 Daily 문제 정리 ]  (2) 2021.10.01