[논문] On Calibration of Modern Neural Networks: Calibration이란?

2024. 8. 19. 22:14·통계 & 머신러닝/통계적 머신러닝

`On Calibration of Modern Neural Networks`의 첫번째 포스팅 입니다.

일반적으로 이진 분류 모델은 `probability` 구하고, 특정 threshold를 넘으면 1로 예측하는 구조를 보입니다. 최근의 분류 모델은 매우 좋은 성능을 보이고 있습니다만, 모델의 `probability`의 질은 점점 떨어지고 있는 추세라고 합니다. 모델이 깊어지고 capacity가 커짐에 따라 모델읜 자신의 결론을 `과신`하는 경향을 보입니다. 이에 따라 결과로 나온 `probability`는 실제 해당 결론이 1이 될 가능성과는 다소 거리가 있습니다. 이러한 개념은 뒤에 알아볼 `calibration`에 관한 내용입니다.

 

이 논문은 일차적으로 성능이 좋다 좋지 아니하다를 다루는 것이 아니라, 어느정도의 `확신`으로 예측하는지에 대한 `calibration` 관한 논의를 담고있습니다. 이 논문은 크게 4가지 부분으로 이루어져 있습니다. Calibration에 대한 정의와 측정, 그리고 현대 딥러닝에서의 일반화 성능을 높이기 위한 regularization 기법이 miscalibration에 미치는 영향, 그리고 calibration 방법론 제시를 담고있습니다.

 

그럼 초록부터 읽어보겠습니다.


초록

Confidence calibration – 실제 정답 확률을 대표하는 확률 예측을 만드는 문제 – 은 여러 응용 분야에서 분류 모델에 있어 중요한 요소입니다. 우리는 현대의 신경망이, 10년 전의 신경망과 달리, 캘리브레이션이 제대로 이루어지지 않는다는 사실을 발견했습니다. 광범위한 실험을 통해, 깊이(depth), 너비(width), 가중치 감소(weight decay), 배치 정규화(Batch Normalization)가 캘리브레이션에 중요한 영향을 미치는 요인임을 확인했습니다. 우리는 최첨단 아키텍처에서 이미지 및 문서 분류 데이터셋을 사용하여 다양한 사후 처리 캘리브레이션 방법의 성능을 평가했습니다. 우리의 분석과 실험은 신경망 학습에 대한 통찰을 제공할 뿐만 아니라, 실용적인 환경에서 간단하고 명확한 방법을 제시합니다: 대부분의 데이터셋에서 Temperature Scaling – Platt 스케일링의 단일 매개변수 변형 – 이 예측 캘리브레이션에 놀랍도록 효과적입니다.

현대 딥러닝의 Calibration: 정확성을 넘어서

분류를 위한 딥러닝 모델의 성능을 평가할 때, 우리는 주로 정확도에 초점을 맞춥니다. Accuracy, AUCPR, AUCROC, f1-score ... 와 같은 지표들이 주로 사용되고 있죠. 하지만 모델의 calibration 또한 정확도 못지않게 중요한 성능 지표입니다. 최근 연구에 따르면, 현대의 뉴럴 네트워크가 과거 모델들보다 정확도는 향상되었지만, 오히려 calibration 측면에서는 성능이 저하되었다는 문제가 제기되고 있습니다.

Calibration

Calibration은 모델의 출력값이 실제 해당 라벨로 예측 될 가능성 내지 확률을 정확히 반영하도록 (confidence 반영) 만드는 과정을 말합니다. 예를 들어, 모델이 어떤 예측에 대해 90%의 확신을 가진다면, 그 예측의 실제 정확도도 90%여야 합니다. 그러나 현대의 딥러닝 모델들은 종종 overconfident한 경향을 보입니다.

 

1998년에 제안된 LeNet과 비교적 최근 모델인 2016년의 ResNet을 비교해보면 이러한 차이가 명확히 드러납니다. (아래의 사진) LeNet의 출력값은 0에서 1 사이에 고르게 분포되어 있는 반면, ResNet의 출력값은 1에 집중되어 있습니다. 이로 인해 ResNet의 경우, confidence(예측 확률)와 accuracy(실제 정확도) 사이에 큰 괴리가 발생합니다.

실제로 모델의 예측값이 실제 확률을 정확히 반영하는 것은 실제 응용에서 매우 중요합니다. 

Overconfidence는 모델이 자신의 예측에 대해 지나치게 확신하기 때문에, 실제로 불확실한 상황에서도 높은 확률을 부여하는 경향이 있습니다. 이러한 문제는 특히나 False Negative의 경우 심각한 문제를 유발할 수 있습니다.

 

암과 같은 심각한 질병을 예측하는 모델이 있다고 가정해 봅시다. 모델이 실제로는 암이 있는 환자(양성)를 암이 없다고(음성) 잘못 예측(즉, False Negative)하면서, 이 예측에 대해 매우 높은 확률(예: 95%)로 확신하고 있다면, 의사는 이 결과를 신뢰하고 추가 검사를 하지 않을 수 있습니다. 이는 환자에게 치명적일 수 있는 위험을 초래합니다.

'통계 & 머신러닝 > 통계적 머신러닝' 카테고리의 다른 글

[Torch Uncertainty] Installation  (0) 2024.08.22
[논문] On Calibration of Modern Neural Networks: Results  (0) 2024.08.20
[논문] On Calibration of Modern Neural Networks: Calibration  (0) 2024.08.20
[논문] On Calibration of Modern Neural Networks: Miscalibration!  (0) 2024.08.19
[논문] On Calibration of Modern Neural Networks: 측정  (0) 2024.08.19
'통계 & 머신러닝/통계적 머신러닝' 카테고리의 다른 글
  • [논문] On Calibration of Modern Neural Networks: Results
  • [논문] On Calibration of Modern Neural Networks: Calibration
  • [논문] On Calibration of Modern Neural Networks: Miscalibration!
  • [논문] On Calibration of Modern Neural Networks: 측정
CDeo
CDeo
잘 부탁해요 ~.~
  • 링크

    • Inter-link
  • CDeo
    Hello World!
    CDeo
  • 공지사항

    • Inter-link
    • 분류 전체보기 (119) N
      • 월간 (1)
        • 2024 (1)
      • 논문참여 (1)
      • 통계 & 머신러닝 (46)
        • 피처 엔지니어링 (2)
        • 최적화 (2)
        • 군집화 (5)
        • 공변량 보정 (4)
        • 생물정보통계 모델 (3)
        • 연합학습 (12)
        • 통계적 머신러닝 (13)
        • 논의 (0)
        • 구현 (2)
        • 스터디 (3)
      • 데이터 엔지니어링 (1) N
        • 하둡 (1) N
      • 코딩 (26)
        • 웹개발 (1)
        • 시각화 (2)
        • 이슈 (8)
        • 노트 (5)
        • PyTorch Lightning (5)
        • JAX (5)
      • 기본 이론 (0)
        • 집합론 (0)
        • 그래프 이론 (0)
      • 약리학 (28)
        • 강의 (5)
        • ADMET parameter (16)
        • DDI (4)
        • DTI (0)
      • 생명과학 (1)
        • 분석기술 (1)
      • 일상 (15)
        • 연구일지 (3)
        • 생각 (8)
        • 영화 (1)
        • 동화책 만들기 (1)
        • 요리 (0)
        • 다이어트 (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 인기 글

  • 전체
    오늘
    어제
  • hELLO· Designed By정상우.v4.10.1
CDeo
[논문] On Calibration of Modern Neural Networks: Calibration이란?
상단으로

티스토리툴바