[논문] On Calibration of Modern Neural Networks: Results

2024. 8. 20. 00:23·통계 & 머신러닝/통계적 머신러닝

`[논문] On Calibration of Modern Neural Networks: Calibration`에 이어지는 내용입니다.


Results

Table 1에서는 다양한 방법을 적용하기 전후의 모델 Calibration 결과를 ECE(15개의 Bin을 사용)로 측정한 결과를 보여줍니다. 주목할 만한 점은 대부분의 데이터셋과 모델이 어느 정도의 miscalibration을 겪고 있다는 것입니다. 일반적으로 ECE는 4%에서 10% 사이이며, 이는 특정 아키텍처에 국한된 문제가 아닙니다. 우리는 Convolutional Networks(스킵 연결 여부와 관계없이), Recurrent Networks, 그리고 Deep Averaging Networks에서 모두 miscalibration을 관찰했습니다. 이 중 두 가지 주목할 만한 예외는 SVHN과 Reuters 데이터셋으로, 이 두 데이터셋에서는 ECE 값이 1% 이하였습니다. 이 두 데이터셋 모두 오류율이 매우 낮습니다(SVHN: 1.98%, Reuters: 2.97%), 따라서 ECE와 오류 간의 비율은 다른 데이터셋과 비교할 만합니다.

 

가장 중요한 발견은 간단한 Temperature Scaling의 효과입니다. Temperature Scaling은 비전 작업에서 다른 모든 방법을 능가하며, NLP 데이터셋에서도 다른 방법들과 유사한 성능을 보였습니다. 더 놀라운 점은 Temperature Scaling이 보다 일반적인 방법인 벡터 및 매트릭스 Platt Scaling 변형보다도 우수한 성능을 보였다는 것입니다. 실제로, 벡터 스케일링은 거의 동일한 솔루션을 도출하는데, 학습된 벡터의 값들이 거의 일정하기 때문에 스칼라 변환과 다를 바가 없습니다. 즉, 네트워크의 miscalibration은 본질적으로 저차원 문제임을 나타냅니다.

 

Temperature Scaling이 유일하게 잘 작동하지 않은 데이터셋은 Reuters 데이터셋입니다. 이 경우 위의 방법들 중 하나만이 Calibration을 개선할 수 있었습니다. 이 데이터셋은 처음부터 잘 Calibration되어 있었기 때문에(ECE ≤ 1%), 어떤 방법을 사용해도 개선의 여지가 크지 않으며, 후처리가 처음부터 필요하지 않을 수 있습니다. 또한, 데이터셋 분할 또는 특정 Binning 방식이 측정에 영향을 미쳤을 가능성도 있습니다.

 

매트릭스 스케일링은 수백 개의 클래스를 가진 데이터셋(예: Birds, Cars, 그리고 CIFAR-100)에서 성능이 저하되며, 1000개의 클래스를 가진 ImageNet 데이터셋에서는 수렴하지 못합니다. 이는 매트릭스 스케일링의 파라미터 수가 클래스 수에 따라 이차적으로 증가하기 때문에 예상된 결과입니다. 수만 개 이상의 파라미터를 가진 Calibration 모델은, 정규화를 적용하더라도 작은 검증 세트에 과적합될 가능성이 큽니다.

 

Binning 방법들은 대부분의 데이터셋에서 Calibration을 개선하지만, Temperature Scaling보다는 성능이 떨어집니다. 또한, Binning 방법들은 클래스 예측을 변경하는 경향이 있어 정확도에 부정적인 영향을 미칠 수 있습니다(본 논문 S3 참조). 가장 간단한 Binning 방법인 히스토그램 Binning은, Isotonic Regression과 BBQ보다도 일반적으로 더 나은 성능을 보입니다. 이는 Calibration이 단순한 모델에 의해 가장 잘 수정될 수 있다는 우리의 발견을 더욱 뒷받침합니다.

Reliability Diagrams

Figure 4에서는 Calibration 전후의 CIFAR-100에서 110-레이어 ResNet에 대한 Reliability Diagram을 보여줍니다. 왼쪽 끝의 다이어그램에서, Calibration되지 않은 ResNet이 예측에서 과도하게 자신감이 있음을 알 수 있습니다. 그 다음, Temperature Scaling(중간 왼쪽), 히스토그램 Binning(중간 오른쪽), 그리고 Isotonic Regression(오른쪽 끝)이 Calibration에 미치는 영향을 확인할 수 있습니다. 세 가지 방법 모두 훨씬 더 나은 신뢰도 추정을 제공합니다. 이들 중 Temperature Scaling은 이상적인 diagonal 함수를 잘 복원합니다. 모든 Bin이 잘 Calibration되어 있으며, 이는 모든 확률이 단일 파라미터에 의해 수정되었다는 점을 고려할 때 주목할 만합니다.

Conclusion

현대 신경망은 분류 오류가 줄어들면서도 확률적 오류와 miscalibration은 악화됩니다. 우리는 최근 신경망 아키텍처와 training 알고리즘의 발전 (Model capacity, normalization, regularization  ... 을 포함하는) 이 네트워크의 Calibration에 강력한 영향을 미친다는 것을 보여주었습니다. 이러한 경향이 왜 정확도를 개선하면서도 Calibration에 영향을 미치는지는 향후 연구 과제로 남아 있습니다. 그럼에도 불구하고, 간단한 기술들로 신경망의 miscalibration 현상을 효과적으로 해결할 수 있습니다.

 

Temperature Scaling은 가장 단순하고 빠르며 직접적인 방법이지만, 놀랍게도 종종 가장 효과적입니다.

'통계 & 머신러닝 > 통계적 머신러닝' 카테고리의 다른 글

[Torch Uncertainty] Quick Start  (0) 2024.08.22
[Torch Uncertainty] Installation  (0) 2024.08.22
[논문] On Calibration of Modern Neural Networks: Calibration  (0) 2024.08.20
[논문] On Calibration of Modern Neural Networks: Miscalibration!  (0) 2024.08.19
[논문] On Calibration of Modern Neural Networks: 측정  (0) 2024.08.19
'통계 & 머신러닝/통계적 머신러닝' 카테고리의 다른 글
  • [Torch Uncertainty] Quick Start
  • [Torch Uncertainty] Installation
  • [논문] On Calibration of Modern Neural Networks: Calibration
  • [논문] On Calibration of Modern Neural Networks: Miscalibration!
CDeo
CDeo
잘 부탁해요 ~.~
  • 링크

    • Inter-link
  • CDeo
    Hello World!
    CDeo
  • 공지사항

    • Inter-link
    • 분류 전체보기 (119) N
      • 월간 (1)
        • 2024 (1)
      • 논문참여 (1)
      • 통계 & 머신러닝 (46)
        • 피처 엔지니어링 (2)
        • 최적화 (2)
        • 군집화 (5)
        • 공변량 보정 (4)
        • 생물정보통계 모델 (3)
        • 연합학습 (12)
        • 통계적 머신러닝 (13)
        • 논의 (0)
        • 구현 (2)
        • 스터디 (3)
      • 데이터 엔지니어링 (1) N
        • 하둡 (1) N
      • 코딩 (26)
        • 웹개발 (1)
        • 시각화 (2)
        • 이슈 (8)
        • 노트 (5)
        • PyTorch Lightning (5)
        • JAX (5)
      • 기본 이론 (0)
        • 집합론 (0)
        • 그래프 이론 (0)
      • 약리학 (28)
        • 강의 (5)
        • ADMET parameter (16)
        • DDI (4)
        • DTI (0)
      • 생명과학 (1)
        • 분석기술 (1)
      • 일상 (15)
        • 연구일지 (3)
        • 생각 (8)
        • 영화 (1)
        • 동화책 만들기 (1)
        • 요리 (0)
        • 다이어트 (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 인기 글

  • 전체
    오늘
    어제
  • hELLO· Designed By정상우.v4.10.1
CDeo
[논문] On Calibration of Modern Neural Networks: Results
상단으로

티스토리툴바