[PRR] Permutation Test & Covariate Adjustment
`PRR`의 첫번째 포스팅 입니다.
Permutation of Regressor Residual
Permutation of Regressor Residual (PRR)은 회귀 분석에서 permutation test와 공변량 보정(covariate adjustment)을 동시에 수행할 수 있는 방법론입니다. 이 접근법은 특히 표본 수가 적거나 모수 기반 통계기법을 적용하기 어려운 상황에서 유용하게 사용됩니다.
Permutation Test
Permutation test는 비모수적 방법 중 하나로, 주어진 데이터의 라벨을 무작위로 섞어 영가설 하에서 가능한 모든 경우의 분포를 생성하는 방식입니다. 이 방법은 표본 수가 적거나 데이터의 분포가 불확실할 때 유용하며, 이러한 영분포에서 검정 통계량이 위치한 부분을 통해 p-value를 구하게 됩니다. 중요한 점은 검정 대상 변수 간의 관계성을 무작위화하여, 원래 데이터의 관계성과 무관한 영분포를 만들어야 한다는 것입니다. 이로 인해, permutation test는 모수적 접근이 불가능한 경우 효과적인 대안이 될 수 있습니다.
그러나 공변량을 보정해야 하는 상황에서는 permutation test를 적용하는 데 구조적인 어려움이 발생할 수 있습니다. 예를 들어, 공변량이 독립 변수와 종속 변수에 모두 영향을 미치는 경우, 이러한 영향을 제거하지 않고 permutation test를 수행하면 왜곡된 결과를 얻을 수 있습니다.
Covariate Adjustment
공변량(covariate)은 종속 변수에 대해 독립 변수들이 공유하는 변동성을 의미합니다. 회귀 분석에서는 공변량을 보정하여 독립 변수의 순수한 효과를 평가하는 것이 중요합니다. 예를 들어, 유전자 A가 당뇨에 미치는 영향을 분석할 때, 나이와 성별이 종속 변수(ex. 당뇨 상태)와 독립 변수(ex. 유전자 A)에 모두 영향을 미친다면, 이 공변량을 보정하지 않으면 유전자 A의 효과를 정확하게 파악하기 어렵습니다.
예를 들어, 이를 위해 `당뇨 상태 ~ 유전자 A + 나이 + 성별`"과 같은 회귀식을 사용하여, 나이와 성별의 영향을 제거한 후 유전자 A의 순수한 효과를 평가할 수 있습니다. 이렇게 공변량을 보정함으로써, 분석의 정확성을 높이고 혼란 변수를 통제할 수 있습니다.
스포일러
공변량 보정법은 여러가지 방식이 있습니다. 여기서는 단순선형회귀 방법을 이용합니다. 주어진 피쳐(A)를 통해 라벨(B)을 맞춘다고 할 때에, 통계에서 회귀기법을 아주 간단히 이야기하자면,
`B ~ A + residual`
B에 대해 A로 설명 가능한 부분과 설명되지 못하는 부분인 residual로 모델링 됩니다. 이러한 성질을 이용하여 공변량을 보정합니다. 구체적인 상황은 아래와 같습니다.
- `Y ~ X + Z` 문제에서, X와 Y 간의 관계를 분석하고자 할 때 Z가 공변량으로 작용하는 상황입니다.
- X에서 Z의 영향을 제거하기 위해 `X ~ Z` 회귀를 수행하여, Z에 의해 설명되지 않는 X의 부분, 즉 잔차 R을 구합니다.
- 이후, 원래 X 대신 잔차 R을 사용하여 `Y ~ R` 회귀를 수행함으로써 Z의 영향을 제거한 후 X와 Y 간의 순수한 관계를 분석할 수 있게 됩니다.
Permutation Test + Covariate Adjustment
공변량을 보정한 회귀식에서는 permutation test를 어떻게 진행해야 할까요? 일반적인 permutation test는 독립 변수의 순수한 효과를 평가하기 어렵게 만듭니다. 특히 공변량의 영향이 큰 경우, 잘못된 결론을 도출할 수 있습니다. PRR 방법론은 이러한 문제를 해결하기 위해 고안된 것입니다.