[논문] On Calibration of Modern Neural Networks: Calibration이란?
·
통계 & 머신러닝/통계적 머신러닝
`On Calibration of Modern Neural Networks`의 첫번째 포스팅 입니다.일반적으로 이진 분류 모델은 `probability` 구하고, 특정 threshold를 넘으면 1로 예측하는 구조를 보입니다. 최근의 분류 모델은 매우 좋은 성능을 보이고 있습니다만, 모델의 `probability`의 질은 점점 떨어지고 있는 추세라고 합니다. 모델이 깊어지고 capacity가 커짐에 따라 모델읜 자신의 결론을 `과신`하는 경향을 보입니다. 이에 따라 결과로 나온 `probability`는 실제 해당 결론이 1이 될 가능성과는 다소 거리가 있습니다. 이러한 개념은 뒤에 알아볼 `calibration`에 관한 내용입니다. 이 논문은 일차적으로 성능이 좋다 좋지 아니하다를 다루는 것이 아니라,..
[WGCNA] 주요 유전자 파악 및 모듈 평가
·
통계 & 머신러닝/군집화
`[WGCNA] 유전자 군집화`에 이어지는 내용입니다.Driver (핵심) 유전자Driver 유전자는 다른 유전자의 발현이나 기능에 영향을 미치며, 특정 형질과 관련된 요인들과 연관되어 있습니다. 우리는 허브 유전자로서 특정 형질과 가장 강하게 상관관계를 보이는 driver 유전자를 식별할 수 있습니다.Hub 유전자가장 높은 모듈 내 연결성을 가진 유전자: 모듈 내 엣지 가중치의 합이 가장 높은 유전자.가장 높은 모듈 멤버십을 가진 유전자: 유전자가 모듈 eigengene과의 상관관계가 가장 높은 유전자.모듈 품질 평가올바른 분석 또는 추가 분석을 위해 모듈의 전반적인 품질을 평가합니다.모듈 크기너무 큰 경우생물학적으로 의미가 있지만 다루기 어려울 수 있습니다.너무 작은 경우병합 수준이 충분하지 않습니다..
[WGCNA] 유전자 군집화
·
통계 & 머신러닝/군집화
`[WGCNA] 유사도 네트워크 계산`에서 이어지는 내용입니다.I. 유전자 간의 비유사도 계산가중 네트워크에 대한 일반화된 버전 (Hovath & Zhang, 2005)Hovath와 Zhang은 가중 그래프의 일반화된 버전을 제안하였으며, 이 그래프의 엣지는 0과 1 사이의 실수 값을 갖습니다. TOM(Topological Overlap Measure)의 주요 아이디어는 "이웃"에 의한 연결성의 "강화"입니다.$$TOM_{ij}={{\sum_u{a_{iu}a_{uj}+a_{ij}}}\over{min(k_i,k_j)+1-a_{ij}}} = \omega_{ij}$$ $$DistTOM_{ij}=1-TOM_{ij}$$만약 $TOM_{ij}=1$이라면, $i$와 $j$는 동일한 이웃 집합을 가집니다. 반면에 $T..
[WGCNA] 유사도 네트워크 계산
·
통계 & 머신러닝/군집화
`[WGCNA] 기본개념`에서 이어지는 내용입니다.WGCNA는 크게 네가지 단계로 나누어집니다. 이번 포스팅에서는 그 첫번째 단계인 유전자의 유사도를 계산하는 단계에 대해 알아보겠습니다. 이번에 들여다볼 내용은 세부적으로 들어가면 계산 식과, 여러 종류의 계수를 선택해야 합니다만, 결국에는 딱 세가지 중요한 질문에 답하실 수 있으시면 됩니다: `1. 어떤 상황에 어떤 상관계수를 사용해야하는가?`, `2. 어떻게 최적의 β 를 잡을까?`, `3. 어떤 목적으로 어떤 네트워크를 사용해야 할까?`  이번의 설명은 널리 사용되는 WGCNA (R 라이브러리)를 기준으로 작성되었습니다.Input data우선, 주어지는 자료는 유전자 발현 행렬($X$)로 아래와 같이 표현 가능합니다. 여기서의 행은 유전자, 열은 샘..
[WGCNA] 기본 개념
·
통계 & 머신러닝/군집화
`WGCNA`의 첫번째 포스팅입니다.WGCNAWGCNA(Weighted Gene Co-expression Network Analysis)는 유전자 간의 상관관계를 기반으로 유전자 군집화를 수행하는 알고리즘입니다. 이 방법은 주로 유전자 발현 데이터에서 중요한 모듈(군집)을 식별하고, 이를 통해 생물학적 기능이나 질병과 연관된 유전자들을 찾아내는 데 사용됩니다. WGCNA의 기본적인 접근 방식은 "guilt by association"이라고 불리는 개념을 따릅니다. 이는 연좌제와 유사한 개념으로, 한 유전자가 다른 유전자와 밀접하게 연결되어 있을 때, 그 유전자도 비슷한 기능을 가질 가능성이 높다고 가정하는 것입니다. 쉽게 말해, 특정 유전자가 중요한 역할을 하는 것으로 알려진 모듈이나 네트워크 내에 있으..
[Regularization] Dropout
·
통계 & 머신러닝/최적화
Dropout드롭아웃(Dropout)은 딥러닝 모델에서 과적합(overfitting)을 방지하고 모델의 일반화 성능을 향상시키기 위해 고안된 정규화 기법입니다. 이 기법은 훈련 과정에서 뉴런(또는 퍼셉트론)을 무작위로 비활성화하여 모델이 특정 뉴런이나 경로에 지나치게 의존하지 않도록 합니다. 이를 통해 모델은 다양한 하위 구조를 학습하게 되며, 결과적으로 더 나은 예측 성능을 보일 수 있습니다.원리드롭아웃은 훈련 단계에서 각 뉴런에 대해 확률적으로 비활성화 여부를 결정하는 마스크(mask)를 생성합니다. 이 마스크는 0과 1로 이루어져 있으며, 각 뉴런이 비활성화될 확률은 미리 정의된 드롭아웃 비율 $p$(Bernoulli)에 따라 결정됩니다. 비활성화된 뉴런은 해당 훈련 단계에서 입력과의 연결이 끊기며..