`[WGCNA] 유사도 네트워크 계산`에서 이어지는 내용입니다.
I. 유전자 간의 비유사도 계산
가중 네트워크에 대한 일반화된 버전 (Hovath & Zhang, 2005)
Hovath와 Zhang은 가중 그래프의 일반화된 버전을 제안하였으며, 이 그래프의 엣지는 0과 1 사이의 실수 값을 갖습니다. TOM(Topological Overlap Measure)의 주요 아이디어는 "이웃"에 의한 연결성의 "강화"입니다.
$$TOM_{ij}={{\sum_u{a_{iu}a_{uj}+a_{ij}}}\over{min(k_i,k_j)+1-a_{ij}}} = \omega_{ij}$$ $$DistTOM_{ij}=1-TOM_{ij}$$
만약 $TOM_{ij}=1$이라면, $i$와 $j$는 동일한 이웃 집합을 가집니다. 반면에 $TOM_{ij}\neq 1$이라면, $i$와 $j$는 공통된 이웃 집합을 가지지 않습니다.
실제로, 분모에서 최소값을 대체할 수 있는 평균값이 사용될 수 있습니다.
이 방법은 우연에 의한 연결이거나 약한 연결의 영향을 줄이는 필터로 작용할 수 있으며, 더 robust한 네트워크를 구축하는 데 기여할 수 있습니다. (Hovath, 2017)
TOM based connectivity measure
$$\omega_i=\sum_{j=1}^n\omega_{ij}$$
이 식은 연결성 측정을 위한 좋은 대안이 될 수 있습니다.
Topological Overlap Measure (TOM) is a pairwise similarity between genes. (Ravasz, 2002)
TOM의 아이디어는 unweighted 그래프에서 기원했으며, 이때 $a_{ij}$ 값들은 이진 항목입니다.
$$ \omega_{ij}=\left\{\begin{matrix} {{|N_1(i)\cap N_1(j)|+a_{ij}}\over{min{(|N_1(i)|, |N_1(j)|)+1-a_{ij}}}}&& if & i\neq j\\ 1 && if & i=j \end{matrix}\right. $$
여기서 $N_1(i)$는 $i$ 자체를 제외한 $i$의 이웃 집합을 나타내며, $|\cdot|$는 그 집합 내의 요소 수(cardinality)를 의미합니다. $|N_1(i)\cap N_1(j)|$는 노드 $i$와 $j$가 공유하는 공통 이웃의 수를 측정하고, $|N_1(i)|$는 $i$의 이웃 수를 나타냅니다.
Generalized (path length) version (Hovarth & Yip, 2007)
일반화된 TOM 버전은 원래 TOM 공식을 표현할 수 있다는 관찰에서 동기 부여되었습니다. 이 버전은 이웃의 범위를 고려할 수 있습니다. $N_m(i)$를 $i$ 자신을 제외하고 $i$에서 경로 길이 $m$ 내에서 도달 가능한 노드들의 집합으로 나타내며, 이는 다음과 같습니다.
$$ N_m(i)=\{j\neq i | dist(i,j)\leq m\} $$
여기서 $dist(i,j)$는 $i$와 $j$ 사이의 지오데식 거리(최단 경로)를 나타냅니다. 이를 통해 TOM의 매우 자연스러운 일반화를 얻을 수 있으며, 이는 다음과 같습니다.
$$ \omega_{ij}^{[m]}=\left\{\begin{matrix} {{|N_m(i)\cap N_m(j)|+a_{ij}}\over{min{(|N_m(i)|, |N_m(j)|)+1-a_{ij}}}}&& if & i\neq j\\ 1 && if & i=j \end{matrix}\right. $$
우리는 이 행렬 $\Omega^{[m]}=[\omega_{ij}^{[m]}]$를 $m$차 일반화된 토폴로지 중첩 행렬이라고 부릅니다.
$$ \omega_{ij}^{[m]}={{|N_m(i)\cap N_m(j)|+a_{ij}+I_{i=j}}\over{min{(|N_m(i)|, |N_m(j)|)+1-a_{ij}}}} $$
Signed version (Langfelder, 2013)
세 개의 노드로 이루어진 삼중항(triplet)의 경우, 서명되지 않은 네트워크의 이웃 가중치는 연결성을 강화하지 않을 수 있습니다. 예를 들어 (+, +, −) 또는 (−, −, −)와 같은 문제적인 경우는 노이즈로 인해 발생할 수 있습니다. 이러한 이웃의 연결성은 "반(反)강화된" 연결성으로 불리며, TOM은 이러한 반강화 연결을 강화 연결과 구별해야 합니다. 이를 위해, 연결의 부호를 복원해야 하며, 이는 아래의 수정된 식을 정의함으로써 달성할 수 있습니다.
$$ TOM_{ij}^{signed}={{|\sum_u{\tilde a_{iu}\tilde a_{uj}+a_{ij}|}}\over{min(k_i,k_j)+1-|a_{ij}|}} $$
where $\tilde a$ is signed value of $a$.
이러한 맥락에서, 저자는 서명된 네트워크를 권장하였는데, 이는 signed 네트워크에서 이러한 문제 상황이 발생하지 않기 때문입니다.
참고 문헌
A General Framework for Weighted Gene Co-Expression Network Analysis (Zhang & Horvath, 2005)
이 예시에서, 논문은 GTOM2가 GTOM1보다 더 생물학적으로 의미 있는 결과를 나타낸다고 설명합니다. GTOM2는 뚜렷한 모듈과 더 큰 모듈 크기를 생성하며, GTOM1은 더 작은 모듈을 생성합니다.
⚠️ 아직 가중치 + 일반화된 + (서명/미서명) TOM을 찾지 못했습니다…
II. 유전자 계층적 클러스터링 수행
TOM 행렬을 사용한 평균 연결법(Average Linkage)에 의한 계층적 클러스터링
우리는 탐색적 데이터 분석(EDA)의 일환으로 TOM 또는 상관행렬을 사용하여 MDS(다차원 척도법) 플롯을 확인할 수 있습니다. 행렬에 대해 스펙트럴 분해를 수행하면 고유 벡터와 값을 생성하여 차원 축소를 통해 2D 또는 3D로 시각화할 수 있습니다.
III. 클러스터된 유전자를 모듈로 분할
트리 가지를 자르면 클러스터(모듈)가 생성됩니다.
모듈 크기에 대해…
각 모듈의 수를 지정할 방법은 없습니다. 그러나 `blockwiseModules` 함수에서 매개변수 `minModuleSize`를 설정하여 모듈 크기의 하한을 설정할 수 있습니다.
반면에, 덴드로그램(dendrogram)에서 컷오프 레벨(매개변수 `mergeCutHeight`)을 조정하여 모듈의 크기를 조절할 수 있습니다. 예를 들어, 컷오프 레벨이 높으면 클러스터가 더 커집니다. 저자가 언급했듯이, 샘플 크기에 따라 `mergeCutHeight`의 값을 설정할 수 있으며, 샘플 크기가 50-100일 경우 0.25-0.3의 값을 설정할 수 있습니다.
References
How to select mergeCutHeight in WGCNA?
Insights from a billion correlations
IV. 유사한 모듈 병합
모듈 `eigengenes`를 사용합니다. `Eigengene`은 모듈 내의 발현 데이터에서 가장 큰 분산을 설명할 수 있는 PCA의 첫 번째 주성분입니다. 각 유전자의 차원과 동일한 차원을 가진 이 벡터가 `eigengene`이 됩니다. 이 `eigengene`이 모듈을 대표합니다.
각 `eigengene`이 각 모듈을 대표하므로, `eigengene`에 대해 계층적 클러스터링을 수행하면 모듈 간의 관계를 파악할 수 있습니다.
한가지 궁금점
왜 연구진은 TOM과 같은 다른 거리 행렬을 사용하지 않았을까요? 고전적인 MDS 플로팅처럼, 거리 행렬에 대해 스펙트럴 분해를 수행하면 고유 값과 벡터를 얻을 수 있으며 이를 통해 다른 결과를 유도할 수 있을텐데 말입니다. 뭔가 기존의 방법이 가장 false discovery rate이 적을것 같긴 합니다...
'통계 & 머신러닝 > 군집화' 카테고리의 다른 글
Linear Discriminant Analysis (2) | 2024.11.27 |
---|---|
[WGCNA] 주요 유전자 파악 및 모듈 평가 (2) | 2024.08.19 |
[WGCNA] 유사도 네트워크 계산 (0) | 2024.08.14 |
[WGCNA] 기본 개념 (0) | 2024.08.14 |