[WGCNA] 유사도 네트워크 계산
·
통계 & 머신러닝/군집화
`[WGCNA] 기본개념`에서 이어지는 내용입니다.WGCNA는 크게 네가지 단계로 나누어집니다. 이번 포스팅에서는 그 첫번째 단계인 유전자의 유사도를 계산하는 단계에 대해 알아보겠습니다. 이번에 들여다볼 내용은 세부적으로 들어가면 계산 식과, 여러 종류의 계수를 선택해야 합니다만, 결국에는 딱 세가지 중요한 질문에 답하실 수 있으시면 됩니다: `1. 어떤 상황에 어떤 상관계수를 사용해야하는가?`, `2. 어떻게 최적의 β 를 잡을까?`, `3. 어떤 목적으로 어떤 네트워크를 사용해야 할까?`  이번의 설명은 널리 사용되는 WGCNA (R 라이브러리)를 기준으로 작성되었습니다.Input data우선, 주어지는 자료는 유전자 발현 행렬($X$)로 아래와 같이 표현 가능합니다. 여기서의 행은 유전자, 열은 샘..
[WGCNA] 기본 개념
·
통계 & 머신러닝/군집화
`WGCNA`의 첫번째 포스팅입니다.WGCNAWGCNA(Weighted Gene Co-expression Network Analysis)는 유전자 간의 상관관계를 기반으로 유전자 군집화를 수행하는 알고리즘입니다. 이 방법은 주로 유전자 발현 데이터에서 중요한 모듈(군집)을 식별하고, 이를 통해 생물학적 기능이나 질병과 연관된 유전자들을 찾아내는 데 사용됩니다. WGCNA의 기본적인 접근 방식은 "guilt by association"이라고 불리는 개념을 따릅니다. 이는 연좌제와 유사한 개념으로, 한 유전자가 다른 유전자와 밀접하게 연결되어 있을 때, 그 유전자도 비슷한 기능을 가질 가능성이 높다고 가정하는 것입니다. 쉽게 말해, 특정 유전자가 중요한 역할을 하는 것으로 알려진 모듈이나 네트워크 내에 있으..