Linear Discriminant Analysis
·
통계 & 머신러닝/군집화
Linear Discriminant Analysis`Linear Discriminant Analysis (LDA)`는 분류와 차원축소에 사용되는 기법 중 하나입니다. 차원축소에 있어 LDA는 정사영(행렬 분해)을 통해 차원을 축소한다는 점에서 Principal Component Analysis (PCA)와 비슷하지만, 그 방향은 다소 다릅니다. PCA는 원본 데이터의 분산을 최대화하는 벡터를 찾고, LDA는 클래스 정보를 분할하기에 적합한 벡터를 찾아냅니다. 또한 분류 문제에서의 LDA는 지도학습의 일종으로, 두가지 클래스를 가장 잘 나누는 초평면을 구하는 방법으로 사용됩니다. 이 처럼 `LDA`는 결정경계의 추정, 분류 문제, 단순 차원축소등 활용가능한 범위가 넓습니다.ObjectivesClassif..
[FedProx] 등장 배경
·
통계 & 머신러닝/연합학습
`FedProx`의 첫번째 포스팅입니다.등장 배경이 논문은 기존의 연합학습에서의 이질성(Heterogeneity)을 해결하기 위해 등장한 방법론입니다. 여기서의 이질성은 크게 두가지로, client의 device와 같은 환경이 다름을 나타내는 `system heterogeneity` 와 client의 데이터의 분포가 다름을 나타내는 `statistical heterogeneity` (NON-IID와 거의 같은 개념) 로 나뉩니다. `FedProx`는 `FedAVG` 다음 시점에 등장한 방법론으로 보다 일반화된 방법을 제시합니다. FedAVG에서의 문제점그렇다면 기존의 방법론에서 구체적으로 어떤 문제점이 있을까요? 우선 기존의 방법에서 `local epoch`는 전반적인 수렴에 영향을 끼칩니다. 예를들어,..
ZIBseq
·
통계 & 머신러닝/생물정보통계 모델
Intro  `Microbiome data` 분석 역시 그룹간 유의미하게 다른 microbiome을 찾는것이 정말 중요합니다. 참고로 Differentially Expressed Genes (DEG) 를 찾는 과정과 매우 유사하며, microbiome자료 에서는 유의미하게 다른 microbiome을 주로 Differential Abundance Features (DAFs) 라고 부른다. Microbiome data는 `ASV`나 `OTU`를 사용하는데, 결국 tabluar count data이기 때문에 기존의 RNAseq 분석 방법과 크게 다르지 않다 생각할 수 있습니다. 때문에 이전 포스터에서 소개한 `edgeR`과 `DESeq2`도 `DAFs`를 찾는데 사용이 가능하지만, `microbiome`의 생..
edgeR & DESeq2
·
통계 & 머신러닝/생물정보통계 모델
Intro  `edgeR`과 `DESeq2`는 RNAseq downstream analysis를 하다 보면 한번쯤은 보게되는 논문입니다. 두 가지 모두 `biomarker selection`에 대한 방법론과 해석을 제시합니다. 먼저 `edgeR`(2010)이 나오고 `DESeq2`(2014)가 나왔으며 두 논문 citation수가 (2022/10/12기준) 각각 27575회, 42124회 입니다. 엄청난 파워가 있는 논문들로 아직까지 커뮤니티에 질문과 답변이 활발하게 올라오고 있습니다.   이 논문들은 `biomarker selection`을 위한 `Differentially Expressed Gene(DEG)` 분석 논문입니다. DEG: control(normal healthy group)과 case(..
[논문] Simple and Scalable Predictive Uncertainty Estimation Using Deep Ensembles: Idea
·
통계 & 머신러닝/통계적 머신러닝
`Simple and Scalable Predictive Uncertainty Estimation Using Deep Ensembles`의 첫번째 포스팅 입니다.저자들은 불확실성 정량화를 실용적로 가능하게 하는 방법을 설명합니다. 여기서 이야기하는 실용점은 BNN과는 다르게 간단한 구현과, 병렬화, 그리고 하이퍼파라미터 튜닝이 적다는 것으로 역시 구글 딥마인드 출신 답게 정말 사용할만한 기법을 제시하는것 같습니다. 간단하다고 알려진 `MCDropout`도 `Inference`시 시간을 엄청 잡아먹기 때문에 실제 사용이 꺼려지는데, 이 방법은 그것보다 빠르다고 알려져 있습니다. 복잡한 수식은 최대한 제외하고, 사용점만 짚어보겠습니다. 그리고 이 논문은 Calibration과 같은 빈도주의 개념을 주로 사용..
범주형 피쳐
·
통계 & 머신러닝/피처 엔지니어링
범주형 피쳐범주형 피쳐는 성별, 혈액형, 중증도 등등으로 나뉠 수 있습니다. 먼저 일반적인 범주형 자료로는 성별같이 남/녀로 나뉘는 이진형 자료, 혈액형같이 A/B/O/AB로 나뉘는 다중 클래스형이 있으며, 중증도 정보인 미미함/중간/심함과 같이 순서 정보를 담고 있으면 순서형 자료로 볼 수 있습니다. 이러한 자료들은 일반적으로 문자열 형으로 입력이 되어 트리기반 알고리즘에서는 큰 문제없이 작동합니다. 하지만, 그 외의 많이 사용하는 모델들은 모두 수치적인 자료만 인식 가능하다보니, 적절한 수치로의 변환이 필요합니다. 단순한 이진형 자료의 경우 0/1로 코딩하면 되니 문제가 되지는 않지만, 그 외의 다중 클래스형과 순서형 자료에 대하여 어찌 변환해야하는지 기본적인 방법을 통해 확인해보겠습니다.다중 클래스..