2025.04.24
회사 프로젝트가 공식적으로 accept 되었다. 두번째 논문 짝짝짝!
먼저 이번 논문에서는 현실적인 약물과 약물 사이의 반응성(DDI)을 예측하는 프레임워크를 제시했다.
여기서 "현실적인" 이라함은 약물사이의 골격의 분포가 크게 다름으로 나오는 예측의 불확실성을 정량화 하는것에 있다.
인풋이 두 약물에 대한것이다 보니, 단일 약물이 2000개 안밖이어도 그 조합은 수십만개가 넘어갈 수 있다.
이러한 두 벡터정보를 적절히 합쳐 모델링하였다.
먼저 나는 가볍고 단순한 모델이 좋아 두 벡터의 합이 충분하다 생각했지만, 약물 조합의 수가 많다보니 concatenate하여 입력의 mass를 4배 늘려 학습하였고, 결국 더 나은 성능이 나왔다.
개인적으로는 '샴네트워크를 적용하는건 어땠을까?' 하는 생각이 들었다.
사실 두 벡터를 더하고, 이어붙이고, 아다마르곱 한 자료에 대해 UMAP, PCA를 그려보았지만, 큰 패턴이 보이지는 않았다.
다만 아다마르곱에서 수 많은 정보가 소실되었음을 확인하였고, 성능역시 가장 낮게 나와 기각했다.
인풋에 사용된 벡터의 정보는 약물에 대한 아주 기본정보는 사용하지 않았다.
다만 ADMET에 대한 정보, 두 약물 SMILES 유사도를 일반화시킨 정보, 마지막으로 약물과 프로틴의 상호작용 정보를 담았다.
아주 의미있는 인풋이라 다른 대안이 딱히 떠오르지는 않았다.
모델은 Multi-task MLP를 사용하였으며, 아웃풋 중 하나의 라벨에 큰 불균형이 있었다.
Loss대신 F1-macro를 maximization하는 방향으로 학습시켰으면 어땠을까?
이 역시도 라벨별 weight를 준 F1 macro 함수를 loss 대신 사용하면 되었을텐데... 왜 생각을 못했을까?
추가로 연합학습을 진행하며 그 성능과 불확실성의 추세를 확인 하였지만, 신기하게도 불확실성은 패턴이 보이지 않았다.
Round 수가 진행됨에 따라 converge를 조절하거나 client별 sum-to-one 가중치를 조금 더 조정하여 정리하면 약물의 주요 골격에 대한 지식이 연합학습을 통해 어느정도 전이되지 않을까 싶다.
후기
리비젼도 거의 없이 완성되었으며, 생각보다 재미있던 연구 경험이었다.
개인적으로 꽤나 좋은 저널이라 생각하는 `ACS JCIM`에 실릴 예정이다.
`EU MELLODDY project`가 실린 저널이기도 하다.
먼저 이렇게 될 수 있던 이유는 선임 연구원님과 팀장님께서 해주신 실험과 해석 그리고 탁월한 writing 덕분이라 생각한다.
하지만, 비용 문제로 논문을 오픈하지는 않을듯 하다. (이 경우 비용이 발생하지 않는다.)
전체적인 실험에서의 시나리오 설정 및 불확실성 지표 제안, 연합학습의 수정 및 구현, GitHub 작업 등등을 하여 공동 1저자로 올라가게 되었는데, 더욱 발전하여 온전한 1저자가 되기까지 실력을 쌓고싶다.
마지막으로 이번 volumn/issue에서 cover art로 제출한 부분도 나름 열심히 DALLE3로 생성했는데, 돈 안들게 front cover로 선정되면 좋겠다!
모티브는 영화 메트리스의 빨간약과 파란약이다.
두 약에 대한 이야기가 DDI의 인풋과 비슷하였고, 빨간약이 "진실"을 의미하다보니, 불확실성을 드러내는 부분과 일맥상통한다고 생각하여 이렇게 정하였다.
'일상 > 연구일지' 카테고리의 다른 글
GPT의 피드백 (1) | 2025.04.20 |
---|---|
Neuroinflammation, Vision, Compound (0) | 2025.03.25 |