분류
2021년 8월
작성일
2021.04.08
수정일
2021.07.01
작성자
마루프 피르다 아미니
조회수
0

Somatic Mutation Identification of Tumor-Only Exome-Seq with Deep Learning

 

Somatic mutations have a critical role in carcinogenesis in humans. It serves as the signature of cancer genesis and progression. A somatic cell is a non-germline cell that constructs the internal organs, skin, bones, blood, and connective tissues in mammals. Any replication error or substitutions or deletions in the DNA sequence of a somatic cell is defined as somatic mutation. Most of the time, the accumulation of somatic mutation can advance the process of malignant transformation, from a normal cell to a cancerous cell. The advances of next-generation sequencing (NGS) computational tools and technologies allow for parallel sequencing of cancer genomic data which provides substantial input for analyzing the mutations in DNA that cause cancer. Several computational tools have been developed to address the somatic mutation challenge, such as VarScan2, VarDict, ISOWN, GATKcan, Strelka2, Cerebro, Mutect2, and NeuSomatic. Typically, these tools construct multiple alignments with both the tumor and normal reads, and then identify the tumor-specific mutations, using statistical algorithms to reduce the false positives. However, it is a common scenario where the only available data is a tumor-only sample, with no paired normal sample. Consequently, there is a need to develop a method that can also precisely identify somatic mutation from tumor-only WES data. DNN has great potential for developing a somatic mutation identification model because it accommodates the need for large-scale data processing and complex feature extraction. Therefore, we proposed to construct a DNN model for somatic mutation identification of WES data.

Furthermore, we also integrated the statistical variant features with the functional prediction scores to acquire more information about the potential variants and to improve the discriminative property of our model. However, some of the variants had empty values in multiple features because these variants were not computed by the variant callers or unknown by the variant annotations database. Therefore, we proposed the implementation of the feature selection method in this research. Feature selection will benefit the classification model by removing the redundant information, eliminate the noise, and better generalizing and comprehension the data. Extreme Gradient Boosting (XGBoost) is an upgrade to previous tree boosting algorithms. The high performance of XGBoost in data mining and classification task, establish it as one of the well-known state-of-the-art gradients boosting tree algorithms. Therefore, we implemented XGBoost as the feature selection method for our variants dataset. To the best of our knowledge, we have not seen the implementation of the DNN classifier model and XGBoost as feature selection for somatic mutation identification.

학위연월
2021년 8월
지도교수
송길태
키워드
somatic mutation, whole-exome, tumor-only, deep learning
소개 웹페이지
https://sites.google.com/view/somaticdnn2021
첨부파일
첨부파일이(가) 없습니다.
다음글
표 기계독해 언어 모형의 의미 검증
유재민 2021-04-12 17:01:47.703
이전글
블록체인기반 전력거래 중개 아키텍처 설계 및 구현
강원태 2021-04-08 12:21:47.64
RSS 2.0 788
게시물 검색
석사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
788 RAG-sLLM 기반 계약 리스크 자동 분석 프레임워크 제안 : 조선업을 중심으로 윤시록 2025.04.07 0 184
787 가상 에이전트의 지배적 행동이 사용자의 의사 결정 및 지각에 미치는 영향 연구 김태연 2025.04.07 0 116
786 스마트폰 이미지 기반 Visual Localization과 3D 모델을 사용한 수위 추정 노태윤 2025.04.07 0 121
785 Lightweight Time Series Forecasting with LLMs: Le 코난 루스 엠마누엘레 비투아 2025.04.04 0 139
784 블록체인과 CMAC 검증을 통한 전기차 배터리 관리 시스템의 데이터 신뢰성 확보 방안 설계 김재현 2025.04.04 0 91
783 Optimizing User Pairing and Power Allocation for O 아라빈 바라라만 2025.04.04 0 86
782 Deep Learning-Assisted Microservice Deployment Str 뉴그로호 아빌리아 쿠수마푸테리 2025.04.03 0 126
781 GVMambaIR: Graph Vision Mamba for Image Restoratio 리엔 홍키 2025.04.03 0 82
780 드론을 활용한 실시간 원격 흘수 정밀 계측 프레임워크 박찬일 2025.04.02 0 88
779 Mamba-Attention Surface Analysis for Brain Develop 짠시닷 2025.04.02 0 103
778 Multi-Query Retrieval Augmented Generation (RAG) f 리잘디 파흐미 2025.04.02 0 104
777 BLSM-Tree: 블록체인 데이터의 효율적인 범위 탐색을 위한 인덱스 구조 이병영 2025.04.02 0 88
776 전이학습을 통한 사전 학습된 오디오 뉴럴 넷 기반 효과음 분류 및 자동 자막 생성 시스템 정혜윤 2025.04.01 0 105
775 Federated Domain Generalization with On-Server Gra 응우옌쫑빈 2025.04.01 0 124
774 Virtual Screening in a Large Compound Library with 배종현 2025.04.01 0 99
773 텍스트 종속 화자 검증을 위한 경량 딥러닝 모델의 설계 및 구현 신채림 2025.03.31 0 145
772 실내 NLOS 환경에서 RTLS 정확도 향상을 위한 편향 및 편차 맵 기반 가중 그래프 탐 안현기 2024.10.18 0 167
771 비정형 환경 아크 센싱 개선을 위한 중간값 기반 데이터 클러스터링 활용 기법 김희준 2024.10.17 2 154
770 그래프 구조 기반 K-Means를 사용한 간선 방문 지향 MCPP 이해성 2024.10.15 0 189
769 트랜스포머 기반의 폐암 슬라이드 이미지 자동분할에 대한 연구 이리나 2024.10.14 0 138