분류
2021년 8월
작성일
2021.04.08
수정일
2021.07.01
작성자
마루프 피르다 아미니
조회수
84

Somatic Mutation Identification of Tumor-Only Exome-Seq with Deep Learning

 

Somatic mutations have a critical role in carcinogenesis in humans. It serves as the signature of cancer genesis and progression. A somatic cell is a non-germline cell that constructs the internal organs, skin, bones, blood, and connective tissues in mammals. Any replication error or substitutions or deletions in the DNA sequence of a somatic cell is defined as somatic mutation. Most of the time, the accumulation of somatic mutation can advance the process of malignant transformation, from a normal cell to a cancerous cell. The advances of next-generation sequencing (NGS) computational tools and technologies allow for parallel sequencing of cancer genomic data which provides substantial input for analyzing the mutations in DNA that cause cancer. Several computational tools have been developed to address the somatic mutation challenge, such as VarScan2, VarDict, ISOWN, GATKcan, Strelka2, Cerebro, Mutect2, and NeuSomatic. Typically, these tools construct multiple alignments with both the tumor and normal reads, and then identify the tumor-specific mutations, using statistical algorithms to reduce the false positives. However, it is a common scenario where the only available data is a tumor-only sample, with no paired normal sample. Consequently, there is a need to develop a method that can also precisely identify somatic mutation from tumor-only WES data. DNN has great potential for developing a somatic mutation identification model because it accommodates the need for large-scale data processing and complex feature extraction. Therefore, we proposed to construct a DNN model for somatic mutation identification of WES data.

Furthermore, we also integrated the statistical variant features with the functional prediction scores to acquire more information about the potential variants and to improve the discriminative property of our model. However, some of the variants had empty values in multiple features because these variants were not computed by the variant callers or unknown by the variant annotations database. Therefore, we proposed the implementation of the feature selection method in this research. Feature selection will benefit the classification model by removing the redundant information, eliminate the noise, and better generalizing and comprehension the data. Extreme Gradient Boosting (XGBoost) is an upgrade to previous tree boosting algorithms. The high performance of XGBoost in data mining and classification task, establish it as one of the well-known state-of-the-art gradients boosting tree algorithms. Therefore, we implemented XGBoost as the feature selection method for our variants dataset. To the best of our knowledge, we have not seen the implementation of the DNN classifier model and XGBoost as feature selection for somatic mutation identification.

학위연월
2021년 8월
지도교수
송길태
키워드
somatic mutation, whole-exome, tumor-only, deep learning
소개 웹페이지
https://sites.google.com/view/somaticdnn2021
첨부파일
첨부파일이(가) 없습니다.
다음글
표 기계독해 언어 모형의 의미 검증
유재민 2021-04-12 17:01:47.703
이전글
블록체인기반 전력거래 중개 아키텍처 설계 및 구현
강원태 2021-04-08 12:21:47.64
RSS 2.0 822
게시물 검색
석사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
822 스토리지 분리화 환경에서 데이터 이동 최적화를 위한 Near-Data processing 새글 도건우 2025.10.23 0 17
821 Learning a Differentiable Multi-Branch Decision Tr 새글 박한얼 2025.10.21 0 33
820 분산 사이드카 아키텍처 기반 클라우드-네이티브 시스템 콜 모니터링 윤건우 2025.10.19 0 36
819 RAG를 적용한 컨테이너 기반 마이크로서비스의 오류 식별 방법 조대영 2025.10.17 0 42
818 전시 환경에서의 관람객 행동 분석을 위한 Depth-Aware Zero-Shot HOI 조수현 2025.10.17 0 39
817 멀티모델 통합 선검출 기법의 환경 변화 강건성을 위한 베이지안 최적화 기반 파라미터 김정호 2025.10.17 0 44
816 레이더 기반 사람 행동 인식을 위한 경량 딥러닝 모델 설계 및 구현 곽도균 2025.10.17 0 39
815 메쉬 리깅 기반 안면 3D Gaussian Splatting의 부분 편집 기법 박현수 2025.10.17 0 37
814 가상현실에서 변형형 프록시가 감각 통합 및 일치감에 미치는 영향 연구 김민성 2025.10.17 0 37
813 이상 음향 탐지를 위한 경량 Diffusion Transformer 모델의 설계 및 구현 구동한 2025.10.17 0 59
812 VR에서 제자리걸음 동안 주변 시야의 위치와 속도가 비의도적 위치 이동에 미치는 영향 연구 은승우 2025.10.17 0 44
811 실시간 공유화면 AI 분석을 통한 온라인 코딩 시험 부정행위 탐지 시스템 정해원 2025.10.17 0 44
810 지식 그래프 기반의 LLM 수학 추론 성능 향상 기법 박재현 2025.10.17 0 39
809 Autonomous Driving Agent Identification Under Host 도현철 2025.10.17 0 41
808 드론 기반 광역 모니터링 지연 시간 최소화를 위한 효율적 데이터 전송 프로토콜 및 선택적 박동진 2025.10.17 0 37
807 시공간 정보 토큰을 활용한 3D Human Pose Estimation 전민수 2025.10.16 0 42
806 격자기반 양자내성암호 ML-KEM 하드웨어 설계 및 검증 강은세 2025.10.15 0 65
805 배리어프리 전시 서비스를 위한 대화형 수어 질의응답 거대언어모델 연구 허석용 2025.10.15 0 56
804 Long-Axis Guided Diffusion Autoencoder for Through 김준희 2025.10.15 0 46
803 데이터 증강을 활용한 전이 학습 기반 RT 용접 결함 분류 성능 개선 강명현 2025.10.15 0 67