분류
2021년 2월
작성일
2020.10.14
수정일
2021.01.04
작성자
조상현
조회수
85

표와 리스트가 포함된 웹 문서를 위한 한국어 다중지문 기계독해 모형

웹 문서에서는 자연어뿐만 아니라 표나 리스트와 같은 구조화된 리스트를 포함하고 있다. 구조화되지 않는 자연어에 학습된 언어 모델은 구조화된 표와 리스트 데이터에 적용했을 때 질의응답 성능이 하락하는 문제가 있다. 본 연구에서는 자연어에 학습된 언어모델과 함께 표 데이터에 사전학습한 언어모델을 활용하여 웹 문서 내의 자연어와 구조화된 리스트와 표 데이터에서 정답을 찾을 수 있는 한국어 다중지문 기계독해 모형을 제안한다. 자연어에 대한 질의응답을 위해 한국어 위키피디아에 사전학습된 BERT 모델을 사용했으며, 표에 대한 질의응답을 위해서 위키피디아 내에 존재하는 표를 이용하여 사전학습된 TAPAS 모델을 활용했다. 표를 위한 임베딩이 추가된 TAPAS 모델을 표 데이터에 적용했을 때 자연어를 위한 언어모델을 사용했을 때에 비해 성능이 향상됨을 보였다. 입력된 여러 개의 지문에서 정답이 있는 단락 선택을 위해서 정답이 있을 확률을 출력하도록한 순위화 모델을 적용했을 때 서술형 유형의 질문에서 성능이 향상됨을 보였다. 본 연구에서는 기계독해 모형의 학습과 평가를 위해서 KorQuAD 2.0 데이터셋을 이용한다

학위연월
2021년 2월
지도교수
권혁철
키워드
소개 웹페이지
https://sites.google.com/view/sanghyun-thesis-master/home
첨부파일
다음글
API 서열 분석을 통한 .NET 난독화 도구 자동 식별
허태광 2020-10-14 14:55:11.137
이전글
그래프 어텐션 신경망을 적용한 협업 필터링 추천 시스템
조승희 2020-10-14 13:53:24.907
RSS 2.0 788
게시물 검색
석사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
788 RAG-sLLM 기반 계약 리스크 자동 분석 프레임워크 제안 : 조선업을 중심으로 윤시록 2025.04.07 0 274
787 가상 에이전트의 지배적 행동이 사용자의 의사 결정 및 지각에 미치는 영향 연구 김태연 2025.04.07 0 142
786 스마트폰 이미지 기반 시각적 위치 추정과 3D 모델을 사용한 수위 추정 시스템 노태윤 2025.04.07 0 142
785 Lightweight Time Series Forecasting with LLMs: Le 코난 루스 엠마누엘레 비투아 2025.04.04 0 158
784 블록체인과 CMAC 검증을 통한 전기차 배터리 관리 시스템의 데이터 신뢰성 확보 방안 설계 김재현 2025.04.04 0 115
783 Optimizing User Pairing and Power Allocation for O 아라빈 바라라만 2025.04.04 0 104
782 Deep Learning-Assisted Microservice Deployment Str 뉴그로호 아빌리아 쿠수마푸테리 2025.04.03 0 146
781 GVMambaIR: Graph Vision Mamba for Image Restoratio 리엔 홍키 2025.04.03 0 114
780 드론을 활용한 실시간 원격 흘수 정밀 계측 프레임워크 박찬일 2025.04.02 0 109
779 Mamba-Attention Surface Analysis for Brain Develop 짠시닷 2025.04.02 0 121
778 Multi-Query Retrieval Augmented Generation (RAG) f 리잘디 파흐미 2025.04.02 0 136
777 BLSM-Tree: 블록체인 데이터의 효율적인 범위 탐색을 위한 인덱스 구조 이병영 2025.04.02 0 132
776 전이 학습을 통한 사전 학습된 오디오 뉴럴 넷 기반 효과음 분류 및 자동 자막 생성 시스템 정혜윤 2025.04.01 0 129
775 Federated Domain Generalization with On-Server Gra 응우옌쫑빈 2025.04.01 0 139
774 Virtual Screening in a Large Compound Library with 배종현 2025.04.01 0 135
773 텍스트 종속 화자 검증을 위한 경량 딥러닝 모델의 설계 및 구현 신채림 2025.03.31 0 183
772 실내 NLOS 환경에서 RTLS 정확도 향상을 위한 편향 및 편차 맵 기반 가중 그래프 탐 안현기 2024.10.18 0 192
771 비정형 환경 아크 센싱 개선을 위한 중간값 기반 데이터 클러스터링 활용 기법 김희준 2024.10.17 2 193
770 그래프 구조 기반 K-Means를 사용한 간선 방문 지향 MCPP 이해성 2024.10.15 0 221
769 트랜스포머 기반의 폐암 슬라이드 이미지 자동분할에 대한 연구 이리나 2024.10.14 0 162