분류
2022년 2월
작성일
2021.10.13
수정일
2021.12.20
작성자
윤영여
조회수
126

BERT를 활용한 문서 임베딩 및 분류

논문제목

BERT를 활용한 문서 임베딩 및 분류

 

요약

컴퓨터와 정보 기술의 발달로 많은 문서들이 온라인으로 공유되고 있다. 문서는 많은 정보를 담고 있지만 원하는 정보를 가지고 있는 문서를 찾는 것은 어렵고 많은 시간을 필요로 한다. 문서 분류는 보유하고 있는 문서를 범주화하여 원하는 정보를 가지고 있는 문서에 빠르게 접근하기 위한 좋은 접근법이다. 딥러닝 기반의 문서 분류 방법으로 BERT가 있다. BERT는 언어 표현을 사전 학습하기 위한 방법으로 학습한 언어에 대해서 다양한 문제를 해결할 수 있는 잠재력을 가지고 있다. 하지만 BERT의 핵심 연산 중에 어텐션은 문서 길이에 제곱만큼 연산 비용이 필요하고 학습하는 문서의 길이는 GPU 용량과 학습 시간에 악영향을 미쳐 실제 학습되는 문서 길이에는 제약이 있다. 문서 길이에 제약이 있어 문서의 일부분을 가지고 문서 분류를 하는 것은 성능이 부족해지는 요인이 된다. 이를 해결하기 위해서 BERT를 활용하여 문서를 임베딩하고 임베딩 벡터를 통해 문서 분류하는 방법을 제안한다. 문서를 일정 크기로 잘라 사전 학습된 BERT 모델을 통해 임베딩하여 임베딩 입력 시퀀스를 구성하고 초기화된 BERT 모델을 학습한다. 이를 통해 토큰을 학습하는 BERT 분류 모델과 유사한 제약조건에서 더 많은 길이의 텍스트 정보를 학습할 수 있고 분류 정확도를 높일 수 있다. 학습하는 시퀀스 길이가 길어짐에 따라 문서 분류 정확도가 증가하는 추세를 보였고 시퀀스 길이별 분류 모델 성능을 비교하였을 때 16384 이상의 시퀀스 길이의 문서에 대해서 BERT 임베딩 분류 모델이 BERT 분류 모델보다 높은 정확도를 보였다. 마지막으로 사전 학습된 BERT 모델의 미세 조정 없이 BERT 모델을 학습하여 분류 성능을 개선 가능함을 보였다. 이를 통해 BERT를 활용하여 질의응답 같은 다른 자연어 처리 작업에 확장하여 성능 개선을 기대한다.

학위연월
2022년 2월
지도교수
김호원
키워드
BERT, Document embedding, Document classification
소개 웹페이지
https://sites.google.com/view/bert-doc-embedding/
첨부파일
첨부파일이(가) 없습니다.
다음글
Optimization of Scheduling Strategies for Dynamic Stacking Problem in Uncertain Environment
나왕세리 안디라 기타 2021-10-13 17:10:29.24
이전글
SSD 내부 쓰기 버퍼의 선택적 내구성 보장을 통한 전원 손실 보호 기법 연구
양준석 2021-10-13 14:21:18.8
RSS 2.0 749
게시물 검색
석사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
749 코딩 스타일 교육을 위한 자동 채점 시스템 개선 김영훈 2024.04.11 0 30
748 High-Precision Vehicle Trajectory Prediction using 김민성 2024.04.04 0 42
747 LLM 모델을 활용한 한국어 맞춤법 교정 성능 최적화 방안 연구 정주경 2024.04.04 0 49
746 블록체인 기반 항만 특화 통합 보안 관제 솔루션 오경우 2024.04.04 0 39
745 포인트 클라우드 Semantic 필터링 기반 3차원 객체 탐지 연구 정민규 2024.04.04 0 39
744 지식증류 기반의 경량 3차원 거리 추정 기법 연구 김장현 2024.04.04 0 41
743 Context-Aware Dynamic Detection for Ransomware us 프라티위 밀라티 2024.04.04 0 40
742 자기공명영상 기반 심장 영역 분할 및 질병 진단을 위한 자동화 프레임워크 개발 김민수 2024.04.04 0 29
741 경량화된 실시간 발화자 탐지 모델 정성헌 2024.04.04 0 42
740 Warehouse 물류 로봇을 위한 Visual SLAM 알고리즘 구현과 성능 실험 강민재 2024.04.04 0 31
739 Secure Implementation of End-to-End IoT Communicat 락스모노 아구스 마하르디카 아리 2024.04.04 0 39
738 전자건강기록 (EHR) 데이터와 심전도 (ECG) 데이터를 활용한 관상동맥 질환 환자의 사 강동길 2024.04.04 0 38
737 Comparative Analysis of Cross-Platform and Native 이브로키모브 사도르벡 2024.04.04 0 34
736 RAG 기반 대규모 언어 모델 할루시네이션 억제 효과 분석 및 챗봇 시스템 구현 방안 신영재 2024.04.04 0 50
735 도메인 특화 대화형 모델에서의 파인튜닝 및 RAG 기법에 따른 답변 품질 비교 연구 김보금 2024.04.04 0 41
734 PQC, LLM을 활용한 항만 보안 위협 대응 블록체인 서비스 설계 정한호 2024.04.04 0 37
733 발전소 점검 데이터 분석을 위한 LLM 기반 정보 추출 및 시계열 데이터 분석 프레임워크 심혜진 2024.04.04 0 52
732 확장성 및 익명성 보장을 고려한 온체인 및 디파이(Defi) 활동 데이터 기반 신용평가 모 오시몬 2024.04.04 0 38
731 증강현실에서 가상 물체와 실제 물체의 상호작용에 발생하는 latency 분석 및 개선 방안 엄지훈 2024.04.03 0 52
730 Node Density Clustering for Cell Allocation Enhanc 케빈 프란시스쿠스 자베리우스 2024.04.03 0 52