분류
2022년 2월
작성일
2021.10.13
수정일
2021.12.20
작성자
윤영여
조회수
248

BERT를 활용한 문서 임베딩 및 분류

논문제목

BERT를 활용한 문서 임베딩 및 분류

 

요약

컴퓨터와 정보 기술의 발달로 많은 문서들이 온라인으로 공유되고 있다. 문서는 많은 정보를 담고 있지만 원하는 정보를 가지고 있는 문서를 찾는 것은 어렵고 많은 시간을 필요로 한다. 문서 분류는 보유하고 있는 문서를 범주화하여 원하는 정보를 가지고 있는 문서에 빠르게 접근하기 위한 좋은 접근법이다. 딥러닝 기반의 문서 분류 방법으로 BERT가 있다. BERT는 언어 표현을 사전 학습하기 위한 방법으로 학습한 언어에 대해서 다양한 문제를 해결할 수 있는 잠재력을 가지고 있다. 하지만 BERT의 핵심 연산 중에 어텐션은 문서 길이에 제곱만큼 연산 비용이 필요하고 학습하는 문서의 길이는 GPU 용량과 학습 시간에 악영향을 미쳐 실제 학습되는 문서 길이에는 제약이 있다. 문서 길이에 제약이 있어 문서의 일부분을 가지고 문서 분류를 하는 것은 성능이 부족해지는 요인이 된다. 이를 해결하기 위해서 BERT를 활용하여 문서를 임베딩하고 임베딩 벡터를 통해 문서 분류하는 방법을 제안한다. 문서를 일정 크기로 잘라 사전 학습된 BERT 모델을 통해 임베딩하여 임베딩 입력 시퀀스를 구성하고 초기화된 BERT 모델을 학습한다. 이를 통해 토큰을 학습하는 BERT 분류 모델과 유사한 제약조건에서 더 많은 길이의 텍스트 정보를 학습할 수 있고 분류 정확도를 높일 수 있다. 학습하는 시퀀스 길이가 길어짐에 따라 문서 분류 정확도가 증가하는 추세를 보였고 시퀀스 길이별 분류 모델 성능을 비교하였을 때 16384 이상의 시퀀스 길이의 문서에 대해서 BERT 임베딩 분류 모델이 BERT 분류 모델보다 높은 정확도를 보였다. 마지막으로 사전 학습된 BERT 모델의 미세 조정 없이 BERT 모델을 학습하여 분류 성능을 개선 가능함을 보였다. 이를 통해 BERT를 활용하여 질의응답 같은 다른 자연어 처리 작업에 확장하여 성능 개선을 기대한다.

학위연월
2022년 2월
지도교수
김호원
키워드
BERT, Document embedding, Document classification
소개 웹페이지
https://sites.google.com/view/bert-doc-embedding/
첨부파일
첨부파일이(가) 없습니다.
다음글
Optimization of Scheduling Strategies for Dynamic Stacking Problem in Uncertain Environment
나왕세리 안디라 기타 2021-10-13 17:10:29.24
이전글
SSD 내부 쓰기 버퍼의 선택적 내구성 보장을 통한 전원 손실 보호 기법 연구
양준석 2021-10-13 14:21:18.8
RSS 2.0 823
게시물 검색
석사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
823 RAG를 적용한 컨테이너 기반 마이크로서비스의 오류 식별 방법 조대영 2025.12.15 0 141
822 Interpretable Cancer Risk Prediction with a Knowle 박한얼 2025.12.11 0 86
821 스토리지 분리화 환경에서 데이터 이동 최적화를 위한 Near-Data processing 도건우 2025.10.23 0 128
820 Learning a Differentiable Multi-Branch Decision Tr 박한얼 2025.10.21 0 239
819 분산 사이드카 아키텍처 기반 클라우드-네이티브 시스템 콜 모니터링 윤건우 2025.10.19 0 134
818 전시 환경에서의 관람객 행동 분석을 위한 Depth-Aware Zero-Shot HOI 조수현 2025.10.17 0 103
817 멀티모델 통합 선검출 기법의 환경 변화 강건성을 위한 베이지안 최적화 기반 파라미터 김정호 2025.10.17 0 123
816 레이더 기반 사람 행동 인식을 위한 경량 딥러닝 모델 설계 및 구현 곽도균 2025.10.17 0 119
815 메쉬 리깅 기반 안면 3D Gaussian Splatting의 부분 편집 기법 박현수 2025.10.17 0 136
814 가상현실에서 변형형 프록시가 감각 통합 및 일치감에 미치는 영향 연구 김민성 2025.10.17 0 98
813 이상 음향 탐지를 위한 경량 Diffusion Transformer 모델의 설계 및 구현 구동한 2025.10.17 0 137
812 VR 제자리걸음 중 주변부 시각 흐름의 위치와 속도가 비의도적 위치 이동에 미치는 영향 연 은승우 2025.10.17 0 133
811 실시간 공유화면 AI 분석을 통한 온라인 코딩 시험 부정행위 탐지 시스템 정해원 2025.10.17 0 176
810 지식 그래프 기반의 LLM 수학 추론 성능 향상 기법 박재현 2025.10.17 0 167
809 Autonomous Driving Agent Identification Under Host 도현철 2025.10.17 0 111
808 드론 기반 광역 모니터링 지연 시간 최소화를 위한 효율적 데이터 전송 프로토콜 및 선택적 박동진 2025.10.17 0 111
807 시공간 정보 토큰을 활용한 3D Human Pose Estimation 전민수 2025.10.16 0 108
806 격자기반 양자내성암호 ML-KEM 하드웨어 설계 및 검증 강은세 2025.10.15 0 241
805 배리어프리 전시 서비스를 위한 대화형 수어 질의응답 거대언어모델 연구 허석용 2025.10.15 0 133
804 Long-Axis Guided Diffusion Autoencoder for Through 김준희 2025.10.15 0 113