분류
2021년 8월
작성일
2021.04.08
수정일
2021.07.12
작성자
이정훈
조회수
118

비감독 학습 뉴럴 언어모형 기반의 문맥의존 철자오류 교정

 

  본 논문은 영어 문서를 대상으로 문맥의존 철자오류 문제를 해결하고자 한다. 철자오류 종류는 두 가지로 단순 철자오류와 문맥의존 철자오류로 나뉜다. 단순 철자오류는 사전의 단어와 매칭만으로 오류를 찾을 수 있기 때문에 교정하기가 쉽지만 문맥의존 철자오류는 교정 대상 단어와 주변 문맥의 관계를 파악해야 오류 유무를 알 수 있기 때문에 교정의 난이도가 높아진다. 문맥오류의 세부 종류로 동음이의어 오류(homophone error), 문자 배열의 오류(typographical error), 문법 오류(grammatical error), 띄어쓰기 오류(cross word boundary error)로 나뉘며, 논문에서는 띄어쓰기 오류를 제외한 문맥의존 철자오류에 해당하는 나머지 오류에 대해서 다룬다. 그리고 문맥의존 철자오류의 검색은 통계적 방식을 사용하며, 최종 교정어 선택은 딥러닝(deep learning) 방식을 사용하여 문맥의존 철자오류 문제를 해결한다. 논문에서는 기존 문맥의존 철자오류 교정에 다뤄지지 않은 여러 뉴럴 언어모형을 교정에 적용 한다. 논문에서 제안하는 뉴럴 언어모형을 이용한 교정 기법은 크게 5가지로 Word embedding 정보 기반의 교정, Contextual embedding 정보 기반의 교정, Auto-regressive(AR) 계열 언어모형 기반의 교정, Auto-encoding(AE) 계열 언어모형 기반의 교정, Encoder- Decoder 계열 언어모형 기반의 교정으로 나뉜다. 본 논문에서는 최근까지 발표된 15가지 뉴럴 언어모형을 이용해서 문맥의존 철자오류 교정 실험을 진행한다. 논문에서는 교정 대상 단어를 기준으로 양방향의 문맥 정보를 참조하여 교정을 실험하며, 단방향으로 들어오는 입력이나 파라미터 조절을 이용한 성능 실험도 진행하였다. 성능의 측정은 오류어 검색(detection), 오류어 교정(correction)을 각각 정확도(precistion), 재현율(recall), F1으로 표현한다. 논문에서는 문맥의존 철자오류 교정 테스트 말뭉치 구축에 관한 내용도 다루며, 웹에서 얻어진 1조 어절로 구성된 말뭉치를 이용해 실제 사용자들의 오류를 추출하여 성능 테스트에서 제시한다.


* e-mail : it_leejh@pusan.ac.kr

학위연월
2021년 8월
지도교수
권혁철
키워드
Context-sensitive spelling error correction, natural language processing, word embedding, contextual embedding, auto-regressive, auto-encoding, permutation language model
소개 웹페이지
http://corpus.pusan.ac.kr/graduate/2021_lee/index.html
첨부파일
첨부파일이(가) 없습니다.
다음글
Automatic Assessment and Collaborative Mentoring System for Programming Education
류샤오 2021-10-13 10:12:29.87
이전글
A New Framework for Handling and Generating Indoor Semantic Information by Massive Raw Points Toward the Digital Twin
김태훈 2021-04-08 14:49:14.147
RSS 2.0 116
게시물 검색
박사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
116 Task-Specific Differential Private Data Publish Me 신진명 2024.04.09 0 16
115 Advanced Defense Framework against Physical Advers 김용수 2024.04.08 0 26
114 한글 채팅 텍스트 기반의 저자 검증 모형과 그 응용 이다영 2024.04.05 0 25
113 상태 기반 테스트 시나리오 보강 방법 이선열 2023.10.17 0 128
112 Manufacturing Testing Automation FrameworkBased on 강효은 2023.10.17 0 144
111 Synthesizing Robust Physical Camouflage for Univer 수랸토 나우팔 2023.10.16 0 147
110 복잡도 다양성을 고려한 C 프로그램의 시험 용이성 예측 모형 구축 방법 최현재 2023.10.16 0 116
109 Design and Optimization of Quantum Arithmetic Circ 라라사티 하라스타 타티마 2023.10.13 0 147
108 Improving 6TiSCH Network Formation and Transmissio 파와즈 자키 자키얄 2023.10.10 0 138
107 저지연 고신뢰 운전자 프로파일링을 위한 딥러닝 모델 및 조기 종료 기법 임재봉 2023.10.08 0 182
106 802.11ax 대규모 Wi-Fi 환경의 심층 생성 모델을 활용한 트래픽 모델링 및 AP 이재민 2023.04.07 0 111
105 뉴런 클러스터를 활용한 합성곱 신경망 이미지 분류 신뢰성 향상 방법 이영우 2023.04.06 0 103
104 Trust Guard Extension Framework for Enhanced Secur 김해용 2023.04.06 0 83
103 노이즈 오염 하에서의 효율적 최적화를 위한 확률적 평가 샘플 누적 전략 김정민 2023.04.06 1 112
102 LPWAN의 규모 확장성과 서비스 커버리지 향상을 위한 충돌 제어 및 신호 합성 기법 허준환 2022.10.13 0 109
101 DQN 기반 자동화 컨테이너 터미널 장치장 크레인 작업 할당 전략 최적화 김세영 2022.10.13 0 120
100 Robust Defense Techniques against Adversarial Exam 최석환 2022.04.05 0 117
99 High-Performance Hardware Architectures for Ellipt 아와루딘 에셉 무하마드 2022.04.01 0 87
98 한국어 자연어처리를 위한 뉴로-심볼릭 모델 김민호 2021.10.14 0 122
97 Automatic Assessment and Collaborative Mentoring S 류샤오 2021.10.13 0 123