분류
2025년 8월
작성일
2025.04.02
수정일
2025.04.02
작성자
리잘디 파흐미
조회수
14

Multi-Query Retrieval Augmented Generation (RAG) for In-Domain Knowledge

Retrieval-augmented systems for technical domains often struggle with the substantial terminological gap between user queries and domain-specific documents, particularly evident in pharmacopoeia repositories where scientific nomenclature differs significantly from natural language expressions. This research addresses the critical challenge of low recall rates in pharmacopoeia document retrieval, where a significant portion of relevant documents remain inaccessible to conventional retrieval methods. Through extensive analysis of query-document relationships, we establish that the semantic disconnect between general user language and specialized chemical terminology necessitates a multi-faceted approach to effectively bridge this domain-specific retrieval gap. Conventional methods―whether dense semantic encoders or sparse lexical matchers―independently fail to capture the full spectrum of relevance patterns across these specialized scientific documents.

 

We present a novel multi-query retrieval architecture specifically designed for in-domain datasets, combining several innovative components to address the terminology gap. Our approach implements dual query expansion strategies: keyword-based expansion generating domain-specific terms and passage-based expansion using LoRA-fine-tuned language models to generate pharmacopoeia-style contextual expansions. These expansions feed into a hybrid retrieval system utilizing both fine-tuned dense encoders (optimized with Multiple Negative Ranking Loss) and sparse BM25 retrievers, with results combined through a two-stage Reciprocal Rank Fusion (RRF) methodology. This architecture enables the system to simultaneously leverage semantic understanding and terminology matching while maintaining appropriate balance between different retrieval streams. Additionally, we develop a comprehensive document processing pipeline specifically for pharmacopoeia content, including chemical-specific segmentation, section-level chunking, and synthetic query generation.

 

Experimental evaluation across multiple metrics demonstrates substantial performance improvements, with our complete architecture achieving significant gains over baseline approaches. Component analysis reveals crucial insights: hybrid retrieval alone provides meaningful improvement over single-method approaches, domain-specific encoder fine-tuning contributes substantial performance gains, and our novel two-stage RRF delivers additional improvement over conventional fusion techniques. These findings confirm that effectively bridging the terminology gap in specialized domains requires a multi-faceted approach integrating domain-adapted representations, diverse query formulations, and sophisticated result fusion. The principles and architecture developed in this research have significant implications for information retrieval in other specialized scientific and technical domains where similar terminological barriers exist between users and document collections.

학위연월
2025년 8월
지도교수
권준호
키워드
Retrieval Augmented Generation (RAG), Large Language Model (LLM)
소개 웹페이지
https://sites.google.com/view/fahmi-thesis-site/home
첨부파일
첨부파일이(가) 없습니다.
다음글
Mamba-Attention Surface Analysis for Brain Development and Disease Study
짠시닷 2025-04-02 13:09:26.873
이전글
BLSM-Tree: 블록체인 데이터의 효율적인 범위 탐색을 위한 인덱스 구조
이병영 2025-04-02 09:08:39.68
RSS 2.0 781
게시물 검색
석사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
781 GVMambaIR: Graph Vison Mamba for Image Restoration 새글 리엔 홍키 2025.04.03 0 2
780 드론을 활용한 실시간 원격 흘수 정밀 계측 프레임워크 새글 박찬일 2025.04.02 0 2
779 Mamba-Attention Surface Analysis for Brain Develop 새글 짠시닷 2025.04.02 0 14
778 Multi-Query Retrieval Augmented Generation (RAG) f 새글 리잘디 파흐미 2025.04.02 0 14
777 BLSM-Tree: 블록체인 데이터의 효율적인 범위 탐색을 위한 인덱스 구조 새글 이병영 2025.04.02 0 5
776 전이학습을 통한 사전 학습된 오디오 뉴럴 넷 기반 효과음 분류 및 자동 자막 생성 시스템 새글 정혜윤 2025.04.01 0 20
775 Federated Domain Generalization with On-Server Gra 새글 응우옌쫑빈 2025.04.01 0 24
774 Learning to Rank for Accelerating Virtual Screenin 새글 배종현 2025.04.01 0 22
773 텍스트 종속 화자 검증을 위한 경량 딥러닝 모델의 설계 및 구현 새글 신채림 2025.03.31 0 39
772 실내 NLOS 환경에서 RTLS 정확도 향상을 위한 편향 및 편차 맵 기반 가중 그래프 탐 안현기 2024.10.18 0 116
771 비정형 환경 아크 센싱 개선을 위한 중간값 기반 데이터 클러스터링 활용 기법 김희준 2024.10.17 2 101
770 그래프 구조 기반 K-Means를 사용한 간선 방문 지향 MCPP 이해성 2024.10.15 0 91
769 트랜스포머 기반의 폐암 슬라이드 이미지 자동분할에 대한 연구 이리나 2024.10.14 0 92
768 마스크 기반 재식별 최적화와 Multi o bject Tracking에서의 ID-Switc 유수빈 2024.10.14 0 102
767 Histone Modification Peak Imputation Using Mixture 김민수 2024.10.14 0 66
766 Shor 알고리즘 최적화를 위한 양자 회로에서의 곱셈 연산 조재한 2024.10.14 0 129
765 ML-DSA를 위한 하드웨어 기반 NTT 및 다항식 연산 가속기 설계 및 개발 정병욱 2024.10.14 0 160
764 GS-Transformer : 사람 행동 인식을 위한 경량 트랜스포머 모델의 설계 및 구현 정혜선 2024.10.14 0 96
763 아동-로봇간 정서적 상호작용을 위한 대화 시스템의 설계 및 구현 김다영 2024.10.14 0 60
762 하이브리드 매핑 기법을 이용한 Zoned Namespace SSD를 위한 디바이스 매퍼 성 임경민 2024.10.14 0 89