최근 Virtual human(VH) 챗봇의 발달로 상호작용을 위한 기술들의 관심이 높아지고 있다. VH이 대화할 대상을 판단하고, 사용자의 대화 내용 구간을 판단하기 위해서는 발화하고 있는 사용자를 판단할 수 있어야 한다. 이러한 판단을 하기 위해서는 실시간으로 사용자의 발화 여부를 판단하는 기술이 필요하다. 해당 논문에서는 음성과 영상을 활용하여 실시간으로 화면상에 있는 사용자의 발화 여부를 판단하는 경량화된 멀티모달 모델을 제시한다 해당 모델을 이용하여 만든 ECA 시선 교환 시스템에 대한 사용자 평가도 진행한다.