연구 목록으로
연구 상세

AI 피드백 기반 강화학습을 이용한 공감 대화 생성 모델

기존 공감 대화 생성 모델의 낮은 다양성과 인간 피드백 의존 문제를 해결하기 위해, AI 기반 피드백(RLAIF)을 활용한 강화학습 공감 대화 생성 모델을 제안한 연구이다. LLM을 평가자로 활용하여 보상을 구성하고, EmpRL 구조에 통합함으로써 더 다양한 공감 응답 생성을 달성했다.

학회/저널 한국컴퓨터종합학술대회
연도 2025
유형 학회 논문
공감 대화강화학습RLAIFRLHF 대체LLM대화 생성자연어처리AI 피드백
초록

기존 공감 대화 생성 모델의 낮은 다양성과 인간 피드백 의존 문제를 해결하기 위해, AI 기반 피드백(RLAIF)을 활용한 강화학습 공감 대화 생성 모델을 제안한 연구이다. LLM을 평가자로 활용하여 보상을 구성하고, EmpRL 구조에 통합함으로써 더 다양한 공감 응답 생성을 달성했다.

포트폴리오 역할과의 연결
연구 기여

공감 대화 생성에서 인간 피드백 의존을 줄이기 위해 AI 피드백 기반 강화학습 구조를 제안했다.

포트폴리오 의미

LLM 응답 품질을 프롬프트 결과가 아니라 평가자, 보상, 정책 업데이트가 연결된 시스템 판단으로 다뤄야 한다는 관점을 보강한다.

방법 / 판단 신호

LLM 평가자를 보상 모델처럼 활용하고 PPO 기반 정책 업데이트로 응답 다양성과 공감 수준을 조정했다.

모델링/평가

연구 항목을 NLP/LLM 모델링과 평가 설계의 판단 근거로 해석합니다.

시스템 판단

논문 결과를 프로젝트의 데이터 처리, 평가, 운영 판단과 연결합니다.

적용 맥락

의료, 금융, 추천 등 도메인은 상위 정체성이 아니라 적용 맥락으로 다룹니다.

요약

공감 대화 생성 연구는 감정 인식 기반 대화 시스템의 핵심 과제로, 기존에는 MLE 기반 생성 또는 RLHF 기반 정렬 방식이 주로 사용되었다. 그러나 RLHF는 비용이 높고 확장성이 낮으며, EmpRL 또한 인간 피드백 기반 공감 분류기에 의존한다는 한계를 가진다. 본 연구는 이러한 흐름에서 AI 피드백 기반 강화학습으로의 전환 가능성을 탐색한다.

왜 중요한가

기존 공감 대화 모델은 문법적 유창성과 문맥 적합성은 확보했지만, 실제 사용자 기대 수준에 부합하는 공감 표현의 깊이와 다양성은 부족했다. EmpRL은 공감 수준 정렬을 도입했지만, 여전히 인간이 사전 정의한 공감 분류 및 피드백에 의존하기 때문에 비용 문제와 표현 다양성 제한이 발생한다. 특히 공감 수준 평가가 고정된 분류 체계에 묶이면서 다양한 응답 생성이 어렵다는 문제가 존재한다.

기여

본 연구는 EmpRL 구조에 RLAIF를 결합한 파이프라인을 설계했다. EmpatheticDialogues로 SFT한 T5가 초기 응답을 생성하고, Llama 3.2-1B 기반 LLM 평가자가 공감 수준에 따른 보상을 산출하며, PPO 기반 강화학습이 이를 바탕으로 정책을 업데이트한다. 실험 결과 제안 모델은 Distinct-1 5.8%, Distinct-2 30.2%를 기록해 기존 EmpRL 대비 응답 다양성을 높였고, 인간 피드백 없이도 공감 수준을 반영한 대화 생성이 가능함을 보여주었다.