EMR 기반 간호감시 자동 ICD 코딩 시스템

간호 현장에서 바로 접근 가능한 핵심 EMR만으로도 진단 관련 분류를 실용적으로 지원할 수 있음을 검증한 의료 AI 연구입니다.

유형 의료 AI 연구

연도 2025

주요 역할 대학원 연구원

역할 대학원 연구원, AI 엔지니어, 데이터 사이언티스트

응용 NLP 및 LLM 연구 엔지니어 논문 기반 요약 공개 의료 AI간호감시EMR자동 ICD 코딩KM-BERTXGBoost앙상블

이질적인 구조화 EMR과 한국어 임상 텍스트를 평가 가능한 NLP 파이프라인으로 결합한 작업입니다.

structuredtexthybrid

datatrainingevaluation

전체 성능과 희소 클래스 재현율 동시 검토사후 문서 없이 핵심 EMR 기반 분류희소 클래스 높은 재현율

구조화 EMR과 간호 텍스트를 병렬로 처리한 뒤 스태킹 분류기로 결합하는 의료 AI 파이프라인입니다.

Structured EMR

검사, IO, BST, 활력징후, 환자정보 등 핵심 EMR 피처

Nursing Text

간호기록과 회복실 기록

Dual KM-BERT

한국어 임상 텍스트 표현 추출

PCA + XGBoost

차원 축소와 최종 ICD 예측

Rare-class Evaluation

전체 성능, 클래스 균형, 희소 클래스 재현율 평가

배경

이 프로젝트는 복부수술 환자의 간호감시를 지원하기 위한 자동 ICD 코딩 문제를 다뤘다. 의사 판독문이나 퇴원기록처럼 나중에 작성되는 문서가 아니라, 간호 실무 중 바로 접근 가능한 핵심 EMR 데이터만으로 환자 상태를 분류할 수 있는지를 확인하는 것이 핵심 목표였다.

문제

간호사는 환자를 지속적으로 관찰하며 위험을 식별해야 하지만, 실제 현장에서는 검사결과, IO, BST, 활력징후, 환자정보, 간호기록, 회복실 기록이 서로 다른 형식으로 흩어져 있어 이를 실시간으로 종합해 판단하기 어렵다. 기존 자동 ICD 코딩 연구도 의사 중심 텍스트나 추가 자원에 의존하는 경우가 많아, 간호감시 지원에 바로 연결되기에는 한계가 있었다.

구현

복부수술 환자 8,587명의 EMR을 환자 ID 기준으로 통합하고, 수치형 데이터는 표준화 또는 Min-Max scaling으로 정리했으며 텍스트 데이터는 KM-BERT 입력으로 구성했다. 이후 두 개의 KM-BERT를 독립적으로 학습해 얻은 raw logits를 평균하여 앙상블 효과를 만들고, PCA로 차원을 축소한 뒤 XGBoost를 메타 분류기로 사용하는 스태킹 구조를 적용했다. 또한 stratified split과 WeightedRandomSampler를 사용해 클래스 불균형 문제도 함께 다뤘다.

결과

최종 제안 모델인 Double KM-BERT + XGBoost + PCA는 단일 모델 및 단순 앙상블보다 더 안정적인 분류 성능을 보였고, 희소 클래스에서도 의미 있는 재현율을 확보했다. 이를 통해 간호 현장에서 바로 활용 가능한 EMR 핵심 데이터만으로도 자동 진단명 분류를 실용적으로 검토할 수 있음을 확인했다.