간호감시에 필요한 진단 관련 신호가 검사 데이터, 환자정보, 간호기록 등 이질적인 EMR 소스에 분산되어 있었습니다.
EMR 기반 간호감시 자동 ICD 코딩 시스템
간호 현장에서 바로 접근 가능한 핵심 EMR만으로도 진단 관련 분류를 실용적으로 지원할 수 있음을 검증한 의료 AI 연구입니다.
이질적인 구조화 EMR과 한국어 임상 텍스트를 평가 가능한 NLP 파이프라인으로 결합한 작업입니다.
간호 텍스트를 두 개의 KM-BERT 모델로 독립 학습하고 raw logits를 평균해 텍스트 표현의 안정성을 높였습니다.
최종 모델은 단순 전체 점수보다 희소 클래스 재현율과 실무 사용 가능성을 함께 확인할 수 있는 결과를 보였습니다.
구조화 EMR과 간호 텍스트를 병렬로 처리한 뒤 스태킹 분류기로 결합하는 의료 AI 파이프라인입니다.
검사, IO, BST, 활력징후, 환자정보 등 핵심 EMR 피처
간호기록과 회복실 기록
한국어 임상 텍스트 표현 추출
차원 축소와 최종 ICD 예측
전체 성능, 클래스 균형, 희소 클래스 재현율 평가
NLP/LLM 시스템의 성능을 단순 정확도가 아니라 도메인 데이터 구조와 오류 분포까지 함께 판단해야 한다는 포트폴리오 주장을 보강한다.
연구 상세 보기배경
이 프로젝트는 복부수술 환자의 간호감시를 지원하기 위한 자동 ICD 코딩 문제를 다뤘다. 의사 판독문이나 퇴원기록처럼 나중에 작성되는 문서가 아니라, 간호 실무 중 바로 접근 가능한 핵심 EMR 데이터만으로 환자 상태를 분류할 수 있는지를 확인하는 것이 핵심 목표였다.
문제
간호사는 환자를 지속적으로 관찰하며 위험을 식별해야 하지만, 실제 현장에서는 검사결과, IO, BST, 활력징후, 환자정보, 간호기록, 회복실 기록이 서로 다른 형식으로 흩어져 있어 이를 실시간으로 종합해 판단하기 어렵다. 기존 자동 ICD 코딩 연구도 의사 중심 텍스트나 추가 자원에 의존하는 경우가 많아, 간호감시 지원에 바로 연결되기에는 한계가 있었다.
구현
복부수술 환자 8,587명의 EMR을 환자 ID 기준으로 통합하고, 수치형 데이터는 표준화 또는 Min-Max scaling으로 정리했으며 텍스트 데이터는 KM-BERT 입력으로 구성했다. 이후 두 개의 KM-BERT를 독립적으로 학습해 얻은 raw logits를 평균하여 앙상블 효과를 만들고, PCA로 차원을 축소한 뒤 XGBoost를 메타 분류기로 사용하는 스태킹 구조를 적용했다. 또한 stratified split과 WeightedRandomSampler를 사용해 클래스 불균형 문제도 함께 다뤘다.
결과
최종 제안 모델인 Double KM-BERT + XGBoost + PCA는 단일 모델 및 단순 앙상블보다 더 안정적인 분류 성능을 보였고, 희소 클래스에서도 의미 있는 재현율을 확보했다. 이를 통해 간호 현장에서 바로 활용 가능한 EMR 핵심 데이터만으로도 자동 진단명 분류를 실용적으로 검토할 수 있음을 확인했다.