김동현
데이터 구조화와 NLP/LLM 평가를 시스템 구현으로 연결하는 엔지니어
요약
데이터 구조화, AI 개발 흐름, NLP/LLM 평가 경험을 바탕으로 문제 정의부터 구현, 검증, 전달까지 이어지는 작업을 수행합니다.
- 다양한 데이터 표면을 모델링과 운영에 연결 가능한 구조와 파이프라인으로 바꾸는 일을 중요하게 생각합니다.
- AI 실험과 운영 흐름을 재현 가능하고 관측 가능하게 만드는 데 집중합니다.
연구, 프로그램, 리더십
- EMR 기반 간호감시 의사결정 지원과 진단 분류를 주제로 대학원 연구를 수행했습니다.
- 정형 데이터와 텍스트 데이터를 함께 활용해 KM-BERT 앙상블과 XGBoost 기반 엔드투엔드 모델링 파이프라인을 구축했습니다.
- 인간지향적 멀티모달 AI 프로젝트에서 평가 관련 코드를 구현했습니다.
- 평가 요구사항을 실제 코드와 검토 가능한 산출물로 연결하는 작업을 수행했습니다.
- EMR 데이터를 활용한 간호감시 의사결정 지원 연구과제에서 임상 AI 워크플로 구현에 참여했습니다.
- 임상 텍스트 이해를 위해 키워드 추출, 의존구문 기반 전처리, 토픽 모델링, 유사도 분석 워크플로를 구현했습니다.
- 교내 공식 프로그래밍 동아리에서 여러 리더십 역할을 맡았고, 2022년에는 회장을 역임했습니다.
- 머신러닝, 빅데이터, 금융 ML, GNN 관련 스터디 그룹을 직접 기획하고 운영했습니다.
대표 프로젝트
복부수술 환자의 간호감시를 지원하기 위해 핵심 EMR 데이터만으로 자동 ICD 코딩 모델을 구축했다.
- 전체 성능과 희소 클래스 재현율 동시 검토
- 사후 문서 없이 핵심 EMR 기반 분류
로컬 환경에서 머신러닝 실험과 실행 기록을 일관되게 수집, 저장, 조회, 비교, 복구할 수 있도록 설계한 Contexta 프로젝트를 개발했으며, canonical contract와 workspace 중심의 ML observability 구조 구현에 집중했습니다.
- 로컬 퍼스트 observability 구조 설계
- canonical contract 및 workspace 구현
Apache Arrow 기반의 그래프 분석 엔진 Lynxes를 직접 설계하고 구현했으며, CSR 인덱스와 lazy execution을 중심으로 고성능 그래프 처리 경험을 만드는 데 집중했습니다.
- 그래프 엔진 아키텍처 설계
- CSR 탐색 구조 구현
김동현
연구 관심사
Methods: NLP/LLM 평가, 그래프 모델링, AI-DLC workflow
Application Areas: 의료 NLP, 추천 시스템, 대화형 AI
Systems Focus: 데이터 파이프라인, 관측 가능성, 재현 가능한 산출물
키워드: Data & Applied AI, Data Systems, AI-DLC, MLOps, Observability, NLP/LLM Evaluation
요약: 데이터 구조화, AI 개발 흐름, NLP/LLM 평가 경험을 구현 가능한 작업으로 연결합니다.
학력
Gachon University
인공지능 전공 석사
GPA 4.14/4.5. Intelligent Data Analytics Lab. 지도교수 OkRan Jeong. 임상 AI, 평가, 구현 중심 연구 전달을 중심으로 연구를 수행하고 있습니다.
Gachon University
소프트웨어학과 학사
공식 프로그래밍 동아리 활동과 기본 ML, 심화 ML, 금융 ML, GNN 등 다양한 스터디 그룹 운영을 통해 리더십과 커뮤니티 운영 경험을 쌓았습니다.
연구 및 실무 경험
Intelligent Data Analytics Lab., Gachon University
대학원생 연구원
- EMR 기반 간호감시 의사결정 지원과 진단 분류를 주제로 대학원 연구를 수행했습니다.
- 정형 데이터와 텍스트 데이터를 함께 활용해 KM-BERT 앙상블과 XGBoost 기반 엔드투엔드 모델링 파이프라인을 구축했습니다.
- AI 기반 피드백을 활용한 공감 대화 생성 등 대화형 AI 주제도 함께 탐구했습니다.
정보통신기획평가원 (IITP)
연구과제 참여 연구원
- 인간지향적 멀티모달 AI 프로젝트에서 평가 관련 코드를 구현했습니다.
- 평가 요구사항을 실제 코드와 검토 가능한 산출물로 연결하는 작업을 수행했습니다.
한국연구재단 (NRF)
연구과제 참여 연구원
- EMR 데이터를 활용한 간호감시 의사결정 지원 연구과제에서 임상 AI 워크플로 구현에 참여했습니다.
- 임상 텍스트 이해를 위해 키워드 추출, 의존구문 기반 전처리, 토픽 모델링, 유사도 분석 워크플로를 구현했습니다.
- 협력 연구진이 활용할 수 있도록 해석 가능한 결과물과 웹 기반 분석 화면을 제공했습니다.
- 텍스트와 정형 데이터를 결합한 앙상블 모델링(KM-BERT, XGBoost)으로 다중분류 과제에서 92% 이상의 진단 예측 정확도를 달성했습니다.
Gachon University / Notion Community Program
학생 리더 및 커뮤니티 운영자
- 교내 공식 프로그래밍 동아리에서 여러 리더십 역할을 맡았고, 2022년에는 회장을 역임했습니다.
- 머신러닝, 빅데이터, 금융 ML, GNN 관련 스터디 그룹을 직접 기획하고 운영했습니다.
- Notion Campus Leader 프로그램에 참여해 학내 학습 커뮤니티와 리소스 공유를 지원했습니다. (24-2 ~ 25-1)
dktechin
기업주도 집중프로그램 수료생
- 클라우드, CI/CD, 보안, DevOps 실무를 중심으로 한 기업주도 집중프로그램에 참여했습니다.
- 프로젝트 기반 실습에서 보안 및 DevOps 지향 역할로 구현 작업에 참여했습니다.
연구 및 발표
- Kim, Donghyeon; Kim, Daeho; Jeong, Okran , A Context-Adaptive Gated Embedding Framework for Advanced Clinical Decision-Making
- Kim, Donghyeon; Kim, Daeho; Kim, Seyoung; Jeong, Okran , Deep Learning based Automatic ICD Coding for Nursing Surveillance of Abdominal Surgery Patients
- Joo, Yongwan; Lim, Donghyun; Kim, Donghyeon; Sun, Seungyeon; Jeong, Okran , Empathetic Dialogue Generation Model Using Reinforcement Learning with AI-Based Feedback
프로젝트
EMR 기반 간호감시 자동 ICD 코딩 시스템
의료 AI 연구
- 간호감시에 필요한 진단 관련 신호가 검사 데이터, 환자정보, 간호기록 등 이질적인 EMR 소스에 분산되어 있었습니다.
- 간호 텍스트를 두 개의 KM-BERT 모델로 독립 학습하고 raw logits를 평균해 텍스트 표현의 안정성을 높였습니다.
- 최종 모델은 단순 전체 점수보다 희소 클래스 재현율과 실무 사용 가능성을 함께 확인할 수 있는 결과를 보였습니다.
Evaluation Scope Balanced · Available Data Core EMR · Rare-class Recall High
Contexta: 로컬 퍼스트 ML Observability 프로젝트
개인 주도형 ML 플랫폼 프로젝트
- 머신러닝 실험과 배포 과정에서는 메타데이터, 레코드, 아티팩트가 여러 도구에 흩어지기 쉽고, 재현 가능한 observability 흐름을 유지하기 어렵습니다.
- `.contexta/` workspace를 기준으로 메타데이터, 레코드, 아티팩트를 분리 저장했습니다.
- ML 시스템의 실행 이력과 산출물을 로컬에서 일관되게 관리하고 조사할 수 있는 observability 기반을 구현했습니다.
Architecture Local-first · Contract Schema-first · Workflow Trace / Compare / Recover
Lynxes: 그래프 분석 엔진 프로젝트
그래프 시스템 엔진 프로젝트
- 기존 Python 그래프 라이브러리나 범용 데이터프레임 래퍼만으로는 메모리 효율, 탐색 성능, 지연 실행 기반 최적화를 함께 만족시키기 어려웠습니다.
- GraphFrame이 Arrow RecordBatch를 직접 소유하도록 설계했습니다.
- Arrow 컬럼 메모리 모델과 CSR 기반 그래프 탐색, lazy collect 실행 흐름을 갖춘 그래프 분석 엔진의 기반을 마련했습니다.
Neighbor lookup O(degree) · Memory model Arrow · Execution Lazy collect
FRIMO: 정서적 지원과 일기 생성을 위한 대화형 AI
대화형 AI 프로젝트
- 서비스는 사용자 대화에서 감정을 인식하고, 이를 일기 생성 흐름과 연결할 수 있는 머신러닝 구성 요소가 필요했습니다.
- KoBERT 기반 감정 인식 모델을 중심으로 챗봇과 요약 흐름이 연결되도록 지원했습니다.
- 감정 인식 중심의 ML 파이프라인을 포함한 MVP 수준의 대화형 일기 경험을 구현했습니다.
Pipeline Korean NLP
Devridge: 개발자를 위한 LLM 기반 피드백 브리지
LLM 응용 프로토타입
- 솔로 개발자는 UI, 성능, 코드 품질 등 여러 관점의 피드백이 필요하지만, 적절한 시점에 역할별 의견을 얻기 어렵습니다.
- 응답이 범용 조언으로 흐르지 않도록 역할별 제약과 입력 맥락을 분리했습니다.
- 구조화된 프롬프트와 역할 제약을 통해 LLM 응답을 더 실용적인 프로젝트 피드백으로 바꾸는 프로토타입을 구현했습니다.
Feedback modes Role-based
BloGeek: 블로그 프로젝트
협업형 NLP 프로젝트
- 서비스는 블로그 콘텐츠 흐름을 더 풍부하게 만들기 위해 텍스트의 감성 극성을 분류하고, 문장 스타일 변형을 생성할 수 있는 머신러닝 구성 요소가 필요했습니다.
- 극성 분류는 KoBERT, 스타일 변환은 KoBART 파이프라인으로 나누어 구현했습니다.
- 웹 서비스 맥락에서 활용 가능한 감성 분류 및 스타일 변환 AI 모듈을 제공했습니다.
Model scope Classification + Generation
Dalkom Shop: 임직원 전용 마일리지 커머스 플랫폼
사내 커머스 플랫폼
- 사내 전용 커머스 플랫폼은 검색, 알림, 관리자 기능을 안정적으로 뒷받침할 수 있는 클라우드 인프라와 운영 체계가 필요했습니다.
- React와 Spring 기반 서비스가 배포, 운영, 모니터링 흐름 안에서 동작하도록 CI/CD와 클라우드 기반을 정리했습니다.
- 폐쇄형 사내 마일리지 몰을 위한 실무형 서비스 기반을 팀 프로젝트 안에서 구축했습니다.
Foundation CI/CD + Cloud
수료 및 교육
데브옵스 환경의 모니터링과 테스트 실전구현
LLOYDK
Elastic 기반 DevOps 모니터링 및 테스트 실무 교육을 이수했습니다.
Multi Cloud Orchestration Program
5Works
HashiCorp 기반 멀티 클라우드 오케스트레이션 및 IaC 교육을 이수했습니다.
기업주도 집중프로젝트 교육
디케이테크인
보안 및 DevOps 엔지니어링 중심의 기업 연계 실무 교육에 참여했습니다.
소프트웨어 전문인재 Micro Degree
가천대학교
소프트웨어 전문인재 양성을 위한 마이크로디그리 과정을 이수했습니다.
추가 정보
핵심 기술: Python · PyTorch · HuggingFace · Docker · AWS
관심 축: Data Systems · AI-DLC/MLOps · NLP/LLM
기술 강점: 그래프 기반 데이터 시스템 · ML Observability · NLP/LLM 평가 · 코드 재현성 · 자동화