케이스 스터디

Contexta가 수작업 복원 대신 오래 남고 질의 가능한 실행 증거를 제공하는 방식을 보여주는 시나리오입니다.

각 케이스는 한 명의 실무자가 실제 질문을 받는 상황으로 시작합니다.

문서 안에는 분석용 예제 코드, 바로 뒤 결과 예시, 코드 조각별 설명, 그리고 그 증거를 바탕으로 질문에 답하는 최종 답변이 함께 제공됩니다.

직접 실행할 때는 각 케이스의 seed 스크립트로 .contexta에 예제 기록을 만든 뒤, analyze 스크립트로 이미 기록된 증거를 읽어 분석합니다.

실험 추적

케이스	페르소나	답하는 질문
01: 가장 좋은 모델을 찾아봅시다	Sara	흩어진 HPO 실행 중 최고 후보와 근거를 찾습니다.
02: 성능 저하의 원인을 찾아봅시다	James	정확도 하락이 데이터, 코드, 환경 중 어디에서 비롯됐는지 확인합니다.

케이스	페르소나	답하는 질문
03: 어느 단계에 문제가 있을까요?	Nina	성공으로 표시된 파이프라인에서 실제로 저하된 단계를 찾습니다.
04: 배포 모델의 출처를 찾아봅시다	Carlos	프로덕션 배포를 만든 실행, 데이터셋, 이전 배포와의 차이를 추적합니다.

케이스	페르소나	답하는 질문
05: 배포 게이트를 자동화합시다	Priya	배포 후보가 필수 메트릭과 회귀 검사를 통과했는지 판단합니다.
06: 감사 증거를 모아봅시다	Elena	감사 대상 모델의 데이터셋, 메트릭, 환경, 이전 버전 대비 차이를 증거로 제출합니다.

케이스	페르소나	답하는 질문
07: 조용한 실패를 찾아봅시다	David	종료 코드는 성공이지만 출력 품질이 망가진 야간 배치를 찾습니다.
08: 오염된 데이터를 찾아봅시다	Sofia	벤더 API 오염 윈도우에 포함된 학습 실행과 격리 대상을 찾습니다.

케이스	페르소나	답하는 질문
09: 실패한 평가를 찾아봅시다	Mia	평균 점수 뒤에 숨어 있는 실패 프롬프트와 기록 ID를 찾습니다.
10: RAG의 어느 파트가 문제일까요?	Noah	RAG 품질 하락이 retrieve, rerank, generate, evaluate 중 어디서 시작됐는지 좁힙니다.

케이스	페르소나	답하는 질문
11: 프로젝트 온보딩 자료를 만듭시다	Alex	신규 엔지니어 Jamie에게 실행, 배포, 최고 모델, 리포트를 요약합니다.
12: 품질 인증서를 만들어봅시다	Tom	FinanceBank Corp에 제출할 모델 품질 기준 통과 여부와 인증서 증거를 만듭니다.