케이스 스터디
Contexta가 수작업 복원 대신 오래 남고 질의 가능한 실행 증거를 제공하는 방식을 보여주는 시나리오입니다.
각 케이스는 한 명의 실무자가 실제 질문을 받는 상황으로 시작합니다.
문서 안에는 분석용 예제 코드, 바로 뒤 결과 예시, 코드 조각별 설명, 그리고 그 증거를 바탕으로 질문에 답하는 최종 답변이 함께 제공됩니다.
직접 실행할 때는 각 케이스의 seed 스크립트로 .contexta에 예제 기록을 만든 뒤, analyze 스크립트로 이미 기록된 증거를 읽어 분석합니다.
실험 추적
| 케이스 | 페르소나 | 답하는 질문 |
|---|---|---|
| 01: 가장 좋은 모델을 찾아봅시다 | Sara | 흩어진 HPO 실행 중 최고 후보와 근거를 찾습니다. |
| 02: 성능 저하의 원인을 찾아봅시다 | James | 정확도 하락이 데이터, 코드, 환경 중 어디에서 비롯됐는지 확인합니다. |
프로덕션 모니터링
| 케이스 | 페르소나 | 답하는 질문 |
|---|---|---|
| 03: 어느 단계에 문제가 있을까요? | Nina | 성공으로 표시된 파이프라인에서 실제로 저하된 단계를 찾습니다. |
| 04: 배포 모델의 출처를 찾아봅시다 | Carlos | 프로덕션 배포를 만든 실행, 데이터셋, 이전 배포와의 차이를 추적합니다. |
MLOps 및 배포
| 케이스 | 페르소나 | 답하는 질문 |
|---|---|---|
| 05: 배포 게이트를 자동화합시다 | Priya | 배포 후보가 필수 메트릭과 회귀 검사를 통과했는지 판단합니다. |
| 06: 감사 증거를 모아봅시다 | Elena | 감사 대상 모델의 데이터셋, 메트릭, 환경, 이전 버전 대비 차이를 증거로 제출합니다. |
데이터 엔지니어링
| 케이스 | 페르소나 | 답하는 질문 |
|---|---|---|
| 07: 조용한 실패를 찾아봅시다 | David | 종료 코드는 성공이지만 출력 품질이 망가진 야간 배치를 찾습니다. |
| 08: 오염된 데이터를 찾아봅시다 | Sofia | 벤더 API 오염 윈도우에 포함된 학습 실행과 격리 대상을 찾습니다. |
AI 및 LLM 엔지니어링
| 케이스 | 페르소나 | 답하는 질문 |
|---|---|---|
| 09: 실패한 평가를 찾아봅시다 | Mia | 평균 점수 뒤에 숨어 있는 실패 프롬프트와 기록 ID를 찾습니다. |
| 10: RAG의 어느 파트가 문제일까요? | Noah | RAG 품질 하락이 retrieve, rerank, generate, evaluate 중 어디서 시작됐는지 좁힙니다. |
팀 운영 및 납품
| 케이스 | 페르소나 | 답하는 질문 |
|---|---|---|
| 11: 프로젝트 온보딩 자료를 만듭시다 | Alex | 신규 엔지니어 Jamie에게 실행, 배포, 최고 모델, 리포트를 요약합니다. |
| 12: 품질 인증서를 만들어봅시다 | Tom | FinanceBank Corp에 제출할 모델 품질 기준 통과 여부와 인증서 증거를 만듭니다. |