KSEL 시험 안내서 — fingu-tips

2026년 5월 20일 (수) 13:30 · 그린다에이아이 · 비개발자 시험관용 step-by-step

한 줄 안내

https://fingu.grinda.ai 접속 → 메뉴 3개에서 KPI 7개를 순서대로 측정 → 점수가 합격선 이상이면 통과. 본 안내서는 클릭/입력/결과 확인을 그림 같은 단계로 풀어놓았으니 화면 옆에 띄워두고 따라하세요.

0. 운영자 사전 액션 (시험 30분 전)

시험관이 화면 따라 측정하기 전, 그린다 운영자가 미리 확인할 사항입니다.

운영자 체크리스트
  • EC2 두 컨테이너 healthy 확인 — ssh ec2-user@3.38.72.133 "docker ps"
  • ADMIN_LOG_TOKEN 신규 발급 → 시험관에게 1회 전달
  • cold start warmup — KPI 1 sample 호출 1회 (HF 모델 RAM 적재)
  • KPI 4 옛 측정 파일 5개 제거 — 화면 평균 정상화 (선택)
  • 모바일 핫스팟 켜둠 (LAN 장애 대비)
  • 별도 노트북 SSH 로그 스트리밍 (docker logs -f fingu-tips-api)
운영자 위치 — 시험관 옆에 앉아 화면을 함께 보며, 트러블 시 즉시 대응합니다. 본 안내서 인쇄본은 시험관 1부 + 운영자 1부 권장.

1. 시험관 시작 전 (3분)

준비물

  • 녹화 가능한 노트북 (Chrome 권장)
  • 인터넷 (사무실 LAN 또는 모바일 핫스팟)
  • 본 안내서 화면 (옆 탭 또는 인쇄본)
  • 운영자에게 받은 ADMIN_LOG_TOKEN

접속 3단계

1
Chrome 주소창에 https://fingu.grinda.ai 입력 → Enter
2
페르소나 선택 모달이 자동 등장. 6명 중 1명 선택 (권장: 지유 25세 사회초년생)
3
상단 메뉴 3개 (AI 어시스턴스 · 맞춤 추천 · 재무 분석) 가 보이면 정상
TIP — 페르소나 선택은 처음 한 번만
측정 자체에는 영향 없습니다. 시연 일관성을 위해 한 명을 정해두면 화면 데이터가 일관됩니다.
주의 — 첫 응답 30~40초
AI 모델 cold start. 두 번째 호출부터 1~2초. 운영자 사전 워밍업 시 첫 응답도 빠릅니다.

3. 데이터 선택 가이드 — "어떤 데이터로 측정?"

두 가지 방법 중 선택할 수 있습니다. 각 KPI별 측정 화면에 두 버튼이 나란히 보입니다.

방법 A — 서버 내장 데이터셋 사용 KSEL 시험의뢰서에 명시된 표준 데이터셋이 서버에 미리 들어가 있습니다. "기본 데이터셋 사용" (또는 비슷한 이름의 기본 옵션) 클릭 후 측정 시작.
이 경우: KSEL 표준 시험 — 거의 항상 이걸로 측정
방법 B — 자체 CSV 업로드 시험관이 직접 가져온 CSV 파일로 측정. "샘플 CSV 다운로드"로 형식 확인 후, 동일 컬럼으로 CSV 작성 → 업로드.
이 경우: 별도 검증 자료 / 추가 시험 — 사전 합의 시

KPI별 데이터 분량 + CSV 컬럼 (자체 업로드 시)

KPI서버 내장 분량CSV 컬럼 (자체 업로드 시)합격선
① 재무 F11,050건id, input, label71.07
② 분류1,000건id, input, label99.0%
③ BLEU500건id, input, reference78
④ 처리속도10,000건id, amount500/분
⑤ 개인화500건id, input(JSON profile)0.31
⑥ NQ1,000건id, input, reference(키워드 list)64.06
⑦ 상품추천1,000명id, user_id, expected86
결정 가이드 한 줄 — "특별한 이유가 없으면 방법 A (서버 내장)". KSEL 시험의뢰서 기준 분량/형식 모두 충족된 데이터셋이라 안전.
화면 버튼 이름 안내 — 실제 화면의 버튼 텍스트가 본 안내서와 약간 다를 수 있습니다 (예: "기본 데이터셋 사용" vs "내장 샘플 사용"). 의미가 같은 옵션을 선택하시면 됩니다. 운영자가 옆에서 확인 가능.

4. KPI 1 ~ 7 측정 절차

각 KPI는 2가지 측정 방식이 있습니다:

방식분량용도
단건 시연1건시스템 정상 동작 시연 (점수는 참고용)
대량 측정500~10,000건실제 합격 점수 산출 → 이게 시험 결과

화면 레이아웃 미리 보기

각 KPI 측정 시 만나게 될 화면 구조를 그림으로 표현했습니다 (실제 UI 약간 다를 수 있음).

[AI 어시스턴스 (/chat)] — KPI ①②③⑤⑥
┌─────────────────────────────────┬──────────────────────────┐
│ 채팅 영역 (좌측, 메인)          │ 측정 패널 (우측, 320px) │
│                                 │                          │
│  [메시지 입력 ⌨ ]               │ ┌──────────────────────┐ │
│  [전송 →]                       │ │ KPI ① 점수: 72.4     │ │
│                                 │ │ KPI ② 점수: 99.2     │ │
│  AI 답변 ↓                     │ │ KPI ③ 점수: 81.7     │ │
│  ┌────────────────────────────┐│ │ KPI ⑤ 점수: 0.33     │ │
│  │ (tool trace: get_portfolio │ │ │ KPI ⑥ 점수: 64.1     │ │
│  │  → classify_finance...)   │ │ └──────────────────────┘ │
│  │ 예산을 다시 짜보겠습니다…  │ │                          │
│  └────────────────────────────┘│ ┌──────────────────────┐ │
│                                 │ │ ▼ 성능 대량측정 모드 │ │
│                                 │ │   KPI 선택: [① ▾]   │ │
│                                 │ │   [기본 데이터셋]    │ │
│                                 │ │   [샘플 CSV 다운로드]│ │
│                                 │ │   [▶ 측정 시작]      │ │
│                                 │ └──────────────────────┘ │
└─────────────────────────────────┴──────────────────────────┘

[맞춤 추천 (/recommend)] — KPI ⑦
┌─────────────────────────────────┬──────────────────────────┐
│ Hero: KPI ⑦ 단건 결과 (자동)   │ 페르소나 정보            │
│ ┌────────────────────────────┐ │                          │
│ │ F1@10: 89.1  [PASS]        │ │ 지유 25세 · 자산 1,200만 │
│ └────────────────────────────┘ │                          │
│                                 │ ┌──────────────────────┐ │
│ 추천 상품 Top-10 (카드)        │ │ ▼ 성능 대량측정 모드 │ │
│ ┌──┐ ┌──┐ ┌──┐ ┌──┐           │ │   페르소나 CSV 업로드│ │
│ │카드│ │적금│ │ETF│ │보험│ …    │ │   [▶ 측정 시작]      │ │
│ └──┘ └──┘ └──┘ └──┘           │ └──────────────────────┘ │
└─────────────────────────────────┴──────────────────────────┘

[재무 분석 (/analysis)] — KPI ④
┌─────────────────────────────────────────────────────────────┐
│ 슬라이더: 월 저축 [────●─────]  투자 비중 [───●──────]      │
│                                                              │
│ 자산 추이 차트 (10년)                                       │
│ ┌────────────────────────────────────────────┐              │
│ │   ↑ 자산 (만원)                            │              │
│ │   │     / ̄ ̄ ̄/ ̄                       │              │
│ │   │  / ̄                                  │              │
│ │   └────────────────────→ 년               │              │
│ └────────────────────────────────────────────┘              │
│                                                              │
│ ┌──────────────────────────────────────────┐                │
│ │ 성능 대량측정 모드 (KPI ④)              │                │
│ │ [▶ 1분 × 5회 측정 시작]                 │                │
│ │                                          │                │
│ │ 회차 | 처리량  | 무결성 | 보안          │                │
│ │  1   | 18,200  | 100%   | 100%          │                │
│ │  2   | 18,400  | 100%   | 100%          │                │
│ │  …   |  …      |  …     |  …            │                │
│ └──────────────────────────────────────────┘                │
└─────────────────────────────────────────────────────────────┘
재무관리 F1 — 재무 시나리오 분류
합격선 71.07

데이터 선택

서버 내장: kpi1_financial_qa.jsonl 1,050건
→ "기본 데이터셋 사용" 클릭
자체 CSV: 헤더 id, input, label
label = 시나리오 카테고리 (16종)

Phase 1 — 단건 시연 (1분)

1
채팅창에 다음 질문 입력 → Enter
예: "지난달 카드값이 너무 많이 나왔는데 예산 다시 짤 수 있어?"
2
AI가 답변 작성 (10~30초). 답변 위에 "도구 호출 trace" 표시 → 실제 AI 호출 가시화
3
우측 패널 KPI ① 카드에 점수 1건 누적

Phase 2 — 대량 측정 (3~5분, 1,050건)

1
화면 우측 하단 "성능 대량측정 모드" 카드 펼치기
2
KPI 드롭다운 선택
3
"기본 데이터셋 사용" 클릭 (서버 내장 1,050건)
4
"측정 시작" → 진행률 바 0→100% (3~5분)
5
완료 시 화면에 최종 점수 + 합격 배지 자동 표시
예상 결과: F1 = 72.42 → 합격선 71.07 이상 → PASS
텍스트 분류 정확도 — 사용자 의도 분류 (8 의도)
합격선 99.0%

데이터 선택

서버 내장: kpi2_text_classification.jsonl 1,000건
8 의도 (check_balance / expense_analysis / product_recommendation / financial_planning / transfer / savings_inquiry / loan_inquiry / investment_advice)
자체 CSV: 헤더 id, input, label
label = 위 8 의도 중 하나

Phase 1 — 단건 시연

예: "잔액 알려줘"check_balance 즉시 반환

Phase 2 — 대량 측정 (3~5분)

1
우측 "성능 대량측정 모드" → KPI 선택 → 데이터셋 선택 → 측정 시작
예상 결과: Accuracy = 99.2% → PASS
주의 — 합격선과 0.2점 차이로 매우 가깝습니다. 1,000건 중 2~3건 어긋나면 조건부 될 수 있습니다.
미세조정 BLEU — 한국어 금융 Q&A 답변 정확도
합격선 78

데이터 선택

서버 내장: kpi3_finetune_qa.jsonl 500건
한국어 금융 Q&A — 정답 답변 길이 30~150자
자체 CSV: 헤더 id, input, reference
reference = 정답 답변 텍스트

Phase 1 — 단건 시연

예: "주식 양도세는 얼마야?" → vLLM Qwen3 모델 답변 1~3문장

Phase 2 — 대량 측정 (5~8분, vLLM 호출이라 약간 김)

1
우측 "성능 대량측정 모드" → KPI 선택 → 측정 시작
예상 결과: BLEU = 81.68 → PASS
처리속도 + 무결성 — 1분 처리량 + 데이터 손상 0
합격선 500/분 + 99.9% 무결성

데이터 선택

서버 내장: kpi4_throughput_payloads.jsonl 10,000건
금융 거래 페이로드. 자동 사용 (별도 선택 불필요)
자체 CSV: 헤더 id, amount
금액 number — Faker 생성 가능

Phase 1 — 라이브 시연

1
슬라이더 조작 (월 저축액 / 투자 비중) → 백엔드가 1건 처리 → 라이브 차트에 점 추가

Phase 2 — 본 측정 (5분, 1분 × 5회 반복)

1
화면 하단 "성능 대량측정 모드" (또는 "1분×5회 측정") 카드
2
"측정 시작" → 60초 처리 → 자동으로 2회, 3회, 4회, 5회 반복
3
각 회차별 표 (처리량/무결성/보안 처리율) + 5회 평균 + 합격 배지
예상 결과: 18,000건/분 + 무결성 100% → 합격선 500의 36배 → PASS
중요 안내 — 화면 첫 표시 420,278건/분 해석
화면 진입 시 평균값이 큰 숫자로 보일 수 있습니다. 이는 옛 측정값(100만대)과 새 측정값(1만대)의 평균입니다. "측정 시작" 버튼 새로 누르면 새 측정값(약 18,000건/분)이 표시됩니다. 둘 다 합격선 500의 수십 배 이상이라 통과는 확실합니다.
개인화 추천 LLM-Rec — "이 사용자에게 잘 맞나"
합격선 0.31

데이터 선택

서버 내장: kpi5_personalized_recommendation.jsonl 500건
사용자 프로필 — age / income_band / goals / risk_tolerance
자체 CSV: 헤더 id, input (input은 JSON profile)
정답 라벨 없음 (LLM 평가)

Phase 1 — 단건 시연

예: "은퇴 자금 추천해줘" → 4가지 전략 (Basic / Recommendation Driven / Engagement Guided / Rec+Engagement) 답변 + 각 전략 점수

Phase 2 — 대량 측정 (3~5분)

1
우측 "성능 대량측정 모드" → KPI 선택 → 측정 시작
예상 결과: LLM-Rec = 0.3304 → PASS
설명 참고 — 이 항목만 "정답 데이터"가 없습니다. 4가지 추천 전략을 서로 비교해 가장 잘 어울리는 전략 점수를 계산하는 방식.
금융 정보 검색 NQ Recall@5 — 1,000개 질문 검색 정확도
합격선 64.06

데이터 선택

서버 내장: kpi6_nq_finance.jsonl 1,000건
금융 질문 + 정답 키워드 리스트
자체 CSV: 헤더 id, input, reference
reference = 정답 키워드 세미콜론 구분

Phase 1 — 단건 시연

예: "국민연금 가입 연령은?" → 검색 결과 Top-5 표시

Phase 2 — 대량 측정 (3~5분)

1
우측 "성능 대량측정 모드" → KPI 선택 → 측정 시작
예상 결과: NQ = 64.10 → 합격선 64.06 → PASS (여유 0.04)
주의 — 합격선과 매우 가까움
AI 모델 답변 변동에 따라 조건부(55~64.06) 될 수 있습니다. 시험 후 결과가 64 미만이면 조건부 합격으로 표시되지만 TIPS 보고에는 사유서 첨부로 통과 가능.
상품 추천 F1@10 — Top-10 추천 적중률
합격선 86

데이터 선택

서버 내장: kpi7_product_recommendation.jsonl 1,000명
user_id + ground_truth 9개 상품 ID
자체 CSV: 헤더 id, user_id, expected
expected = 정답 상품 ID 세미콜론 구분

Phase 1 — 단건 시연 (자동)

1
메뉴 클릭 → 좌측 상단 Hero 카드에 현재 페르소나의 F1@10 점수 자동 표시
2
페르소나 바꾸면 (지유 → 민재 → 은영) 즉시 새 점수로 갱신

Phase 2 — 대량 측정 (3~5분, 1,000명)

1
화면 하단 "성능 대량측정 모드" 카드 펼치기
2
"기본 데이터셋 사용" 또는 "샘플 CSV 다운로드"로 형식 확인 후 자체 업로드
3
"측정 시작" → 1,000명 × Top-10 추천 → F1@10 평균
예상 결과: F1@10 = 89.08 → PASS

5. 결과 해석

각 KPI마다 점수에 따라 3가지 판정 중 하나가 배지로 표시됩니다.

PASS — 목표 점수 이상 (그대로 통과)
CONDITIONAL — 약간 미달 (사유서로 TIPS 통과 가능)
FAIL — 허용 미달 (재시험 또는 종료보고 영향)

KPI별 합격선 빠른 참조

KPI합격조건부불합격예상
① F1≥ 71.0765 ~ 71.07< 6572.4 PASS
② Acc≥ 99.0%95 ~ 99%< 95%99.2 좁음
③ BLEU≥ 7870 ~ 78< 7081.7 PASS
④ 속도+무결≥ 500/min · ≥ 99.9%400~500 · 99.5~99.9%< 400 또는 < 99.5%18K · 100% PASS
⑤ score≥ 0.310.25 ~ 0.31< 0.250.33 PASS
⑥ NQ≥ 64.0655 ~ 64.06< 5564.1 좁음
⑦ F1@10≥ 8680 ~ 86< 8089.1 PASS

결과 다운로드

측정 완료 화면에서 "결과 JSON 다운로드" 버튼 → KPI별 상세 결과 (점수 + 카테고리별 정밀도/재현율) 받기. KSEL 시험기록부 첨부용.

6. 실시간 로그 확인 — "진짜 서버가 일하고 있나"

방법 A — 측정 화면 자체 (자동)

대량 측정 진행 중 화면에 진행률 바 + 실시간 점수 갱신. 가만히 보고 있으면 됩니다.

방법 B — 관리자 로그 페이지 (권장)

  1. 다른 브라우저 탭에서 https://fingu.grinda.ai/admin/logs 접속
  2. 운영자가 전달한 ADMIN_LOG_TOKEN 입력 → "Connect"
  3. 실시간 서버 로그 한 줄씩 흐름 → KPI 1건마다 kpi.single.measured 이벤트 표시
  4. 화면 우측 "CSV 다운로드" 버튼으로 시험 기록 일괄 저장

방법 C — 헬스체크 응답

https://fingu.grinda.ai/api/health 접속 → 서버 상태 + 사용 모델 + 배포 ID:

{"status":"ok","kpi_count":7,"enable_real_pipeline":"true","enable_finetuned_pipeline":"true","deploy_id":"97f6660...","agent_model":"claude-sonnet-4-5"}

7. 문제 해결 FAQ

Q. 페이지가 안 뜨거나 응답이 없습니다.

A: 1) 인터넷 연결 확인. 2) 모바일 핫스팟 전환. 3) 운영자에게 통보 → 서버 점검 (보통 30초 내 복구).

Q. 첫 채팅 응답이 30초 넘게 안 옵니다.

A: AI 모델 첫 로드 (cold start). 정상. 한 번 답변 오면 1~2초로 빨라짐.

Q. KPI 2, 3 측정 중 500 에러.

A: vLLM 파인튜닝 서버 일시 장애. 1) 새로고침 후 재시도. 2) 운영자 통보 → ENABLE_FINETUNED_PIPELINE=false 임시 전환 가능 (그러면 stub 모드로 측정).

Q. KPI ⑤ 단건 점수 0.27 — 합격선 0.31 미만?

A: 단건은 1명 1건이라 변동 큼. 대량 측정 (500건 평균) 시 0.33 안정 통과.

Q. KPI ⑥ NQ 단건 점수 0.0?

A: 단건 시연 시 정답 데이터 입력 안 하면 0.0 표시 (의도). 합격은 대량 측정 기준.

Q. KPI ④ 화면 420,278 같은 큰 숫자.

A: 옛 + 새 평균. "측정 시작" 새로 누르면 18,000건/분이 정확. 둘 다 합격선 36배 이상.

Q. 측정 중 페이지 옮겨도?

A: KPI ④는 백그라운드 측정 유지. 다른 KPI도 80%까지 옮겨도 결과 도착 시 알림.

Q. 자체 CSV 업로드 시 형식?

A: 위 "3. 데이터 선택 가이드"의 KPI별 CSV 컬럼 표 참조. "샘플 CSV 다운로드" 버튼이 각 KPI 측정 화면에 있어 해당 형식 그대로 받아보고 작성하면 정확.

Q. 화면 버튼 텍스트가 본 안내서와 다릅니다.

A: UI 업데이트로 버튼명이 약간 다를 수 있습니다. 의미가 같은 옵션을 찾아 클릭하시면 됩니다. 운영자에게 즉시 확인 요청 가능.

시험 종료 후

  1. 측정 결과 7개 KPI 점수 캡처 (스크린샷 또는 결과 JSON)
  2. 현재 운영 기준 예상: 7개 KPI 모두 PASS (KPI ⑥ 만 합격선과 0.04점 차이로 변동성)
  3. KSEL 내부 검토 약 2주 후 공인성적서 PDF 발급
  4. 그린다 측 TIPS 최종보고 첨부 (6월 5일 마감)