플레이그라운드

플레이그라운드는 문서 처리 및 검색 방식을 최적화하기 위한 테스트 환경입니다. 프로덕션 지식 베이스에 적용하기 전에 샘플 파일로 설정을 테스트하세요.

플레이그라운드를 사용하는 이유?

지식 베이스에 문서를 업로드하기 전에:

  • ✅ 샘플 파일로 파서 엔진 테스트
  • ✅ 다양한 청킹 전략 시도
  • ✅ 정확도를 위한 검색 설정 조정
  • ✅ 문서 인덱싱 방식 미리 보기
  • ✅ 프로덕션 사용 전에 설정 개선

플레이그라운드 접근

  1. 워크스페이스 → 플레이그라운드로 이동
  2. 3단계 테스트 인터페이스가 표시됩니다

파싱, 청킹, 검색 단계가 있는 플레이그라운드 인터페이스

1단계: 파서 테스트

콘텐츠 추출 엔진을 테스트하세요.

파일 업로드

  1. "파일 업로드" 클릭 또는 드래그 앤 드롭
  2. 문서 선택 (PDF, DOCX, TXT 등)
  3. 파일이 파싱 준비됨

파서 실행

  1. "처리" 클릭하여 텍스트 추출
  2. 파서가 문서를 구조화된 텍스트로 변환
  3. 결과가 결과 패널에 표시됨

추출된 텍스트 검토

추출된 텍스트 탭은 다음을 표시합니다:

  • 파서의 전체 원시 텍스트 출력
  • 문서에서 추출된 모든 콘텐츠
  • 형식과 구조 보존

확인 사항:

  • ✅ 모든 관련 텍스트가 추출됨
  • ✅ 깨진 문자나 인코딩 오류 없음
  • ✅ 형식을 읽을 수 있음
  • ❌ 콘텐츠가 없나요? 파서가 이 형식을 지원하지 않을 수 있습니다

2단계: 청킹 테스트

문서가 세그먼트로 분할되는 방법을 테스트하세요.

청킹 설정 구성

다음 파라미터를 조정하세요:

설정목적
청킹 전략분할 방법: 고정 크기, 부모-자식, HTML 인식
청크 크기각 세그먼트의 크기 (토큰 또는 문자)
최소 크기최소 청크 크기
겹침청크 간 겹침 (컨텍스트용)
컨텍스트 창청크 주변 추가 컨텍스트

청킹 전략

고정 크기 (전략 A)

  • 균일한 크기의 세그먼트로 분할
  • 단순하고 예측 가능
  • 최적: 균일한 콘텐츠

부모-자식 (전략 E)

  • 부모 청크 (큰 컨텍스트)와 자식 청크 (세부) 생성
  • 계층적 문서에 더 적합
  • 최적: 섹션이 있는 복잡한 문서

HTML 인식 (전략 H)

  • HTML 구조 존중 (제목, 섹션, 목록)
  • 문서 계층 구조 보존
  • 최적: 웹 콘텐츠, 구조화된 문서

청킹 실행

  1. 위의 설정 조정
  2. "청킹 실행" 클릭
  3. 청크 패널에 결과 표시

설정과 결과가 있는 청킹 테스트

청크 검토

청크 탭은 다음을 표시합니다:

  • 생성된 각 개별 세그먼트
  • 청크 경계
  • 청크 크기와 내용

확인 사항:

  • ✅ 청크가 적절한 크기 (너무 작거나 크지 않음)
  • ✅ 청크가 완전한 생각을 포착함
  • ❌ 청크가 너무 세분화됨? 크기 증가
  • ❌ 청크가 너무 큼? 크기 감소

3단계: 검색 설정

쿼리에 대한 문서 검색 방법을 테스트하세요.

검색 설정 구성

설정목적
하이브리드 검색벡터 + 키워드 검색 결합
Top K검색할 청크 수
Top K 리랭커정확도를 위해 재순위 지정할 수
관련성 임계값결과를 포함하기 위한 최소 점수
BM25 가중치벡터 (0)와 키워드 (1) 검색 간 균형
쿼리 생성더 나은 리콜을 위한 여러 쿼리 생성
리랭킹 모델결과 재점수를 위한 모델

검색 이해하기

벡터 검색

  • 쿼리를 벡터로 변환
  • 데이터베이스에서 유사한 청크 찾기
  • 시맨틱 의미에 적합

BM25 검색 (키워드)

  • 정확한 용어와 구문 매칭
  • 특정 용어에 적합

하이브리드 검색

  • 두 가지 접근 방식 결합
  • 어느 하나보다 정확도 높음

검색 테스트 실행

  1. 위의 설정 구성
  2. 입력 필드에 검색 쿼리 입력
  3. "검색" 클릭
  4. 결과 즉시 표시

쿼리 입력과 결과가 있는 검색 테스트

결과 검토

각 결과는 다음을 표시합니다:

  • 청크 텍스트 — 검색된 세그먼트
  • 소스 — 어느 파일에서 왔는지
  • 점수 — 관련성 점수 (높을수록 더 관련성 높음)
  • 순위 — 결과에서의 위치

검색 조정

결과가 좋지 않을 때:

누락된 결과의 경우:

  • Top K 증가 (더 많은 청크 검색)
  • BM25 가중치 조정
  • 쿼리 생성 활성화

관련 없는 결과의 경우:

  • Top K 감소 (노이즈 줄이기)
  • 관련성 임계값 증가
  • 리랭킹 활성화
  • 다른 BM25 가중치 시도

지식 베이스에 설정 적용

플레이그라운드에서 설정을 최적화한 후:

  1. 지식 베이스로 이동
  2. 설정 클릭
  3. 동일한 설정 적용:
    • 청킹 설정은 플레이그라운드 2단계와 일치
    • 검색 설정은 플레이그라운드 3단계와 일치

새로 업로드되는 문서에 최적화된 설정이 적용됩니다.

문제 해결

파서 실패

원인: 지원하지 않는 파일 형식이거나 손상됨.

해결 방법: 다른 형식을 시도하세요. 모두 실패하면 .txt로 변환하세요.

청크가 너무 작거나 큼

원인: 청크 크기 설정이 콘텐츠와 맞지 않음.

해결 방법: 청크 크기 파라미터를 조정하세요. 청크당 500-2000 토큰을 목표로 하세요.

검색 결과가 없음

원인: 관련성 임계값이 너무 높거나 Top K가 너무 낮음.

해결 방법: 관련성 임계값을 낮추거나 Top K를 늘리세요.


다음 단계:

  1. 지식 베이스 만들기 — 최적화된 설정 적용
  2. 커스텀 모델 구축 — 모델에 지식 베이스 사용
  3. 채팅에서 테스트 — 실제 검색 보기