파싱 및 청킹

업로드 후 문서가 어떻게 처리되는지 알아보세요: 텍스트로 추출, 청크로 분할, 검색을 위한 인덱싱.

참고: 지식 베이스 개요

문서 처리 파이프라인

파일을 업로드하면 세 가지가 일어납니다:

  1. 파싱 — 문서가 구조화된 텍스트로 추출됨
  2. 청킹 — 텍스트가 검색 가능한 세그먼트로 분할됨
  3. 임베딩 — 청크가 벡터로 변환되고 인덱싱됨

파싱된 콘텐츠 검사

파일 목록의 파일을 클릭하여 처리 방식을 검사하세요.

추출된 텍스트 탭

추출된 텍스트와 파싱된 콘텐츠를 보여주는 파일 검사 패널

파서 엔진의 전체 텍스트 출력을 표시합니다. 이것이 청킹되고 임베딩될 원시 콘텐츠입니다.

확인 사항:

  • ✅ 모든 관련 텍스트가 추출됨
  • ✅ 형식을 읽을 수 있음
  • ✅ 깨진 문자나 인코딩 오류 없음

청크 탭

데이터베이스에 저장된 개별 텍스트 세그먼트를 보여주는 청크 탭

벡터 데이터베이스에 저장된 각 개별 세그먼트를 표시합니다. 이것이 검색을 위해 문서가 인덱싱되는 방법입니다.

확인 사항:

  • ✅ 청크가 적절한 크기 (너무 작거나 크지 않음)
  • ✅ 청크가 완전한 생각을 포착함
  • ✅ 청크 간 컨텍스트가 보존됨

청킹 전략

문서를 분할하는 방법을 선택할 수 있습니다. 각 전략은 다른 장점이 있습니다:

고정 크기 (전략 A)

  • 방법: 균일한 크기의 세그먼트로 분할
  • 최적: 균일한 콘텐츠 (기사, 보고서)
  • 설정: 청크 크기, 겹침

예시: 5000 단어 기사를 50 단어 겹침이 있는 500 단어 청크로 분할

부모-자식 (전략 E)

  • 방법: 부모 청크 (큰 컨텍스트)와 자식 청크 (세부) 생성
  • 최적: 복잡한 계층적 문서 (책, 사양서)
  • 설정: 부모/자식 청크 크기, 겹침

예시: 책 챕터가 부모 청크 (전체 챕터)이자 자식 청크 (단락)로 분할됨

HTML 인식 (전략 H)

  • 방법: HTML 구조 존중 (제목, 섹션, 목록)
  • 최적: 웹 콘텐츠, 구조화된 문서
  • 설정: 청크 크기, 최소 크기, 겹침, 컨텍스트 창

예시: 웹사이트가 콘텐츠를 분할할 때 제목 계층 구조를 존중

청킹 설정

지식 베이스 설정에서 조정:

설정목적
전략사용할 분할 알고리즘
청크 크기각 세그먼트의 크기 (토큰 또는 문자)
최소 크기최소 청크 크기
겹침청크 간 겹침 (컨텍스트용)
컨텍스트 창청크 주변 추가 컨텍스트

팁: 프로덕션 지식 베이스에 적용하기 전에 플레이그라운드에서 설정을 테스트하세요.

설정 테스트

플레이그라운드를 사용하여:

  1. 샘플 문서 업로드
  2. 다양한 청킹 전략 테스트
  3. 결과 청크 검토
  4. 만족스러우면 프로덕션에 설정 적용

설정과 결과를 보여주는 플레이그라운드 청킹 테스트