파싱 및 청킹
업로드 후 문서가 어떻게 처리되는지 알아보세요: 텍스트로 추출, 청크로 분할, 검색을 위한 인덱싱.
참고: 지식 베이스 개요
문서 처리 파이프라인
파일을 업로드하면 세 가지가 일어납니다:
- 파싱 — 문서가 구조화된 텍스트로 추출됨
- 청킹 — 텍스트가 검색 가능한 세그먼트로 분할됨
- 임베딩 — 청크가 벡터로 변환되고 인덱싱됨
파싱된 콘텐츠 검사
파일 목록의 파일을 클릭하여 처리 방식을 검사하세요.
추출된 텍스트 탭

파서 엔진의 전체 텍스트 출력을 표시합니다. 이것이 청킹되고 임베딩될 원시 콘텐츠입니다.
확인 사항:
- ✅ 모든 관련 텍스트가 추출됨
- ✅ 형식을 읽을 수 있음
- ✅ 깨진 문자나 인코딩 오류 없음
청크 탭

벡터 데이터베이스에 저장된 각 개별 세그먼트를 표시합니다. 이것이 검색을 위해 문서가 인덱싱되는 방법입니다.
확인 사항:
- ✅ 청크가 적절한 크기 (너무 작거나 크지 않음)
- ✅ 청크가 완전한 생각을 포착함
- ✅ 청크 간 컨텍스트가 보존됨
청킹 전략
문서를 분할하는 방법을 선택할 수 있습니다. 각 전략은 다른 장점이 있습니다:
고정 크기 (전략 A)
- 방법: 균일한 크기의 세그먼트로 분할
- 최적: 균일한 콘텐츠 (기사, 보고서)
- 설정: 청크 크기, 겹침
예시: 5000 단어 기사를 50 단어 겹침이 있는 500 단어 청크로 분할
부모-자식 (전략 E)
- 방법: 부모 청크 (큰 컨텍스트)와 자식 청크 (세부) 생성
- 최적: 복잡한 계층적 문서 (책, 사양서)
- 설정: 부모/자식 청크 크기, 겹침
예시: 책 챕터가 부모 청크 (전체 챕터)이자 자식 청크 (단락)로 분할됨
HTML 인식 (전략 H)
- 방법: HTML 구조 존중 (제목, 섹션, 목록)
- 최적: 웹 콘텐츠, 구조화된 문서
- 설정: 청크 크기, 최소 크기, 겹침, 컨텍스트 창
예시: 웹사이트가 콘텐츠를 분할할 때 제목 계층 구조를 존중
청킹 설정
지식 베이스 설정에서 조정:
| 설정 | 목적 |
|---|---|
| 전략 | 사용할 분할 알고리즘 |
| 청크 크기 | 각 세그먼트의 크기 (토큰 또는 문자) |
| 최소 크기 | 최소 청크 크기 |
| 겹침 | 청크 간 겹침 (컨텍스트용) |
| 컨텍스트 창 | 청크 주변 추가 컨텍스트 |
팁: 프로덕션 지식 베이스에 적용하기 전에 플레이그라운드에서 설정을 테스트하세요.
설정 테스트
플레이그라운드를 사용하여:
- 샘플 문서 업로드
- 다양한 청킹 전략 테스트
- 결과 청크 검토
- 만족스러우면 프로덕션에 설정 적용
