지식 설정

문서 처리 방법에 대한 시스템 전체 기본값을 구성하세요. 개별 지식 베이스는 이 설정을 재정의할 수 있습니다.

참고: 글로벌 설정 개요

지식 설정 접근

  1. 사용자 이름 클릭 (오른쪽 상단)
  2. 글로벌 설정으로 이동
  3. 지식 클릭

파서, 청킹, 검색, 임베딩 구성 패널이 있는 지식 설정 페이지

파서 설정

콘텐츠 추출 엔진 URL — 문서를 텍스트로 파싱하는 서비스.

이 엔진은:

  • PDF, DOCX, 이미지 등을 구조화된 텍스트로 변환
  • 다양한 파일 형식 처리
  • 업로드된 모든 문서에 대해 호출됨

구성:

  • URL — 파서 서비스 엔드포인트
  • 확인 — 저장 전에 연결 테스트

청킹 설정

문서를 세그먼트로 분할하는 방법에 대한 글로벌 기본값:

설정목적
전략고정 크기, 부모-자식, 또는 HTML 인식
청크 크기토큰/문자 단위의 세그먼트 크기
최소 크기최소 청크 크기
겹침세그먼트 간 컨텍스트
컨텍스트 창청크 주변 추가 컨텍스트

팁: 프로덕션 기본값을 변경하기 전에 플레이그라운드에서 설정을 테스트하세요.

검색 설정

문서를 찾는 방법에 대한 글로벌 기본값:

설정목적
하이브리드 검색벡터 + 키워드 검색 활성화
리랭킹 모델관련성 점수를 위한 모델
Top K검색할 청크 수
Top K 리랭커재순위 지정할 수
관련성 임계값결과를 포함하기 위한 최소 점수
BM25 가중치벡터 (0) vs 키워드 (1) 검색 균형

임베딩 설정

임베딩 모델과 엔진 구성:

설정목적
엔진openai, ollama, 또는 azure_openai
모델임베딩 모델 이름
배치 크기한 번에 임베딩할 청크 수
공급자 URL임베딩 서비스 엔드포인트

권장 기본값

대부분의 사용 사례

청킹: 고정 크기
  - 청크 크기: 1000 토큰
  - 겹침: 200 토큰
  - 최소 크기: 200 토큰

검색:
  - 하이브리드 검색: 활성화
  - Top K: 10
  - BM25 가중치: 0.5
  - 리랭킹: 비활성화 (정확도가 중요하지 않은 경우)

기술 문서

청킹: HTML 인식 또는 부모-자식
  - 청크 크기: 1500 토큰
  - 컨텍스트 창: 500 토큰

검색:
  - 하이브리드 검색: 활성화
  - Top K: 15
  - BM25 가중치: 0.3 (더 많은 벡터 검색)
  - 리랭킹: 활성화

웹 콘텐츠

청킹: HTML 인식
  - 청크 크기: 800 토큰
  - 제목 계층 구조 존중

검색:
  - 하이브리드 검색: 활성화
  - BM25 가중치: 0.4

설정 테스트

플레이그라운드를 사용하여 설정 테스트:

  1. 샘플 문서 업로드
  2. 다양한 청킹 전략 시도
  3. 샘플 쿼리로 검색 테스트
  4. 설정 개선
  5. 만족스러우면 프로덕션에 적용

기본값 재정의

개별 지식 베이스는 이 글로벌 설정을 재정의할 수 있습니다:

  1. 지식 베이스로 이동
  2. 설정 클릭
  3. 청킹/검색 설정 수정
  4. 변경 사항이 새 쿼리에 적용됨

더 알아보기: