지식 검색

질문에 답할 때 DO 2.0이 관련 문서를 찾고 사용하는 방법을 알아보세요.

검색 작동 방식

지식 베이스가 있는 모델에 질문할 때:

  1. 쿼리 재작성 — 질문이 여러 표현으로 확장됨
  2. 이중 검색 — 벡터 유사성과 키워드 매칭을 사용하여 검색
  3. 랭킹 — 결과가 관련성 점수로 순위 지정
  4. 리랭킹 (선택 사항) — 리랭커 모델이 정확도를 위해 결과 점수 부여
  5. 컨텍스트 삽입 — 상위 결과가 모델 컨텍스트에 추가됨
  6. 응답 — 모델이 문서 컨텍스트를 사용하여 답변 생성

하이브리드 검색

하이브리드 검색은 두 가지 검색 방식을 결합하여 더 높은 정확도를 제공합니다:

벡터 검색

  • 질문을 시맨틱 벡터로 변환
  • 벡터 데이터베이스에서 유사한 청크 찾기
  • 적합: 의미 관련 문서 찾기
  • 예시: "vacation"이 단어가 다르더라도 "time off"를 찾음

키워드 검색 (BM25)

  • 정확한 용어와 구문 매칭
  • 통계적 텍스트 분석 사용
  • 적합: 특정 용어 찾기
  • 예시: "Q4 earnings"가 정확한 용어 매칭을 찾음

왜 두 가지 모두?

어느 하나만으로는 모든 것을 찾을 수 없습니다. 결합하면:

  • 벡터 검색이 의미 관련 문서를 찾음
  • 키워드 검색이 정확한 용어를 찾음
  • 결과가 포괄적인 커버리지를 위해 병합됨

검색 구성

관리자와 지식 베이스 소유자는 검색 설정을 조정할 수 있습니다:

설정효과
Top K검색할 문서 수 (높을수록 결과 많음)
Top K 리랭커재점수를 부여할 수 (리랭킹은 느림)
BM25 가중치벡터 (0)와 키워드 (1) 검색 간 균형
관련성 임계값결과를 포함하기 위한 최소 점수
리랭킹정확도 향상 활성화/비활성화

검색 테스트

배포 전에 플레이그라운드를 사용하여 검색 테스트:

  1. 샘플 문서 업로드
  2. 청킹 및 검색 설정 구성
  3. 테스트 쿼리 시도
  4. 결과를 기반으로 설정 조정
  5. 만족스러우면 프로덕션 지식 베이스에 설정 적용

좋은 검색을 위한 팁

고품질 문서 업로드

  • 요약이 아닌 원본 소스 사용
  • 문서에 컨텍스트 포함
  • 콘텐츠를 논리적으로 구조화

적절히 구성

  • 샘플 쿼리로 테스트
  • 사용 사례에 맞게 Top K 조정 (보통 10-20)
  • 콘텐츠 유형에 맞게 BM25 가중치 조정

검색된 소스 검토

  • 올바른 문서가 표시되는지 확인
  • 소스가 잘못된 경우 설정 조정
  • 관련 결과가 누락된 경우 Top K 증가

문제 해결

검색된 문서가 관련 없음

원인: 검색 설정이 문서 구조와 맞지 않음.

해결 방법: 플레이그라운드를 사용하여 다양한 항목 테스트:

  • 청킹 전략 (고정 크기 vs 부모-자식 vs HTML 인식)
  • 청크 크기
  • BM25 가중치

관련 문서 누락

원인: Top K가 너무 낮거나 문서에 필요한 콘텐츠가 없음.

해결 방법: Top K를 늘리거나 지식 베이스에 누락된 문서를 업로드하세요.

검색이 매우 느림

원인: 리랭킹이 활성화되어 쿼리가 느려짐.

해결 방법: 리랭킹을 비활성화하거나 Top K를 줄여 속도를 높이세요.


더 알아보기: