지식 검색
질문에 답할 때 DO 2.0이 관련 문서를 찾고 사용하는 방법을 알아보세요.
검색 작동 방식
지식 베이스가 있는 모델에 질문할 때:
- 쿼리 재작성 — 질문이 여러 표현으로 확장됨
- 이중 검색 — 벡터 유사성과 키워드 매칭을 사용하여 검색
- 랭킹 — 결과가 관련성 점수로 순위 지정
- 리랭킹 (선택 사항) — 리랭커 모델이 정확도를 위해 결과 점수 부여
- 컨텍스트 삽입 — 상위 결과가 모델 컨텍스트에 추가됨
- 응답 — 모델이 문서 컨텍스트를 사용하여 답변 생성
하이브리드 검색
하이브리드 검색은 두 가지 검색 방식을 결합하여 더 높은 정확도를 제공합니다:
벡터 검색
- 질문을 시맨틱 벡터로 변환
- 벡터 데이터베이스에서 유사한 청크 찾기
- 적합: 의미 관련 문서 찾기
- 예시: "vacation"이 단어가 다르더라도 "time off"를 찾음
키워드 검색 (BM25)
- 정확한 용어와 구문 매칭
- 통계적 텍스트 분석 사용
- 적합: 특정 용어 찾기
- 예시: "Q4 earnings"가 정확한 용어 매칭을 찾음
왜 두 가지 모두?
어느 하나만으로는 모든 것을 찾을 수 없습니다. 결합하면:
- 벡터 검색이 의미 관련 문서를 찾음
- 키워드 검색이 정확한 용어를 찾음
- 결과가 포괄적인 커버리지를 위해 병합됨
검색 구성
관리자와 지식 베이스 소유자는 검색 설정을 조정할 수 있습니다:
| 설정 | 효과 |
|---|---|
| Top K | 검색할 문서 수 (높을수록 결과 많음) |
| Top K 리랭커 | 재점수를 부여할 수 (리랭킹은 느림) |
| BM25 가중치 | 벡터 (0)와 키워드 (1) 검색 간 균형 |
| 관련성 임계값 | 결과를 포함하기 위한 최소 점수 |
| 리랭킹 | 정확도 향상 활성화/비활성화 |
검색 테스트
배포 전에 플레이그라운드를 사용하여 검색 테스트:
- 샘플 문서 업로드
- 청킹 및 검색 설정 구성
- 테스트 쿼리 시도
- 결과를 기반으로 설정 조정
- 만족스러우면 프로덕션 지식 베이스에 설정 적용
좋은 검색을 위한 팁
고품질 문서 업로드
- 요약이 아닌 원본 소스 사용
- 문서에 컨텍스트 포함
- 콘텐츠를 논리적으로 구조화
적절히 구성
- 샘플 쿼리로 테스트
- 사용 사례에 맞게 Top K 조정 (보통 10-20)
- 콘텐츠 유형에 맞게 BM25 가중치 조정
검색된 소스 검토
- 올바른 문서가 표시되는지 확인
- 소스가 잘못된 경우 설정 조정
- 관련 결과가 누락된 경우 Top K 증가
문제 해결
검색된 문서가 관련 없음
원인: 검색 설정이 문서 구조와 맞지 않음.
해결 방법: 플레이그라운드를 사용하여 다양한 항목 테스트:
- 청킹 전략 (고정 크기 vs 부모-자식 vs HTML 인식)
- 청크 크기
- BM25 가중치
관련 문서 누락
원인: Top K가 너무 낮거나 문서에 필요한 콘텐츠가 없음.
해결 방법: Top K를 늘리거나 지식 베이스에 누락된 문서를 업로드하세요.
검색이 매우 느림
원인: 리랭킹이 활성화되어 쿼리가 느려짐.
해결 방법: 리랭킹을 비활성화하거나 Top K를 줄여 속도를 높이세요.
더 알아보기:
- 지식 베이스 만들기 — 문서 업로드
- 플레이그라운드 사용 — 설정 테스트 및 조정
- 커스텀 모델 구축 — 모델에 지식 연결