LAION 5B 데이터셋
소개
LAION 5b 데이터셋에는 58억 5천만 개의 이미지-텍스트 임베딩과
연관된 이미지 메타데이터가 포함되어 있습니다. 임베딩은 Open AI CLIP 모델 ViT-L/14를 사용해 생성되었습니다.
각 임베딩 벡터의 차원은 768입니다.
이 데이터셋은 대규모 실제 환경의 벡터 검색(vector search) 애플리케이션에 대해 설계, 규모 산정 및 성능 측면을 모델링하는 데 사용할 수 있습니다. 이 데이터셋은 텍스트-이미지 검색(text-to-image search)과 이미지-이미지 검색(image-to-image search) 모두에 사용할 수 있습니다.
데이터셋 세부 정보
전체 데이터셋은 npy 및 Parquet 파일이 혼합된 형태로 the-eye.eu에서 제공됩니다.
ClickHouse는 1억 개의 벡터로 구성된 부분 집합을 S3 버킷으로 제공하고 있습니다.
S3 버킷에는 10개의 Parquet 파일이 있으며, 각 Parquet 파일에는 1,000만 개의 행이 저장되어 있습니다.
이 데이터셋의 저장 공간 및 메모리 요구 사항을 추정하기 위해, 먼저 문서를 참고하여 용량 산정 작업을 수행하는 것을 권장합니다.
단계
데이터 로드하기
모든 Parquet 파일에서 데이터셋을 로드하려면 다음 SQL 문을 실행하세요:
테이블에 1억 개의 행을 로드하는 데 몇 분 정도 소요됩니다.
또는 개별 SQL 문을 실행하여 특정 개수의 파일/행을 로드할 수 있습니다.
브루트 포스 벡터 유사도 검색 실행
KNN(k-최근접 이웃) 검색 또는 전수 검색은 데이터셋의 각 벡터와 검색 임베딩 벡터 간의 거리를 계산한 후 거리를 정렬하여 최근접 이웃을 구하는 방식입니다. 데이터셋 자체의 벡터 중 하나를 검색 벡터로 사용할 수 있습니다. 예를 들면 다음과 같습니다:
ANN(벡터 인덱스 사용)의 쿼리 지연 시간과 비교할 수 있도록 쿼리 지연 시간을 기록하세요. 1억 개의 행이 있는 경우, 벡터 인덱스가 없는 위 쿼리는 완료되는 데 몇 초에서 몇 분 정도 걸릴 수 있습니다.
벡터 유사도 인덱스 구축하기
다음 SQL을 실행하여 laion_5b_100m 테이블의 vector 컬럼에 벡터 유사도 인덱스를 정의하고 구축하세요:
인덱스 생성 및 검색에 대한 매개변수와 성능 고려사항은 문서에 설명되어 있습니다.
위 명령문은 HNSW 하이퍼파라미터 M과 ef_construction에 각각 64와 512 값을 사용합니다.
선택한 값에 따른 인덱스 빌드 시간과 검색 결과 품질을 평가하여 이러한 매개변수의 최적 값을 신중하게 선택하십시오.
인덱스를 구축하고 저장하는 작업은 사용 가능한 CPU 코어 수와 스토리지 대역폭에 따라 전체 1억 개 데이터셋에 대해 몇 시간이 소요될 수 있습니다.
ANN 검색 수행하기
벡터 유사도 인덱스가 구축되면 벡터 검색 쿼리는 자동으로 해당 인덱스를 사용합니다:
벡터 인덱스를 메모리에 처음 로드하는 데 몇 초에서 몇 분 정도 소요될 수 있습니다.
검색 쿼리에 대한 임베딩 생성하기
LAION 5b 데이터셋의 임베딩 벡터는 OpenAI CLIP 모델 ViT-L/14를 사용하여 생성되었습니다.
아래 Python 스크립트 예제는 CLIP API를 사용하여 프로그래밍 방식으로 임베딩 벡터를 생성하는 방법을 보여줍니다. 검색 임베딩 벡터는 SELECT 쿼리의 cosineDistance() 함수에 인수로 전달됩니다.
clip 패키지를 설치하려면 OpenAI GitHub 저장소를 참조하세요.
위 검색 결과는 다음과 같습니다:
