본문으로 바로가기
본문으로 바로가기

튜토리얼과 예제 데이터셋

ClickHouse 사용을 시작하고 ClickHouse의 동작 방식을 이해하는 데 도움이 되는 다양한 자료를 제공합니다:

  • ClickHouse를 빠르게 설치하고 실행해야 한다면 Quick Start를 확인하십시오
  • ClickHouse Tutorial은 뉴욕시 택시 운행 데이터셋을 분석합니다

또한 샘플 데이터셋은 ClickHouse로 실제로 작업해 보고, 중요한 기법과 요령을 익히며, ClickHouse의 다양한 강력한 함수를 어떻게 활용할 수 있는지 확인하는 데 유용합니다. 샘플 데이터셋에는 다음이 포함됩니다:

페이지설명
Amazon 고객 리뷰Amazon 제품에 대한 1억 5천만 건 이상의 고객 리뷰
AMPLab Big Data 벤치마크데이터 웨어하우징(data warehousing) 솔루션의 성능을 비교하기 위해 사용되는 벤치마크 데이터셋입니다.
ClickHouse로 Stack Overflow 데이터 분석하기ClickHouse로 Stack Overflow 데이터 분석하기
익명 웹 분석 데이터히트 및 방문 정보를 포함하는 익명 웹 분석 데이터가 담긴 2개의 테이블로 구성된 데이터셋입니다.
Brown University 벤치마크머신이 생성한 로그 데이터에 대한 새로운 분석용 벤치마크입니다.
COVID-19 Open-DataCOVID-19 Open-Data는 COVID-19 역학 데이터와 인구 통계, 경제, 정부 대응과 같은 관련 요인을 포함하는 대규모 오픈 소스 데이터베이스입니다.
DBpedia 데이터셋Wikipedia의 문서 100만 개와 해당 문서의 벡터 임베딩을 포함하는 데이터셋입니다.
환경 센서 데이터Open Environmental Data를 생성하는, 기여자 중심 글로벌 센서 네트워크인 Sensor.Community에서 수집한 200억 건이 넘는 데이터 레코드를 포함하는 데이터셋입니다.
Foursquare 장소 데이터지도 상의 상점, 레스토랑, 공원, 놀이터, 기념물 등 장소 정보가 담긴 1억 건이 넘는 레코드를 포함하는 데이터셋입니다.
셀 타워 데이터셋을 활용한 지리 공간 데이터OpenCelliD 데이터를 ClickHouse에 적재하고, Apache Superset을 ClickHouse에 연결한 후 이 데이터를 기반으로 대시보드를 구성하는 방법을 설명합니다.
GitHub 이벤트 데이터셋2011년부터 2020년 12월 6일까지 GitHub에서 발생한 모든 이벤트를 포함하며, 총 31억 건의 레코드로 구성된 데이터셋입니다.
Hacker News 데이터셋2,800만 행의 Hacker News 데이터를 포함하는 데이터셋입니다.
Hacker News 벡터 검색 데이터셋2,800만 개 이상의 Hacker News 게시물과 그 벡터 임베딩을 포함하는 데이터셋입니다.
LAION 5B 데이터셋LAION 5B 데이터셋에서 추출한 1억 개의 벡터를 포함하는 데이터셋입니다.
Laion-400M 데이터셋영어 이미지 캡션과 함께 제공되는 4억 장의 이미지를 포함하는 데이터셋입니다.
New York Public Library 「What’s on the Menu?」 데이터셋호텔, 레스토랑, 카페 메뉴와 각 요리의 가격에 대한 역사적 데이터를 130만 건의 레코드로 포함하는 데이터셋입니다.
뉴욕 택시 데이터2009년 이후 뉴욕시에서 발생한 택시 및 차량 호출 서비스(Uber, Lyft 등) 이용 건수 수십억 건에 대한 데이터
NOAA Global Historical Climatology Network지난 120년에 걸친 25억 행 규모의 기후 데이터
NYPD Complaint Data탭으로 구분된 값(Tab Separated Values, TSV) 데이터를 5단계로 나누어 수집하고 쿼리하는 방법
OnTime항공편의 정시 운항 성능 지표를 포함하는 데이터셋
Star Schema Benchmark (SSB, 2009)Star Schema Benchmark (SSB) 데이터셋과 쿼리
대만 과거 기상 데이터셋지난 128년 동안 관측된 1억 3,100만 행의 기상 관측 데이터
Criteo의 테라바이트 규모 클릭 로그Criteo에서 수집한 1테라바이트 분량의 클릭 로그
영국 부동산 가격 데이터셋영국 잉글랜드와 웨일스의 부동산 거래 가격 데이터가 포함된 영국 부동산 데이터셋을 사용하여, 자주 실행되는 쿼리의 성능을 향상하기 위해 프로젝션을 활용하는 방법을 학습합니다
TPC-DS (2012)TPC-DS 벤치마크 데이터셋과 쿼리
TPC-H (1999)TPC-H 벤치마크 데이터셋과 쿼리
WikiStat5,000억 행을 포함하는 WikiStat 데이터셋을 탐색합니다.
GitHub 데이터를 사용하여 ClickHouse에서 쿼리 작성하기ClickHouse 저장소에 대한 모든 커밋과 변경 이력을 포함하는 데이터셋
YouTube 싫어요 데이터셋YouTube 동영상에 대한 싫어요 정보를 모은 데이터셋입니다.