튜토리얼과 예제 데이터셋
ClickHouse 사용을 시작하고 ClickHouse의 동작 방식을 이해하는 데 도움이 되는 다양한 자료를 제공합니다:
- ClickHouse를 빠르게 설치하고 실행해야 한다면 Quick Start를 확인하십시오
- ClickHouse Tutorial은 뉴욕시 택시 운행 데이터셋을 분석합니다
또한 샘플 데이터셋은 ClickHouse로 실제로 작업해 보고, 중요한 기법과 요령을 익히며, ClickHouse의 다양한 강력한 함수를 어떻게 활용할 수 있는지 확인하는 데 유용합니다. 샘플 데이터셋에는 다음이 포함됩니다:
| 페이지 | 설명 |
|---|---|
| Amazon 고객 리뷰 | Amazon 제품에 대한 1억 5천만 건 이상의 고객 리뷰 |
| AMPLab Big Data 벤치마크 | 데이터 웨어하우징(data warehousing) 솔루션의 성능을 비교하기 위해 사용되는 벤치마크 데이터셋입니다. |
| ClickHouse로 Stack Overflow 데이터 분석하기 | ClickHouse로 Stack Overflow 데이터 분석하기 |
| 익명 웹 분석 데이터 | 히트 및 방문 정보를 포함하는 익명 웹 분석 데이터가 담긴 2개의 테이블로 구성된 데이터셋입니다. |
| Brown University 벤치마크 | 머신이 생성한 로그 데이터에 대한 새로운 분석용 벤치마크입니다. |
| COVID-19 Open-Data | COVID-19 Open-Data는 COVID-19 역학 데이터와 인구 통계, 경제, 정부 대응과 같은 관련 요인을 포함하는 대규모 오픈 소스 데이터베이스입니다. |
| DBpedia 데이터셋 | Wikipedia의 문서 100만 개와 해당 문서의 벡터 임베딩을 포함하는 데이터셋입니다. |
| 환경 센서 데이터 | Open Environmental Data를 생성하는, 기여자 중심 글로벌 센서 네트워크인 Sensor.Community에서 수집한 200억 건이 넘는 데이터 레코드를 포함하는 데이터셋입니다. |
| Foursquare 장소 데이터 | 지도 상의 상점, 레스토랑, 공원, 놀이터, 기념물 등 장소 정보가 담긴 1억 건이 넘는 레코드를 포함하는 데이터셋입니다. |
| 셀 타워 데이터셋을 활용한 지리 공간 데이터 | OpenCelliD 데이터를 ClickHouse에 적재하고, Apache Superset을 ClickHouse에 연결한 후 이 데이터를 기반으로 대시보드를 구성하는 방법을 설명합니다. |
| GitHub 이벤트 데이터셋 | 2011년부터 2020년 12월 6일까지 GitHub에서 발생한 모든 이벤트를 포함하며, 총 31억 건의 레코드로 구성된 데이터셋입니다. |
| Hacker News 데이터셋 | 2,800만 행의 Hacker News 데이터를 포함하는 데이터셋입니다. |
| Hacker News 벡터 검색 데이터셋 | 2,800만 개 이상의 Hacker News 게시물과 그 벡터 임베딩을 포함하는 데이터셋입니다. |
| LAION 5B 데이터셋 | LAION 5B 데이터셋에서 추출한 1억 개의 벡터를 포함하는 데이터셋입니다. |
| Laion-400M 데이터셋 | 영어 이미지 캡션과 함께 제공되는 4억 장의 이미지를 포함하는 데이터셋입니다. |
| New York Public Library 「What’s on the Menu?」 데이터셋 | 호텔, 레스토랑, 카페 메뉴와 각 요리의 가격에 대한 역사적 데이터를 130만 건의 레코드로 포함하는 데이터셋입니다. |
| 뉴욕 택시 데이터 | 2009년 이후 뉴욕시에서 발생한 택시 및 차량 호출 서비스(Uber, Lyft 등) 이용 건수 수십억 건에 대한 데이터 |
| NOAA Global Historical Climatology Network | 지난 120년에 걸친 25억 행 규모의 기후 데이터 |
| NYPD Complaint Data | 탭으로 구분된 값(Tab Separated Values, TSV) 데이터를 5단계로 나누어 수집하고 쿼리하는 방법 |
| OnTime | 항공편의 정시 운항 성능 지표를 포함하는 데이터셋 |
| Star Schema Benchmark (SSB, 2009) | Star Schema Benchmark (SSB) 데이터셋과 쿼리 |
| 대만 과거 기상 데이터셋 | 지난 128년 동안 관측된 1억 3,100만 행의 기상 관측 데이터 |
| Criteo의 테라바이트 규모 클릭 로그 | Criteo에서 수집한 1테라바이트 분량의 클릭 로그 |
| 영국 부동산 가격 데이터셋 | 영국 잉글랜드와 웨일스의 부동산 거래 가격 데이터가 포함된 영국 부동산 데이터셋을 사용하여, 자주 실행되는 쿼리의 성능을 향상하기 위해 프로젝션을 활용하는 방법을 학습합니다 |
| TPC-DS (2012) | TPC-DS 벤치마크 데이터셋과 쿼리 |
| TPC-H (1999) | TPC-H 벤치마크 데이터셋과 쿼리 |
| WikiStat | 5,000억 행을 포함하는 WikiStat 데이터셋을 탐색합니다. |
| GitHub 데이터를 사용하여 ClickHouse에서 쿼리 작성하기 | ClickHouse 저장소에 대한 모든 커밋과 변경 이력을 포함하는 데이터셋 |
| YouTube 싫어요 데이터셋 | YouTube 동영상에 대한 싫어요 정보를 모은 데이터셋입니다. |