chDB
chDB는 ClickHouse v25.8.2.1을 기반으로 하는 빠른 인프로세스 SQL OLAP 엔진입니다. 별도의 ClickHouse 서버에 연결하지 않고도 프로그래밍 언어 환경에서 ClickHouse의 기능과 성능을 활용할 수 있습니다.
주요 기능
- 인프로세스 SQL OLAP 엔진 - ClickHouse 기반으로 동작하며 ClickHouse 서버를 별도로 설치할 필요가 없습니다
- 다양한 데이터 포맷 - Parquet, CSV, JSON, Arrow, ORC 및 70개 이상의 추가 포맷에 대한 입력 및 출력 지원을 제공합니다
- 데이터 복사 최소화 -
python memoryview를 사용하여 C++에서 Python으로 데이터를 전달할 때 복사를 최소화합니다 - 풍부한 Python 생태계 통합 - Pandas, Arrow, DB API 2.0에 대한 네이티브 지원으로 기존 데이터 사이언스 워크플로에 원활하게 통합됩니다
- 외부 종속성 없음 - 외부 데이터베이스를 설치할 필요가 없습니다
- DataStore API - SQL 최적화를 제공하는 Pandas 호환 API로, 630개가 넘는 메서드를 지원합니다
DataStore: Pandas-Compatible API
새 기능! DataStore는 익숙한 pandas 구문에 ClickHouse 성능을 결합한, pandas와 호환되는 API를 제공합니다.
한 줄로 마이그레이션
주요 성능 지표
| 연산 | pandas | DataStore | 속도 향상 |
|---|---|---|---|
| GroupBy count | 347ms | 17ms | 19.93x |
| 복잡한 파이프라인 | 2,047ms | 380ms | 5.39x |
| Filter+Sort+Head | 1,537ms | 350ms | 4.40x |
1,000만 행 기준 벤치마크
DataStore 기능
- 630개 이상의 API 메서드 - 209개의 pandas DataFrame 메서드, 185개 이상의 accessor 메서드
- 지연 평가(Lazy evaluation) - 연산이 최적화된 SQL로 컴파일됩니다.
- SQL 푸시다운(SQL pushdown) - 필터와 집계가 데이터 소스에서 실행됩니다.
- 범용 데이터 소스(Universal data sources) - 파일, S3, 데이터베이스, 데이터 레이크에서 데이터를 읽을 수 있습니다.
자세한 내용은 DataStore Documentation을 참조하십시오.
chDB는 어떤 언어를 지원합니까?
chDB는 다음과 같은 언어 바인딩을 지원합니다:
어떻게 시작하나요?
- Go, Rust, NodeJS, Bun 또는 C 및 C++을 사용하는 경우 해당 언어 페이지를 참고하십시오.
- Python을 사용하는 경우 개발자용 시작 가이드 또는 chDB 온디맨드 강좌를 참고하십시오.
pandas 사용자용
익숙한 pandas 사용 경험은 유지하면서 ClickHouse 성능을 활용할 수 있는 DataStore API부터 시작하십시오:
- DataStore 빠른 시작 - 설치 및 한 줄로 끝나는 마이그레이션
- pandas에서 마이그레이션 - 단계별 마이그레이션 가이드
- pandas 쿡북 - 일반적인 패턴
- 주요 차이점 - pandas와의 핵심 차이점
- 성능 가이드 - 최적화 팁
DataStore API 레퍼런스
- Factory Methods - 파일, 데이터베이스, Cloud 스토리지에서 생성
- Query Building - SQL 스타일의 연산
- Pandas Compatibility - 호환되는 메서드 209개
- Accessors - .str, .dt, .arr, .json, .url, .ip, .geo
- Configuration - 엔진, 로깅, 프로파일링
- Debugging - explain(), 프로파일링, 로깅
SQL API 가이드
- Python API Reference - SQL API 전체 참조 문서
- JupySQL
- Pandas 쿼리하기
- Apache Arrow 쿼리하기
- S3에 저장된 데이터 쿼리하기
- Parquet 파일 쿼리하기
- 원격 ClickHouse 쿼리하기
- clickhouse-local 데이터베이스 사용하기
소개 동영상
chDB에 대한 짧은 소개 영상을 시청하고, ClickHouse의 강력한 기능을 Python 환경에서 어떻게 활용할 수 있는지 알아보십시오:
성능 벤치마크
chDB는 다양한 시나리오에서 뛰어난 성능을 발휘합니다:
- 임베디드 엔진의 ClickBench - SQL API 성능 비교
- **DataFrame 벤치마크 - DataFrame 엔진 비교
- DataStore vs Pandas - 일반적인 연산에서 pandas 대비 최대 20배 빠르게 동작합니다

chDB 소개
- chDB 프로젝트의 탄생 스토리는 블로그 글에서 확인할 수 있습니다.
- chDB와 그 활용 사례는 블로그 글에서 확인할 수 있습니다.
- chDB 온디맨드 과정을 수강하십시오.
- 브라우저에서 codapi 예제를 사용해 chDB를 살펴보십시오.
- 더 많은 예제는 (https://github.com/chdb-io/chdb/tree/main/examples)를 참조하십시오.
라이선스
chDB는 Apache License 2.0 버전에 따라 제공됩니다. 자세한 내용은 LICENSE를 참조하십시오.