본문으로 바로가기
본문으로 바로가기

chDB

chDB는 ClickHouse v25.8.2.1을 기반으로 하는 빠른 인프로세스 SQL OLAP 엔진입니다. 별도의 ClickHouse 서버에 연결하지 않고도 프로그래밍 언어 환경에서 ClickHouse의 기능과 성능을 활용할 수 있습니다.

주요 기능

  • 인프로세스 SQL OLAP 엔진 - ClickHouse 기반으로 동작하며 ClickHouse 서버를 별도로 설치할 필요가 없습니다
  • 다양한 데이터 포맷 - Parquet, CSV, JSON, Arrow, ORC 및 70개 이상의 추가 포맷에 대한 입력 및 출력 지원을 제공합니다
  • 데이터 복사 최소화 - python memoryview를 사용하여 C++에서 Python으로 데이터를 전달할 때 복사를 최소화합니다
  • 풍부한 Python 생태계 통합 - Pandas, Arrow, DB API 2.0에 대한 네이티브 지원으로 기존 데이터 사이언스 워크플로에 원활하게 통합됩니다
  • 외부 종속성 없음 - 외부 데이터베이스를 설치할 필요가 없습니다
  • DataStore API - SQL 최적화를 제공하는 Pandas 호환 API로, 630개가 넘는 메서드를 지원합니다

DataStore: Pandas-Compatible API

새 기능! DataStore는 익숙한 pandas 구문에 ClickHouse 성능을 결합한, pandas와 호환되는 API를 제공합니다.

한 줄로 마이그레이션

# Just change your import - your pandas code works unchanged
- import pandas as pd
+ from chdb import datastore as pd

df = pd.read_csv("data.csv")
result = df[df['age'] > 25].groupby('city')['salary'].mean()

주요 성능 지표

연산pandasDataStore속도 향상
GroupBy count347ms17ms19.93x
복잡한 파이프라인2,047ms380ms5.39x
Filter+Sort+Head1,537ms350ms4.40x

1,000만 행 기준 벤치마크

DataStore 기능

  • 630개 이상의 API 메서드 - 209개의 pandas DataFrame 메서드, 185개 이상의 accessor 메서드
  • 지연 평가(Lazy evaluation) - 연산이 최적화된 SQL로 컴파일됩니다.
  • SQL 푸시다운(SQL pushdown) - 필터와 집계가 데이터 소스에서 실행됩니다.
  • 범용 데이터 소스(Universal data sources) - 파일, S3, 데이터베이스, 데이터 레이크에서 데이터를 읽을 수 있습니다.

자세한 내용은 DataStore Documentation을 참조하십시오.

chDB는 어떤 언어를 지원합니까?

chDB는 다음과 같은 언어 바인딩을 지원합니다:

어떻게 시작하나요?

pandas 사용자용

익숙한 pandas 사용 경험은 유지하면서 ClickHouse 성능을 활용할 수 있는 DataStore API부터 시작하십시오:

DataStore API 레퍼런스

SQL API 가이드

소개 동영상

chDB에 대한 짧은 소개 영상을 시청하고, ClickHouse의 강력한 기능을 Python 환경에서 어떻게 활용할 수 있는지 알아보십시오:

성능 벤치마크

chDB는 다양한 시나리오에서 뛰어난 성능을 발휘합니다:

DataFrame 벤치마크 결과

chDB 소개

라이선스

chDB는 Apache License 2.0 버전에 따라 제공됩니다. 자세한 내용은 LICENSE를 참조하십시오.