ParquetMetadata
Description
Parquet 파일 메타데이터(https://parquet.apache.org/docs/file-format/metadata/)를 읽기 위한 특수 포맷입니다. 항상 다음과 같은 구조와 내용을 갖는 행을 하나만 출력합니다.
num_columns- 컬럼 개수num_rows- 전체 행 개수num_row_groups- 전체 row group 개수format_version- Parquet 포맷 버전, 항상 1.0 또는 2.6total_uncompressed_size- 모든 row group의 total_byte_size 합으로 계산된 데이터의 전체 비압축 바이트 크기total_compressed_size- 모든 row group의 total_compressed_size 합으로 계산된 데이터의 전체 압축 바이트 크기columns- 다음 구조를 갖는 컬럼 메타데이터 목록:name- 컬럼 이름path- 컬럼 경로(중첩 컬럼의 경우 이름과 다름)max_definition_level- 최대 definition levelmax_repetition_level- 최대 repetition levelphysical_type- 컬럼 물리 타입logical_type- 컬럼 논리 타입compression- 이 컬럼에 사용된 압축 방식total_uncompressed_size- 모든 row group에서 해당 컬럼의 total_uncompressed_size 합으로 계산된 컬럼의 전체 비압축 바이트 크기total_compressed_size- 모든 row group에서 해당 컬럼의 total_compressed_size 합으로 계산된 컬럼의 전체 압축 바이트 크기space_saved- 압축으로 절약된 공간 비율(퍼센트). (1 - total_compressed_size/total_uncompressed_size)로 계산됩니다.encodings- 이 컬럼에 사용된 인코딩 목록
row_groups- 다음 구조를 갖는 row group 메타데이터 목록:num_columns- row group 내 컬럼 개수num_rows- row group 내 행 개수total_uncompressed_size- row group의 전체 비압축 바이트 크기total_compressed_size- row group의 전체 압축 바이트 크기columns- 다음 구조를 갖는 컬럼 청크 메타데이터 목록:name- 컬럼 이름path- 컬럼 경로total_compressed_size- 컬럼의 전체 압축 바이트 크기total_uncompressed_size- row group의 전체 비압축 바이트 크기have_statistics- 컬럼 청크 메타데이터가 컬럼 통계를 포함하는지 여부를 나타내는 boolean 플래그statistics- 다음 구조를 갖는 컬럼 청크 통계(have_statistics = false이면 모든 필드는 NULL):num_values- 컬럼 청크에서 NULL이 아닌 값의 개수null_count- 컬럼 청크에서 NULL 값의 개수distinct_count- 컬럼 청크에서 서로 다른 값의 개수min- 컬럼 청크의 최소값max- 컬럼 청크의 최대값
사용 예시
예: