Regex 포맷은 제공된 정규 표현식에 따라 가져온 데이터의 각 행을 파싱합니다.
사용 방법
format_regexp 설정에 지정된 정규 표현식이 가져온 데이터의 각 행에 적용됩니다. 정규 표현식의 서브패턴 개수는 가져온 데이터셋의 컬럼 개수와 같아야 합니다.
가져온 데이터의 행은 개행 문자 '\n' 또는 DOS 스타일 개행 "\r\n"으로 구분되어야 합니다.
매칭된 각 서브패턴의 내용은 format_regexp_escaping_rule 설정에 따라, 해당 데이터 타입에 맞는 방식으로 파싱됩니다.
정규 표현식이 행과 매칭되지 않고 format_regexp_skip_unmatched이 1로 설정된 경우 해당 행은 별도의 오류 없이 건너뜁니다. 그렇지 않으면 예외가 발생합니다.
사용 예시
data.tsv 파일을 예로 들어 보겠습니다:
id: 1 array: [1,2,3] string: str1 date: 2020-01-01
id: 2 array: [1,2,3] string: str2 date: 2020-01-02
id: 3 array: [1,2,3] string: str3 date: 2020-01-03
및 imp_regex_table 테이블:
CREATE TABLE imp_regex_table (id UInt32, array Array(UInt32), string String, date Date) ENGINE = Memory;
앞에서 언급한 파일의 데이터를 다음 쿼리를 사용하여 위 테이블에 삽입합니다:
$ cat data.tsv | clickhouse-client --query "INSERT INTO imp_regex_table SETTINGS format_regexp='id: (.+?) array: (.+?) string: (.+?) date: (.+?)', format_regexp_escaping_rule='Escaped', format_regexp_skip_unmatched=0 FORMAT Regexp;"
이제 테이블에서 데이터를 SELECT하여 Regex 포맷을 사용해 파일의 데이터가 어떻게 파싱되었는지 확인할 수 있습니다:
SELECT * FROM imp_regex_table;
┌─id─┬─array───┬─string─┬───────date─┐
│ 1 │ [1,2,3] │ str1 │ 2020-01-01 │
│ 2 │ [1,2,3] │ str2 │ 2020-01-02 │
│ 3 │ [1,2,3] │ str3 │ 2020-01-03 │
└────┴─────────┴────────┴────────────┘
Regexp 포맷으로 작업할 때는 다음 설정을 사용할 수 있습니다:
-
format_regexp — String. re2 포맷의 정규 표현식을 포함합니다.
-
format_regexp_escaping_rule — String. 다음 이스케이프 규칙을 지원합니다:
-
format_regexp_skip_unmatched — UInt8. format_regexp 표현식이 가져온 데이터와 일치하지 않는 경우 예외를 발생시켜야 하는지를 지정합니다. 0 또는 1로 설정할 수 있습니다.