문자열 처리 함수

문자열에서의 검색과 치환에 대한 함수는 별도의 문서에서 설명합니다.

참고

아래 문서는 system.functions 시스템 테이블을 기반으로 자동 생성되었습니다.

CRC32

도입 버전: v20.1

CRC-32-IEEE 802.3 다항식과 초기값 0xffffffff(zlib 구현)을 사용하여 문자열의 CRC32 체크섬을 계산합니다.

구문

CRC32(s)

인수

s — CRC32를 계산할 문자열입니다. String

반환값

문자열의 CRC32 체크섬을 반환합니다. UInt32

예제

사용 예제

SELECT CRC32('ClickHouse')

┌─CRC32('ClickHouse')─┐
│          1538217360 │
└─────────────────────┘

CRC32IEEE

도입된 버전: v20.1

CRC-32-IEEE 802.3 다항식을 사용하여 문자열의 CRC32 체크섬(checksum)을 계산합니다.

구문

CRC32IEEE(s)

인수

s — CRC32를 계산할 문자열. String

반환 값

문자열의 CRC32 체크섬을 반환합니다. UInt32

예시

사용 예시

SELECT CRC32IEEE('ClickHouse');

┌─CRC32IEEE('ClickHouse')─┐
│              3089448422 │
└─────────────────────────┘

CRC64

도입 버전: v20.1

CRC-64-ECMA 다항식을 사용해 문자열의 CRC64 체크섬을 계산합니다.

구문

CRC64(s)

인수

s — CRC64를 계산할 문자열. String

반환 값

문자열의 CRC64 체크섬을 반환합니다. UInt64

예시

사용 예시

SELECT CRC64('ClickHouse');

┌──CRC64('ClickHouse')─┐
│ 12126588151325169346 │
└──────────────────────┘

appendTrailingCharIfAbsent

도입 버전: v1.1

문자열 s가 비어 있지 않고 문자 c로 끝나지 않으면, 문자열 s의 끝에 문자 c를 추가합니다.

구문

appendTrailingCharIfAbsent(s, c)

인수

s — 입력 문자열. String
c — s가 해당 문자로 끝나지 않을 경우 뒤에 추가할 문자. String

반환 값

문자열 s가 c로 끝나지 않으면, s 뒤에 문자 c를 덧붙인 문자열을 반환합니다. String

예시

사용 예시

SELECT appendTrailingCharIfAbsent('https://example.com', '/');

┌─appendTraili⋯.com', '/')─┐
│ https://example.com/     │
└──────────────────────────┘

ascii

도입된 버전: v22.11

문자열 s의 첫 번째 문자에 대한 ASCII 코드 포인트를 Int32로 반환합니다.

구문

ascii(s)

인수

s — 문자열 입력. String

반환 값

첫 번째 문자에 해당하는 ASCII 코드 포인트를 반환합니다. s가 비어 있으면 결과는 0입니다. 첫 번째 문자가 ASCII 문자가 아니거나 UTF-16의 Latin-1 보충 범위에 포함되지 않으면 결과는 정의되지 않습니다. 반환 값의 타입은 Int32입니다.

예시

사용 예시

SELECT ascii('234')

┌─ascii('234')─┐
│           50 │
└──────────────┘

base32Decode

도입된 버전: v25.6

Base32 (RFC 4648)로 인코딩된 문자열을 디코딩합니다. 문자열이 올바른 Base32 인코딩이 아니면 예외가 발생합니다.

구문

base32Decode(encoded)

인수

encoded — String 컬럼 또는 상수. String

반환 값

인수의 디코딩된 값이 포함된 문자열을 반환합니다. String

예시

사용 예시

SELECT base32Decode('IVXGG33EMVSA====');

┌─base32Decode('IVXGG33EMVSA====')─┐
│ Encoded                          │
└──────────────────────────────────┘

base32Encode

도입 버전: v25.6

문자열을 Base32로 인코딩합니다.

구문

base32Encode(plaintext)

인수

plaintext — 인코딩할 평문 값입니다. String

반환 값

인수의 인코딩된 값을 담고 있는 문자열을 반환합니다. String 또는 FixedString

예제

사용 예제

SELECT base32Encode('Encoded')

┌─base32Encode('Encoded')─┐
│ IVXGG33EMVSA====        │
└─────────────────────────┘

base58Decode

도입 버전: v22.7

Base58로 인코딩된 문자열을 디코딩합니다. 문자열이 유효한 Base58 인코딩 형식이 아니면 예외가 발생합니다.

구문

base58Decode(encoded)

인수

encoded — 디코딩할 String 컬럼 또는 상수입니다. String

반환 값

인수의 디코딩된 값이 들어 있는 문자열을 반환합니다. String

예시

사용 예시

SELECT base58Decode('JxF12TrwUP45BMd');

┌─base58Decode⋯rwUP45BMd')─┐
│ Hello World              │
└──────────────────────────┘

base58Encode

도입 버전: v22.7

문자열을 Base58 방식으로 인코딩합니다.

구문

base58Encode(plaintext)

인수

plaintext — 인코딩할 평문입니다. String

반환값

인수의 인코딩된 값을 포함하는 문자열을 반환합니다. String

예시

사용 예시

SELECT base58Encode('ClickHouse');

┌─base58Encode('ClickHouse')─┐
│ 4nhk8K7GHXf6zx             │
└────────────────────────────┘

base64Decode

도입된 버전: v18.16

RFC 4648에 따라 Base64 표현으로 인코딩된 문자열을 디코딩합니다. 오류가 발생하면 예외를 던집니다.

구문

base64Decode(encoded)

별칭: FROM_BASE64

인수

encoded — 디코딩할 String 컬럼 또는 상수입니다. 문자열이 유효한 Base64 인코딩이 아니면 예외가 발생합니다. String

반환 값

디코딩된 문자열을 반환합니다. String

예제

사용 예제

SELECT base64Decode('Y2xpY2tob3VzZQ==')

┌─base64Decode('Y2xpY2tob3VzZQ==')─┐
│ clickhouse                       │
└──────────────────────────────────┘

base64Encode

도입된 버전: v18.16

RFC 4648에 따라 문자열을 Base64 표현으로 인코딩합니다.

구문

base64Encode(plaintext)

별칭: TO_BASE64

인수(Arguments)

plaintext — 디코딩할 평문 컬럼 또는 상수입니다. String

반환 값

인수의 인코딩된 값을 포함하는 문자열을 반환합니다. String

예시

사용 예시

SELECT base64Encode('clickhouse')

┌─base64Encode('clickhouse')─┐
│ Y2xpY2tob3VzZQ==           │
└────────────────────────────┘

base64URLDecode

도입 버전: v24.6

RFC 4648에 따라 URL-안전(URL-safe) 알파벳을 사용하는 Base64 표현에서 문자열을 디코딩합니다. 오류가 발생하면 예외를 발생시킵니다.

구문

base64URLDecode(encoded)

인수

encoded — 인코딩할 String 컬럼 또는 상수입니다. 문자열이 올바르게 Base64로 인코딩되지 않은 경우 예외가 발생합니다. String

반환 값

인수의 디코딩된 값을 포함하는 문자열을 반환합니다. String

예시

사용 예시

SELECT base64URLDecode('aHR0cHM6Ly9jbGlja2hvdXNlLmNvbQ')

┌─base64URLDecode('aHR0cHM6Ly9jbGlja2hvdXNlLmNvbQ')─┐
│ https://clickhouse.com                            │
└───────────────────────────────────────────────────┘

base64URLEncode

도입 버전: v18.16

URL-안전한 알파벳을 사용하는 Base64 (RFC 4648) 표현으로 문자열을 인코딩합니다.

구문

base64URLEncode(plaintext)

인자

plaintext — 인코딩할 평문 컬럼 또는 상수. String

반환 값

인자로 전달된 값의 인코딩 결과가 포함된 문자열을 반환합니다. String

예시

사용 예시

SELECT base64URLEncode('https://clickhouse.com')

┌─base64URLEncode('https://clickhouse.com')─┐
│ aHR0cHM6Ly9jbGlja2hvdXNlLmNvbQ            │
└───────────────────────────────────────────┘

basename

도입된 버전: v20.1

문자열에서 마지막 슬래시 또는 백슬래시 이후의 부분을 추출합니다. 이 FUNCTION은 경로에서 파일 이름을 추출하는 데 자주 사용됩니다.

구문

basename(expr)

인수

expr — 문자열 표현식입니다. 역슬래시는 이스케이프해야 합니다. String

반환 값

입력 문자열에서 마지막 슬래시 또는 역슬래시 이후의 부분을 반환합니다. 입력 문자열이 슬래시 또는 역슬래시로 끝나는 경우 빈 문자열을 반환합니다. 슬래시나 역슬래시가 없으면 원래 문자열을 반환합니다. String

예시

Unix 경로에서 파일 이름 추출

SELECT 'some/long/path/to/file' AS a, basename(a)

┌─a──────────────────────┬─basename('some/long/path/to/file')─┐
│ some/long/path/to/file │ file                               │
└────────────────────────┴────────────────────────────────────┘

Windows 경로에서 파일 이름 추출

SELECT 'some\\long\\path\\to\\file' AS a, basename(a)

┌─a──────────────────────┬─basename('some\\long\\path\\to\\file')─┐
│ some\long\path\to\file │ file                                   │
└────────────────────────┴────────────────────────────────────────┘

경로 구분 기호가 없는 문자열

SELECT 'some-file-name' AS a, basename(a)

┌─a──────────────┬─basename('some-file-name')─┐
│ some-file-name │ some-file-name             │
└────────────────┴────────────────────────────┘

byteHammingDistance

도입된 버전: v23.9

두 바이트 문자열 간의 해밍 거리를 계산합니다.

구문

byteHammingDistance(s1, s2)

별칭: mismatches

인수

s1 — 첫 번째 입력 문자열. String
s2 — 두 번째 입력 문자열. String

반환 값

두 문자열 간의 해밍 거리(Hamming distance)를 반환합니다. UInt64

예시

사용 예시

SELECT byteHammingDistance('karolin', 'kathrin')

┌─byteHammingDistance('karolin', 'kathrin')─┐
│                                         3 │
└───────────────────────────────────────────┘

compareSubstrings

도입 버전: v25.2

두 문자열을 사전식으로 비교합니다.

구문

compareSubstrings(s1, s2, s1_offset, s2_offset, num_bytes)

인수

s1 — 비교할 첫 번째 문자열입니다. String
s2 — 비교할 두 번째 문자열입니다. String
s1_offset — 비교를 시작할 s1 내 위치(0부터 시작)입니다. UInt*
s2_offset — 비교를 시작할 s2 내 위치(0부터 시작 인덱스)입니다. UInt*
num_bytes — 두 문자열에서 비교할 최대 바이트 수입니다. s1_offset(또는 s2_offset) + num_bytes가 입력 문자열의 끝을 초과하면, num_bytes는 그에 맞게 조정됩니다. UInt*

반환값

다음을 반환합니다:

s1[s1_offset : s1_offset + num_bytes] < s2[s2_offset : s2_offset + num_bytes]이면 -1.
s1[s1_offset : s1_offset + num_bytes] = s2[s2_offset : s2_offset + num_bytes]이면 0.
s1[s1_offset : s1_offset + num_bytes] > s2[s2_offset : s2_offset + num_bytes]이면 1. Int8

예시(Examples)

사용 예시

SELECT compareSubstrings('Saxony', 'Anglo-Saxon', 0, 6, 5) AS result

┌─result─┐
│      0 │
└────────┘

concat

도입 버전: v1.1

지정된 인자를 이어 붙입니다.

String 또는 FixedString 타입이 아닌 인자는 기본 직렬화 방식으로 문자열로 변환됩니다. 이는 성능이 저하되므로 String/FixedString 이외의 인자를 사용하는 것은 권장되지 않습니다.

Syntax

concat([s1, s2, ...])

인수

s1, s2, ... — 임의 타입의 값을 개수 제한 없이 지정합니다. Any

반환 값

인수들을 이어 붙여 만든 String을 반환합니다. 인수 중 하나라도 NULL이면 함수는 NULL을 반환합니다. 인수가 하나도 없으면 빈 문자열을 반환합니다. Nullable(String)

예시

문자열 연결

SELECT concat('Hello, ', 'World!')

┌─concat('Hello, ', 'World!')─┐
│ Hello, World!               │
└─────────────────────────────┘

숫자 이어 붙이기

SELECT concat(42, 144)

┌─concat(42, 144)─┐
│ 42144           │
└─────────────────┘

concatAssumeInjective

도입 버전: v1.1

concat과 비슷하지만, concat(s1, s2, ...) → sn이 단사(injective)라고 가정합니다. 즉, 서로 다른 인자에 대해 서로 다른 결과를 반환합니다.

GROUP BY를 최적화하는 데 사용할 수 있습니다.

문법

concatAssumeInjective([s1, s2, ...])

인수

s1, s2, ... — 임의 타입의 값 여러 개. String 또는 FixedString

반환값

인수들을 연결하여 생성한 문자열을 반환합니다. 인수 값 중 하나라도 NULL이면 함수는 NULL을 반환합니다. 인수가 하나도 전달되지 않으면 빈 문자열을 반환합니다. String

예시

GROUP BY 최적화

SELECT concat(key1, key2), sum(value) FROM key_val GROUP BY concatAssumeInjective(key1, key2)

┌─concat(key1, key2)─┬─sum(value)─┐
│ Hello, World!      │          3 │
│ Hello, World!      │          2 │
│ Hello, World       │          3 │
└────────────────────┴────────────┘

concatWithSeparator

도입 버전: v22.12

지정된 구분자를 사이에 두고 제공된 문자열들을 연결합니다.

구문

concatWithSeparator(sep[, exp1, exp2, ...])

별칭: concat_ws

인수

sep — 사용할 구분자입니다. const String 또는 const FixedString
exp1, exp2, ... — 이어 붙일 표현식입니다. String 또는 FixedString 타입이 아닌 인수는 기본 직렬화를 사용하여 문자열로 변환됩니다. 이는 성능을 저하시킬 수 있으므로 String/FixedString이 아닌 인수 사용은 권장되지 않습니다. Any

반환 값

인수들을 이어 붙여 생성한 String을 반환합니다. 인수 값 중 하나라도 NULL이면 함수는 NULL을 반환합니다. String

예시

사용 예시

SELECT concatWithSeparator('a', '1', '2', '3', '4')

┌─concatWithSeparator('a', '1', '2', '3', '4')─┐
│ 1a2a3a4                                      │
└──────────────────────────────────────────────┘

concatWithSeparatorAssumeInjective

도입 버전: v22.12

concatWithSeparator와 유사하지만 concatWithSeparator(sep[,exp1, exp2, ... ]) → result가 단사 함수라고 가정합니다. 함수가 서로 다른 인수에 대해 서로 다른 결과를 반환하면 단사 함수라고 합니다.

GROUP BY 최적화에 사용할 수 있습니다.

구문

concatWithSeparatorAssumeInjective(sep[, exp1, exp2, ... ])

인수

sep — 사용할 구분자입니다. const String 또는 const FixedString
exp1, exp2, ... — 연결할 표현식입니다. String 또는 FixedString 타입이 아닌 인수는 기본 직렬화 방식을 사용하여 문자열로 변환됩니다. 이는 성능을 저하시킬 수 있으므로, String/FixedString 이외의 인수 사용은 권장되지 않습니다. String 또는 FixedString

반환 값

인수들을 연결하여 생성된 문자열(String)을 반환합니다. 인수 값 중 하나라도 NULL이면, 함수는 NULL을 반환합니다. String

예시

사용 예시

CREATE TABLE user_data (
user_id UInt32,
first_name String,
last_name String,
score UInt32
)
ENGINE = MergeTree
ORDER BY tuple();

INSERT INTO user_data VALUES
(1, 'John', 'Doe', 100),
(2, 'Jane', 'Smith', 150),
(3, 'John', 'Wilson', 120),
(4, 'Jane', 'Smith', 90);

SELECT
    concatWithSeparatorAssumeInjective('-', first_name, last_name) as full_name,
    sum(score) as total_score
FROM user_data
GROUP BY concatWithSeparatorAssumeInjective('-', first_name, last_name);

┌─full_name───┬─total_score─┐
│ Jane-Smith  │         240 │
│ John-Doe    │         100 │
│ John-Wilson │         120 │
└─────────────┴─────────────┘

conv

도입 버전: v1.1

서로 다른 진법 간에 숫자를 변환합니다.

이 FUNCTION은 숫자를 한 진법에서 다른 진법으로 변환합니다. 2진법부터 36진법까지의 진법을 지원합니다. 10보다 큰 진법에서는 값 10–35를 나타내기 위해 대소문자를 구분하지 않는 A-Z 문자를 사용합니다.

이 FUNCTION은 MySQL의 CONV() FUNCTION과 호환됩니다.

구문

conv(number, from_base, to_base)

인수

number — 변환할 숫자입니다. 문자열 또는 숫자형 타입일 수 있습니다. - from_base — 원본 진법(2-36)입니다. 정수여야 합니다. - to_base — 대상 진법(2-36)입니다. 정수여야 합니다.

반환값

대상 진법으로 표현한 숫자의 문자열입니다.

예제

10진수를 2진수로 변환

SELECT conv('10', 10, 2)

16진수를 10진수로 변환

SELECT conv('FF', 16, 10)

음수를 사용한 변환

SELECT conv('-1', 10, 16)

FFFFFFFFFFFFFFFF

이진수를 8진수로 변환

SELECT conv('1010', 2, 8)

convertCharset

도입: v1.1

인코딩 from에서 인코딩 to로 문자열 s를 변환하여 반환합니다.

구문

convertCharset(s, from, to)

인수

s — 입력 문자열. String
from — 원본 문자 인코딩. String
to — 대상 문자 인코딩. String

반환 값

인코딩 from에서 인코딩 to로 변환된 문자열 s를 반환합니다. String

예제

사용 예제

SELECT convertCharset('Café', 'UTF-8', 'ISO-8859-1');

┌─convertChars⋯SO-8859-1')─┐
│ Caf�                     │
└──────────────────────────┘

damerauLevenshteinDistance

도입 버전: v24.1

두 바이트 문자열 간의 Damerau-Levenshtein 거리를 계산합니다.

구문

damerauLevenshteinDistance(s1, s2)

인수

s1 — 첫 번째 입력 문자열. String
s2 — 두 번째 입력 문자열. String

반환 값

두 문자열 사이의 Damerau-Levenshtein 거리를 반환합니다. UInt64

예시

사용 예시

SELECT damerauLevenshteinDistance('clickhouse', 'mouse')

┌─damerauLevenshteinDistance('clickhouse', 'mouse')─┐
│                                                 6 │
└───────────────────────────────────────────────────┘

decodeHTMLComponent

도입 버전: v23.9

문자열에 포함된 HTML 엔티티를 해당 문자로 디코딩합니다.

구문

decodeHTMLComponent(s)

인수

s — 디코딩할 HTML 엔티티를 포함하는 문자열입니다. String

반환 값

HTML 엔티티가 디코딩된 문자열을 반환합니다. String

예제

사용 예제

SELECT decodeHTMLComponent('&lt;div&gt;Hello &amp; &quot;World&quot;&lt;/div&gt;')

┌─decodeHTMLComponent('&lt;div&gt;Hello &amp; &quot;World&quot;&lt;/div&gt;')─┐
│ <div>Hello & "World"</div>                                                  │
└─────────────────────────────────────────────────────────────────────────────┘

decodeXMLComponent

도입 버전: v21.2

문자열에 포함된 XML 엔티티를 대응하는 문자로 디코딩합니다.

구문

decodeXMLComponent(s)

인수

s — 디코딩할 XML 엔터티를 포함하는 문자열입니다. String

반환값

제공된 문자열에서 XML 엔터티를 디코딩한 문자열을 반환합니다. String

예시

사용 예시

SELECT decodeXMLComponent('&lt;tag&gt;Hello &amp; World&lt;/tag&gt;')

┌─decodeXMLCom⋯;/tag&gt;')─┐
│ <tag>Hello & World</tag> │
└──────────────────────────┘

editDistance

도입된 버전: v23.9

두 개의 바이트 문자열 사이의 편집 거리를 계산합니다.

구문

editDistance(s1, s2)

별칭: levenshteinDistance

인수

s1 — 첫 번째 입력 문자열. String
s2 — 두 번째 입력 문자열. String

반환값

두 문자열 사이의 편집 거리(edit distance)를 반환합니다. UInt64

예제

사용 예제

SELECT editDistance('clickhouse', 'mouse')

┌─editDistance('clickhouse', 'mouse')─┐
│                                   6 │
└─────────────────────────────────────┘

editDistanceUTF8

도입 버전: v24.6

두 개의 UTF8 문자열 간 편집 거리를 계산합니다.

구문

editDistanceUTF8(s1, s2)

별칭: levenshteinDistanceUTF8

인수

s1 — 첫 번째 입력 문자열. String
s2 — 두 번째 입력 문자열. String

반환 값

두 UTF8 문자열 간의 편집 거리를 반환합니다. UInt64

예제

사용 예제

SELECT editDistanceUTF8('我是谁', '我是我')

┌─editDistanceUTF8('我是谁', '我是我')──┐
│                                   1 │
└─────────────────────────────────────┘

encodeXMLComponent

도입된 버전: v21.1

문자열을 XML 텍스트 노드나 속성에 사용할 수 있도록 문자를 이스케이프합니다.

구문

encodeXMLComponent(s)

인수

s — 이스케이프할 문자열. String

반환 값

이스케이프된 문자열을 반환합니다. String

예제

사용 예제

SELECT
    '<tag>Hello & "World"</tag>' AS original,
    encodeXMLComponent('<tag>Hello & "World"</tag>') AS xml_encoded;

┌─original───────────────────┬─xml_encoded──────────────────────────────────────────┐
│ <tag>Hello & "World"</tag> │ &lt;tag&gt;Hello &amp; &quot;World&quot;&lt;/tag&gt; │
└────────────────────────────┴──────────────────────────────────────────────────────┘

endsWith

도입된 버전: v1.1

문자열이 지정된 접미사로 끝나는지 여부를 확인합니다.

구문

endsWith(s, suffix)

인수

s — 확인할 문자열. String
suffix — 확인할 접미사 문자열. String

반환 값

s가 suffix로 끝나면 1, 그렇지 않으면 0을 반환합니다. UInt8

예시

사용 예시

SELECT endsWith('ClickHouse', 'House');

┌─endsWith('Cl⋯', 'House')─┐
│                        1 │
└──────────────────────────┘

endsWithCaseInsensitive

도입 버전: v25.9

문자열이 주어진 접미사로 끝나는지 대소문자를 구분하지 않고 확인합니다.

구문

endsWithCaseInsensitive(s, suffix)

인수

s — 검사할 문자열입니다. String
suffix — 대소문자를 구분하지 않고 존재 여부를 검사할 접미사입니다. String

반환 값

s가 대소문자를 구분하지 않고 suffix로 끝나면 1을, 그렇지 않으면 0을 반환합니다. UInt8

예시

사용 예시

SELECT endsWithCaseInsensitive('ClickHouse', 'HOUSE');

┌─endsWithCaseInsensitive('Cl⋯', 'HOUSE')─┐
│                                       1 │
└─────────────────────────────────────────┘

endsWithCaseInsensitiveUTF8

도입 버전: v25.9

문자열 s가 대소문자를 구분하지 않고 suffix로 끝나는지 여부를 반환합니다. 문자열이 올바른 UTF-8로 인코딩된 텍스트를 포함한다고 가정합니다. 이 가정이 위반되더라도 예외는 발생하지 않으며 결과는 정의되지 않습니다.

문법

endsWithCaseInsensitiveUTF8(s, suffix)

인수

s — 검사할 문자열입니다. String
suffix — 대소문자를 구분하지 않고 검사할 접미사입니다. String

반환 값

s가 대소문자를 구분하지 않는 suffix로 끝나면 1을, 그렇지 않으면 0을 반환합니다. UInt8

예시

사용 예시

SELECT endsWithCaseInsensitiveUTF8('данных', 'ых');

┌─endsWithCaseInsensitiveUTF8('данных', 'ых')─┐
│                                           1 │
└─────────────────────────────────────────────┘

endsWithUTF8

도입된 버전: v23.8

문자열 s가 suffix로 끝나는지 여부를 반환합니다. 문자열에 유효한 UTF-8로 인코딩된 텍스트가 포함되어 있다고 가정합니다. 이 가정이 위반되더라도 예외는 발생하지 않으며, 결과는 정의되지 않습니다.

구문

endsWithUTF8(s, suffix)

인수(Arguments)

s — 검사할 문자열입니다. String
suffix — 검사할 접미사입니다. String

반환 값(Returned value)

s가 suffix로 끝나면 1을, 그렇지 않으면 0을 반환합니다. UInt8

예시(Examples)

사용 예시(Usage example)

SELECT endsWithUTF8('данных', 'ых');

┌─endsWithUTF8('данных', 'ых')─┐
│                            1 │
└──────────────────────────────┘

extractTextFromHTML

도입: v21.3

HTML 또는 XHTML에서 텍스트 콘텐츠를 추출합니다.

이 FUNCTION은 HTML 태그, 주석, script/style 요소를 제거하여 텍스트 콘텐츠만 남깁니다. 다음을 처리합니다:

모든 HTML/XML 태그 제거
주석() 제거
script 및 style 요소와 그 내용 제거
CDATA 섹션 처리(내용을 그대로 복사)
공백의 적절한 처리 및 정규화

주의: HTML 엔터티는 디코딩되지 않으므로, 필요한 경우 별도의 FUNCTION으로 처리해야 합니다.

문법

extractTextFromHTML(html)

인수

html — 텍스트를 추출할 HTML 콘텐츠가 포함된 문자열입니다. String

반환 값

공백을 정규화한 추출된 텍스트 콘텐츠를 반환합니다. String

예시

사용 예시

SELECT extractTextFromHTML('
<html>
    <head><title>Page Title</title></head>
    <body>
        <p>Hello <b>World</b>!</p>
        <script>alert("test");</script>
        <!-- comment -->
    </body>
</html>
');

┌─extractTextFromHTML('<html><head>...')─┐
│ Page Title Hello World!                │
└────────────────────────────────────────┘

firstLine

도입: v23.7

여러 줄로 이루어진 문자열의 첫 번째 줄을 반환합니다.

구문

firstLine(s)

인수

s — 입력 문자열. String

반환값

입력 문자열의 첫 번째 줄을 반환하거나, 줄 구분자가 없으면 전체 문자열을 반환합니다. String

예시

사용 예시

SELECT firstLine('foo\\nbar\\nbaz')

┌─firstLine('foo\nbar\nbaz')─┐
│ foo                        │
└────────────────────────────┘

idnaDecode

도입 버전: v24.1

도메인 이름을 Internationalized Domain Names in Applications (IDNA) 메커니즘에 따라 ToUnicode 알고리즘을 사용한 Unicode(UTF-8) 표현으로 반환합니다. 오류가 발생하는 경우(예: 입력이 유효하지 않은 경우) 입력 문자열을 그대로 반환합니다. 대소문자 정규화 때문에 idnaEncode()와 idnaDecode()를 반복해서 적용하더라도 원래 문자열이 반드시 복원되는 것은 아님을 유의하십시오.

구문

idnaDecode(s)

인자

s — 입력 문자열. String

반환 값

IDNA 메커니즘에 따라 입력 값을 처리하여 얻은 입력 문자열의 유니코드(UTF-8) 표현을 반환합니다. String

예시

사용 예시

SELECT idnaDecode('xn--strae-oqa.xn--mnchen-3ya.de')

┌─idnaDecode('xn--strae-oqa.xn--mnchen-3ya.de')─┐
│ straße.münchen.de                             │
└───────────────────────────────────────────────┘

idnaEncode

도입 버전: v24.1

도메인 이름에 대해 Internationalized Domain Names in Applications (IDNA) 메커니즘에 따른 ASCII 표현(ToASCII 알고리즘)을 반환합니다. 입력 문자열은 UTF-8로 인코딩되어 있어야 하며 ASCII 문자열로 변환 가능해야 합니다. 그렇지 않으면 예외가 발생합니다.

참고

퍼센트 디코딩이나 탭, 공백 또는 제어 문자의 제거는 수행되지 않습니다.

구문

idnaEncode(s)

인수

s — 입력 문자열. String

반환값

IDNA 메커니즘에 따라 입력 문자열을 ASCII로 인코딩한 값을 반환합니다. String

예시

사용 예시

SELECT idnaEncode('straße.münchen.de')

┌─idnaEncode('straße.münchen.de')─────┐
│ xn--strae-oqa.xn--mnchen-3ya.de     │
└─────────────────────────────────────┘

initcap

도입된 버전: v23.7

각 단어의 첫 글자는 대문자로, 나머지는 소문자로 변환합니다. 단어는 영숫자 문자로 이루어진 연속된 문자열이며, 비영숫자 문자로 구분됩니다.

참고

initcap은 각 단어의 첫 글자만 대문자로 변환하기 때문에, 아포스트로피나 대문자를 포함하는 단어에서는 예상치 못한 동작이 발생할 수 있습니다. 이는 알려진 동작 방식이며, 현재 이를 수정할 계획은 없습니다.

구문

initcap(s)

인수

s — 입력 문자열. String

반환값

각 단어의 첫 글자를 대문자로 변환한 문자열 s를 반환합니다. String

예시

사용 예시

SELECT initcap('building for fast')

┌─initcap('building for fast')─┐
│ Building For Fast            │
└──────────────────────────────┘

작은따옴표나 대문자가 포함된 단어에 대한 알려진 동작 예

SELECT initcap('John''s cat won''t eat.');

┌─initcap('Joh⋯n\'t eat.')─┐
│ John'S Cat Won'T Eat.    │
└──────────────────────────┘

initcapUTF8

도입된 버전: v23.7

initcap과 같이, initcapUTF8은 각 단어의 첫 글자를 대문자로, 나머지를 소문자로 변환합니다. 문자열에 유효한 UTF-8로 인코딩된 텍스트가 포함되어 있다고 가정합니다. 이 가정이 만족되지 않더라도 예외는 발생하지 않으며, 결과는 정의되지 않습니다.

참고

이 함수는 언어를 감지하지 않습니다. 예를 들어 터키어(i/İ 및 i/I)의 경우 결과가 완전히 정확하지 않을 수 있습니다. 어떤 코드 포인트에서 대문자와 소문자의 UTF-8 바이트 시퀀스 길이가 서로 다른 경우, 해당 코드 포인트에 대한 결과가 올바르지 않을 수 있습니다.

구문

initcapUTF8(s)

인수

s — 입력 문자열입니다. String

반환값

각 단어의 첫 글자를 대문자로 변환한 s를 반환합니다. String

예시

사용 예시

SELECT initcapUTF8('не тормозит')

┌─initcapUTF8('не тормозит')─┐
│ Не Тормозит                │
└────────────────────────────┘

isValidASCII

도입된 버전: v25.9

입력 String 또는 FixedString이 ASCII 바이트(0x00–0x7F)만 포함하면 1을, 그렇지 않으면 0을 반환합니다. 입력이 유효한 ASCII인 경우에 최적화되어 있습니다.

구문

별칭: isASCII

인자

없음.

반환 값

예시

isValidASCII

SELECT isValidASCII('hello') AS is_ascii, isValidASCII('你好') AS is_not_ascii

isValidUTF8

도입된 버전: v20.1

바이트 시퀀스가 유효한 UTF-8 인코딩 텍스트인지 확인합니다.

구문

isValidUTF8(s)

인수

s — UTF-8 인코딩이 유효한지 검사할 문자열. String

반환 값

바이트 집합이 유효한 UTF-8로 인코딩된 텍스트이면 1, 그렇지 않으면 0을 반환합니다. UInt8

예시

사용 예시

SELECT isValidUTF8('\\xc3\\xb1') AS valid, isValidUTF8('\\xc3\\x28') AS invalid

┌─valid─┬─invalid─┐
│     1 │       0 │
└───────┴─────────┘

jaroSimilarity

도입 버전: v24.1

두 바이트 문자열 간의 Jaro similarity를 계산합니다.

구문

jaroSimilarity(s1, s2)

인자

s1 — 첫 번째 입력 문자열. String
s2 — 두 번째 입력 문자열. String

반환 값

두 문자열 사이의 Jaro 유사도를 반환합니다. Float64

예시

사용 예시

SELECT jaroSimilarity('clickhouse', 'click')

┌─jaroSimilarity('clickhouse', 'click')─┐
│                    0.8333333333333333 │
└───────────────────────────────────────┘

jaroWinklerSimilarity

도입된 버전: v24.1

두 바이트 문자열 간의 Jaro-Winkler 유사도를 계산합니다.

구문

jaroWinklerSimilarity(s1, s2)

인수

s1 — 첫 번째 입력 문자열. String
s2 — 두 번째 입력 문자열. String

반환 값

두 문자열 사이의 Jaro-Winkler 유사도를 반환합니다. Float64

예제

사용 예

SELECT jaroWinklerSimilarity('clickhouse', 'click')

┌─jaroWinklerSimilarity('clickhouse', 'click')─┐
│                           0.8999999999999999 │
└──────────────────────────────────────────────┘

left

도입 버전: v22.1

문자열 s의 왼쪽에서부터 지정한 offset 길이의 부분 문자열을 반환합니다.

구문

left(s, offset)

인수

s — 부분 문자열을 추출할 문자열입니다. String 또는 FixedString
offset — 오프셋의 바이트 수입니다. (U)Int*

반환 값

다음을 반환합니다.

양수인 offset 값이면, 문자열의 왼쪽부터 시작하여 길이가 offset 바이트인 s의 부분 문자열입니다.
음수인 offset 값이면, 문자열의 왼쪽부터 시작하여 길이가 length(s) - |offset| 바이트인 s의 부분 문자열입니다.
length가 0이면 빈 문자열입니다. String

예시

양수 offset

SELECT left('Hello World', 5)

Hello

음수 오프셋

SELECT left('Hello World', -6)

Hello

leftPad

도입된 버전: v21.8

문자열의 왼쪽을 공백 또는 지정한 문자열(필요하다면 여러 번 반복)로 채워, 결과 문자열의 길이가 지정된 length에 도달할 때까지 패딩합니다.

구문

leftPad(string, length[, pad_string])

별칭: lpad

인수

string — 패딩할 입력 문자열입니다. String
length — 결과 문자열의 길이입니다. 값이 입력 문자열 길이보다 작으면 입력 문자열을 length 문자로 잘라냅니다. (U)Int*
pad_string — 선택 사항입니다. 입력 문자열을 패딩할 때 사용할 문자열입니다. 지정하지 않으면 공백으로 패딩합니다. String

반환 값

지정한 길이로 왼쪽이 패딩된 문자열을 반환합니다. String

예시

사용 예시

SELECT leftPad('abc', 7, '*'), leftPad('def', 7)

┌─leftPad('abc', 7, '*')─┬─leftPad('def', 7)─┐
│ ****abc                │     def           │
└────────────────────────┴───────────────────┘

leftPadUTF8

도입: v21.8

UTF8 문자열의 왼쪽을 공백 또는 지정된 문자열(필요하다면 여러 번 반복)로 채워, 결과 문자열이 지정한 길이에 도달할 때까지 패딩합니다. 문자열 길이를 바이트 단위로 측정하는 leftPad와 달리, 여기서는 문자열 길이를 코드 포인트 기준으로 측정합니다.

구문

leftPadUTF8(string, length[, pad_string])

인수

string — 패딩할 입력 문자열입니다. String
length — 결과 문자열의 길이입니다. 값이 입력 문자열 길이보다 작으면 입력 문자열은 length 글자로 잘립니다. (U)Int*
pad_string — 선택 사항입니다. 입력 문자열을 패딩할 때 사용할 문자열입니다. 지정하지 않으면 공백으로 패딩됩니다. String

반환 값

지정된 길이의 왼쪽이 패딩된 문자열을 반환합니다. String

예시

사용 예시

SELECT leftPadUTF8('абвг', 7, '*'), leftPadUTF8('дежз', 7)

┌─leftPadUTF8('абвг', 7, '*')─┬─leftPadUTF8('дежз', 7)─┐
│ ***абвг                     │    дежз                │
└─────────────────────────────┴────────────────────────┘

leftUTF8

도입 버전: v22.1

UTF-8로 인코딩된 문자열 s에서 왼쪽에서부터 지정된 offset에서 시작하는 부분 문자열을 반환합니다.

구문

leftUTF8(s, offset)

인수

s — 부분 문자열을 계산할 UTF-8 인코딩 문자열입니다. String 또는 FixedString
offset — 오프셋의 바이트 수입니다. (U)Int*

반환 값

다음 값을 반환합니다:

offset이 양수이면, 문자열의 왼쪽부터 시작하여 offset 바이트 길이의 s 부분 문자열을 반환합니다.\n"
offset이 음수이면, 문자열의 왼쪽부터 시작하여 length(s) - |offset| 바이트 길이의 s 부분 문자열을 반환합니다.\n"
length가 0이면 빈 문자열을 반환합니다. String

예시

양수 offset

SELECT leftUTF8('Привет', 4)

Прив

음수 오프셋

SELECT leftUTF8('Привет', -4)

Пр

lengthUTF8

도입 버전: v1.1

문자열의 길이를 바이트나 문자 수가 아니라 Unicode 코드 포인트 수로 반환합니다. 문자열이 유효한 UTF-8 인코딩 텍스트라고 가정합니다. 이 가정이 위반되더라도 예외는 발생하지 않으며, 결과는 정의되지 않습니다.

구문

lengthUTF8(s)

별칭: CHARACTER_LENGTH, CHAR_LENGTH

인수

s — 유효한 UTF-8로 인코딩된 텍스트를 포함하는 문자열입니다. String

반환 값

문자열 s의 길이(유니코드 코드 포인트 기준)입니다. UInt64

예시

사용 예

SELECT lengthUTF8('Здравствуй, мир!')

┌─lengthUTF8('Здравствуй, мир!')─┐
│                             16 │
└────────────────────────────────┘

lower

도입: v1.1

ASCII 문자열을 소문자로 변환합니다.

구문

lower(s)

별칭: lcase

인수

s — 소문자로 변환할 문자열입니다. String

반환값

s를 소문자로 변환한 문자열을 반환합니다. String

예제

사용 예제

SELECT lower('CLICKHOUSE')

┌─lower('CLICKHOUSE')─┐
│ clickhouse          │
└─────────────────────┘

lowerUTF8

도입 버전: v1.1

문자열이 올바른 UTF-8 인코딩 텍스트라고 가정하고, 문자열을 소문자로 변환합니다. 이 가정이 충족되지 않더라도 예외는 발생하지 않으며 결과는 정의되지 않습니다.

구문

lowerUTF8(input)

인수

input — 소문자로 변환할 입력 문자열입니다. String

반환 값

소문자로 변환된 문자열을 반환합니다. String

예시

first

SELECT lowerUTF8('München') as Lowerutf8;

münchen

normalizeUTF8NFC

도입된 버전: v21.11

NFC 정규화 형식에 따라 UTF-8 문자열을 정규화합니다.

구문

normalizeUTF8NFC(str)

인수

str — UTF-8로 인코딩된 입력 문자열입니다. String

반환값

UTF-8 문자열의 NFC 정규화 형태를 반환합니다. String

예시

사용 예시

SELECT
'é' AS original, -- e + combining acute accent (U+0065 + U+0301)
length(original),
normalizeUTF8NFC('é') AS nfc_normalized, -- é (U+00E9)
length(nfc_normalized);

┌─original─┬─length(original)─┬─nfc_normalized─┬─length(nfc_normalized)─┐
│ é        │                2 │ é              │                      2 │
└──────────┴──────────────────┴────────────────┴────────────────────────┘

normalizeUTF8NFD

도입 버전: v21.11

UTF-8 문자열을 NFD 정규화 형식에 따라 정규화합니다.

구문

normalizeUTF8NFD(str)

인수

str — UTF-8로 인코딩된 입력 문자열. String

반환 값

UTF-8 문자열을 NFD 방식으로 정규화한 값을 반환합니다. String

예시

사용 예시

SELECT
    'é' AS original, -- é (U+00E9)
    length(original),
    normalizeUTF8NFD('é') AS nfd_normalized, -- e + combining acute (U+0065 + U+0301)
    length(nfd_normalized);

┌─original─┬─length(original)─┬─nfd_normalized─┬─length(nfd_normalized)─┐
│ é        │                2 │ é              │                      3 │
└──────────┴──────────────────┴────────────────┴────────────────────────┘

normalizeUTF8NFKC

도입된 버전: v21.11

NFKC 정규화 형식에 따라 UTF-8 문자열을 정규화합니다.

구문

normalizeUTF8NFKC(str)

인자

str — UTF-8로 인코딩된 입력 문자열. String

반환값

UTF-8 문자열의 NFKC 정규화 형태를 반환합니다. String

예시

사용 예시

SELECT
    '① ② ③' AS original,                            -- Circled number characters
    normalizeUTF8NFKC('① ② ③') AS nfkc_normalized;  -- Converts to 1 2 3

┌─original─┬─nfkc_normalized─┐
│ ① ② ③  │ 1 2 3           │
└──────────┴─────────────────┘

normalizeUTF8NFKD

도입된 버전: v21.11

NFKD 정규화 형식에 따라 UTF-8 문자열을 정규화합니다.

구문

normalizeUTF8NFKD(str)

인수

str — UTF-8로 인코딩된 입력 문자열입니다. String

반환 값

UTF-8 문자열의 NFKD 정규화된 형태를 반환합니다. String

예시

사용 예시

SELECT
    'H₂O²' AS original,                            -- H + subscript 2 + O + superscript 2
    normalizeUTF8NFKD('H₂O²') AS nfkd_normalized;  -- Converts to H 2 O 2

┌─original─┬─nfkd_normalized─┐
│ H₂O²     │ H2O2            │
└──────────┴─────────────────┘

punycodeDecode

도입 버전: v24.1

Punycode로 인코딩된 문자열을 UTF-8로 인코딩된 일반 텍스트로 디코딩하여 반환합니다. 유효한 Punycode 인코딩 문자열이 제공되지 않으면 예외가 발생합니다.

구문

punycodeDecode(s)

인수

s — Punycode로 인코딩된 문자열. String

반환 값

입력 값에 해당하는 평문 문자열을 반환합니다. String

예시

사용 예시

SELECT punycodeDecode('Mnchen-3ya')

┌─punycodeDecode('Mnchen-3ya')─┐
│ München                      │
└──────────────────────────────┘

punycodeEncode

도입 버전: v24.1

문자열의 Punycode 표현을 반환합니다. 문자열은 UTF-8로 인코딩되어 있어야 하며, 그렇지 않은 경우 동작이 정의되지 않습니다.

구문

punycodeEncode(s)

인수

s — 입력값. String

반환값

입력값의 Punycode 표현을 반환합니다. String

예시

사용 예시

SELECT punycodeEncode('München')

┌─punycodeEncode('München')─┐
│ Mnchen-3ya                │
└───────────────────────────┘

regexpExtract

도입 버전: v23.2

haystack에서 정규식 패턴과 일치하며 지정된 정규식 그룹 인덱스에 해당하는 첫 번째 문자열을 추출합니다.

구문

regexpExtract(haystack, pattern[, index])

별칭: REGEXP_EXTRACT

인수

haystack — 정규 표현식 패턴을 일치시킬 문자열입니다. String
pattern — 정규 표현식 문자열입니다. pattern에는 여러 개의 정규 표현식 그룹을 포함할 수 있으며, index는 어느 정규 표현식 그룹을 추출할지 나타냅니다. 인덱스 0은 전체 정규 표현식과의 일치를 의미합니다. const String
index — 선택 사항입니다. 기본값이 1인 0 이상 정수입니다. 어떤 정규 표현식 그룹을 추출할지 나타냅니다. (U)Int*

반환 값

일치한 문자열을 반환합니다. String

예시

사용 예시

SELECT
    regexpExtract('100-200', '(\\d+)-(\\d+)', 1),
    regexpExtract('100-200', '(\\d+)-(\\d+)', 2),
    regexpExtract('100-200', '(\\d+)-(\\d+)', 0),
    regexpExtract('100-200', '(\\d+)-(\\d+)');

┌─regexpExtract('100-200', '(\\d+)-(\\d+)', 1)─┬─regexpExtract('100-200', '(\\d+)-(\\d+)', 2)─┬─regexpExtract('100-200', '(\\d+)-(\\d+)', 0)─┬─regexpExtract('100-200', '(\\d+)-(\\d+)')─┐
│ 100                                          │ 200                                          │ 100-200                                      │ 100                                       │
└──────────────────────────────────────────────┴──────────────────────────────────────────────┴──────────────────────────────────────────────┴───────────────────────────────────────────┘

repeat

도입된 버전: v20.1

지정된 횟수만큼 문자열을 반복하여 이어 붙입니다.

구문

repeat(s, n)

인수

s — 반복할 문자열입니다. String
n — 문자열을 반복할 횟수입니다. (U)Int*

반환 값

문자열 s를 n번 반복한 문자열입니다. n이 음수인 경우 함수는 빈 문자열을 반환합니다. String

예시

사용 예시

SELECT repeat('abc', 10)

┌─repeat('abc', 10)──────────────┐
│ abcabcabcabcabcabcabcabcabcabc │
└────────────────────────────────┘

reverseUTF8

도입 버전: v1.1

문자열에서 유니코드 코드 포인트 시퀀스를 역순으로 뒤집습니다. 문자열에 유효한 UTF-8 인코딩 텍스트가 포함되어 있다고 가정합니다. 이 가정이 만족되지 않더라도 예외는 발생하지 않으며, 결과는 정의되지 않습니다.

구문

reverseUTF8(s)

인수

s — 유효한 UTF-8로 인코딩된 텍스트를 포함하는 문자열입니다. String

반환값

유니코드 코드 포인트 시퀀스를 역순으로 배치한 문자열을 반환합니다. String

예시

사용 예시

SELECT reverseUTF8('ClickHouse')

esuoHkcilC

right

도입된 버전: v22.1

문자열 s의 오른쪽 끝에서부터 지정된 offset을 기준으로 한 부분 문자열을 반환합니다.

구문

right(s, offset)

인수(Arguments)

s — 부분 문자열을 계산할 기준이 되는 문자열입니다. String 또는 FixedString
offset — 오프셋의 바이트 수입니다. (U)Int*

반환 값(Returned value)

다음을 반환합니다.

양수 offset인 경우, 문자열의 오른쪽에서 시작하여 offset 바이트 길이의 s 부분 문자열을 반환합니다.
음수 offset인 경우, 문자열의 오른쪽에서 시작하여 length(s) - |offset| 바이트 길이의 s 부분 문자열을 반환합니다.
length가 0이면 빈 문자열을 반환합니다. String

예시(Examples)

양수 offset

SELECT right('Hello', 3)

llo

음수 오프셋

SELECT right('Hello', -3)

lo

rightPad

도입된 버전: v21.8

문자열의 오른쪽 끝을 공백 또는 지정한 문자열(필요하면 여러 번 반복)로 채워, 결과 문자열의 길이가 지정된 length에 도달할 때까지 패딩합니다.

구문

rightPad(string, length[, pad_string])

별칭: rpad

인수

string — 패딩할 입력 문자열입니다. String
length — 결과 문자열의 길이입니다. 값이 입력 문자열 길이보다 작으면 입력 문자열은 length 문자까지로 잘립니다. (U)Int*
pad_string — 선택 사항입니다. 입력 문자열을 패딩할 때 사용할 문자열입니다. 지정하지 않으면 입력 문자열은 공백 문자로 패딩됩니다. String

반환 값

지정된 길이를 갖도록 오른쪽에 패딩된 문자열을 반환합니다. String

예시

사용 예시

SELECT rightPad('abc', 7, '*'), rightPad('abc', 7)

┌─rightPad('abc', 7, '*')─┬─rightPad('abc', 7)─┐
│ abc****                 │ abc                │
└─────────────────────────┴────────────────────┘

rightPadUTF8

도입된 버전: v21.8

문자열을 오른쪽에서부터 공백 또는 지정된 문자열(필요하면 여러 번 반복)을 사용해 채워, 결과 문자열이 지정된 길이에 도달할 때까지 패딩합니다. 문자열 길이를 바이트 단위로 측정하는 rightPad와 달리, 여기서는 문자열 길이를 코드 포인트 단위로 측정합니다.

구문

rightPadUTF8(string, length[, pad_string])

인수

string — 패딩할 입력 문자열입니다. String
length — 결과 문자열의 길이입니다. 값이 입력 문자열 길이보다 작으면 입력 문자열은 length 문자로 잘립니다. (U)Int*
pad_string — 선택 사항입니다. 입력 문자열을 패딩할 때 사용할 문자열입니다. 지정하지 않으면 입력 문자열은 공백으로 패딩됩니다. String

반환 값

지정된 길이로 오른쪽이 패딩된 문자열을 반환합니다. String

예시

사용 예시

SELECT rightPadUTF8('абвг', 7, '*'), rightPadUTF8('абвг', 7)

┌─rightPadUTF8('абвг', 7, '*')─┬─rightPadUTF8('абвг', 7)─┐
│ абвг***                      │ абвг                    │
└──────────────────────────────┴─────────────────────────┘

rightUTF8

도입된 버전: v22.1

UTF-8로 인코딩된 문자열 s에서 오른쪽 끝에서 offset만큼 떨어진 위치부터 시작하는 부분 문자열을 반환합니다.

구문

rightUTF8(s, offset)

인자

s — 부분 문자열을 계산할 대상인 UTF-8 인코딩 문자열입니다. String 또는 FixedString
offset — 오프셋을 나타내는 바이트 수입니다. (U)Int*

반환 값

다음을 반환합니다:

offset이 양수인 경우, 문자열의 오른쪽에서부터 시작하여 offset 바이트 길이의 s 부분 문자열을 반환합니다.
offset이 음수인 경우, 문자열의 오른쪽에서부터 시작하여 length(s) - |offset| 바이트 길이의 s 부분 문자열을 반환합니다.
length가 0이면 빈 문자열을 반환합니다. String

예시

양수 offset

SELECT rightUTF8('Привет', 4)

ивет

음수 오프셋

SELECT rightUTF8('Привет', -4)

ет

soundex

도입된 버전: v23.4

문자열의 Soundex code를 반환합니다.

구문

soundex(s)

인자

s — 입력 문자열. String

반환 값

입력 문자열의 Soundex 코드를 반환합니다. String

예제

사용 예제

SELECT soundex('aksel')

┌─soundex('aksel')─┐
│ A240             │
└──────────────────┘

space

도입 버전: v23.5

지정된 횟수만큼 공백( ) 문자를 이어 붙입니다.

구문

space(n)

인수

n — 공백을 반복할 횟수입니다. (U)Int*

반환 값

공백을 n번 반복한 문자열을 반환합니다. n <= 0이면 빈 문자열을 반환합니다. String

예시

사용 예시

SELECT space(3) AS res, length(res);

┌─res─┬─length(res)─┐
│     │           3 │
└─────┴─────────────┘

sparseGrams

도입 버전: v25.5

주어진 문자열에서 최소 길이가 n인 모든 부분 문자열을 찾습니다. 이때 해당 부분 문자열 양 끝 경계에 있는 (n-1)-그램의 해시 값이 부분 문자열 내부에 있는 어떤 (n-1)-그램의 해시 값보다도 항상 더 커야 합니다. 해시 함수로 CRC32를 사용합니다.

구문

sparseGrams(s[, min_ngram_length, max_ngram_length])

인수

s — 입력 문자열입니다. String
min_ngram_length — 선택 사항입니다. 추출되는 n그램의 최소 길이입니다. 기본값이자 최소값은 3입니다. UInt*
max_ngram_length — 선택 사항입니다. 추출되는 n그램의 최대 길이입니다. 기본값은 100입니다. min_ngram_length보다 작아서는 안 됩니다. UInt*
min_cutoff_length — 선택 사항입니다. 지정된 경우, 길이가 min_cutoff_length 이상인 n그램만 반환합니다. 기본값은 min_ngram_length와 동일합니다. min_ngram_length보다 작아서는 안 되며, max_ngram_length보다 커서도 안 됩니다. UInt*

반환 값

선택된 부분 문자열의 배열을 반환합니다. Array(String)

예시

사용 예시

SELECT sparseGrams('alice', 3)

┌─sparseGrams('alice', 3)────────────┐
│ ['ali','lic','lice','ice']         │
└────────────────────────────────────┘

sparseGramsHashes

도입 버전: v25.5

주어진 문자열에서 길이가 최소 n인 모든 부분 문자열 중에서, 부분 문자열 경계에 있는 (n-1)-그램의 해시가 부분 문자열 내부의 모든 (n-1)-그램 해시보다 엄격하게 큰 경우의 해시들을 계산합니다. 해시 함수로 CRC32를 사용합니다.

구문

sparseGramsHashes(s[, min_ngram_length, max_ngram_length])

인자

s — 입력 문자열입니다. String
min_ngram_length — 선택 사항입니다. 추출되는 n-그램의 최소 길이입니다. 기본값이자 최소 값은 3입니다. UInt*
max_ngram_length — 선택 사항입니다. 추출되는 n-그램의 최대 길이입니다. 기본값은 100입니다. min_ngram_length보다 작아서는 안 됩니다. UInt*
min_cutoff_length — 선택 사항입니다. 지정된 경우 길이가 min_cutoff_length보다 크거나 같은 n-그램만 반환합니다. 기본값은 min_ngram_length와 동일합니다. min_ngram_length보다 작지 않고 max_ngram_length보다 크지 않아야 합니다. UInt*

반환 값

선택된 부분 문자열에 대한 CRC32 해시 값 배열을 반환합니다. Array(UInt32)

예시

사용 예시

SELECT sparseGramsHashes('alice', 3)

┌─sparseGramsHashes('alice', 3)──────────────────────┐
│ [1481062250,2450405249,4012725991,1918774096]      │
└────────────────────────────────────────────────────┘

sparseGramsHashesUTF8

도입 버전: v25.5

주어진 UTF-8 문자열에서 길이가 최소 n 이상인 모든 부분 문자열의 해시를 찾습니다. 이때 부분 문자열의 경계에 있는 (n-1)-그램의 해시는 부분 문자열 내부에 있는 어떤 (n-1)-그램의 해시보다도 반드시 커야 합니다. 입력으로 UTF-8 문자열을 받으며, 잘못된 UTF-8 시퀀스가 들어오면 예외를 발생시킵니다. 해시 함수로 CRC32를 사용합니다.

구문

sparseGramsHashesUTF8(s[, min_ngram_length, max_ngram_length])

인수

s — 입력 문자열입니다. String
min_ngram_length — 선택 사항입니다. 추출할 n-gram의 최소 길이입니다. 기본값이자 최소값은 3입니다. UInt*
max_ngram_length — 선택 사항입니다. 추출할 n-gram의 최대 길이입니다. 기본값은 100입니다. min_ngram_length보다 작지 않아야 합니다. UInt*
min_cutoff_length — 선택 사항입니다. 지정한 경우, 길이가 min_cutoff_length 이상인 n-gram만 반환합니다. 기본값은 min_ngram_length와 같습니다. min_ngram_length보다 작지 않고 max_ngram_length보다 크지 않아야 합니다. UInt*

반환 값

선택된 UTF-8 부분 문자열에 대한 CRC32 해시의 배열을 반환합니다. Array(UInt32)

예시

사용 예시

SELECT sparseGramsHashesUTF8('алиса', 3)

┌─sparseGramsHashesUTF8('алиса', 3)─┐
│ [4178533925,3855635300,561830861] │
└───────────────────────────────────┘

sparseGramsUTF8

도입 버전: v25.5

주어진 UTF-8 문자열에서 길이가 최소 n 이상인 모든 부분 문자열을 찾습니다. 이때 부분 문자열의 양 끝에 있는 (n-1)-gram의 해시 값이, 그 부분 문자열 내부에 있는 모든 (n-1)-gram의 해시 값보다 엄격히 커야 합니다. 입력으로 UTF-8 문자열을 받으며, 잘못된 UTF-8 시퀀스가 포함된 경우 예외를 발생시킵니다. 해시 함수로 CRC32를 사용합니다.

구문

sparseGramsUTF8(s[, min_ngram_length, max_ngram_length])

인자

s — 입력 문자열입니다. String
min_ngram_length — 선택 사항입니다. 추출되는 n-그램의 최소 길이입니다. 기본값이자 최소값은 3입니다. UInt*
max_ngram_length — 선택 사항입니다. 추출되는 n-그램의 최대 길이입니다. 기본값은 100입니다. min_ngram_length보다 작아서는 안 됩니다. UInt*
min_cutoff_length — 선택 사항입니다. 지정된 경우 길이가 min_cutoff_length 이상인 n-그램만 반환됩니다. 기본값은 min_ngram_length와 같습니다. min_ngram_length보다 작아서는 안 되며 max_ngram_length보다 커서는 안 됩니다. UInt*

반환 값

선택된 UTF-8 부분 문자열의 배열을 반환합니다. Array(String)

예시

사용 예시

SELECT sparseGramsUTF8('алиса', 3)

┌─sparseGramsUTF8('алиса', 3)─┐
│ ['али','лис','иса']         │
└─────────────────────────────┘

startsWith

도입됨: v1.1

문자열이 지정한 문자열로 시작하는지 확인합니다.

구문

startsWith(s, prefix)

인자

s — 확인할 문자열. String
prefix — 확인할 접두사. String

반환값

s가 prefix로 시작하면 1, 그렇지 않으면 0을 반환합니다. UInt8

예시

사용 예시

SELECT startsWith('ClickHouse', 'Click');

┌─startsWith('⋯', 'Click')─┐
│                        1 │
└──────────────────────────┘

startsWithCaseInsensitive

도입 버전: v25.9

문자열이 대소문자를 구분하지 않고 지정된 문자열로 시작하는지 확인합니다.

구문

startsWithCaseInsensitive(s, prefix)

인수

s — 검사할 문자열입니다. String
prefix — 대소문자를 구분하지 않고 검사할 접두사입니다. String

반환 값

s가 대소문자를 구분하지 않고 prefix로 시작하면 1을, 그렇지 않으면 0을 반환합니다. UInt8

예시

사용 예시

SELECT startsWithCaseInsensitive('ClickHouse', 'CLICK');

┌─startsWithCaseInsensitive('⋯', 'CLICK')─┐
│                                       1 │
└─────────────────────────────────────────┘

startsWithCaseInsensitiveUTF8

도입된 버전: v25.9

문자열이 대소문자를 구분하지 않는 지정된 접두사로 시작하는지 확인합니다. 문자열이 유효한 UTF-8 인코딩 텍스트를 포함한다고 가정합니다. 이 가정이 만족되지 않더라도 예외는 발생하지 않으며, 결과는 정의되지 않습니다.

구문

startsWithCaseInsensitiveUTF8(s, prefix)

인수

s — 확인할 문자열. String
prefix — 대소문자를 구분하지 않고 확인할 접두사. String

반환 값

s가 대소문자를 구분하지 않고 prefix로 시작하면 1, 그렇지 않으면 0을 반환합니다. UInt8

예시

사용 예시

SELECT startsWithCaseInsensitiveUTF8('приставка', 'при')

┌─startsWithUT⋯ка', 'при')─┐
│                        1 │
└──────────────────────────┘

startsWithUTF8

도입: v23.8

문자열이 지정된 접두사로 시작하는지 확인합니다. 문자열이 유효한 UTF-8로 인코딩된 텍스트라고 가정합니다. 이 가정이 어긋나더라도 예외는 발생하지 않으며, 결과는 정의되지 않습니다.

구문

startsWithUTF8(s, prefix)

인수

s — 검사할 문자열. String
prefix — 확인할 접두사. String

반환 값

s가 prefix로 시작하면 1, 그렇지 않으면 0을 반환합니다. UInt8

예시

사용 예시

SELECT startsWithUTF8('приставка', 'при')

┌─startsWithUT⋯ка', 'при')─┐
│                        1 │
└──────────────────────────┘

stringBytesEntropy

도입 버전: v25.6

문자열의 바이트 분포에 대한 Shannon 엔트로피를 계산합니다.

구문

stringBytesEntropy(s)

인수

s — 분석할 문자열입니다. String

반환 값

문자열에서 바이트 분포의 Shannon 엔트로피를 반환합니다. Float64

예제

사용 예제

SELECT stringBytesEntropy('Hello, world!')

┌─stringBytesEntropy('Hello, world!')─┐
│                         3.07049960  │
└─────────────────────────────────────┘

stringBytesUniq

도입된 버전: v25.6

문자열에서 서로 다른 바이트 수를 계산합니다.

구문

stringBytesUniq(s)

인수

s — 분석할 문자열입니다. String

반환 값

문자열에 포함된 서로 다른 바이트의 개수를 반환합니다. UInt16

예시

사용 예시

SELECT stringBytesUniq('Hello')

┌─stringBytesUniq('Hello')─┐
│                        4 │
└──────────────────────────┘

stringJaccardIndex

도입된 버전: v23.11

두 바이트 문자열 간의 Jaccard similarity index를 계산합니다.

구문

stringJaccardIndex(s1, s2)

인수

s1 — 첫 번째 입력 문자열. String
s2 — 두 번째 입력 문자열. String

반환값

두 문자열 간의 Jaccard 유사도 지수를 반환합니다. Float64

예제

사용 예제

SELECT stringJaccardIndex('clickhouse', 'mouse')

┌─stringJaccardIndex('clickhouse', 'mouse')─┐
│                                       0.4 │
└───────────────────────────────────────────┘

stringJaccardIndexUTF8

도입된 버전: v23.11

stringJaccardIndex와 유사하지만 UTF-8로 인코딩된 문자열에 대해 동작합니다.

구문

stringJaccardIndexUTF8(s1, s2)

인수

s1 — 첫 번째 입력 UTF8 문자열입니다. String
s2 — 두 번째 입력 UTF8 문자열입니다. String

반환 값

두 UTF8 문자열 간의 Jaccard 유사도 지수를 반환합니다. Float64

예시

사용 예시

SELECT stringJaccardIndexUTF8('我爱你', '我也爱你')

┌─stringJaccardIndexUTF8('我爱你', '我也爱你')─┐
│                                       0.75 │
└─────────────────────────────────────────────┘

substring

도입 버전: v1.1

문자열 s에서 지정된 바이트 인덱스 offset부터 시작하는 부분 문자열을 반환합니다. 바이트 수는 1부터 세기 시작하며, 다음과 같은 규칙을 따릅니다.

offset이 0이면 빈 문자열을 반환합니다.
offset이 음수이면, 부분 문자열은 문자열의 시작이 아니라 끝에서 offset 문자 떨어진 지점부터 시작합니다.

선택적 인수 length는 반환되는 부분 문자열이 가질 수 있는 최대 바이트 수를 지정합니다.

구문

substring(s, offset[, length])

별칭: byteSlice, mid, substr

인수

s — 부분 문자열을 추출할 대상 문자열입니다. String 또는 FixedString 또는 Enum
offset — s에서 부분 문자열이 시작하는 위치입니다. (U)Int*
length — 선택 사항입니다. 부분 문자열의 최대 길이입니다. (U)Int*

반환값

offset 인덱스에서 시작하여, 길이가 최대 length 바이트인 s의 부분 문자열을 반환합니다. String

예시

기본 사용법

SELECT 'database' AS db, substr(db, 5), substr(db, 5, 1)

┌─db───────┬─substring('database', 5)─┬─substring('database', 5, 1)─┐
│ database │ base                     │ b                           │
└──────────┴──────────────────────────┴─────────────────────────────┘

substringIndex

도입 버전: v23.7

Spark 또는 MySQL에서와 같이, 구분자 delim이 count번 나타나기 전까지의 s의 부분 문자열을 반환합니다.

구문

substringIndex(s, delim, count)

별칭: SUBSTRING_INDEX

인수

s — 부분 문자열을 추출할 대상 문자열입니다. String
delim — 분할에 사용할 구분자 문자열입니다. String
count — 부분 문자열을 추출하기 전에 세어야 하는 구분자의 등장 횟수입니다. count가 양수이면 (왼쪽에서부터 셀 때) 마지막 구분자의 왼쪽에 있는 모든 내용이 반환됩니다. count가 음수이면 (오른쪽에서부터 셀 때) 마지막 구분자의 오른쪽에 있는 모든 내용이 반환됩니다. UInt 또는 Int

반환 값

delim이 count번 등장하기 전까지의 s의 부분 문자열을 반환합니다. String

예시

사용 예시

SELECT substringIndex('www.clickhouse.com', '.', 2)

┌─substringIndex('www.clickhouse.com', '.', 2)─┐
│ www.clickhouse                               │
└──────────────────────────────────────────────┘

substringIndexUTF8

도입된 버전: v23.7

구분자 delim이 count번 등장하기 전까지의 s 부분 문자열을, 유니코드 코드 포인트 기준으로 반환합니다. 문자열에 유효한 UTF-8로 인코딩된 텍스트가 포함되어 있다고 가정합니다. 이 가정이 깨진 경우에도 예외는 발생하지 않으며, 결과는 정의되지 않습니다.

구문

substringIndexUTF8(s, delim, count)

인수

s — 부분 문자열을 추출할 대상 문자열입니다. String
delim — 문자열을 분리할 구분 문자입니다. String
count — 부분 문자열을 추출하기 전에 셀 구분 문자의 발생 횟수입니다. count가 양수이면 (왼쪽에서 셌을 때) 마지막 구분 문자의 왼쪽에 있는 모든 내용이 반환됩니다. count가 음수이면 (오른쪽에서 셌을 때) 마지막 구분 문자의 오른쪽에 있는 모든 내용이 반환됩니다. UInt 또는 Int

반환 값

delim이 count번 발생하기 전까지의 s의 부분 문자열을 반환합니다. String

예시

UTF-8 예시

SELECT substringIndexUTF8('www.straßen-in-europa.de', '.', 2)

www.straßen-in-europa

substringUTF8

도입된 버전: v1.1

문자열 s에서 지정된 코드 포인트 인덱스 offset에서 시작하는 부분 문자열을 반환합니다. 코드 포인트는 다음 규칙에 따라 1부터 셉니다:

offset이 0이면 빈 문자열을 반환합니다.
offset이 음수이면, 부분 문자열은 문자열의 시작이 아니라 끝에서부터 offset 코드 포인트 떨어진 위치에서 시작합니다.

선택적 인수 length는 반환되는 부분 문자열이 가질 수 있는 코드 포인트의 최대 개수를 지정합니다.

참고

이 함수는 문자열이 유효한 UTF-8로 인코딩된 텍스트라고 가정합니다. 이 가정이 위반되더라도 예외는 발생하지 않으며, 결과는 정의되지 않습니다.

구문

substringUTF8(s, offset[, length])

인수

s — 부분 문자열을 추출할 문자열입니다. String 또는 FixedString 또는 Enum
offset — s에서 부분 문자열이 시작되는 위치입니다. Int 또는 UInt
length — 부분 문자열의 최대 길이입니다. 선택 사항입니다. Int 또는 UInt

반환 값

코드 포인트 인덱스 offset에서 시작하여, length 개의 코드 포인트로 이루어진 s의 부분 문자열을 반환합니다. String

예시

사용 예시

SELECT 'Täglich grüßt das Murmeltier.' AS str, substringUTF8(str, 9), substringUTF8(str, 9, 5)

Täglich grüßt das Murmeltier.    grüßt das Murmeltier.    grüßt

toValidUTF8

도입 버전: v20.1

문자열에서 잘못된 UTF-8 문자를 대체 문자 �(U+FFFD)로 치환하여, 유효한 UTF-8 인코딩의 문자열로 변환합니다. 여러 개의 연속된 잘못된 문자는 대체 문자 하나로 축약됩니다.

구문

toValidUTF8(s)

인수

s — String 데이터 타입의 객체로 표현되는 임의의 바이트 집합. String

반환값

유효한 UTF-8 문자열을 반환합니다. String

예시

사용 예시

SELECT toValidUTF8('\\x61\\xF0\\x80\\x80\\x80b')

c
┌─toValidUTF8('a����b')─┐
│ a�b                   │
└───────────────────────┘

trimBoth

도입된 버전: v20.1

문자열의 시작과 끝에서 지정된 문자를 제거합니다. 기본적으로 일반적인 공백(ASCII) 문자를 제거합니다.

구문

trimBoth(s[, trim_characters])

별칭: trim

인수

s — 앞뒤 공백을 제거할 문자열입니다. String
trim_characters — 선택적 인수입니다. 앞뒤에서 제거할 문자 집합입니다. 지정하지 않으면 일반적인 공백 문자가 제거됩니다. String

반환 값

양쪽 끝에서 지정된 문자가 제거된 문자열을 반환합니다. String

예제

사용 예제

SELECT trimBoth('$$ClickHouse$$', '$')

┌─trimBoth('$$⋯se$$', '$')─┐
│ ClickHouse               │
└──────────────────────────┘

trimLeft

도입 버전: v20.1

문자열 시작 부분에서 지정된 문자를 제거합니다. 기본적으로 일반적인 ASCII 공백 문자를 제거합니다.

구문

trimLeft(input[, trim_characters])

별칭: ltrim

인수

input — 문자를 제거할 문자열입니다. String
trim_characters — 선택 사항입니다. 제거할 문자입니다. 지정하지 않으면 일반 공백 문자가 제거됩니다. String

반환 값

왼쪽에서 지정된 문자를 제거한 문자열을 반환합니다. String

예시

사용 예시

SELECT trimLeft('ClickHouse', 'Click');

┌─trimLeft('Cl⋯', 'Click')─┐
│ House                    │
└──────────────────────────┘

trimRight

도입된 버전: v20.1

문자열 끝에서 지정된 문자를 제거합니다. 기본적으로 일반적인 공백(ASCII) 문자를 제거합니다.

구문

trimRight(s[, trim_characters])

별칭(Aliases): rtrim

인자(Arguments)

s — 트리밍할 문자열입니다. String
trim_characters — 트리밍할 문자를 선택적으로 지정합니다. 지정하지 않으면 일반적인 공백 문자가 제거됩니다. String

반환 값(Returned value)

오른쪽 끝에서 지정된 문자가 제거된 문자열을 반환합니다. String

예시(Examples)

사용 예시(Usage example)

SELECT trimRight('ClickHouse','House');

┌─trimRight('C⋯', 'House')─┐
│ Click                    │
└──────────────────────────┘

tryBase32Decode

도입 버전: v25.6

문자열을 입력으로 받아 Base32 인코딩 방식으로 디코딩합니다.

구문

tryBase32Decode(encoded)

인수

encoded — 디코딩할 String 컬럼 또는 상수입니다. 문자열이 올바른 Base32 인코딩이 아닌 경우, 오류가 발생하면 빈 문자열을 반환합니다. String

반환 값

인수의 디코딩된 값을 포함하는 문자열을 반환합니다. String

예시

사용 예시

SELECT tryBase32Decode('IVXGG33EMVSA====');

┌─tryBase32Decode('IVXGG33EMVSA====')─┐
│ Encoded                             │
└─────────────────────────────────────┘

tryBase58Decode

도입 버전: v22.10

base58Decode와 유사하지만 오류 발생 시 빈 문자열을 반환합니다.

구문

tryBase58Decode(encoded)

인자

encoded — String 컬럼 또는 상수입니다. 문자열이 올바른 Base58로 인코딩된 것이 아니면, 오류 발생 시 빈 문자열을 반환합니다. String

반환값

인자의 디코딩된 값을 담은 문자열을 반환합니다. String

예시

사용 예시

SELECT tryBase58Decode('3dc8KtHrwM') AS res, tryBase58Decode('invalid') AS res_invalid;

┌─res─────┬─res_invalid─┐
│ Encoded │             │
└─────────┴─────────────┘

tryBase64Decode

도입 버전: v18.16

base64Decode와 같지만, 오류가 발생하면 빈 문자열을 반환합니다.

구문

tryBase64Decode(encoded)

인수

encoded — 디코딩할 String 컬럼 또는 상수입니다. 문자열이 올바른 Base64로 인코딩되지 않은 경우, 오류 시 빈 문자열을 반환합니다. String

반환 값

인수의 디코딩된 값을 포함하는 문자열을 반환합니다. String

예시

사용 예시

SELECT tryBase64Decode('Y2xpY2tob3VzZQ==')

┌─tryBase64Decode('Y2xpY2tob3VzZQ==')─┐
│ clickhouse                          │
└─────────────────────────────────────┘

tryBase64URLDecode

도입된 버전: v18.16

base64URLDecode와 유사하지만, 오류가 발생하면 빈 문자열을 반환합니다.

구문

tryBase64URLDecode(encoded)

인수

encoded — 디코딩할 String 컬럼 또는 상수입니다. 문자열이 올바른 Base64로 인코딩된 값이 아닌 경우, 오류 시 빈 문자열을 반환합니다. String

반환 값

인수의 디코딩된 값을 포함하는 문자열을 반환합니다. String

예시

사용 예시

SELECT tryBase64URLDecode('aHR0cHM6Ly9jbGlja2hvdXNlLmNvbQ')

┌─tryBase64URLDecode('aHR0cHM6Ly9jbGlja2hvdXNlLmNvbQ')─┐
│ https://clickhouse.com                               │
└──────────────────────────────────────────────────────┘

tryIdnaEncode

도입 버전: v24.1

Internationalized Domain Names in Applications (IDNA) 메커니즘에 따라 도메인 이름을 Unicode(UTF-8) 표현(ToUnicode 알고리즘)으로 변환하여 반환합니다. 오류가 발생하는 경우 예외를 던지는 대신 빈 문자열을 반환합니다.

구문

tryIdnaEncode(s)

인수

s — 입력 문자열. String

반환 값

입력에 IDNA 메커니즘을 적용해 얻은 입력 문자열의 ASCII 표현을 반환하며, 입력이 유효하지 않으면 빈 문자열을 반환합니다. String

예시

사용 예시

SELECT tryIdnaEncode('straße.münchen.de')

┌─tryIdnaEncode('straße.münchen.de')──┐
│ xn--strae-oqa.xn--mnchen-3ya.de     │
└─────────────────────────────────────┘

tryPunycodeDecode

도입 버전: v24.1

punycodeDecode와 같지만, 유효한 Punycode로 인코딩된 문자열이 제공되지 않은 경우 빈 문자열을 반환합니다.

구문

tryPunycodeDecode(s)

인자

s — Punycode로 인코딩된 문자열. String

반환값

입력값의 평문을 반환하며, 입력값이 잘못된 경우 빈 문자열을 반환합니다. String

예시

사용 예시

SELECT tryPunycodeDecode('Mnchen-3ya')

┌─tryPunycodeDecode('Mnchen-3ya')─┐
│ München                         │
└─────────────────────────────────┘

upper

도입 버전: v1.1

문자열에 포함된 ASCII 라틴 문자를 대문자로 변환합니다.

구문

upper(s)

별칭: ucase

인수

s — 대문자로 변환할 문자열입니다. String

반환 값

s를 대문자로 변환한 문자열을 반환합니다. String

예시

사용 예

SELECT upper('clickhouse')

┌─upper('clickhouse')─┐
│ CLICKHOUSE          │
└─────────────────────┘

upperUTF8

도입 버전: v1.1

문자열이 올바른 UTF-8로 인코딩된 텍스트라고 가정하고, 문자열을 대문자로 변환합니다. 이 가정이 위배되더라도 예외는 발생하지 않으며, 결과는 정의되지 않습니다.

참고

이 함수는 언어를 감지하지 않습니다. 예를 들어 터키어의 경우 결과가 정확하지 않을 수 있습니다(i/İ vs. i/I). 하나의 코드 포인트에 대해 대문자와 소문자의 UTF-8 바이트 시퀀스 길이가 서로 다른 경우(예: ẞ와 ß), 해당 코드 포인트에 대한 결과가 올바르지 않을 수 있습니다.

구문

upperUTF8(s)

인수

s — 문자열 타입입니다. String

반환 값

String 데이터 타입의 값입니다. String

예시

사용 예시

SELECT upperUTF8('München') AS Upperutf8

┌─Upperutf8─┐
│ MÜNCHEN   │
└───────────┘

CRC32​

CRC32IEEE​

CRC64​

appendTrailingCharIfAbsent​

ascii​

base32Decode​

base32Encode​

base58Decode​

base58Encode​

base64Decode​

base64Encode​

base64URLDecode​

base64URLEncode​

basename​

byteHammingDistance​

compareSubstrings​

concat​

concatAssumeInjective​

concatWithSeparator​

concatWithSeparatorAssumeInjective​

conv​

convertCharset​

damerauLevenshteinDistance​

decodeHTMLComponent​

decodeXMLComponent​

editDistance​

editDistanceUTF8​

encodeXMLComponent​

endsWith​

endsWithCaseInsensitive​

endsWithCaseInsensitiveUTF8​

endsWithUTF8​

extractTextFromHTML​

firstLine​

idnaDecode​

idnaEncode​

initcap​

initcapUTF8​

isValidASCII​

isValidUTF8​

jaroSimilarity​

jaroWinklerSimilarity​

left​

leftPad​

leftPadUTF8​

leftUTF8​

lengthUTF8​

lower​

lowerUTF8​

normalizeUTF8NFC​

normalizeUTF8NFD​

normalizeUTF8NFKC​

normalizeUTF8NFKD​

punycodeDecode​

punycodeEncode​

regexpExtract​

repeat​

reverseUTF8​

right​

rightPad​

rightPadUTF8​

rightUTF8​

soundex​

space​

sparseGrams​

sparseGramsHashes​

sparseGramsHashesUTF8​

sparseGramsUTF8​

startsWith​

startsWithCaseInsensitive​

startsWithCaseInsensitiveUTF8​

startsWithUTF8​

stringBytesEntropy​

stringBytesUniq​

stringJaccardIndex​

stringJaccardIndexUTF8​

substring​

substringIndex​

substringIndexUTF8​

substringUTF8​

CRC32

CRC32IEEE

CRC64

appendTrailingCharIfAbsent

ascii

base32Decode

base32Encode

base58Decode

base58Encode

base64Decode

base64Encode

base64URLDecode

base64URLEncode

basename

byteHammingDistance

compareSubstrings

concat

concatAssumeInjective

concatWithSeparator

concatWithSeparatorAssumeInjective

conv

convertCharset

damerauLevenshteinDistance

decodeHTMLComponent

decodeXMLComponent

editDistance

editDistanceUTF8

encodeXMLComponent

endsWith

endsWithCaseInsensitive

endsWithCaseInsensitiveUTF8

endsWithUTF8

extractTextFromHTML

firstLine

idnaDecode

idnaEncode

initcap

initcapUTF8

isValidASCII

isValidUTF8

jaroSimilarity

jaroWinklerSimilarity

left

leftPad

leftPadUTF8

leftUTF8

lengthUTF8

lower

lowerUTF8

normalizeUTF8NFC

normalizeUTF8NFD

normalizeUTF8NFKC

normalizeUTF8NFKD

punycodeDecode

punycodeEncode

regexpExtract

repeat

reverseUTF8

right

rightPad

rightPadUTF8

rightUTF8

soundex

space

sparseGrams

sparseGramsHashes

sparseGramsHashesUTF8

sparseGramsUTF8

startsWith

startsWithCaseInsensitive

startsWithCaseInsensitiveUTF8

startsWithUTF8

stringBytesEntropy

stringBytesUniq

stringJaccardIndex

stringJaccardIndexUTF8

substring

substringIndex

substringIndexUTF8

substringUTF8