문자열 검색을 위한 함수
이 섹션의 모든 함수는 기본적으로 대소문자를 구분하여 검색합니다. 대소문자를 구분하지 않는 검색은 일반적으로 별도의 함수 버전으로 제공됩니다.
대소문자를 구분하지 않는 검색은 영어의 소문자-대문자 규칙을 따릅니다. 예를 들어 영어에서 소문자 i의 대문자는
I이지만, 터키어에서는 İ입니다. 따라서 영어가 아닌 언어에서는 예상하지 못한 결과가 나올 수 있습니다.
이 섹션의 함수들은 검색 대상 문자열(이 섹션에서 haystack이라고 함)과 검색 문자열(이 섹션에서 needle이라고 함)이 단일 바이트로 인코딩된 텍스트라고 가정합니다. 이 가정이
충족되지 않더라도 예외는 발생하지 않으며 결과는 정의되지 않습니다. UTF-8로 인코딩된 문자열 검색은 일반적으로 별도의 함수
버전으로 제공됩니다. 마찬가지로 UTF-8 함수 버전을 사용했는데 입력 문자열이 UTF-8로 인코딩된 텍스트가 아니라면, 예외는 발생하지 않으며
결과는 정의되지 않습니다. 자동 Unicode 정규화는 수행되지 않지만,
이를 위해 normalizeUTF8*() 함수를 사용할 수 있습니다.
일반 문자열 함수 및 문자열 치환 함수는 별도로 설명합니다.
아래 문서는 system.functions 시스템 테이블에서 생성되었습니다.
countMatches
도입 버전: v21.1
문자열에서 정규 표현식이 일치하는 횟수를 반환합니다.
이 함수의 동작은 ClickHouse 버전에 따라 달라집니다:
- v25.6 미만 버전에서는, 패턴이 빈 문자열과도 일치 가능하더라도 첫 번째 빈 일치가 발생하면 개수를 세는 것을 중단합니다.
- v25.6 이상 버전에서는, 빈 일치가 발생하더라도 함수 실행이 계속됩니다. 기존 동작은
count_matches_stop_at_empty_match = true설정을 통해 복원할 수 있습니다.
구문
인수
반환 값
찾은 일치하는 항목의 개수를 반환합니다. UInt64
예제
숫자 시퀀스 개수 세기
countMatchesCaseInsensitive
도입 버전: v21.1
countMatches와 동일하지만, 대소문자를 구분하지 않고(case-insensitive) 일치 여부를 검사합니다.
구문
인수
haystack— 검색할 문자열입니다.Stringpattern— 정규식 패턴입니다.const String
반환 값
일치하는 항목의 개수를 반환합니다. UInt64
예시
대소문자를 구분하지 않는 개수 세기
countSubstrings
도입된 버전: v21.1
부분 문자열 needle이 문자열 haystack 내에서 등장하는 횟수를 반환합니다.
구문
인수
haystack— 검색이 수행되는 문자열. String 또는 Enum. -needle— 검색할 부분 문자열. String. -start_pos— 검색을 시작하는haystack내 위치(1부터 시작). UInt. 선택적 인수입니다.
반환 값
등장 횟수입니다. UInt64
예시
사용 예시
start_pos 인수를 사용하는 경우
countSubstringsCaseInsensitive
도입 버전: v21.1
countSubstrings와 같지만, 대소문자를 구분하지 않고 부분 문자열의 개수를 셉니다.
구문
인수
haystack— 검색이 수행되는 문자열입니다.String또는Enumneedle— 검색할 부분 문자열입니다.Stringstart_pos— 선택적 인수입니다. 검색을 시작하는haystack내 위치(1부터 시작)입니다.UInt*
반환 값
haystack 내에서 needle이 나타나는 횟수를 반환합니다. UInt64
예시
사용 예시
start_pos 인수 사용 시
countSubstringsCaseInsensitiveUTF8
도입된 버전: v21.1
countSubstrings와 같지만, 대소문자를 구분하지 않고 개수를 세며 haystack이 UTF-8 문자열이라고 가정합니다.
구문
인자
haystack— 검색을 수행할 UTF-8 문자열입니다.String또는Enumneedle— 검색할 부분 문자열입니다.Stringstart_pos— 선택 사항입니다. 검색을 시작할haystack내 위치(1부터 시작)입니다.UInt*
반환 값
haystack에서 needle이 나타나는 횟수를 반환합니다. UInt64
예시
사용 예시
start_pos 인수를 사용하는 경우
extract
도입 버전: v1.1
문자열에서 정규 표현식에 일치하는 첫 번째 항목을 추출합니다. 'haystack'이(가) 'pattern'과(와) 일치하지 않으면 빈 문자열을 반환합니다.
이 함수는 RE2 정규 표현식 라이브러리를 사용합니다. 지원되는 문법은 re2를 참고하십시오.
정규 표현식에 캡처 그룹(하위 패턴)이 있는 경우, 입력 문자열을 정규 표현식과 매칭한 뒤 첫 번째 캡처 그룹에 해당하는 부분 문자열을 반환합니다.
구문
인수
haystack— 추출할 문자열입니다.Stringpattern— 일반적으로 캡처 그룹을 포함하는 정규 표현식입니다.const String
반환 값
추출된 부분을 문자열로 반환합니다. String
예시
이메일에서 도메인 추출
일치 항목이 없으면 빈 문자열을 반환합니다
extractAll
도입 버전: v1.1
extract와 비슷하지만, 문자열에서 지정한 정규 표현식과 일치하는 모든 항목의 배열을 반환합니다.
'haystack'이 'pattern' 정규 표현식과 일치하지 않으면 빈 배열을 반환합니다.
정규 표현식에 캡처 그룹(서브 패턴)이 포함된 경우, FUNCTION은 첫 번째 캡처 그룹을 기준으로 입력 문자열을 매칭합니다.
문법
인수
haystack— 부분 문자열을 추출할 원본 문자열입니다.Stringpattern— 캡처 그룹을 포함할 수 있는 정규 표현식입니다.const String
반환 값
추출된 부분 문자열의 배열을 반환합니다. Array(String)
예시
모든 숫자 추출
캡처 그룹을 사용한 추출
extractAllGroupsHorizontal
도입 버전: v20.5
제공된 정규식을 사용하여 문자열의 모든 그룹을 매칭한 다음, 각 캡처 그룹별로 그룹 번호 순서에 따라 해당 그룹에서 캡처된 모든 값을 담은 배열을 요소로 가지는 배열을 반환합니다.
구문
인자
s— 값을 추출할 입력 문자열입니다.String또는FixedStringregexp— 일치 여부를 확인할 정규식입니다.const String또는const FixedString
반환 값
각 내부 배열이, 모든 일치 결과에 대해 하나의 캡처 그룹에서 얻은 모든 캡처를 포함하는 배열의 배열을 반환합니다. 첫 번째 내부 배열에는 그룹 1의 모든 캡처가, 두 번째 내부 배열에는 그룹 2의 모든 캡처가 포함되는 식입니다. 일치하는 결과가 없으면 빈 배열을 반환합니다. Array(Array(String))
예시
사용 예시
extractGroups
도입: v20.5
정규 표현식과 일치하는 서로 겹치지 않는 부분 문자열들에서 모든 그룹을 추출합니다.
구문
인자
s— 추출할 입력 문자열입니다.String또는FixedStringregexp— 정규식 상수입니다.const String또는const FixedString
반환 값
함수가 하나 이상의 일치하는 그룹을 찾으면, group_id(1에서 N까지, 여기서 N은 regexp에서 캡처링 그룹의 수)를 기준으로 클러스터링된 Array(Array(String)) 컬럼을 반환합니다. 일치하는 그룹이 없으면 빈 배열을 반환합니다. Array(Array(String))
예시
사용 예시
hasAllTokens
도입 버전: v25.10
hasAnyTokens와 유사하지만, needle 문자열 또는 배열의 모든 토큰이 input 문자열과 일치하면 1을 반환하고, 그렇지 않으면 0을 반환합니다. input이 컬럼인 경우, 해당 조건을 만족하는 모든 행을 반환합니다.
최적의 성능을 위해 input 컬럼에 텍스트 인덱스가 정의되어 있어야 합니다.
텍스트 인덱스가 정의되지 않은 경우, 함수는 무차별 대입 방식으로 컬럼을 스캔하게 되며 이는 인덱스 조회보다 수 배에서 수십 배 이상 느립니다.
검색 전에 함수가 토큰화를 수행합니다
input인자(항상 사용), 그리고needle인수가 (String로 전달된 경우) 텍스트 인덱스(text index)에 지정된 토크나이저를 사용하여 처리됩니다. 컬럼에 텍스트 인덱스가 정의되어 있지 않으면splitByNonAlpha토크나이저가 대신 사용됩니다.needle인수가 Array(String) 타입인 경우 각 배열 요소는 하나의 토큰으로 간주되며, 추가 토큰화는 수행되지 않습니다.
중복된 토큰은 무시됩니다. 예를 들어, needles = ['ClickHouse', 'ClickHouse']는 ['ClickHouse']와 동일하게 처리됩니다.
구문
별칭: hasAllToken
인수
input— 입력 컬럼입니다.String또는FixedString또는Array(String)또는Array(FixedString)중 하나일 수 있습니다.needles— 검색 대상 토큰입니다.String또는Array(String)tokenizer— 사용할 tokenizer를 지정합니다. 사용할 수 있는 인수는splitByNonAlpha,ngrams,splitByString,array,sparseGrams입니다. 선택 사항으로, 명시적으로 설정하지 않으면 기본값은splitByNonAlpha입니다. 형식은const String입니다.
반환 값
모든 needle이 일치하면 1을 반환합니다. 그렇지 않으면 0을 반환합니다. UInt8
예시
문자열 needle 사용 기본 예제
배열에서 검색할 needle을 토큰화 없이 그대로(AS-IS) 지정합니다
tokens 함수를 사용하여 니들(needle) 생성
세 번째 인수를 통해 사용자 정의 토크나이저를 사용합니다
배열 및 맵 컬럼의 사용 예제
배열 컬럼이 있는 예시
mapKeys 사용 예
mapValues 사용 예시
hasAnyTokens
도입 버전: v25.10
needle 문자열 또는 배열의 토큰 중 하나 이상이 input 문자열과 일치하면 1을 반환하고, 그렇지 않으면 0을 반환합니다. input이 컬럼인 경우, 해당 조건을 만족하는 모든 행을 반환합니다.
최적의 성능을 위해 input 컬럼에 텍스트 인덱스를 정의해야 합니다.
텍스트 인덱스가 정의되지 않은 경우, 함수는 전체 컬럼 스캔을 수행하게 되며 이는 인덱스 조회보다 수 배에서 수십 배 느립니다.
검색 전에 함수가 토큰화를 수행합니다
input인자(항상 필요), 그리고needle인자가 String 타입으로 주어지면, 텍스트 인덱스에 대해 지정된 토크나이저(tokenizer)를 사용합니다. 컬럼에 텍스트 인덱스가 정의되어 있지 않으면splitByNonAlpha토크나이저가 대신 사용됩니다.needle인자가 Array(String) 타입이면, 배열의 각 요소는 토큰으로 취급되며 추가적인 토크나이징은 수행되지 않습니다.
중복된 토큰은 무시됩니다. 예를 들어, ['ClickHouse', 'ClickHouse']는 ['ClickHouse']와 동일하게 처리됩니다.
구문
별칭: hasAnyToken
인수
input— 입력 컬럼입니다.String,FixedString,Array(String),Array(FixedString)형식일 수 있습니다.needles— 검색 대상 토큰입니다.String또는Array(String)tokenizer— 사용할 tokenizer입니다. 허용되는 값은splitByNonAlpha,ngrams,splitByString,array,sparseGrams입니다. 선택 사항이며, 명시적으로 설정하지 않으면 기본값은splitByNonAlpha입니다.const String
반환 값
최소 하나 이상의 일치 항목이 있으면 1을 반환합니다. 그렇지 않으면 0을 반환합니다. UInt8
예시
문자열 needle을 사용한 기본 사용법
배열에서 검색할 needle을 토큰화 없이 그대로(AS-IS) 지정합니다
tokens 함수를 사용하여 needle 생성
배열 및 맵 컬럼의 사용 예제
배열 컬럼 예제
mapKeys 사용 예제
mapValues 예제
hasSubsequence
도입 버전: v23.7
haystack 안에 needle이 부분 수열(subsequence)인지 확인합니다.
문자열의 부분 수열(subsequence)이란, 남아 있는 문자들의 순서는 바꾸지 않은 채 일부 문자를 삭제하거나 아무 문자도 삭제하지 않고 다른 문자열로부터 얻을 수 있는 문자 시퀀스를 의미합니다.
구문
인수
반환 값
needle이 haystack의 부분 시퀀스이면 1을, 그렇지 않으면 0을 반환합니다. UInt8
예시
기본 부분 시퀀스 검사
부분 문자열을 찾을 수 없습니다
hasSubsequenceCaseInsensitive
도입된 버전: v23.7
hasSubsequence와 동일하지만, 대소문자를 구분하지 않고 검색합니다.
구문
인수
반환 값
needle이 haystack의 부분 수열이면 1을, 그렇지 않으면 0을 반환합니다. UInt8
예시
사용 예시
hasSubsequenceCaseInsensitiveUTF8
도입된 버전: v23.7
hasSubsequenceUTF8와 유사하지만, 대소문자를 구분하지 않고 검색합니다.
구문
인수
haystack— 검색이 수행되는 UTF-8로 인코딩된 문자열입니다.Stringneedle— 검색할 UTF-8로 인코딩된 부분 수열(subsequence) 문자열입니다.String
반환 값
needle이 haystack의 부분 수열이면 1을, 그렇지 않으면 0을 반환합니다. UInt8
예시
사용 예시
hasSubsequenceUTF8
도입된 버전: v23.7
hasSubsequence와 유사하지만, haystack과 needle이 UTF-8로 인코딩된 문자열이라고 가정합니다.
구문
인수
반환 값
needle이 haystack의 부분 시퀀스이면 1, 그렇지 않으면 0을 반환합니다. UInt8
예시
사용 예시
일치하지 않는 부분수열
hasToken
도입 버전: v20.1
지정한 토큰이 haystack 안에 존재하는지 확인합니다.
토크나이저로 splitByNonAlpha를 사용합니다. 즉, 토큰은 연속된 문자 [0-9A-Za-z_](숫자, ASCII 문자, 밑줄)로 이루어진 가능한 한 가장 긴 부분 문자열로 정의됩니다.
구문
인자
haystack— 검색 대상 문자열입니다.Stringtoken— 검색할 토큰입니다.const String
반환 값
토큰을 찾은 경우 1, 그렇지 않으면 0을 반환합니다. UInt8
예시
토큰 검색
hasTokenCaseInsensitive
도입 버전: v
tokenbf_v1 인덱스를 사용하여 haystack 내에서 needle을 대소문자를 구분하지 않고 검색합니다.
구문
인수
- 없음
반환 값
예제
hasTokenCaseInsensitiveOrNull
도입된 버전: v
tokenbf_v1 인덱스를 사용하여 haystack에서 needle을 대소문자를 구분하지 않고 검색합니다. needle의 형식이 올바르지 않은 경우 null을 반환합니다.
구문
인수
- 없음.
반환값
예시
hasTokenOrNull
도입된 버전: v20.1
hasToken과 같지만 토큰 형식이 유효하지 않은 경우 null을 반환합니다.
구문
인수
haystack— 검색할 문자열입니다. 상수여야 합니다.Stringtoken— 검색할 토큰입니다.const String
반환 값
토큰을 찾으면 1, 찾지 못하면 0, 토큰 형식이 잘못된 경우에는 null을 반환합니다. Nullable(UInt8)
예시
사용 예시
ilike
도입 버전: v20.6
like와 유사하지만, 대소문자를 구분하지 않고 검색합니다.
구문
인수
haystack— 검색을 수행할 문자열입니다.String또는FixedStringpattern— 비교에 사용할 LIKE 패턴입니다.String
반환 값
문자열이 LIKE 패턴과 대소문자 구분 없이 일치하면 1, 그렇지 않으면 0을 반환합니다. UInt8
예시
사용 예시
like
도입 버전: v1.1
문자열 haystack이 LIKE 표현식 pattern과 일치하는지 여부를 반환합니다.
LIKE 표현식에는 일반 문자와 다음 메타 문자를 포함할 수 있습니다.
%는 임의 개수(0개 포함)의 임의 문자를 나타냅니다._는 임의의 단일 문자를 나타냅니다.\는 리터럴%,_,\를 이스케이프하는 데 사용됩니다.
비교는 UTF-8을 기준으로 수행됩니다. 예를 들어 _는 UTF-8에서 2바이트로 표현되는 유니코드 코드 포인트 ¥와 일치합니다.
haystack 또는 LIKE 표현식이 유효한 UTF-8이 아니면 동작이 정의되지 않습니다.
자동으로 Unicode 정규화를 수행하지 않습니다. 이를 위해서는 normalizeUTF8* 함수들을 사용할 수 있습니다.
리터럴 %, _, \(LIKE 메타 문자)와 일치시키려면 백슬래시를 앞에 붙입니다: \%, \_, \\.
백슬래시는 %, _, \가 아닌 다른 문자를 앞에 둘 경우 특별한 의미를 잃고(즉, 리터럴로 해석되어) 처리됩니다.
ClickHouse에서는 문자열 안의 백슬래시도 따로 이스케이프해야 하므로 실제로는 \\%, \\_, \\\\처럼 작성해야 합니다.
%needle% 형태의 LIKE 표현식의 경우, 이 함수는 position 함수와 동일한 수준으로 빠르게 동작합니다.
그 외의 모든 LIKE 표현식은 내부적으로 정규 표현식으로 변환되어 match 함수와 유사한 성능으로 실행됩니다.
구문
인자
haystack— 검색을 수행할 문자열입니다.String또는FixedStringpattern— 매칭에 사용할LIKE패턴입니다.%(임의 개수의 문자와 일치),_(단일 문자와 일치), 이스케이프용\를 포함할 수 있습니다.String
반환 값
문자열이 LIKE 패턴과 일치하면 1, 그렇지 않으면 0을 반환합니다. UInt8
예시
사용 예시
단일 문자 와일드카드
일치하지 않는 패턴
locate
도입 버전: v18.16
position과 동일하지만, 인수 haystack과 needle의 순서가 반대입니다.
이 함수의 동작은 ClickHouse 버전에 따라 달라집니다.
- v24.3 미만 버전에서는
locate가 함수position의 별칭이었으며(haystack, needle[, start_pos])인수를 받습니다. - v24.3 이상 버전에서는
locate가 별도의 함수(MySQL과의 호환성을 높이기 위함)이며(needle, haystack[, start_pos])인수를 받습니다. 이전 동작은 설정function_locate_has_mysql_compatible_argument_order = false를 사용하여 복원할 수 있습니다.
구문
인수(Arguments)
needle— 검색할 부분 문자열입니다.Stringhaystack— 검색이 수행되는 문자열입니다.String또는Enumstart_pos— 선택 사항입니다.haystack내에서 검색을 시작할 위치(1부터 시작)입니다.UInt
반환 값(Returned value)
부분 문자열을 찾은 경우 시작 위치를 바이트 단위로 1부터 계산하여 반환하고, 찾지 못한 경우 0을 반환합니다. UInt64
예시(Examples)
기본 사용법(Basic usage)
match
도입 버전: v1.1
제공된 문자열이 제공된 정규 표현식 패턴과 일치하는지 확인합니다.
이 함수는 RE2 정규 표현식 라이브러리를 사용합니다. 지원되는 문법은 re2를 참고하십시오.
매칭은 UTF-8을 전제로 동작합니다. 예를 들어 ¥ 문자는 내부적으로 2바이트를 사용하지만, 매칭 시에는 하나의 코드포인트로 취급합니다.
정규 표현식에는 NULL 바이트가 포함되면 안 됩니다.
대상 문자열(haystack)이나 패턴이 올바른 UTF-8이 아니면 동작은 정의되지 않습니다.
re2의 기본 동작과 달리 . 은 줄 바꿈 문자도 매칭합니다. 이를 비활성화하려면 패턴 앞에 (?-s) 를 붙이십시오.
패턴은 양 끝이 자동으로 앵커 처리됩니다(패턴이 ^ 로 시작하고 $ 로 끝나는 것과 동일하게 동작합니다).
부분 문자열만 찾으려는 경우 like 또는 position 함수를 대신 사용할 수 있습니다. 이 함수들은 이 함수보다 훨씬 빠르게 동작합니다.
대체 연산자 문법: haystack REGEXP pattern.
Syntax
별칭: REGEXP_MATCHES
인수
haystack— 패턴을 검색할 문자열입니다.Stringpattern— 정규식 패턴입니다.const String
반환 값
패턴이 일치하면 1, 그렇지 않으면 0을 반환합니다. UInt8
예제
기본 패턴 매칭
일치하는 패턴 없음
multiFuzzyMatchAllIndices
도입 버전: v20.1
multiFuzzyMatchAny와 유사하지만, 고정된 편집 거리 이내에서 대상 문자열(haystack)과 일치하는 모든 인덱스의 배열을 임의의 순서로 반환합니다.
구문
인수
haystack— 검색을 수행할 문자열입니다.Stringdistance— 퍼지(fuzzy) 매칭을 위한 최대 편집 거리입니다.UInt8pattern— 매칭에 사용할 패턴들의 배열입니다.Array(String)
반환 값
지정된 편집 거리 내에서 haystack과 일치하는 모든 인덱스(1부터 시작)를 임의의 순서로 반환합니다. 일치 항목이 없으면 빈 배열을 반환합니다. Array(UInt64)
예시
사용 예시
multiFuzzyMatchAny
도입 버전: v20.1
multiMatchAny와 비슷하지만, 일정한 편집 거리 내에서 패턴 중 하나라도 검색 대상 문자열(haystack)과 일치하면 1을 반환합니다.
이 함수는 hyperscan 라이브러리의 실험적 기능에 의존하며, 일부 특정 경우에는 느릴 수 있습니다.
성능은 편집 거리 값과 사용된 패턴에 따라 달라지지만, 항상 비 퍼지(fuzzy) 버전에 비해 비용이 더 많이 듭니다.
multiFuzzyMatch*() 함수 계열은 hyperscan의 제약으로 인해 UTF-8 정규식을 지원하지 않습니다(바이트 시퀀스로 처리합니다).
구문
인수
haystack— 검색이 수행되는 문자열입니다.Stringdistance— 퍼지 매칭(fuzzy matching)을 위한 최대 편집 거리입니다.UInt8pattern— 옵션입니다. 매칭에 사용할 패턴 배열입니다.Array(String)
반환 값
지정된 편집 거리 이내에서 하나라도 패턴이 haystack과 일치하면 1, 그렇지 않으면 0을 반환합니다. UInt8
예시
사용 예시
multiFuzzyMatchAnyIndex
도입된 버전: v20.1
multiFuzzyMatchAny와 같지만, 고정된 편집 거리 내에서 검색 대상 문자열(haystack)과 일치하는 인덱스 중 하나를 반환합니다.
구문
인수
haystack— 검색을 수행할 문자열입니다.Stringdistance— 퍼지(fuzzy) 매칭을 위한 최대 편집 거리입니다.UInt8pattern— 매칭할 패턴 배열입니다.Array(String)
반환 값
지정된 편집 거리 이내에서 haystack과 일치하는 임의의 패턴의 인덱스(1부터 시작)를 반환하며, 일치하는 패턴이 없으면 0을 반환합니다. UInt64
예시
사용 예시
multiMatchAllIndices
도입 버전: v20.1
multiMatchAny와 유사하지만, 대상 문자열(haystack)에서 일치하는 모든 인덱스를 순서와 무관하게 배열로 반환합니다.
구문
인수
반환 값
haystack에서 일치하는 모든 인덱스(1부터 시작)를 임의의 순서로 포함하는 배열입니다. 일치하는 값이 없으면 빈 배열을 반환합니다. Array(UInt64)
예시
사용 예시
multiMatchAny
도입 버전: v20.1
여러 개의 정규식 패턴 중 하나 이상이 대상 문자열과 일치하는지 확인합니다.
문자열에서 여러 부분 문자열만 검색하려는 경우에는, 이 함수보다 훨씬 더 빠르게 동작하는 함수 multiSearchAny를 대신 사용할 수 있습니다.
문법
인수
haystack— 패턴을 검색할 문자열입니다.Stringpattern1[, pattern2, ...]— 하나 이상의 정규 표현식 패턴으로 이루어진 배열입니다.Array(String)
반환 값
패턴 중 하나라도 일치하면 1, 그렇지 않으면 0을 반환합니다. UInt8
예제
다중 패턴 매칭
일치하는 패턴이 없습니다
multiMatchAnyIndex
도입 버전: v20.1
multiMatchAny와 유사하지만, 대상 문자열(haystack)에 일치하는 패턴의 인덱스를 반환합니다.
구문
인수
haystack— 검색이 수행되는 문자열입니다.Stringpattern— 일치 여부를 검사할 정규 표현식입니다.Array(String)
반환 값
처음으로 일치하는 패턴의 번호(1부터 시작)를 반환하며, 일치하는 것이 없으면 0을 반환합니다. UInt64
예시
사용 예시
multiSearchAllPositions
도입된 버전: v20.1
position과 비슷하지만, haystack 문자열에서 여러 needle 부분 문자열의 위치(바이트 단위, 1부터 시작)를 배열로 반환합니다.
모든 multiSearch*() 함수는 최대 2^8개의 needle만 지원합니다.
구문
인수
haystack— 검색이 수행되는 문자열입니다.Stringneedle1[, needle2, ...]— 검색할 하나 이상의 부분 문자열의 배열입니다.Array(String)
반환 값
부분 문자열이 발견되면 1부터 시작하여 바이트 단위로 계산한 시작 위치들의 배열을 반환하고, 부분 문자열을 찾지 못하면 0을 반환합니다. Array(UInt64)
예시
여러 needle 검색
multiSearchAllPositionsCaseInsensitive
도입된 버전: v20.1
multiSearchAllPositions와 유사하지만 대소문자를 구분하지 않습니다.
구문
인수
haystack— 검색이 수행되는 문자열입니다.Stringneedle1[, needle2, ...]— 검색할 하나 이상의 부분 문자열로 이루어진 배열입니다.Array(String)
반환 값
부분 문자열이 발견된 경우 1부터 시작하는 바이트 단위 시작 위치들의 배열을 반환하고, 부분 문자열이 발견되지 않은 경우 0을 반환합니다. Array(UInt64)
예시
대소문자를 구분하지 않는 다중 검색
multiSearchAllPositionsCaseInsensitiveUTF8
도입: v20.1
multiSearchAllPositionsUTF8와 동일하지만 대소문자를 구분하지 않습니다.
구문
인수
haystack— 검색을 수행할 UTF-8 인코딩 문자열입니다.Stringneedle— 검색할 UTF-8 인코딩 부분 문자열입니다.Array(String)
반환 값
부분 문자열이 발견된 경우, 1부터 시작하는 바이트 단위 시작 위치들의 배열을 반환합니다. 부분 문자열을 찾지 못한 경우 0을 반환합니다. Array
예제
대소문자를 구분하지 않는 UTF-8 검색
multiSearchAllPositionsUTF8
도입 버전: v20.1
multiSearchAllPositions와 유사하지만, haystack과 needle 부분 문자열이 UTF-8로 인코딩된 문자열이라고 가정합니다.
구문
인수
haystack— 검색을 수행하는 UTF-8로 인코딩된 문자열입니다.Stringneedle1[, needle2, ...]— 검색할 UTF-8로 인코딩된 부분 문자열들의 배열입니다.Array(String)
반환 값
부분 문자열이 발견된 경우 바이트 단위의 시작 위치(1부터 시작)를 요소로 하는 배열을 반환하며, 부분 문자열을 찾지 못한 경우에는 0을 반환합니다. Array
예시
UTF-8 다중 검색
multiSearchAny
도입된 버전: v20.1
여러 개의 needle 문자열 중 하나 이상이 haystack 문자열과 일치하는지 확인합니다.
multiSearchAnyCaseInsensitive, multiSearchAnyUTF8, multiSearchAnyCaseInsensitiveUTF8 함수는 이 함수의 대소문자 구분 없음 및/또는 UTF-8 변형을 제공합니다.
구문
인수
haystack— 검색이 수행되는 문자열입니다.Stringneedle1[, needle2, ...]— 검색할 부분 문자열의 배열입니다.Array(String)
반환 값
적어도 하나의 일치하는 항목이 있으면 1을, 그렇지 않으면(일치 항목이 하나도 없으면) 0을 반환합니다. UInt8
예시
하나라도 일치하는지 검색
multiSearchAnyCaseInsensitive
도입 버전: v20.1
multiSearchAny와 같지만, 대소문자를 구분하지 않습니다.
구문
인수
haystack— 검색이 수행되는 문자열입니다.Stringneedle— 검색할 부분 문자열들의 배열입니다.Array(String)
반환 값
대소문자를 구분하지 않고 하나 이상의 항목이 일치하면 1, 그렇지 않으면 0을 반환합니다. UInt8
예시
대소문자 구분 없는 검색
multiSearchAnyCaseInsensitiveUTF8
도입 버전: v20.1
multiSearchAnyUTF8와 동일하지만, 대소문자를 구분하지 않습니다.
구문
인수
haystack— 검색을 수행할 UTF-8 문자열입니다.Stringneedle— 검색할 UTF-8 부분 문자열들의 배열입니다.Array(String)
반환값
대소문자를 구분하지 않는 검색에서 일치 항목이 하나 이상 있으면 1을, 그렇지 않으면 0을 반환합니다. UInt8
예시
UTF-8 문자열 'Здравствуйте'가 주어졌을 때, 문자 'з'(소문자)가 포함되어 있는지 확인합니다.
multiSearchAnyUTF8
도입 버전: v20.1
multiSearchAny와 유사하지만, haystack과 needle 부분 문자열이 UTF-8로 인코딩된 문자열이라고 가정합니다.
구문
인수
haystack— 검색이 수행되는 UTF-8 문자열입니다.Stringneedle— 검색할 UTF-8 부분 문자열의 배열입니다.Array(String)
반환 값
하나 이상의 일치 항목이 있으면 1을, 그렇지 않으면 0을 반환합니다. UInt8
예시
UTF-8 문자열 '你好,世界' ('Hello, world')가 주어졌을 때, 문자열에 你 또는 界 문자가 하나라도 있는지 확인합니다.
multiSearchFirstIndex
도입된 버전: v20.1
여러 needle 문자열을 haystack 문자열에서 대소문자를 구분하여 검색하고, 가장 먼저 발견된 needle의 1부터 시작하는 인덱스를 반환합니다.
구문
인수
haystack— 검색할 대상 문자열입니다.Stringneedles— 검색할 문자열들의 배열입니다.Array(String)
반환 값
haystack에서 needles 배열에 있는 문자열들 중 처음으로 발견된 문자열의 1부터 시작하는 인덱스(needles 배열에서의 위치)를 반환합니다. 어떤 문자열도 발견되지 않으면 0을 반환합니다. 검색은 대소문자를 구분합니다. UInt64
예시
사용 예시
대소문자 구분 시 동작
일치하는 항목이 없습니다
multiSearchFirstIndexCaseInsensitive
도입 버전: v20.1
문자열 haystack에서 가장 왼쪽에 있는 needle_i의 인덱스 i(1부터 시작)를 반환하며, 없으면 0을 반환합니다.
대소문자를 무시합니다.
구문
인자
haystack— 검색이 수행되는 문자열입니다.Stringneedle— 검색할 부분 문자열입니다.Array(String)
반환 값
가장 왼쪽에서 처음으로 발견된 needle의 인덱스(1부터 시작)를 반환합니다. 일치하는 항목이 없으면 0을 반환합니다. UInt8
예시
사용 예시
multiSearchFirstIndexCaseInsensitiveUTF8
도입 버전: v20.1
UTF-8 인코딩을 지원하는 대소문자 구분 없는 방식으로 haystack 문자열에서 여러 needle 문자열을 검색하고, 처음으로 발견된 needle의 1부터 시작하는 인덱스를 반환합니다.
구문
인수
haystack— 검색 대상 문자열입니다.Stringneedles— 검색할 문자열의 배열입니다.Array(String)
반환 값
haystack에서 needles 배열에 있는 문자열 중 처음으로 발견된 요소의 1부터 시작하는 인덱스(needles 배열 내 위치)를 반환합니다. 어떤 요소도 발견되지 않으면 0을 반환합니다. 검색은 대소문자를 구분하지 않으며 UTF-8 문자 인코딩을 기준으로 동작합니다. UInt64
예시
사용 예시
UTF-8 대소문자 처리 방식
일치하는 결과가 없습니다
multiSearchFirstIndexUTF8
도입된 버전: v20.1
문자열 haystack에서 가장 왼쪽에서 발견된 needle_i의 인덱스 i(1부터 시작)를 반환하고, 그렇지 않으면 0을 반환합니다.
haystack과 needle은 UTF-8로 인코딩된 문자열이라고 가정합니다.
구문
인수
haystack— 검색을 수행하는 UTF-8 문자열입니다.Stringneedle— 검색할 UTF-8 하위 문자열의 배열입니다.Array(String)
반환 값
가장 왼쪽에 있는 needle의 인덱스(1부터 시작)를 반환합니다. 일치하는 값이 없으면 0을 반환합니다. UInt8
예시
사용 예시
multiSearchFirstPosition
도입 버전: v20.1
position과 비슷하지만, 여러 개의 needle 문자열 중 하나와 일치하는 부분이 있는 haystack 문자열에서 그중 가장 왼쪽(앞쪽)의 오프셋을 반환합니다.
multiSearchFirstPositionCaseInsensitive, multiSearchFirstPositionUTF8, multiSearchFirstPositionCaseInsensitiveUTF8 함수는 이 함수의 대소문자를 구분하지 않는(case-insensitive) 및/또는 UTF-8 버전을 제공합니다.
구문
인수
haystack— 검색이 수행되는 문자열입니다.Stringneedle1[, needle2, ...]— 검색할 하나 이상의 부분 문자열로 이루어진 배열입니다.Array(String)
반환 값
haystack 문자열에서 여러 needle 문자열 중 하나와 일치하는 가장 왼쪽 오프셋을 반환하며, 일치하는 값이 없으면 0을 반환합니다. UInt64
예제
첫 번째 위치 찾기
multiSearchFirstPositionCaseInsensitive
도입 버전: v20.1
multiSearchFirstPosition과 동일하지만 대소문자를 구분하지 않습니다.
구문
인수
haystack— 검색을 수행할 문자열입니다.Stringneedle— 검색할 부분 문자열의 배열입니다.Array(String)
반환 값
여러 needle 문자열 중 하나와 일치하는 haystack 문자열에서 가장 왼쪽에 있는 위치(오프셋)를 반환합니다. 일치하는 값이 없으면 0을 반환합니다. UInt64
예시
대소문자 구분 없이 첫 번째 위치
multiSearchFirstPositionCaseInsensitiveUTF8
도입 버전: v20.1
multiSearchFirstPosition와 유사하지만, haystack과 needle이 UTF-8 문자열이라고 가정하고 대소문자를 무시합니다.
구문
인수
haystack— 검색을 수행할 UTF-8 문자열입니다.Stringneedle— 검색할 UTF-8 부분 문자열들의 배열입니다.Array(String)
반환 값
여러 개의 needle 문자열 중 어느 하나와 대소문자를 구분하지 않고 일치하는 haystack 문자열에서 가장 왼쪽 오프셋(offset)을 반환합니다. 일치하는 항목이 없으면 0을 반환합니다. UInt64
예시
주어진 needle 문자열들 중 어느 하나와 일치하는 UTF-8 문자열 'Здравствуй, мир' ('Hello, world')에서 가장 왼쪽 오프셋 찾기
multiSearchFirstPositionUTF8
도입된 버전: v20.1
multiSearchFirstPosition와 동일하지만, haystack과 needle이 UTF-8 문자열이라고 가정합니다.
구문
인수
haystack— 검색이 수행되는 UTF-8 문자열입니다.Stringneedle— 검색할 UTF-8 부분 문자열의 배열입니다.Array(String)
반환 값
여러 needle 문자열 중 하나와 일치하는 haystack 문자열에서 가장 왼쪽에 있는 오프셋입니다. 일치하는 값이 없으면 0을 반환합니다. UInt64
예시
주어진 needle들 중 어느 하나와 일치하는 UTF-8 문자열 'Здравствуй, мир' ('Hello, world')에서 가장 왼쪽 오프셋을 찾습니다.
ngramDistance
도입 버전: v20.1
두 문자열 간의 4-그램 거리(4-gram distance)를 계산합니다. 이를 위해 두 4-그램 멀티셋(multiset) 사이의 대칭 차이(symmetric difference)를 계산한 뒤, 두 멀티셋의 크기(기수, cardinality)를 합한 값으로 나누어 정규화합니다. 반환되는 값이 작을수록 두 문자열이 더 유사합니다.
대소문자를 구분하지 않는 검색이나 UTF-8 형식의 문자열에 대해서는 ngramDistanceCaseInsensitive, ngramDistanceUTF8, ngramDistanceCaseInsensitiveUTF8 함수를 사용합니다.
문법
인수
반환 값
0과 1 사이의 Float32 값을 반환합니다. 반환 값이 작을수록 문자열이 더 유사합니다. Float32
예시
4-그램 거리 계산
ngramDistanceCaseInsensitive
도입된 버전: v20.1
ngramDistance의 대소문자를 구분하지 않는 버전을 제공합니다.
두 문자열 사이의 4-그램 거리를, 대소문자를 무시하고 계산합니다.
반환되는 값이 작을수록 두 문자열이 더 유사합니다.
구문
매개변수
반환값
0과 1 사이의 Float32 타입 값을 반환합니다. Float32
예시
대소문자를 구분하지 않는 4그램 거리
ngramDistanceCaseInsensitiveUTF8
도입된 버전: v20.1
ngramDistance의 대소문자를 구분하지 않는 UTF-8 버전을 제공합니다.
needle과 haystack 문자열이 UTF-8로 인코딩된 문자열이라고 가정하며, 대소문자를 무시합니다.
두 개의 UTF-8 문자열 사이의 3-그램 거리를 대소문자를 무시하고 계산합니다.
반환되는 값이 작을수록 문자열이 더 유사합니다.
구문
인수
반환 값
0과 1 사이의 Float32 실수를 반환합니다. Float32
예시
대소문자를 구분하지 않는 UTF-8 3-그램 거리
ngramDistanceUTF8
도입된 버전: v20.1
ngramDistance의 UTF-8 변형을 제공합니다.
needle 및 haystack 문자열이 UTF-8로 인코딩된 문자열이라고 가정합니다.
두 UTF-8 문자열 간의 3-그램 거리를 계산합니다.
반환되는 값이 작을수록 두 문자열이 더 유사합니다.
구문
인수(Arguments)
반환 값(Returned value)
0과 1 사이의 Float32 타입 숫자를 반환합니다. Float32
예시(Examples)
UTF-8 3-그램 거리(3-gram distance)
ngramSearch
도입 버전: v20.1
두 문자열 사이의 4-그램 거리가 지정된 임계값보다 작거나 같은지 확인합니다.
대소문자를 구분하지 않는 검색 또는 UTF-8 형식에서는 ngramSearchCaseInsensitive, ngramSearchUTF8, ngramSearchCaseInsensitiveUTF8 FUNCTION을 사용합니다.
구문
인수
반환 값
두 문자열 간 4-그램 거리(4-gram distance)가 임계값(기본값 1.0) 이하이면 1, 그렇지 않으면 0을 반환합니다. UInt8
예시
4-그램을 사용한 검색
ngramSearchCaseInsensitive
도입 버전: v20.1
ngramSearch의 대소문자를 구분하지 않는(case-insensitive) 변형을 제공합니다.
needle 문자열과 haystack 문자열 사이의 비대칭 차이를 계산합니다. 즉, needle에서 나온 n-그램 개수에서 공통 n-그램 개수를 뺀 값을 needle n-그램 개수로 나누어 정규화한 값입니다.
두 문자열의 4-그램 거리가, 대소문자를 무시했을 때 주어진 임계값 이하인지 검사합니다.
구문
인자
반환 값
문자열 간 4-그램 거리(4-gram distance)가 임계값(기본값 1.0) 이하이면 1, 그렇지 않으면 0을 반환합니다. UInt8
예시
4-그램을 사용한 대소문자 구분 없는 검색
ngramSearchCaseInsensitiveUTF8
도입 버전: v20.1
ngramSearch의 대소문자를 구분하지 않는 UTF-8 변형을 제공합니다.
haystack과 needle이 UTF-8 인코딩 문자열이라고 가정하며, 대소문자를 구분하지 않습니다.
대소문자를 무시했을 때 두 UTF-8 문자열 사이의 3그램(3-gram) 거리가 지정된 임계값 이하인지 확인합니다.
구문
인수
반환 값
두 문자열 간의 3-그램 거리가 임계값(기본값은 1.0) 이하이면 1을, 그렇지 않으면 0을 반환합니다. UInt8
예시
3-그램을 사용한 대소문자 구분 없는 UTF-8 검색
ngramSearchUTF8
도입 버전: v20.1
ngramSearch의 UTF-8 버전입니다.
haystack과 needle이 UTF-8 문자열이라고 가정합니다.
두 UTF-8 문자열 사이의 3-그램 거리(3-gram distance)가 지정된 임계값 이하인지 확인합니다.
구문
인수
반환 값
두 문자열의 3그램 거리가 임계값(기본값은 1.0) 이하이면 1을, 그렇지 않으면 0을 반환합니다. UInt8
예제
3그램을 사용한 UTF-8 검색
notILike
도입 버전: v20.6
대소문자를 구분하지 않고 문자열이 패턴과 일치하지 않는지 확인합니다. 패턴에는 SQL LIKE 매칭을 위한 특수 문자 % 및 _를 포함할 수 있습니다.
구문
인수
haystack— 검색할 입력 문자열입니다.String또는FixedStringpattern— 매칭에 사용할 SQL LIKE 패턴입니다.%는 임의 개수(0개 포함)의 문자를,_는 정확히 1개의 문자를 매칭합니다.String
반환 값
문자열이 패턴과 일치하지 않으면(대소문자 구분 없음) 1을, 일치하면 0을 반환합니다. UInt8
예시
사용 예시
notLike
도입 버전: v1.1
like와 유사하지만 반대 결과를 반환합니다.
구문
인수
haystack— 검색을 수행할 문자열입니다.String또는FixedStringpattern— 비교에 사용할 LIKE 패턴입니다.String
반환 값
문자열이 LIKE 패턴과 일치하지 않으면 1, 그렇지 않으면 0을 반환합니다. UInt8
예시
사용 예시
일치하지 않는 패턴
position
도입 버전: v1.1
문자열 haystack 안에서 부분 문자열 needle의 위치(바이트 단위, 1부터 시작)를 반환합니다.
부분 문자열 needle이 빈 문자열인 경우 다음 규칙이 적용됩니다.
start_pos가 지정되지 않은 경우:1을 반환합니다.start_pos = 0인 경우:1을 반환합니다.start_pos >= 1이고start_pos <= length(haystack) + 1인 경우:start_pos를 반환합니다.- 그 외의 경우:
0을 반환합니다.
동일한 규칙이 함수 locate, positionCaseInsensitive, positionUTF8, positionCaseInsensitiveUTF8에도 적용됩니다.
구문
인수
haystack— 검색이 수행되는 문자열입니다.String또는Enumneedle— 검색할 부분 문자열입니다.Stringstart_pos— 검색을 시작하는haystack내 위치(1부터 시작)입니다. 선택적 인수입니다.UInt
반환 값
부분 문자열을 찾은 경우 시작 위치를 바이트 단위로, 1부터 계산하여 반환하고, 찾지 못한 경우 0을 반환합니다. UInt64
예시
기본 사용법
start_pos 인수를 사용하는 경우
Needle IN haystack 구문
빈 검색 대상 부분 문자열
positionCaseInsensitive
도입된 버전: v1.1
position 함수와 동일하지만, 대소문자를 구분하지 않습니다.
구문
별칭(Aliases): instr
인수(Arguments)
haystack— 검색이 수행되는 문자열입니다.String또는Enumneedle— 검색할 부분 문자열입니다.Stringstart_pos— 선택적 인수입니다. 검색을 시작할haystack내 위치(1부터 시작)입니다.UInt*
반환 값(Returned value)
부분 문자열을 찾은 경우 바이트 기준으로 1부터 시작하는 위치를 반환하고, 찾지 못한 경우 0을 반환합니다. UInt64
예시(Examples)
대소문자를 구분하지 않는 검색(Case insensitive search)
positionCaseInsensitiveUTF8
도입 버전: v1.1
positionUTF8와 동일하지만 대소문자를 구분하지 않고 검색합니다.
구문
인수
haystack— 검색을 수행할 문자열입니다.String또는Enumneedle— 검색할 부분 문자열입니다.Stringstart_pos— 선택적 인수입니다. 검색을 시작할haystack내 위치(1부터 시작)입니다.UInt*
반환 값
부분 문자열을 찾은 경우 시작 위치(바이트 단위, 1부터 카운트)를 반환하고, 찾지 못한 경우 0을 반환합니다. UInt64
예제
대소문자를 구분하지 않는 UTF-8 검색
positionUTF8
도입 버전: v1.1
position과 동일하지만 haystack과 needle이 UTF-8로 인코딩된 문자열이라고 가정합니다.
구문
인수
haystack— 검색을 수행할 문자열입니다.String또는Enumneedle— 검색할 부분 문자열입니다.Stringstart_pos— 선택적 인수입니다. 검색을 시작하는haystack내 위치(1부터 시작)입니다.UInt*
반환 값
부분 문자열을 찾은 경우, 부분 문자열의 시작 위치를 바이트 단위로 1부터 계산하여 반환하고, 찾지 못한 경우에는 0을 반환합니다. UInt64
예시
UTF-8 문자 수 세기