대만 과거 기상 데이터셋
이 데이터셋에는 지난 128년 동안 수집된 과거 기상 관측 값이 포함되어 있습니다. 각 행은 특정 일시와 기상 관측소 지점에 대한 하나의 측정값입니다.
이 데이터셋의 출처는 여기에서 확인할 수 있으며, 기상 관측소 번호 목록은 여기에서 확인할 수 있습니다.
기상 데이터셋의 출처에는 중앙기상국(Central Weather Administration)이 설치한 기상 관측소(관측소 코드는 C0, C1, 4로 시작)와 농업위원회(Council of Agriculture)에 속한 농업 기상 관측소(앞에서 언급한 것과 다른 관측소 코드)가 포함됩니다:
- StationId
- MeasuredDate, 관측 시각
- StnPres, 관측소 기압
- SeaPres, 해수면 기압
- Td, 이슬점 온도
- RH, 상대 습도
- 기타 요소(가능한 경우)
데이터 다운로드
- ClickHouse용으로 정제·재구조화·추가 가공이 완료된 데이터의 사전 처리된 버전입니다. 이 데이터셋은 1896년부터 2023년까지의 연도를 다룹니다.
- 원본 원시 데이터를 다운로드하여 ClickHouse에서 요구하는 형식으로 변환할 수 있습니다. 자체 컬럼을 추가하려는 사용자는 이 원시 데이터를 탐색하고 자신만의 방법을 적용해 볼 수 있습니다.
전처리된 데이터
이 데이터셋은 한 줄당 하나의 측정값을 갖는 형태에서, 각 기상 관측소 id와 측정 날짜별로 하나의 행을 가지도록 재구성되었습니다. 즉, 다음과 같습니다.
이 테이블은 쿼리하기 쉽고, 결과 테이블이 덜 희소하며, 이 기상 관측소에서 측정할 수 없는 항목들은 값이 null로 표시된다는 점을 쉽게 확인할 수 있습니다.
이 데이터세트는 다음 Google CloudStorage 위치에서 사용할 수 있습니다. 데이터세트를 로컬 파일 시스템으로 다운로드한 다음 ClickHouse 클라이언트를 사용하여 삽입하거나, ClickHouse에 직접 삽입할 수 있습니다(see URL에서 삽입).
다운로드하려면:
원본 원시 데이터
다음 내용은 원본 원시 데이터를 다운로드한 후, 필요에 따라 변환하고 가공하는 단계에 대한 설명입니다.
다운로드
원시 데이터(raw data)를 다운로드하려면:
대만 기상 관측소 데이터 조회
테이블 스키마 생성
ClickHouse 클라이언트에서 MergeTree 테이블을 생성합니다.
ClickHouse에 데이터 삽입
로컬 파일에서 데이터 삽입
데이터는 ClickHouse 클라이언트에서 다음과 같이 로컬 파일에서 삽입할 수 있습니다.
여기서 /path/to는 디스크에 있는 로컬 파일의 구체적인 경로를 나타냅니다.
ClickHouse에 데이터를 삽입한 후의 예시 응답은 다음과 같습니다.
URL에서 데이터 삽입하기
이 작업을 더 빠르게 수행하는 방법은 대용량 데이터 적재 튜닝에 관한 블로그 게시물을 참고하십시오.
데이터 행 및 크기 확인
- 삽입된 행이 몇 개인지 확인해 보겠습니다:
- 이 테이블이 사용하는 디스크 공간을 확인합니다:
예시 쿼리
Q1: 특정 연도에 각 기상 관측소별 최고 이슬점 온도 조회
Q2: 특정 기간(time range), 필드, 기상 관측소를 지정하여 원시 데이터 조회
감사의 글
이 데이터셋을 준비·정제·배포한 농업위원회 농업기상관측망(관측소)과 중앙기상청의 노고에 감사의 뜻을 표합니다. 귀 기관의 노력에 깊이 감사드립니다.
Ou, J.-H., Kuo, C.-H., Wu, Y.-F., Lin, G.-C., Lee, M.-H., Chen, R.-K., Chou, H.-P., Wu, H.-Y., Chu, S.-C., Lai, Q.-J., Tsai, Y.-C., Lin, C.-C., Kuo, C.-C., Liao, C.-T., Chen, Y.-N., Chu, Y.-W., Chen, C.-Y., 2023. Application-oriented deep learning model for early warning of rice blast in Taiwan. Ecological Informatics 73, 101950. https://doi.org/10.1016/j.ecoinf.2022.101950 [2022-12-13]