Backpressured

Slowly draining the backlog

CDC Small File Problem

CDC 파이프라인의 숨겨진 비용: Small File이 만드는 S3 Request 폭탄

CDC 파이프라인을 Debezium과 Flink로 재설계한 이유에서 Debezium + Flink 기반 CDC 파이프라인을 소개했습니다. Debezium이 DB 변경분을 캡처하고, Kafka를 거쳐, Flink가 5분마다 S3에 Parquet 파일로 저장하는 구조입니다. 파이프라인은 1년 넘게 잘 동작했습니다. 데이터 정합성도 검증됐고, 운영도 안정적이었습니다. 문제는 데이터 플랫폼 TCO 분석을 하면서 S3 비용을 뜯어보기 전까지는 보이지 않았습니다. S3 비용, 스캔량만 보면 안 됩니다 AWS에서 Athena를 쓰는 팀이라면 대부분 이렇게 알고 있습니다: “Athena 비용 = 스캔한 데이터량 × $5/TB” ...

2026년 6월 11일 · 7 분 · Jaehyuk Jang