카프카란 카프카는 Pub/Sub 모델 기반의 메시징 서버로, 링크드인에서 자체적으로 사용하기 위해 만든 분산 데이터 스트림 플랫폼을 말한다. 기존 메세징 시스템에 비해 처리량이 높고, 파티셔닝이나 복제기능이 있어 대규모 메시지 처리에 적합하다. 일반적인 서비스 회사에서 서비스를 운영할 때 다음과 같은 데이터 시스템들을 필요로 하게된다. 1. 사용량, 응답시간, 에러 카운트등의 메트릭 모니터링용 데이터 시스템 2. 배치/분석을 위한 로그 저장용 데이터 시스템 3. 서비스에 필요한 메인 데이터 시스템 4. key/value 저장소 5. 기타 등등.. 처음엔 단순한 구조로 시작하지만 서비스 규모가 커질수록 다음 모습처럼 복잡한 구조로 변형되게 된다. 위와 같은 복잡한 구조에서는 데이터 파이프라인별로 데이터 포..