PART I 데이터 파이프라인 구축: 추출, 변환, 적재
CHAPTER 1 데이터 공학이란?
1.1 데이터 공학자가 하는 일
1.2 데이터 공학 대 데이터 과학
1.3 데이터 공학 도구들
1.4 요약
CHAPTER 2 데이터 공학 기반구조 구축
2.1 아파치 NiFi의 설치와 설정
2.2 아파치 에어플로의 설치와 설정
2.3 일래스틱서치의 설치와 설정
2.4 키바나의 설치와 설정
2.5 PostgreSQL의 설치와 설정
2.6 pgAdmin 4 설치
2.6.1 pgAdmin 4 둘러보기
2.7 요약
CHAPTER 3 파일 읽고 쓰기
3.1 파이썬으로 파일 쓰고 읽기
3.2 아파치 에어플로 데이터 파이프라인 구축
3.3 NiFi 처리기를 이용한 파일 다루기
3.4 요약
CHAPTER 4 데이터베이스 다루기
4.1 파이썬을 이용한 관계형 데이터 삽입 및 추출
4.2 파이썬을 이용한 NoSQL 데이터베이스 데이터 삽입 및 추출
4.3 데이터베이스를 위한 아파치 에어플로 데이터 파이프라인 구축
4.4 NiFi 처리기를 이용한 데이터베이스 처리
4.4.1 PostgreSQL에서 데이터 추출 / 4.4.2 데이터 파이프라인 실행
4.5 요약
CHAPTER 5 데이터의 정제, 변환, 증강
5.1 파이썬을 이용한 탐색적 데이터 분석
5.2 pandas를 이용한 공통적인 데이터 문제점 처리
5.3 에어플로를 이용한 데이터 정제
5.4 요약
CHAPTER 6 실습 프로젝트: 311 데이터 파이프라인 만들기
6.1 데이터 파이프라인 구축
6.2 키바나 대시보드 만들기
6.3 요약
PART II 실무 환경 데이터 파이프라인 배치
CHAPTER 7 실무용 데이터 파이프라인의 특징
7.1 데이터의 스테이징과 검증
7.2 멱등적 데이터 파이프라인 구축
7.3 원자적 데이터 파이프라인 구축
7.4 요약
CHAPTER 8 NiFi 레지스트리를 이용한 버전 관리
8.1 NiFi 레지스트리의 설치과 설정
8.2 NiFi에서 레지스트리 사용
8.3 데이터 파이프라인 버전 관리
8.4 NiFi 레지스트리에서 git-persistence 활용
8.5 요약
CHAPTER 9 데이터 파이프라인 모니터링
9.1 NiFi GUI를 이용한 데이터 파이프라인 모니터링
9.2 NiFi 처리기를 이용한 데이터 파이프라인 모니터링
9.3 파이썬과 REST API를 이용한 데이터 파이프라인 모니터링
9.4 요약
CHAPTER 10 데이터 파이프라인 배치
10.1 실무 배치를 위한 데이터 파이프라인 마무리 작업
10.2 NiFi 변수 레지스트리 활용
10.3 데이터 파이프라인 배치
10.4 요약
CHAPTER 11 실습 프로젝트: 실무용 데이터 파이프라인 구축
11.1 검사 환경과 실무 환경 구축
11.2 실무용 데이터 파이프라인 구축
11.3 데이터 파이프라인을 실무 환경에 배치
11.4 요약
PART III 일괄 처리를 넘어서: 실시간 데이터 파이프라인 구축
CHAPTER 12 아파치 카프카 클러스터 구축
12.1 주키퍼 및 카프카 클러스터 생성
12.2 카프카 클러스터 시험 운영
12.3 요약
CHAPTER 13 카프카를 이용한 데이터 스트리밍
13.1 로깅의 기초
13.2 카프카의 로그 활용 방식
13.3 카프카와 NiFi를 이용한 데이터 파이프라인 구축
13.4 스트림 처리와 일괄 처리의 차이
13.5 파이썬을 이용한 메시지 생산 및 소비
13.6 요약
CHAPTER 14 아파치 스파크를 이용한 데이터 처리
14.1 아파치 스파크의 설치와 설정
14.2 PySpark의 설치와 설정
14.3 PySpark를 이용한 데이터 처리
14.4 요약
CHAPTER 15 MiNiFi, 카프카, 스파크를 이용한 실시간 엣지 데이터 처리
15.1 MiNiFi 설치 및 설정
15.2 MiNiFi 데이터 파이프라인 구축 및 연동
15.3 요약
APPENDIX A NiFi 클러스터 구축