SQL만 짜는 3년

**이름:** 김태영 (가명)
**경력:** 데이터 엔지니어 3년
**Before:** SQL 개발자
**After:** Modern Data Stack 전문가
**기간:** 75일

Before: 레거시의 늪

일상 업무

**매일:**
``

sql
-- 데이터 추출
SELECT *
FROM sales
WHERE date = '2024-01-01';

-- CSV 저장
-- Excel에서 열기
-- 가공
-- 다시 적재



**반복:**
매일 같은 작업

기술 스택


**사용 중:**
- Oracle DB
- SQL
- Excel
- 수동 작업

**모르는 것:**
- Airflow
- Spark
- Kafka
- dbt
- Snowflake

**격차:**
3년

위기감


**채용 공고:**


[요구 사항]
- Airflow
- Spark
- Kafka
- Python
- Cloud (AWS/GCP)



**내 스택:**


- Oracle
- SQL



**현실:**
시장에서 도태되는 중

전환점


신규 입사자


**데이터 팀 신입:**
부트캠프 출신

**신입 스택:**
- Airflow
- dbt
- Python
- Docker

**나:**
3년 경력

**충격:**
"신입보다 못한 3년 차..."

팀장의 조언


**팀장:**
"태영님, 현대적인 스택 배우셔야 해요"

**나:**
"시간이 없어서요..."

**팀장:**
"요즘은 AI로 빠르게 배운대요. 이거 한번 봐보세요"

**링크:**
The 10x AI-Native Developer 강의

**확인:**
"데이터 엔지니어도 가능하다고?"

**결심:**
"마지막 기회다"

Week 1-3: Python & Airflow




Week 1: Python 기초


**Claude에게:**


"데이터 엔지니어링을 위한 Python
- pandas 기초
- 데이터 처리
- API 호출
- DB 연결
나는 SQL만 할 줄 알아"



**3일 후:**
- pandas 기본 마스터
- SQL 대신 Python으로 처리
- 속도 10배 빠름

**예시:**

python
Before (SQL + 수동 작업)

30분


After (Python)

import pandas as pd

df = pd.read_sql(query, conn)
df_processed = df.groupby('category').agg({
    'sales': 'sum',
    'quantity': 'mean'
})
df_processed.to_csv('result.csv')
3분



Week 2: Airflow


**목표:**
워크플로우 자동화

**Claude 활용:**


"Airflow DAG 만들어줘
- 매일 오전 9시 실행
- DB에서 데이터 추출
- 변환
- S3에 저장
- Slack 알림"



**DAG 생성:**

python
from airflow import DAG
from airflow.operators.python import PythonOperator
from datetime import datetime, timedelta

default_args = {
    'owner': 'data-team',
    'retries': 3,
    'retry_delay': timedelta(minutes=5)
}

dag = DAG(
    'daily_sales_pipeline',
    default_args=default_args,
    schedule_interval='0 9 * * *',
    start_date=datetime(2024, 1, 1)
)

extract_task = PythonOperator(
    task_id='extract',
    python_callable=extract_data,
    dag=dag
)

transform_task = PythonOperator(
    task_id='transform',
    python_callable=transform_data,
    dag=dag
)

extract_task >> transform_task



**결과:**
- 수동 작업: 자동화
- 에러 시: 자동 재시도
- 모니터링: 대시보드



Week 3: DBT


**데이터 변환:**

**Claude에게:**


"dbt로 데이터 변환
- staging 레이어
- mart 레이어
- 테스트
- 문서 자동 생성"



**models/staging/stg_sales.sql:**

sql
{{ config(materialized='view') }}

select
    order_id,
    customer_id,
    order_date,
    amount,
    status
from {{ source('raw', 'orders') }}
where status != 'cancelled'



**장점:**
- 버전 관리
- 테스트 자동화
- 문서화
- 협업 용이

Week 4-6: 클라우드 & 빅데이터


AWS 마이그레이션


**기존:**
온프레미스 Oracle

**목표:**
AWS 클라우드

**Claude 활용:**


"AWS 데이터 레이크 아키텍처
- S3 데이터 레이크
- Glue ETL
- Athena 쿼리
- QuickSight 시각화"



**아키텍처:**


Raw Data (S3)
    ↓
Glue Crawler (스키마 추론)
    ↓
Glue ETL (변환)
    ↓
Processed Data (S3)
    ↓
Athena (SQL 쿼리)
    ↓
QuickSight (대시보드)



**구축 기간:**
2주 (기존 예상: 2개월)

Spark


**대용량 처리:**

**Claude에게:**


"PySpark로 대용량 데이터 처리
- 1억 건 데이터
- 집계 및 조인
- 최적화
- S3 저장"



**코드:**

python
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("SalesAnalysis") \
    .getOrCreate()

1억 건 데이터 읽기

df = spark.read.parquet("s3://bucket/raw/sales/")

집계

result = df.groupBy("category", "date") \
    .agg({"amount": "sum", "quantity": "mean"}) \
    .orderBy("date")

저장

result.write.parquet("s3://bucket/processed/sales_daily/")



**성능:**
- pandas: 30분
- Spark: 3분
- 10배 빠름

Week 7-10: 실시간 처리




Kafka


**요구사항:**
실시간 이벤트 처리

**Claude 활용:**


"Kafka로 실시간 파이프라인
- 웹 이벤트 수집
- Kafka Producer
- Kafka Streams 처리
- ClickHouse 저장"



**Producer:**

python
from kafka import KafkaProducer
import json

producer = KafkaProducer(
    bootstrap_servers=['localhost:9092'],
    value_serializer=lambda v: json.dumps(v).encode('utf-8')
)

이벤트 전송

producer.send('user-events', {
    'user_id': 12345,
    'event': 'page_view',
    'timestamp': '2024-01-01 10:00:00'
})



**Consumer:**

python
from kafka import KafkaConsumer

consumer = KafkaConsumer(
    'user-events',
    bootstrap_servers=['localhost:9092']
)

for message in consumer:
    event = json.loads(message.value)
    # 처리 로직
    process_event(event)



**결과:**
- 지연 시간: <100ms
- 처리량: 10,000 events/sec

Flink


**복잡한 실시간 분석:**

**Claude에게:**


"Flink로 실시간 이상 탐지
- 윈도우 집계
- 패턴 매칭
- 알람 발송"



**구현:**
윈도우별 통계 → 이상치 탐지 → Slack 알람

75일 후 변화


기술 스택


**Before:**


- Oracle
- SQL
- Excel



**After:**


- Python/Pandas/PySpark
- Airflow/Prefect
- dbt
- Kafka/Flink
- AWS (S3/Glue/Athena)
- Docker/Kubernetes
- Snowflake



업무 효율


**파이프라인 구축:**
- Before: 2개월
- After: 2주
- 3배 빠름

**데이터 처리:**
- Before: 수동 (4시간)
- After: 자동 (5분)
- 48배 빠름

포지션


**Before:**
주니어 DE

**After:**
- 시니어 DE
- 클라우드 아키텍트
- 팀 리드

**연봉:**
- Before: 5,500만원
- After: 8,000만원
- 상승: 45%

핵심 학습법


1. 문제 → 기술 학습


**회사 문제:**
"데이터 파이프라인 자동화 필요"

**학습:**
Airflow + dbt + Claude

**효과:**
실전 = 학습

2. 아키텍처 설계


**Claude 활용:**


"이런 요구사항이 있어
- 데이터 소스: MySQL, API
- 처리량: 100GB/day
- 실시간 대시보드
- 비용 최소화

최적 아키텍처 제안해줘"



**설계 검토:**
→ 수정 → 구현

3. 문서화


**자동 생성:**


"이 파이프라인 문서화해줘
- 아키텍처 다이어그램
- 데이터 흐름
- 운영 가이드"



**효과:**
팀 온보딩 쉬움

실전 프로젝트


프로젝트: 데이터 레이크


**요구사항:**
- 모든 데이터 통합
- 확장 가능
- 비용 효율적

**아키텍처 (Claude 설계):**


[Data Sources]
- MySQL (CDC with Debezium)
- APIs (Airbyte)
- Logs (Fluentd)
    ↓
[Message Queue]
- Kafka
    ↓
[Data Lake]
- S3 (Raw/Processed/Curated)
    ↓
[Processing]
- Glue ETL (배치)
- Flink (실시간)
    ↓
[Data Warehouse]
- Snowflake
    ↓
[BI]
- Tableau

``

**구축 기간:**
6주

**성과:**
- 데이터 통합: 15개 소스
- 처리량: 1TB/day
- 비용: 월 $3,000
- 쿼리 속도: 10배 빠름

팀 변화

업무 방식

**Before:**
- 수동 작업
- 에러 빈번
- 야근

**After:**
- 자동화
- 안정적
- 정시 퇴근

팀 성과

**데이터 요청 처리:**
- Before: 3일
- After: 30분

**만족도:**
사내 1위

결론

75일 전 나

**상태:**
- SQL 개발자
- 레거시 스택
- 도태 위기

**고민:**
"이직도 못 하겠는데..."

지금 나

**상태:**
- Modern Stack 전문가
- 시니어 승진
- 연봉 45% 인상

**확신:**
"AI 덕분이다"

데이터 엔지니어 여러분께

**SQL만 하시나요?**

**AI로 Modern Stack 하세요**

**시작:**
The 10x AI-Native Developer: 회사에서 AI로 압도적 성과를 내는 법

**약속:**
75일 후 당신도 전문가

---

**태그**: #데이터엔지니어 #ModernDataStack #Airflow #딩코딩코 #AI코딩

목차

SQL만 짜는 3년

Before: 레거시의 늪

일상 업무

기술 스택

위기감

전환점

신규 입사자

팀장의 조언

Week 1-3: Python & Airflow

Week 1: Python 기초

Before (SQL + 수동 작업)

30분

After (Python)

3분

Week 2: Airflow

Week 3: DBT

Week 4-6: 클라우드 & 빅데이터

AWS 마이그레이션

Spark

1억 건 데이터 읽기

집계

저장

Week 7-10: 실시간 처리

Kafka

이벤트 전송

Flink

75일 후 변화

기술 스택

업무 효율

포지션

핵심 학습법

1. 문제 → 기술 학습

2. 아키텍처 설계

3. 문서화

실전 프로젝트

프로젝트: 데이터 레이크

팀 변화

업무 방식

팀 성과

추천 대상

강력 추천

결론

75일 전 나

지금 나

데이터 엔지니어 여러분께

참고 자료

L

럿지 AI 팀

관련 포스트

23세 AI 네이티브가 연봉 1억 받고 실리콘밸리 간 후기

부트캠프 실패자가 AI로 독학해 더 좋은 조건 취업한 후기

사업 실패 후 AI로 재기해 빚 갚고 연 1억 번 후기