Dohee Kim - Portfolio & Tech Blog
김도희 프로필 사진

김도희 (Dohee Kim)

Data Engineer

숫자로 세상을 해석하는 것을 좋아하는 저는 자연과학대학 통계학을 전공하였고, 보다 넓은 세상을 이해하기 위해 컴퓨터공학을 복수전공하여 이중 학사학위를 취득했습니다.

5개 주요 앱의 약 1,300만명의 사용자가 생성하는 매일 500만건 로그 데이터와 최대 10만명의 사용자를 커버하는 AIDT 디지털 교과서 데이터 파이프라인 작업을 주로 진행하며 데이터 파이프라인 구조 최적화와 데이터 처리 기술에 깊은 관심을 갖게 되었습니다.

💼 경력사항 (Work Experience)

🏢 에누마코리아2022.01 - 현재

Data Engineer (정규직)

  • 📚 AI 디지털 교과서 데이터 파이프라인 구축
    초등/중고등 수학, 영어, 사회 교과목 | 최대 10만명 학생 데이터 처리
    • 학습 로그 데이터 스키마 설계 및 MySQL Service DB 실시간 파이프라인 구성
    • 🚀 성과: 인덱스 최적화로 API 응답 시간 75% 개선 (4초 → 1초)
    • Hadoop 환경에서 Zeppelin/Airflow 활용 Spark 기반 ETL 파이프라인 구축
    • 🚀 성과: 청크 단위 비동기 처리로 배치 시간 94% 단축 (1.2초 → 0.07초)
    • FastAPI 백엔드 개발 (Learning Record 및 모델 추론 결과 전송)
  • 🔄 토도 앱 데이터 인프라 개선
    5개 앱 | 1,300만명 사용자 | 일 500만건 로그 처리
    • 대용량 로그 처리 파이프라인 Airflow → Databricks 마이그레이션
    • Medallion Architecture 및 Snapshot 활용 데이터 무결성 보장
    • 🚀 성과: Secondary Index 최적화로 배치 속도 4배 향상
    • 🚀 성과: DynamoDB Capacity Mode 최적화로 비용 35% 절감

🏢 에누마코리아2022.01 - 2022.12

AI Engineer (정규직)

  • 🧠 Knowledge Tracing 모델 개발
    학습자 개인 맞춤형 이해도 예측 모델
    • LKT (Language model based Knowledge Tracing) 모델 구축
    • 게임 로그 데이터를 모델 추론 형식에 맞춰 전처리 파이프라인 구축
    • 🚀 성과: 기존 DKT 대비 AUC/ACC 성능 향상
  • ✍️ 손글씨 인식 모델 개발
    수학, 한자, 한글, 영어 과목별 Text Recognition
    • CNN 기반 다국어 손글씨 인식 모델 구축
    • 🚀 성과: 성능 유지하며 모델 크기 62.5% 축소 (8MB → 3MB)
    • 모델 테스트 웹페이지 개발 (버저닝, 오인식 수집, 재학습 시스템)

🏢 에누마2021.07 - 2021.12

Data Analyst (인턴)

  • 📊 게임 데이터 분석 및 인사이트 도출
    • 음성 데이터 및 인지 능력 관련 게임 로그 분석
    • 통계적 분석 기반 커리큘럼 및 난이도 조정 제안
    • Apache Superset → Databricks 대시보드 마이그레이션
    • 데이터 무결성 검증 파이프라인 구축

🛠 기술 스택 (Skills)

Programming Languages
Python (High)SQL (High)R (Middle)Node.js (Low)
Data Engineering & Backend
FastAPIApache KafkaPySparkApache AirflowMySQLDatabricks
Cloud & Infrastructure
AWSNCPDockerk9sSpark
Collaboration Tools
SlackJiraNotionConfluenceBitbucketBaseCampSourcetree

📚 논문 (Publications)

  • Kim, D., et al. (2025). ES-KT-24: A Multimodal Knowledge Tracing Benchmark Dataset with Educational Game Playing Video and Synthetic Text Generation.Intelligent Tutoring Systems. arXiv:2409.10244. [First Author]
  • Lee, U., Bae, J., Kim, D. (2024). Language Model Can Do Knowledge Tracing: Simple but Effective Method to Integrate Language Model and Knowledge Tracing Task. arXiv:2406.02893. [Co-author]
  • Lee, U., et al. (2024). From Prediction to Application: Language Model-based Code Knowledge Tracing with Domain Adaptive Pre-Training and Automatic Feedback System with Pedagogical Prompting for Comprehensive Programming Education. arXiv:2409.00323. [Contributing Author]

🚀 프로젝트 (Projects)

산학협력 with LOCS (2021)

부산대학교 산학협력 프로젝트로 LOCS 기업과 협업

COVID-19 Analysis (URO-학부연구생) (2020-2021)

코로나19 데이터 분석 및 시각화 프로젝트로 URO 학부 연구 포스터 장려상 수상

KBL ALL STAR전 농구 선수 선발 (2020)

데이터 분석을 통한 KBL 올스타 선수 선발 프로젝트

태블로 신병 훈련소 19기 (2020)

Tableau를 활용한 데이터 시각화 교육 프로그램 수료

🎓 학력 (Education)

부산대학교 (2017.03 - 2022.02)

통계학(주전공) & 컴퓨터공학(복수전공) 학사 학위

🏆 수상 및 자격증 (Awards & Certifications)

  • 🥈 URO 학부 연구 포스터 장려상 수상 (COVID-19 Analysis)
  • OPIc IH (Intermediate High) - English