
AI센트릭 데이터 엔지니어
한국딥러닝<h2>hire_rounds</h2><p>서류전형-1차 면접(직무 적합성)-2차 면접(조직 적합성)-처우협의&입사일 조정</p><h2>직무</h2><p>AI센트릭 데이터 엔지니어</p><h2>포지션 상세</h2><p>왜 지금 KDL인가<br><br>타 AI 스타트업들과의 차별점<br>KDL만의 차별점은 ‘GPU 개인 배정’, ‘연속 흑자’, 그리고 ‘개인이 낼 수 있는 임팩트’입니다. 30명의 팀이 시장의 방향을 바꾸는 실제 경험. KDL에서는 그런 일이 일상적으로 일어납니다.<br><br>우리는 문서의 형태를 인식하는 수준을 넘어서, 의미와 문맥까지 파악할 수 있는 Vision LLM 기반 문서 이해 AI를 개발하고 있습니다.<br><br>대표 제품인 DEEP OCR+는 금융, 공공, 제조 등 다양한 환경에서 실제 문서 인식 문제를 해결해왔고, 그 과정에서 기술의 정확도와 안정성을 입증했습니다.<br><br>이 배경에는 1억 장 이상의 비정형 문서 데이터가 있습니다. 이 데이터는 실제 사용 환경에서 수집한 것이며, 엔지니어가 데이터 수집부터 정제, 학습, 개선까지 직접 관여합니다. 이 구조는 단순히 기술을 개발하는 것을 넘어, 문제를 정확히 겨냥하고 해결하는 AI를 만드는 체계를 가능하게 합니다.<br><br>엔비디아·ARM과의 협력을 바탕으로 기술을 고도화하고 있으며, 퍼포먼스 마케팅에 1원도 쓰지 않고 Document AI 하나만으로 150억 원이상의 수요를 만들어냈습니다. 지속적으로 흑자를 내며 외부 자금 없이 제품 개발과 운영을 유지하고 있습니다.<br><br>지금 KDL은 기술 정확도, 사용자 반응, 내부 개발 속도 측면 모두에서 상승 곡선에 올라탔습니다. 문서 이해 AI를 직접 만들고, 문제를 해결하는 과정에 깊이 관여하고 싶다면 지금 KDL에 합류하세요.<br><br>---<br><br>#이런 문제를 풀고 있습니다<br>• 다양한 형태의 스캔 문서, 촬영 이미지, PDF 등에서 문서 구조와 의미 있는 정보를 정확히 추출하기 위해, OCR 전처리부터 후처리까지 전 과정을 데이터 기반으로 최적화하고 있습니다.<br>• 표, 도식, 다단 구성 등 비정형 레이아웃을 갖는 문서에서도 안정적인 정보 추출을 위해 레이아웃 분석 모델의 성능을 실제 업무 지표로 계량화하고 개선합니다.<br>• 라벨링이 어려운 문서 유형에 대해 반자동/능동학습 기반의 데이터 수집·라벨링 파이프라인을 설계해, 수작업 비용은 줄이고 품질은 높이는 방식으로 문제를 해결합니다.<br>• Document AI 모델을 실서비스에 적용할 때 발생하는 도메인 간 성능 편차, 미탐/오탐 사례 등을 데이터 기반으로 분석하여, 모델 개선과 사용자 경험 향상을 동시에 추구합니다.<br>• 모델 성능뿐 아니라 데이터 품질, 라벨 일관성, 작업 효율성까지 통합적으로 관리할 수 있는 데이터 거버넌스 체계를 구축하고, 팀 전체가 동일한 기준과 흐름으로 일할 수 있도록 문서화·자동화합니다.<br><br>#이런 분과 함께하고 싶습니다<br>• 문서 이미지에서 핵심 정보(문서 이미지·레이아웃·표 구조 등)를 추출하기 위해 원본·라벨 데이터 수집 엔진을 기획해 빠르게 수행할 수 있는 분<br>• Document Understanding SOTA 모델 파이프라인을 숙지하고, 실서비스 요구사항에 맞춰 데이터 실험·벤치마킹에 관여할 수 있는 분<br>• 다양한 EDA 기법을 활용해 정형·비정형 데이터를 분석하고, 인사이트를 학습 모델 성능 개선에 체계적으로 반영할 수 있는 분<br>• 데이터 라벨링 엔진 설계·운영 경험이 있어, 작업 단가·품질·납기를 지표 기반으로 최적화할 수 있는 분<br>• 데이터 거버넌스 정책과 워크플로 자동화를 Git·Jira·Notion 등에 문서화해 조직 전반에 공유하고, 다부서 협업을 주도적으로 이끌 수 있는 분</p><h2>주요업무</h2><p>• 데이터 수집, 생성 전략 기획<br>• 비정형 데이터 스키마 정의 및 관리<br>• 데이터 수집·저장·가공 엔진 개발<br>• 탐색적 데이터 분석 및 시각화 자동화<br>• 라벨링 플랫폼(CVAT, Label Studio 등) 및 AutoLabeling 기능 구현·운영</p><h2>자격요건</h2><p>• 데이터·EDA 엔진 API화 및 SDK 제공 경험<br>• 데이터 파이프라인 구축 경험<br>• 데이터스키마 모델링 설계·구축 실무 경험 2년 이상<br>• Python·SQL 기반 데이터 스키마 모델링·ETL·EDA 자동화 역량<br>• 문서 라벨링 플랫폼(CVAT, Label Studio, 등) 운영·커스터마이징 경험<br>• 컴퓨터공학 및 관련 분야 학사 이상 또는 동등 수준의 실무 경험 보유자</p><h2>우대사항</h2><p>• AI 분야 1년 이상 실무 경험<br>• 비전 AI 모델 및 대규모 데이터 기반 Large Model 프로젝트 실무 경험<br>• 데이터 버전관리·모니터링 체계 구축 경험<br>• 데이터 거버넌스 정책 수립 및 데이터 카탈로그·메타데이터 관리 시스템 운영 경험<br>• Active Learning·AutoML 기반 자동 라벨링 파이프라인과 라벨 품질 추적 지표 설계 경험<br>• Git, Notion, Jira, DVC 등 협업 툴 활용 및 문서화·프로세스 관리 능력</p><h2>혜택 및 복지</h2><p>『성장을 가속하도록』<br>• 러닝데이 컨퍼런스, 세미나 참석 지원<br>• 코파일럿, GPT, 클로드 등 AI 생산성 도구 지원<br>• 더블모니터, 모니터암, 시디즈 의자 제공<br>• 고과에 따른 인센티브 지급<br>• 특허 출원 시 200만 원 + 소요비용 지원<br><br>『제대로 충전하도록』<br>• 매년 유급 여름휴가 운영<br>• 매년 무급 리프레쉬 휴가 지원<br>• 선연차 제도 운영<br>• 유급 건강검진휴가 지원<br><br>『일상에서도 체감되도록』<br>• 점심시간 11시 45분부터 1시까지 운영<br>• 사내 안마 의자, 커피머신, 간식 구비<br>• 매 월 팀 회식 & 티타임 비용 지원<br>• 야근 식사 지원</p>