
<h2>직무</h2><p>LLM Engineer (Data Platform)</p><h2>포지션 상세</h2><p>We are looking for the best<br><br>LLM Engineer(Data Platform)는 Generative Model 학습에 필요한 Peta Byte단위의 Text, Image, Video 데이터를 수집하여 효율적으로 관리할 수 있는 시스템을 개발합니다. 개발된 플랫폼은 ML 학습 파이프라인과 연동되어, 필요한 데이터를 효율적으로 공급하며, 필요한 데이터를 신뢰성 있게 공급함으로써 서비스 품질을 높이는 핵심 역할을 맡게 됩니다. 최신 AI 기술 및 데이터 엔지니어링 도구를 다루며, LLM 학습 데이터의 설계 및 최적화 과정에서 기술적 리더십을 키울 수 있습니다.</p><h2>주요업무</h2><p>• 데이터 수집,처리,저장 및 활용 Pipeline 설계: Peta byte 단위의 텍스트·이미지·비디오 데이터를 정제하여 모델 성능 향상에 기여<br>• 대규모 Synthetic Data 생성: 대용량의 Synthetic Data를 생성·관리하여, 모델 학습의 품질 개선에 기여<br>• 데이터 품질 관리 및 자동화: 데이터 품질 지표를 정의하고, 품질 검증 및 모니터링 자동화 시스템을 설계 및 구축<br>• 데이터 전처리 및 처리 효율화: Parquet, WebDataset, TorchData, TFRecord, datatrove 등 industrial standard의 데이터 처리 포맷 및 도구를 활용하여 데이터 전처리 효율 극대화<br>• 데이터 레이블링 및 버전 관리: 지속적으로 변화하는 데이터셋에 대한 버전 관리 및 레이블링 프로세스 자동화<br>• 보안을 고려한 데이터 관리 및 공급: 데이터 무결성과 보안성을 고려한 저장·전송 기술 개발 및 관련 법규·내부 보안 정책 준수</p><h2>자격요건</h2><p>• 소프트웨어·데이터 엔지니어관련 업무 경력 5년 이상<br>• Spark, Hadoop 등 대규모 분산 처리 환경에서 데이터 엔지니어링 수행 경험<br>• 클라우드 환경(AWS, GCP, Azure 등)에서의 개발 경험<br>• S3, EMR, DataProc등 클라우드 기반 스토리지·분산 처리 플랫폼 사용 능력<br>• 대규모 데이터셋의 압축, 인덱싱, 샤딩을 통한 최적화 경험<br>• Python, C++ 등을 포함한 프로그래밍 언어에 대한 높은 숙련도와 탄탄한 소프트웨어 엔지니어링 역량<br>• 모델 학습 및 전처리, 최적화 과정에 대한 이해와 협업 능력</p><h2>우대사항</h2><p>• Image, Audio 데이터 실시간/대용량 분산 처리 시스템 개발 경험자<br>• 영어, 스페인어, 프랑스어 중 1개 이상 언어 능통자<br>• Data 관련 오픈소스 프로젝트 기여 경험자</p><h2>혜택 및 복지</h2><p>[42dot Way]<br>Only hire competent and self-motivated team players with humble leadership.<br>서로를 성장시킬 수 있고 자체 무한동력을 가진 누구에게나 배울 수 있는 겸손한 리더십을 가진 팀 플레이어를 채용하라.<br><br>Influence with trust, not with authority.<br>직급과 권한이 아닌 신뢰와 건강한 영향력을 토대로 업무하고 서로를 성장시켜라. 직책을 가졌다고 리더가 되는 것은 아니다. 여기는 직책에 관계없이 미션과 비전에 맞는 영향력을 행사할 수 있는 곳이다.<br><br>Deliver with agility rather than perfecting.<br>완벽보다 빠른 완성이다. 세상의 거대한 문제를 풀려고 하지 말아야 한다. 작게 시작해서 빠르게 지속적인 결과물을 내자. 그러면 생각보다 빠르게 큰 문제를 풀 수 있다. 그러기 위해서는 지독하게 스마트하게 일해야 한다. 여기는 연구하는 곳도 아니고 성실하게 열심히만 해서 되는 곳도 아니다. 가장 잘 되는 방법을 찾고 가장 빠르게 실행해야 한다. 대신 대충하지 마라. 결코 현재의 결과물에 만족하지 말아라.<br><br>Do the right thing.<br>회사의 미션(회사의 존재 이유)과 비전(목표)에 집중하고 시장에서의 성공적인 결과물에 집중해야 한다. 여기는 회사와 개인이 같은 이유와 목표를 가지고 성장하는 곳이다. 개인/조직끼리 협의나 타협보다 회사가 올바른 방향으로 나가기 위해 조직의 희생까지 감수할 수 있는 과감한 결정을 지속적으로 내려야 한다.<br><br>Disagree now, but align.<br>결정되기 전 자신의 의견을 충분히 내고 결정 후에는 공동의 목표에 align 하라.<br><br>Collaborate & communicate transparently beyond team boundaries.<br>투명하게 정보와 지식을 공유하고 팀이 없는 것처럼 협업하라. 협업의 시작은 투명한 정보 공유이다.<br><br>Be prepared to be totally transparent. A penny you spend, or even when you arrive or leave will be open to everyone.<br>사내의 많은 것들이 투명하게 공유된다. 투명함은 몰입에 방해되는 많은 요소들을 없애기 때문이다.<br><br>Be aware that all the benefits & perks are provided for faster execution & delivery.<br>회사의 모든 혜택들은 즐기라고 있는 것이 아니고 업무의 몰입을 극대화해서 빠르게 좋은 결과물을 내기 위해서이다.<br><br>Never stop learning! Never stop changing! Never stop dreaming!</p>







