
[Tech] Infra Engineer
에이포엑스(A41)<h2>직무</h2><p>[Tech] Infra Engineer</p><h2>포지션 상세</h2><p>[Accelerate a Verifiable World Where Proof Replaces Trust]<br>• 우리가 향유하는 온라인 세계는 신뢰를 기반으로 작동합니다. 어떤 콘텐츠가 AI가 아닌 사람에 의해 제작 되었다거나, 개인의 신원이 안전하게 검증 되었다거나, 개인정보가 안전하게 관리되고 있다는 등 서비스 공급자가 제공하는 정보를 일방적으로 신뢰할 수밖에 없기 때문입니다. 하지만 이러한 구조는 본질적으로 불완전하며, 이와 같이 신뢰에 의존하는 시스템에는 언제든지 무너질 수 있는 위험이 도사리고 있습니다. 이미 우리는 수많은 해킹, 개인정보 유출, 소비자 기만 사례를 통해 위와 같은 취약성을 생활 속에서 경험하고 있습니다. <br>• A41은 Zero-Knowledge 기술을 통해, 행위를 증명함으로써 더 이상 서비스 공급자를 신뢰하지 않아도 되는 무신뢰(Trustless) 사회로의 구조적인 전환을 추구합니다. 그간 A41은 APAC 지역의 Top Validator로서 대규모의 검증인 서비스를 안정적으로 운용해 왔으며, 이 경험을 토대로 Proof as a Service를 제공하여, Computational Integrity를 실현하고자 합니다.<br><br><br>[포지션 소개: Infra Engineer]<br>• Infra Engineer는 GPU 기반의 인프라 구축부터 운영, 최적화, 자동화까지의 전 과정을 다룹니다. 안정적이고 효율적인 클러스터 운영을 통해 가용성을 높이고, 비용을 최적화하며, 체계적인 모니터링을 통해 인프라 운영의 안정성을 지속적으로 개선합니다.<br> <br><br>[Infra Engineer로서 지원을 고려하고 계신 후보자 분들께]<br>• A41은 단시간 내에 밀도 높은 성장을 경험했고, 이 경험을 토대로 Phase 2로 도약하기 위한 도움닫기에 집중하고 있습니다. 우리가 급격한 변화에도 불구하고 지금까지 단단한 팀을 유지할 수 있었던 것은 각자의 역할에서 공동의 목표의식과 협력을 그 무엇보다 중요하게 여겼기 때문입니다. 팀으로 승리하는 경험, 단단한 조직의 일원으로 거듭나는 경험을 쌓을 준비가 되신 분들에게 더욱 추천 드리고 싶은 포지션입니다.<br>• 베어메탈 서버와 EKS 기반의 GPU 클러스터를 운영하며, 하이브리드 환경 전반을 설계하고 최적화하는 실전 경험을 쌓으실 수 있습니다. 뿐만 아니라 GPU 자원 확보부터 운영까지 비용 절감과 운영 최적화를 함께 고려하여 설계, 운영하는 과정을 통해 전략적인 인프라 운영 역량을 키우실 수 있습니다.</p><h2>주요업무</h2><p>1. 베어메탈 서버 및 EKS 기반 GPU 클러스터의 구축, 운영 및 관리<br> • 노드 프로비저닝, 드라이버 및 런타임 환경을 설정합니다.<br> • 워크로드 특성에 맞춘 GPU 스케줄링 및 리소스 할당 정책을 설계합니다. <br><br>2. GPU 조달 및 확보 전략 수립을 통한 총 비용 최적화<br> • 온프레미스 및 클라우드 등 다양한 인프라 옵션을 비교 분석하여 최적의 GPU 조달 방식을 설계합니다.<br> • 자원 활용률을 모니터링하고, 예약 인스턴스 및 스팟 인스턴스를 활용하여 비용 효율성을 최적화합니다.<br><br>3. Kubernetes 인프라의 전사 표준화<br> • Ansible, Kubespray를 기반으로 클러스터 구성을 자동화합니다. <br> • Helm 차트 작성 및 배포 자동화 파이프라인을 구축합니다.<br><br>4. 모니터링, 로깅, 보안 구성 및 튜닝<br> • Prometheus, Grafana, EFL 기반의 모니터링 스택을 구축합니다.<br> • 네트워크 정책, RBAC, 방화벽 등 보안 정책을 설계하고 유지보수 합니다.<br><br>5. CI/CD 파이프라인 설계<br> • GitOps 기반의 CI/CD 파이프라인을 설계하고 운영합니다.<br> • 인프라 및 애플리케이션 배포를 자동화 합니다.<br><br>6. 장애 대응 및 안정성 향상<br> • SLO/SLA를 설정하고, 장애 대응 및 예방 프로세스를 수립합니다.<br> • 운영 지표 등을 포함한 정기 리포트를 작성합니다.</p><h2>자격요건</h2><p>• 인프라 엔지니어로서 3~5년 이상의 경험을 쌓으신 분<br>• Ansible, Kubespray, Helm 등의 도구를 실무적으로 활용해본 경험이 있으신 분<br>• Kubernetes/EKS 클러스터의 구성 및 GPU 워크로드를 운영해본 경험이 있으신 분<br>• Prometheus, Grafana, EFK 등 모니터링 스택을 구성하실 수 있는 역량이 있으신 분<br>• CI/CD 및 GitOps 도구(GitHub Actions, Argo CD 등)를 사용해본 경험이 있으신 분</p><h2>우대사항</h2><p>• GPU 조달을 위한 비용 분석을 경험해 보셨거나, TCO 절감을 위한 프로젝트를 수행해본 경험이 있으신 분<br>• AWS, GCP 또는 온프레미스 혼합 아키텍처를 구성해본 경험이 있으신 분<br>• 다양한 팀(데이터, 백엔드, R&D 등)과 협업하여 인프라 표준화 및 운영 가이드라인을 수립해본 경험이 있으신 분<br>• 보안, 신뢰성, 비용 사이의 균형을 고려하여 기술적 의사결정을 내려본 경험이 있으신 분</p><h2>혜택 및 복지</h2><p>• 휴가: 1시간 단위로 승인 없이 사용하며, 개수 제한 또한 없습니다.<br>• 법인카드: 편리하게 사용하실 수 있도록 모든 구성원 분들에게 법인카드를 지급해 드립니다.<br>• 성장 지원: 업무적 성장에 도움이 되는 도서, 강의, 세미나 등의 비용을 지원합니다.<br>• 건강 지원: 건강하게 일 하실 수 있도록 운동, 심리상담 등의 비용을 지원합니다.<br>• 장비 지원: 업무에 불편함이 없도록 최신 노트북(맥북 프로/갤럭시북), 모니터(32인치/27인치 듀얼)를 지급합니다.<br>• 재택근무: 각자의 상황에 따라 부분적 재택근무 옵션을 활용할 수 있습니다.</p>