Platform Engineer

Hľadám Platform inžiniera so skúsenosťami v Kubernetes, NVIDIA GPU a AI, ktorý sa bude venovať správe Kubernetes klastrov, AI pracovných záťaží a automatizácii nasadzovania služieb. Pracovať budete s technológiami ako Slurm, Run AI, Helm, Terraform a Ansible, a budete vyvíjať a optimalizovať CI/CD pipeline s Jenkins a GitLab. Okrem toho sa budete podieľať na monitorovaní systémov pomocou Prometheus a Grafana a zabezpečovať efektívne nasadenie a prevádzku AI aplikácií.

🚀 Projekt
- tvorba, konfigurácia a údržba fyzických hostiteľských strojov a Kubernetes klastrov na beh GPU/AI pracovných záťaží
- návrh a prevádzka softvérovej stacku súvisiaceho s NVIDIA AI (Slurm, Run AI)
- poskytovanie prispôsobenej podpory aplikácií pre AI pracovné záťaže
- správa Helm grafov, GitOps pracovných tokov, Ansible skriptov, prípadne Terraform kódu a automatizácie na nasadzovanie služieb a AI pracovných záťaží
- odstraňovanie problémov, ladovanie výkonu a škálovanie
- vývoj a údržba CI/CD pipeline s Jenkins a GitLab; implementácia GitOps praktík pre konzistentné nasadenia a zmeny infraštruktúry
- prevádzka a zlepšovanie monitorovacích stackov Prometheus a Grafana pre fyzické hostiteľské stroje, Kubernetes a platformové služby
- tvorba, optimalizácia a zabezpečenie kontajnerových obrazov (Docker, Podman); správa registrov a verzionovanie, skenovanie obrazov (Trivy)
- integrácia a údržba riešení objektového úložiska pre AI pracovné záťaže
- podpora a prevádzka distribuovaných AI pracovných záťaží v rámci fyzických hostiteľských strojov a Kubernetes prostredí
- úzka koordinácia s inžiniermi infraštruktúry, personálom dátových centier a AI vývojármi na zabezpečenie hladkého doručenia služieb

🎯 Skills
- certifikovaný administrátor Kubernetes (CKA) alebo ekvivalentná skúsenosť v produkčných prostrediach
- znalosti o serverovej platforme NVIDIA GPU-Accelerated
- znalosti nástrojov pre dátové inžinierstvo, transformáciu dát a migráciu dát
- znalosť softvérového stacku Nvidia AI súvisiaceho s orchestráciou GPU
- znalosť softvérového stacku GPU-based cloudovej platformy, vrátane závislostí na nasledujúcich vrstvách
- silné skúsenosti s CI/CD nástrojmi (Jenkins, GitLab) a GitOps praktikami
- zručnosti s Helm grafmi a správou Kubernetes zdrojov
- programovanie/skriptovanie v Pythone alebo Bash; Infrastructure-as-Code s Terraform a Ansible
- skúsenosti s kontajnerovými obrazmi (Docker, Podman) a skenovaním obrazov
- znalosť systémov objektového úložiska a správy perzistentných objemov
- znalosť nástrojov na monitorovanie a pozorovateľnosť (Prometheus, Grafana)
- pochopenie spúšťania AI/HPC pracovných záťaží v mierke
- silné zručnosti pri odstraňovaní problémov a poskytovaní operačnej podpory v kritických prostrediach
- dodržiavanie pracovných tokov incidentov, problémov a správy zmien; tvorba a údržba operačných runbookov

Platform Engineer (42416)

Podobne oferty