Search suggestions:

tại nhà online
nhân viên văn phòng
kế toán
nhận hàng thủ công về nhà làm
finance
bán thời gian
lao động phổ thông
it
remote
nhập liệu online
flutter
thực tập sinh
marketing
Tỉnh An Giang
Châu Đốc
Tỉnh Bà Rịa - Vũng Tàu
Thành phố Hồ Chí Minh
Tỉnh Bắc Ninh
Hà Nội
Tỉnh Quảng Nam
Tỉnh Hưng Yên
Tỉnh Kiên Giang
Hà Tĩnh
Tỉnh Nam Định
Tỉnh Thái Nguyên

Principal Engineer, System Software Platform Engineering

NVIDIA
Thành phố Hồ Chí Minh
Full time
2 ngày trước

NVIDIA Vietnam R&D Center is an integral part of NVIDIA global network of world class Engineers and Researchers. To help push the boundary of Accelerated Computing, we’re seeking a hands-on technical leader to architect, build, and operate a platform for AI inference and agentic applications. You’ll focus on heterogeneous compute (with a strong GPU emphasis), reliability, security, and developer experience across cloud and hybrid environments.

What you will do:

  • Build and operate the platform for AI: multi-tenant services, identity/policy, configuration, quotas, cost controls, and paved paths for teams.

  • Lead inference platforms at scale, including model-serving routing, autoscaling, rollout safety (canary/A-B), ensuring reliability, and maintaining end-to-end observability.

  • Operate GPUs in Kubernetes: lead NVIDIA device plugins, GPU Feature Discovery, time-slicing, MPS, and MIG partitioning; implement topology-aware scheduling and bin-packing.

  • Lead GPU lifecycle: driver/firmware/Runtime (CUDA, cuDNN, NCCL) updates via NVIDIA GPU Operator; ensure kernel/RHEL/Ubuntu compatibility and safe rollouts.

  • Enable virtualization strategies: vGPU (e.g., on vSphere/KVM), PCIe passthrough, mediated devices, and pool-based GPU sharing; define placement, isolation, and preemption policies.

  • Build secure traffic and networking: API gateways, service mesh, rate limiting, authN/authZ, multi-region routing, and DR/failover.

  • Improve observability and operations through metrics, tracing, and logging for DCGM/GPUs, runbooks, incident response, performance, and cost optimization.

  • Establish platform blueprints: reusable templates, SDKs/CLIs, golden CI/CD pipelines, and infrastructure-as-code standards.

  • Lead through influence: write design docs, conduct reviews, mentor engineers, and shape platform roadmaps aligned to AI product needs.

What we need to see:

  • 15+ years building/operating large-scale distributed systems or platform infrastructure; strong record of shipping production services.

  • Proficiency in one or more of Python/Go/Java/C++; deep understanding of concurrency, networking, and systems design.

  • Containers/orchestration/Kubernetes expertise, cloud networking/storage/IAM, and infrastructure-as-code.

  • Practical GPU platform experience: Kubernetes GPU operations (device plugin, GPU Operator, feature discovery), scheduling/bin-packing, isolation, preemption, utilization tuning.

  • Virtualization background: deploying and operating vGPU, PCIe pass-through, and/or mediated devices in production.

  • SRE or equivalent experience: SLOs/error budgets, incident management, performance tuning, resource management, and financial oversight.

  • Security-first mentality: TLS/mTLS, RBAC, secrets, policy-as-code, and secure multi-tenant architectures.

Ways to stand out from a crowd:

  • Deep GPU ops: MIG partitioning, MPS sharing, NUMA/topology awareness, DCGM telemetry, GPUDirect RDMA/Storage.

  • Inference platform exposure: serving runtimes, caching/batching, autoscaling patterns, continuous delivery (agnostic to specific stacks).

  • Agentic platform exposure: workflow engines, tool orchestration, policy/guardrails for tool access and data boundaries.

  • Traffic/data plane: gRPC/HTTP/Protobuf performance, service mesh, API gateways, CDN/caching, global traffic management.

  • Tooling: Terraform/Helm/GitOps, Prometheus/Grafana/OpenTelemetry, policy engines; bare-metal provisioning experience is a plus.

NVIDIA is committed to fostering a diverse work environment and proud to be an equal opportunity employer. As we highly value diversity in our current and future employees, we do not discriminate (including in our hiring and promotion practices) on the basis of race, religion, color, national origin, gender, gender expression, sexual orientation, age, marital status, veteran status, disability status or any other characteristic protected by law.

Apply
Save
Report job
Other Job Recommendations:

Software Engineer, Java

Zalo
Thành phố Hồ Chí Minh
  • Collaborate closely with other engineering teams to ensure...
  • Having a mindset and an interest in digging deep to find out...
1 tuần trước

Associate Software Engineer, Java

Zalo
Thành phố Hồ Chí Minh
  • Participate in the design, development, and implementation...
  • Participate in code reviews and knowledge sharing sessions;...
4 tuần trước

Senior Software Engineer, Java

Zalo
Thành phố Hồ Chí Minh
  • Participate in the design, development and implementation of...
  • Design, develop, and integrate scalable APIs and web...
3 tuần trước

Kế Toán Tổng Hợp

CÔNG TY CỔ PHẦN ẨM THỰC VIỆT TASTE
Hà Nội
15.000.000 ₫ - 22.000.000 ₫
  • Lập và phân tích báo cáo tài chính, báo cáo quản trị định...
  • Quản lý hệ thống sổ sách kế toán, đảm bảo tuân thủ theo...
14 giờ trước

Thực Tập Sinh Nhân Sự

Công ty CP Nguyễn Việt Tiên
Thành phố Hồ Chí Minh
  • Hỗ trợ giải quyết hiệu quả và kịp thời các thủ tục nhân sự,...
  • Phối hợp xây dựng và cập nhật các quy trình công việc, biểu...
1 ngày trước

Nhân Viên PLC

CÔNG TY TNHH RORZE SYSTEMS VINA
Bắc Ninh, Tỉnh Bắc Ninh
  • Tham gia trực tiếp sản xuất phát triển sự án line tự động...
  • Tham gia lập trình điều khiển hệ thống tự động hóa...
1 ngày trước

Sale Support Collaborator

Zalo
Thành phố Hồ Chí Minh
What you will do What you will need Priority is given to candidates with similar work experience in other organizations.
1 ngày trước

Senior Site Reliability Engineer

Zalo
Thành phố Hồ Chí Minh
  • Build software and systems to manage platform infrastructure...
  • Measure and optimize system performance, with an eye toward...
1 ngày trước

Kế Toán Sản Xuất

Công ty TNHH SX&TM Đông Thành Hưng Yên
Hưng Yên, Tỉnh Hưng Yên
13.000.000 ₫ - 15.000.000 ₫
Quản lý, duyệt các phiếu nhập xuất NVL, CCDC, vật tư, BTP, TP, Phếtheo đúng quy định hạch toán nội bộ. 2. Công nợ các nhà cung cấp...
14 giờ trước

Nhân Viên Hành Chính (Administrator Staff) hoặc Thực Tập Sinh

CÔNG TY TNHH TƯ VẤN - KIỂM TOÁN S&S
Thành phố Hồ Chí Minh
Công ty TNHH Tư vấn - Kiểm toán S&S đang có nhu cầu tuyển dụng Nhân Viên Thời Vụ hoặc Thực Tập Sinh cho vị trí Hành Chính -...
14 giờ trước