具体的な業務内容
【CIU】ソフトウェアエンジニア(機械学習基盤) GPU Kubernetesクラスタ開発・運用など
■業務概要
機械学習基盤 ML Platformの開発・運用を行い、社内のAI系技術者やプロダクトの開発効率化・速度向上・コスト削減を支援しています。
ML PlatformではGPUインスタンスの払い出し、機械学習ジョブの実行、機械学習モデルのデプロイといった機能を提供しています。今後はこれらの他にもMLOpsを推進するための機能を開発していく予定です。
サイバーエージェントは技術選定が自由であるため、ユーザーとなる社内プロダクトがパブリッククラウドを使うかCycloudを使うかは自由です。その中でCycloudのML Platformを選択してもらうために、ユーザーの求めるUXや機能を備えたサービスを作るのが我々のミッションです。
■業務詳細
1. 大規模な GPU Kubernetes クラスタの開発、運用
-物理 GPU ノードのセットアップ(OS インストールやパラメーターチューニング)
-Kubernetes クラスタの構築・運用
-定期的な Kubernetes クラスタのバージョンアップデート
-Kubernetes の最新バージョンに対するキャッチアップ
-大規模計算クラスタのための技術検証・導入(NVIDIA H100, RoCEv2/RDMA, NCCL など)
2. AI 系の開発を支援する機械学習サービスの開発、運用
-GPU インスタンスや Jupyter Notebook を払い出すサービスの開発
-各種機械学習フレームワークを用いたジョブシステムの開発(Pytorch/Tensorflow/etc.)
-機械学習モデルのサーバーレスデプロイシステムの開発
-機械学習のためのノード間分散ジョブシステムの開発(MPI)
-Kubernetes カスタムコントローラー(Go)の開発
-Kubeflow などの機械学習系エコシステムの検証・導入・コントリビュート
3. ML Platform の規模拡大
-新規・既存社内ユーザーとの積極的なコミュニケーションや折衝
-ユーザーサポート(Python の学習スクリプトの調査など)
-AI 系技術や最新 GPU に対するキャッチアップ
-GPU リソースの需要調査や増設に向けた選定・導入
チーム/組織構成