具体的な業務内容
SRE(サイト信頼性エンジニア)◆機械学習プラットフォームの高信頼サービス運用/年休120日以上
【「機械学習プラットフォーム」の安定運用を担うSREポジション/年休121日/フレックス制度】
■ポジション概要:
LINEヤフーで開発・運用しているMachine Learning Platformに対するSRE業務を担当いただきます。本ポジションでは、レコメンデーションシステムや機械学習パイプラインなどを安定提供・運用するためのソリューション開発と継続的な改善を通じて、データサイエンスの価値創出を支える役割を担います。
現在、組織のTechnical Director(以下、TD)が主導して開発している機械学習のマイクロサービスを、マネージドサービスとして社内展開を進めています。そのため、TDをはじめ、機械学習エンジニアやサーバサイドエンジニアと連携しながら、SREの専門知識を生かしてスケーラブルかつ高信頼なサービスの成長に挑戦することができます。
■主な業務内容:
具体的には以下の業務を想定しています。
◎運用課題(デプロイパイプライン、パフォーマンスボトルネック、監視など)に対するソリューション開発
◎キャパシティプランニング・スケーリング戦略の策定と実施
◎信頼性向上のための運用体制の改善
■開発環境:
開発言語:Go、Rust、Python
OS:Linux
MLライブラリ:TensorFlow、PyTorch
コンテナ:Docker、Kubernetes
CI/CD:GitHub Actions、Argo CD
監視:Prometheus、Grafana
その他:GitHub Enterprise、Confluence、Slack
■求める人物像について:
・業務に情熱と責任感を持ち、必要な場合にはサポートを求めることができる方
・業界のトレンドを追いながら、新しい技術も自発的に学習できる方
・複雑な課題に直面した際に、不確実性の中でも最適な判断ができる方
・チーム内外の意見や指摘に耳を傾け、積極的に自己改善を図ることができる方
・自身の業務だけでなく、必要に応じてリーダーシップを発揮してチーム全体の生産性向上に貢献できる方
変更の範囲:会社の定める全ての業務への配置転換の可能性あり
チーム/組織構成
その他プロジェクト事例
開発環境