具体的な業務内容
【フルリモート可】バックエンドエンジニア(データ基盤開発)◆数億件規模の文書データ/残業10〜20h
【ChatGPTなどで話題の自然言語処理領域のAIを搭載したSaaSを展開する注目スタートアップ/テクノロジー企業成長率ランキング50にランクイン/トヨタ・旭化成・村田製作所など幅広い製造業の大企業に続々と導入】
■業務内容:
全プロダクト共通のデータ配信システムに位置する、Webクローラーと文書配信パイプラインの設計、開発、運用を行なっていただきます。データプラットフォームチームをリードし生産性の最大化を行うことも期待しています。
■業務詳細:【変更の範囲:開発関連業務】
・TypeScript/Rust/Pythonを用いたWebニュース・特許・論文などを配信するデータプラットフォームの開発と運用
・大規模言語モデル(LLM)の学習に必要となる日本語データセットの作成
・顧客の社内文献を解析/配信するための解析ロジック及びデータパイプラインの新規構築と運用
・FaaS/CaaSによる分散処理のスケーラビリティ向上と監視設計
■チーム体制:
Opendata Team(8名)
内訳…Manager1名、サーバーサイドエンジニア2名、データエンジニア1名、機械学習エンジニア3名、MLOps1名、Data Reliability Engineer1名
■開発環境:
<開発言語>
・Webクローラー… TypeScript(Node.js)
・データパイプライン…Python
・文字列処理…Rust
<コンテナ>
Docker
<IaC>
Terraform
<クラウド>
AWS、GCP
■ポジションの魅力:
・数億件規模の文書データのサーバーレス分散処理に携わることができます。
・数万サイトを対象としたWebクローラーの開発に携わることで、Webフロント・バックエンド両方の知見を活かしつつ、不安定なシステムの監視・運用設計のノウハウを取得できます。
・PdMやCustomer Successチームとコミュニケーションしながら、新規開発や改善策を自身で提案・開発することで、事業へのコミットを経験できます。
チーム/組織構成
その他プロジェクト事例
開発環境