具体的な業務内容
【フルリモート】データプラットフォームエンジニア◆自然言語処理×AIスタートアップ
【ChatGPTなどで話題の自然言語処理領域のAIを搭載したSaaSを展開する注目企業/テクノロジー企業成長率ランキング50ランクイン/トヨタ・旭化成・村田製作所など幅広い製造業の大企業に続々と導入】
■ミッション:
全プロダクト共通のデータ配信システムに位置する、Webクローラーと文書配信パイプラインの設計、開発、運用を行なっていただきます。エンジニアとして記載の課題解決のための開発を進めながら、データプラットフォームチームをリードし生産性の最大化を行うことも期待しています。
■業務内容:
・TypeScript/Rust/Pythonを用いたWebニュース・特許・論文などを配信するデータプラットフォームの開発と運用
・大規模言語モデル(LLM)の学習に必要となる日本語データセットの作成
・顧客の社内文献を解析/配信するための解析ロジック及びデータパイプラインの新規構築と運用
・FaaS/CaaSによる分散処理のスケーラビリティ向上と監視設計
■開発環境:
[組織体制]
Opendata Team(8名)
内訳:Manager1名、サーバーサイドエンジニア2名、データエンジニア1名、機械学習エンジニア2名、MLOps1名、Data Reliability Engineer1名
[開発言語]
Webクローラー:TypeScript(Node.js)
データパイプライン:Python
文字列処理:Rust
[コンテナ]
Docker
[IaC]
Terraform
[クラウド]
AWS、GCP
■ポジションの魅力:
全プロダクト共通の文書配信システムの開発と運用に携わることで以下の経験を積むことが可能です。
・数億件規模の文書データのサーバーレス分散処理に携わることができる
・数万サイトを対象としたWebクローラーの開発に携わることで、Webフロント・バックエンド両方の知見を活かしつつ、不安定なシステムの監視・運用設計のノウハウを取得できる
・PdMやCustomer Successチームとコミュニケーションしながら新規開発や改善策を自身で提案・開発することで、事業へのコミットを経験できる。
チーム/組織構成