具体的な業務内容
データサイエンティスト◆大規模な基盤モデルの学習を支える効率的なデータ基盤およびコードベースを開発
【日本語に特化した国産の大規模言語モデルの研究開発や生成AIサービスの開発・販売・提供/リモート可・年休125日・フルフレックス】
■ミッション
本ポジションでは、研究者やエンジニアと協力し、大規模な基盤モデルの学習を支える効率的なデータ基盤およびコードベースを開発していただきます。
■業務内容
データサイエンティストは、データ処理、キュレーション、キャプションを含むデータ関連の業務に従事することが期待されています。
■仕事の魅力
・大規模マルチモーダル生成モデルの学習と開発プロジェクトに携わることができる
・ 研究成果を実世界のアプリケーションに適用し、ビジネスに測定可能なインパクトをもたらすことができる
・東京拠点の多様かつ国際色豊かなチームで連携して研究開発ができる
・日本国内最大級の計算リソースを使った研究開発ができる
■必須条件続き:
・キュレーション/品質管理:重複検出、クラスタリング、品質/美的評価、ポリシーフィルタ
・領域・スタイル・地域間のバランス調整、密キャプションや合成データ効果測定
・研究志向データサイエンス:データアブレーション、軽量スコアラー試作、社内レポート作成
・連携/展開:研究・プロダクトと協働しデータ構成をロードマップに沿って最適化
・スキーマ/マニフェスト/SLAを整備し、複数チームで再利用可能にする
変更の範囲:会社の定める業務
チーム/組織構成