株式会社ABEJA：トランスフォーメーション領域：データサイエンティスト（LLM開発）

800～1500万円

東京都

会社名

株式会社ABEJA

会社概要

ABEJAは、「ゆたかな世界を、実装する」を経営理念とし、「ABEJA Platform」を基盤に顧客企業の基幹業務のプロセスを変革し、ビジネスの継続的な収益成長の実現に伴走する「デジタルプラットフォーム事業」を展開しているスタートアップです。

ポジション

トランスフォーメーション領域：データサイエンティスト（LLM開発）

仕事内容

募集背景
ABEJAは創業以来、高い技術力と顧客に寄り添う提案力を武器に、多くのAIソリューションやプロダクトを社会実装してきました。近年は大規模言語モデル（LLM）や生成AIの進化により、ミッションクリティカルな領域を含む幅広い業務で、生成AI活用の中核化が急速に進んでいます。

一方で、ミッションクリティカル業務では高いセキュリティや信頼性、専門的な業務知識への対応が不可欠であり、クラウド型の汎用LLMの活用には制約が生じやすいのが現実です。また、取り扱うデータの性質上、処理を自社環境内で完結させたいというニーズも大きく、ローカル環境での高性能なモデル提供と、それを支える開発・運用基盤の整備が重要性を増しています。

日進月歩で進化を続ける大規模言語モデルの開発の取り組みをさらに拡大・牽引し、研究開発から基盤整備、評価設計、データエンジニアリングまでを通じて、生成AI時代のミッションクリティカル領域における価値提供を強化していただきたいと考えています。

ミッション
「テクノロジーの力で産業構造を変革する」

生成AIが業務の中核へ入り込む時代において、ミッションクリティカル領域でも安心して使えるLLMを研究開発し、社会実装可能な形で届けることで、お客様の経営課題/事業課題を根本から解決へ導きます。

そのために本ポジションでは、大規模言語モデル（視覚言語モデルを含む）の研究開発を推進し、データ設計・学習/評価・推論最適化・運用を見据えた開発基盤整備までを一体で担います。プロジェクトマネージャなどのビジネスサイド、プロダクト/プラットフォームを支えるエンジニアと密に連携しながら、要件に沿ったモデル方針の策定から、品質を担保するベンチマーク設計、継続的な改善サイクルの確立まで、価値提供の中核をリードしていただきます。

また、組織として研究開発力を継続的に高めるため、知見の体系化や開発プロセスの標準化、メンバー育成やカルチャー醸成にも主体的に関わり、ABEJAが描く未来を共に創っていただきます。

業務内容
高い性能と利便性を両立する国産大規模言語モデルの開発、改善、研究を中核として推進いただくポジションです。単にモデルを作って終わりではなく、得られた成果をプロダクトやソリューションへ落とし込み、業務価値として継続的に届け切るところまで一気通貫で担っていただきます。

大規模言語モデル（LLM）の開発・改善・研究
モデルアーキテクチャ、学習手法、推論最適化に関する調査・設計・実装
継続事前学習、指示チューニング、アライメント、強化学習等による性能向上
長文対応、ツール利用、エージェント化を見据えた能力拡張の検討
日本語および業務特化領域での品質・安全性・信頼性の向上に向けた改善サイクルの確立
評価・ベンチマーク設計
日本語/業務ドメインに即したベンチマークの設計・運用
オフライン評価とオンライン評価の設計、継続的な性能モニタリングと劣化検知
ハルシネーション、情報漏洩、プライバシー等のリスクを踏まえた検証と対策
開発基盤・データ基盤の整備
学習/評価/推論のパイプライン設計・運用、再現性の高い実験環境の構築
データ収集、品質管理、フィルタリング、アノテーション方針の策定と運用
コストやスループットを意識した推論環境の最適化、LLM Opsの整備
プロダクト/ソリューションへの接続
PM/PdMと連携した要求整理、ロードマップへの反映、要件に沿ったモデル方針の策定
エンジニアと連携した商用実装（API化、周辺機能、運用設計）、クライアント環境での導入支援（オンプレミス含む）
業務プロセスへの組み込み、検証設計、運用定着までの伴走と改善
再利用可能なコンポーネント化やプロダクト化による横展開
チームリーディング、技術横展開・技術発信
技術アプローチレビュー、コードレビュー、ナレッジ共有を通じた開発品質の向上
メンバー育成やカルチャー醸成への貢献
技術ナレッジの公開（論文投稿・学会発表・勉強会登壇・テックブログ等）

【変更の範囲】
会社の定める業務へ配置転換の可能性あり

求める経験・スキル

採用要件
必須要件
機械学習モデルの研究、開発経験（3年以上）
大規模言語モデルの学習経験（規模は問わない）
ログレベルでエラーを追いかけて適切な仮説だしと対処を実施した経験
大規模言語モデルの研究開発分野の最先端を追いかけ続ける高い熱量

歓迎要件
NVIDIA社のMegatron-LMやNeMoフレームワークを使用した開発経験
MLOps環境の構築・運用経験、分散処理の経験
外部活動における実績
Kaggleをはじめとしたデータサイエンスコンペへの参加・上位入賞経験
データサイエンス領域におけるカンファレンス登壇経験
登壇やブログの執筆など、積極的な外部発信
ジャーナルでの論文採用経験
OSS貢献
英語による日常会話・チャットに抵抗がないこと
あくまでも「抵抗がないこと」レベルであり、得意でなくても構いません