JAPAN AI株式会社：【JAPAN AI】AI Quality Scientist / Japanese

800～1,600万円

東京都

会社名

JAPAN AI株式会社

会社概要

JAPAN AI株式会社は、2023年4月に設立されたAIスタートアップです。

グロース市場に上場している株式会社ジーニーのグループ会社として設立されました。
ジーニーは、プロダクト開発において積極的にAI技術を活用しており、自社プロダクトである「GENIEE SFA/CRM」や「GENIEE CHAT」において、ChatGPTを用いた議事録の自動要約やメールの自動作成など、お客様の業務効率化や生産性向上につながるAI関連機能を提供しています。

このような状況の中、ジーニーグループはAI技術に関わる導入コンサルティング、プロダクト提供、ならびに研究開発をさらに推進するために、2023年4月に戦略的子会社である「JAPAN AI株式会社」を設立いたしました。

当社は「AIで持続可能な未来の社会を創る」というPurposeを掲げ、日本企業の生産性向上や産業の活性化のための様々なAIプロダクトの開発と提供を行っています。高度なプロダクトを開発するために、ChatGPTをはじめとした各種大規模言語モデルやGenerative AIなどの分野の研究も進めています。

昨年2024年11月には、国内企業としても一早く「AIエージェント」をローンチし、多くの企業様に高評価を頂いており、国内市場を席捲しております。
当社はAI市場のトップランカーであると自負しております。

ポジション

【JAPAN AI】AI Quality Scientist / Japanese

仕事内容

JAPAN AI株式会社について
JAPAN AI株式会社は、AI技術を駆使して働く人々の可能性を飛躍的に高めることを目指し、上場企業である株式会社ジーニーのグループ企業として2023年4月に設立されました。当社は最先端のAI技術を活用し、国内外での研究開発を推進しています。

私たちが目指しているのは、単なる AI チャットボットの提供ではありません。企業の全 SaaS を統合し、AI が自律的に業務を実行する「企業の脳」— 次世代の基幹システムを構築することです。「JAPAN AI STUDIO」を中核に、DB さえあればアプリ不要、AI が作業して結果だけを返す世界を実装しています。

私たちはAIの持つ変革力を通じて、新たな価値を創出し、社会全体の進歩に貢献することを目指しています。AIによるイノベーションをリードし、テクノロジーが人々をより多くのことを達成できるようにする未来を共に創造しましょう。

募集背景
JAPAN AI STUDIO が「企業の脳」として稟議承認・リソース配置・見込み顧客探索などの業務を自律的に実行する世界では、AI の出力が間違えれば、承認すべきでない稟議が通り、誤った人員配置が行われ、不適切な顧客にアプローチしてしまいます。「企業の脳」が信頼されるためには、生成回答の正確性・安全性・一貫性を科学的に評価・保証する仕組みが不可欠です。

従来の QA エンジニアリングでは、テストケースの設計・実行が中心でした。しかし、LLM エージェントの品質保証には、評価メトリクスそのものの研究開発、LLM-as-Judge の校正理論、報酬モデリング、統計的実験計画、ベンチマーク設計といった ML / DS の専門性が求められます。

海外の先進AI企業が確立しつつある "Evaluation Science" の領域を、日本のエンタープライズ AI の文脈で実践するポジションです。

ミッション
"AI の出力品質を科学する — 評価手法の研究・開発で、エージェントの信頼性を証明する"

LLM / AI エージェントの出力品質を、機械学習・統計学・計量心理学の手法で定量的に評価・改善します。評価メトリクスの研究開発から自動評価パイプラインの本番実装まで、「AI 評価科学」という新しい研究領域を社内に確立し、約 200 社が本番利用するプロダクトの品質を科学的に保証します。

期待する役割について
AI Quality Scientist として、AI エージェントの品質評価基盤の設計・構築・運用をリードしていただきます。

評価メトリクスの研究開発 — LLM-as-Judge の校正、報酬モデリング、ベンチマーク設計を通じて「何をもって品質とするか」を科学的に定義します
自動評価パイプラインの設計・構築 — 研究成果を本番 CI/CD に組み込み、スケーラブルな品質ゲートを実現します
レッドチーミング・安全性検証 — adversarial testing の自動化、ポリシー準拠検証フレームワークを構築します
統計的実験計画に基づく品質改善 — A/B テスト・有意差検定でプロンプト戦略やモデル変更の効果を定量的に検証します
評価シグナルの研究・開発チームへのフィードバック — モデル改善の複利ループを構築します
約 200 社が本番利用するプロダクトの品質を「科学する」アプローチで担保します

業務内容
評価メトリクスの研究開発
LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules)
評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection)
報酬モデリング / preference learning の評価への応用研究
評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection)
評価セット (合成データ + 実ログ) の設計・構築・メンテナンス
自動評価パイプラインの設計・構築
スケーラブルな自動評価パイプラインの設計・実装
CI/CD への評価パイプライン組込みと品質ゲートの構築
エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応)
評価パイプラインの再現性・信頼性の担保
安全性・品質検証
自動レッドチーミング (automated adversarial testing) の研究・実装
安全性 / ポリシー準拠の検証フレームワーク構築
ハルシネーション検出・校正手法の研究・実装
プロンプト / ツール回帰テストの設計・実行
統計分析・実験設計
統計的実験計画 (A/B テスト、有意差検定) の設計・分析
品質トレンドの可視化・回帰検出の自動化
品質レポート作成と改善提案
評価シグナルの研究・開発チームへのフィードバック
業務シナリオ ※以下は想定される業務シナリオの例です

シナリオ1: LLM-as-Judge の校正と妥当性検証
新しい評価メトリクスとして LLM-as-Judge を導入する際、judge モデルの校正 (calibration) を実施します。人間評価との一致率を統計的に検証し、rubric 設計を反復改善します。construct validity を確認した上で、自動評価パイプラインに組み込み、評価コストを 80% 削減しながら人間評価と同等の信頼性を実現します。

シナリオ2: 新モデル導入時の品質ゲート
LLMプロバイダーが新モデルをリリースした際、既存のベンチマークスイートで回帰テストを実行し、factualityスコアが3%低下していることを検出します。原因を分析し、プロンプト調整で品質を維持したまま新モデルへの移行を完了します。

シナリオ3: 自動レッドチーミングによる安全性検証
金融機関向けにJAPAN AI AGENTを導入する際、自動レッドチーミングパイプラインを構築します。adversarial promptの自動生成・分類器による脆弱性検出を実装し、業界固有のリスクシナリオ（機密情報漏洩、不適切な金融アドバイス等）を網羅的にテストします。ポリシー準拠率99%以上を達成します。

成果責任 (KR/メトリクス)
評価カバレッジ率（テストケース網羅率）
回帰検出率（リリース前の品質劣化検出率 ≥ 95%）
評価パイプライン実行時間（CI/CD内で完了）
LLM-as-Judge と人間評価の一致率
False Positive / Negative 率
安全性インシデント発生率（リリース後）

・従事すべき業務の変更の範囲
　会社の定める業務

求める経験・スキル

必須条件
コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、計量心理学などの関連分野における修士号以上、または同等の実務経験
MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の実務経験 3年以上
LLM / 生成AIの評価手法に関する深い知識
統計学・実験計画法の実践的知識
Pythonでの ML / 評価パイプライン構築経験
機械学習フレームワーク（PyTorch, JAX, TensorFlow等）の実務経験
評価メトリクスの設計・実装経験
言語レベル : いずれか必須
日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル)
英語 : ビジネスレベル

歓迎条件
ML / NLPトップカンファレンス（NeurIPS, ICML, ICLR, ACL, EMNLP等）での論文発表経験
報酬モデリング / preference learning（RLHF, DPO等）の研究・実装経験
LLM-as-Judge の校正・rubric設計の経験
AI安全性・Responsible AI・レッドチーミングに関する知識・経験
ベンチマーク設計・妥当性検証（IRT, construct validity）の経験
マルチエージェント・ワークフロー / ツール利用 / ロングコンテキストの評価経験
大規模データ処理（Spark / BigQuery等）の経験
CI/CDパイプラインへのML/評価パイプライン組込み経験
論文読解・再現実装の能力
英語での技術コミュニケーション能力