掲載日 ・ 2026/04/22

株式会社ベネッセコーポレーション

株式会社ベネッセコーポレーション:Senior Tech Lead – AI Quality & Evaluation

非公開
東京都

ベネッセコーポレーション

ソフトウェア・SaaS

QAエンジニア

会社名

株式会社ベネッセコーポレーション

会社概要

「よく生きる」を理念とするベネッセグループにおける、教育・生活領域での課題解決を行っています。コア事業である「こどもちゃれんじ」「進研ゼミ」をはじめ、「Udemy」「dodaキャンパス」など幅広い年代に対して教育・学習サービスを提供しています。
■デジタルの力を「よく生きる」力にすべく、DXを積極的に推進。「デジタル組織能力の構築」を経営課題の重要テーマとして取組んでいます。経済産業省DX認定事業者、東証DX人財銘柄にも選定されました。
■2020年度からDXプロジェクトを進めるための組織を再編。従来からIT投資には積極的でしたが、コロナ影響で教育DXが一気に加速。学校ICT化やオンライン講座、GIGAスクール構想、社会人リカレント教育など社会的ニーズの高まりを受けて、DX推進の必要性も差し迫っているため、デジタル人材の活躍の場が広がっています。

ポジション

Senior Tech Lead - AI Quality & Evaluation

仕事内容

採用背景
■ベネッセでは、各事業(『進研ゼミ』『こどもちゃれんじ』『学校向け教育事業』『社会人向け教育事業』『妊娠出産・育児等の生活サービス』etc.の事業領域)のデータを活用し、お客様の課題解決、サービス価値向上実現のため、事業・サービスやマーケティングの進化、事業グロースにおけるデータ利活用を支える、機械学習やAIを活用したサービスや仕組み作りに注力しております。

■本求人はAI/AIエージェント関連プロジェクトにおいて、品質基準の設計、評価運用、改善サイクルの定着をリードするポジションです。個別案件への対応に加え、評価観点やリリース判定の考え方を横断的に整備し、AI活用を担う開発組織全体の水準向上に貢献いただくことを期待します。

仕事内容
生成AI/AIエージェントの品質基準・評価設計・継続改善を担う技術リードいただきます。

【具体的な業務内容】
■担当するAI/AIエージェントプロジェクトや主要ユースケースについて、品質基準とリリース判定基準を定義。
■新規機能の品質評価、回帰評価、安全性評価の観点で、評価データセット、評価基準、自動評価ロジック、テスト環境を設計・運用。
■オフライン評価と人手レビューを組み合わせ、回答品質、根拠性、一貫性、安全性、コスト、レイテンシの観点で品質を可視化。
■本番環境のオンライン指標、ログ、ユーザーフィードバックをもとに、改善仮説の立案から検証までをリード。
■段階リリース、A/Bテスト、切り戻しや代替動作の判断に必要な品質信号を整備する
Prompt、RAG、tool use、workflow 設計の改善提案を行い、Applied AI Engineering 担当と協働して品質改善。
■共通の評価基盤、ダッシュボード、品質運用フローについて AI Platform & Reliability 担当と連携し、再利用可能な仕組みに落とし込む。
■品質事故や評価結果を踏まえた再発防止策をドキュメント化し、組織の判断基準を育てる

【入社後の成果イメージ】
■6か月以内に、BenesseのAI/AIエージェント活用プロジェクトを対象に、評価・品質の基本となる観点、進め方、評価運用の型を整備し、具体的な案件で活用を始めている。主要なプロジェクトにおいて、品質観点、評価項目、リリース判断の考え方が言語化され、関係者が共通の前提で議論できる状態をつくる。
■18か月以内に、開発組織への知見展開と標準化をリードし、AIソリューションの評価・品質観点におけるベストプラクティスが複数プロジェクトで再利用され、再現性の高いプロジェクト運営ができる状態を実現している。案件ごとの属人的な判断に依存せず、評価設計、改善サイクル、リリース判断の進め方が組織知として定着。

※外部パートナー(大手クラウドベンダーやベンチャー企業など)、研究機関と連携しながら、知見を高めていくことができます。また資格研修やセミナー参加なども推奨しています。
AIエンジニアとしての専門性を高めつつ、BizDevやデータエンジニアなど、領域を拡大するキャリアの広げ方も可能です。

求める経験・スキル

求める人物像
■Data Engineer、ML Engineer、Research Engineer、Security Engineer、Platform Engineer、Backend Engineerなどの基礎技術領域で成果を出したうえで、近年は生成AI/AIエージェント領域に取り組んできた方
■Research Engineer、ML Engineer、Applied AI Engineer、AI Quality/QA、MLOps などの経験を持ちつつ、実運用の品質改善までやり切ってきた方
■「精度を上げる」だけでなく、「どの品質をどう測り、どこでリリース判定するか」を設計してきた方
■生成AIの不確実性を前提に、再現可能な改善サイクルと組織的な判断基準を作れる方
■教育・学習のように信頼性が重要な文脈で、業務ドメインの知見を技術設計に翻訳できる方

応募条件(MUST)
■ソフトウェアエンジニアリング、データ基盤、ML、Security、Platform、Backend のいずれかの領域で、5年以上の実務経験
■Tech Lead またはそれに準ずる立場で、技術方針の決定や実装推進を担った経験
■LLM、RAG、AIエージェントを活用した機能またはシステムについて1年以上の実務経験があり、本番導入または継続運用に関わった案件経験
■評価指標設計、評価データセット設計、または回帰評価設計を含む品質改善サイクルを設計・運用した案件経験
■オフライン評価、オンライン指標、A/Bテスト、モニタリング、人手レビューまたは自動評価を組み合わせて品質を運用した経験
■品質課題を分解し、Prompt、RAG、モデル選定、tool use、UX、運用フローのどこを改善すべきかを判断し、改善につなげた経験
■Pythonを中心とした実装力、ならびにAPI/バックエンド/データ処理のいずれかの実務経験
■PdM・企画担当者、エンジニア、業務側メンバーと協働し、品質基準を意思決定に接続した経験

歓迎条件(WANT)
■Data Engineer、ML Engineer、Research Engineer、Security Engineer、Platform Engineer、Backend Engineer などの基礎技術領域で、専門性を磨いてきた経験
■情報理工学系または関連分野での学士号、またはそれに準ずる基礎知識
■教育、学習、B2C/B2B SaaS、ヘルスケア、法務、金融など高信頼領域でのAI運用経験
Ragas、DeepEval、OpenAI Evals、Langfuse、Arize Phoenix など評価・観測ツールの利用経験
■敵対的テスト、レッドチーミング、プロンプトインジェクション対策、ハルシネーション対策の実務経験
■検索品質、RAG評価、ランキング評価、推薦評価の経験
■ファインチューニング、追加学習、またはモデルカスタマイズの経験
■品質基盤やMLOps基盤の設計経験
■技術発信、社内標準化、プレイブック作成の経験

労働条件

雇用形態

正社員

年収

非公開

勤務地

東京都

求人問い合わせ・転職相談

PICK UP

ベネッセコーポレーションの他の求人はこちら

随時開催 まずはキャリア相談会から 簡単1分 無料転職相談を申し込む

リクルートへの転職 元リク面接官が明かす対策方法

リクルートへの転職 元リク面接官が明かす対策方法

中途採用のすべてを元社員がご紹介「リクルートに合格する人材、しない人材」とは?

転職FAQ

転職FAQ

皆様からよく頂く弊社Sincereedのこと、転職のことなどをまとめてみました。