Ian Chen

首席应用科学家 @ 微软

研究方向

  • LLM Agent 评估 — 基于 rubric 的对话式 AI Agent 质量评估
  • Rubric 质量与生成 — 基于 perturbation 驱动的 HPO 自动优化 rubric
  • 奖励建模 — 将 rubric 作为 RL 微调 (GRPO/DRO) 的奖励信号
  • LLM 强化学习 — reward hacking 检测、训练信号质量保障

背景

传统机器学习 → 深度学习 → 强化学习 → LLM Agent

我致力于通过更好的评估让 LLM Agent 更可靠。当前专注于 rubric 质量 — 确保我们用来评分 AI 产出的 checklist 真正衡量了它们声称要衡量的维度。

联系方式