カスタム評価の作成
New Scorer API
We just released a new evals API called Scorers, with a more ergonomic API and more metadata stored for error analysis, and more flexibility to evaluate data structures. It’s fairly simple to migrate, but we will continue to support the existing Evals API.
Metric
クラスを拡張し、measure
メソッドを実装することで、カスタム評価を作成できます。これにより、スコアの計算方法と返される情報を完全に制御できます。LLMベースの評価の場合は、MastraAgentJudge
クラスを拡張して、モデルがどのように推論し、出力をスコア化するかを定義します。
ネイティブJavaScript評価
プレーンなJavaScript/TypeScriptを使用して軽量なカスタムメトリクスを作成できます。これらは、シンプルな文字列比較、パターンチェック、またはその他のルールベースのロジックに最適です。
出力内で見つかった参照単語の数に基づいて応答をスコア化するWord Inclusionの例をご覧ください。
LLMによる判定評価
より複雑な評価については、LLMを活用した判定システムを構築できます。これにより、事実の正確性、トーン、推論など、より微妙な基準を捉えることができます。
実世界の事実の正確性を評価するカスタム判定システムとメトリクスの構築の完全なウォークスルーについては、Real World Countries exampleをご覧ください。