組み込みスコアラー
Mastra は、AI の出力を評価するための包括的な組み込みスコアラーを提供します。これらのスコアラーは一般的な評価シナリオ向けに最適化されており、エージェントやワークフローですぐに利用できます。
利用可能なスコアラー
正確性と信頼性
これらのスコアラーは、エージェントの回答がどれだけ正確で、真実に基づき、網羅的かを評価します:
answer-relevancy
: 応答が入力クエリにどれだけ的確に答えているかを評価(0-1
、高いほど良い)faithfulness
: 応答が与えられたコンテキストをどれだけ正確に反映しているかを測定(0-1
、高いほど良い)hallucination
: 事実の矛盾や根拠のない主張を検出(0-1
、低いほど良い)completeness
: 応答に必要な情報がすべて含まれているかを確認(0-1
、高いほど良い)content-similarity
: 文字レベルのマッチングでテキストの類似度を測定(0-1
、高いほど良い)textual-difference
: 文字列間のテキスト差分を測定(0-1
、値が高いほどより類似)tool-call-accuracy
: LLM が利用可能な選択肢から正しいツールを選べているかを評価(0-1
、高いほど良い)prompt-alignment
: エージェントの応答がユーザーのプロンプトの意図、要件、網羅性、形式にどれだけ合致しているかを測定(0-1
、高いほど良い)
コンテキスト品質
これらのスコアラーは、応答生成に用いるコンテキストの品質と関連性を評価します:
context-precision
: Mean Average Precision を用いてコンテキストの関連性と順位付けを評価し、関連コンテキストを早期に上位配置するほど高評価(0-1
、高いほど良い)context-relevance
: 細かな関連度、使用状況の追跡、欠落コンテキストの検出によりコンテキストの有用性を測定(0-1
、高いほど良い)
tip コンテキストスコアラーの選び方
- コンテキストの順序が重要で、標準的な IR 指標が必要な場合は Context Precision を使用(RAG のランキング評価に最適)
- 詳細な関連性評価が必要で、コンテキストの使用状況を追跡し、抜けを特定したい場合は Context Relevance を使用
両方のコンテキストスコアラーは次をサポートします:
- 静的コンテキスト: 事前定義されたコンテキスト配列
- 動的コンテキスト抽出: カスタム関数で実行からコンテキストを抽出(RAG システム、ベクターデータベースなどに最適)
出力品質
これらのスコアラーは、形式・スタイル・安全性要件への準拠を評価します:
tone-consistency
: 丁寧さ、複雑さ、文体の一貫性を測定(0-1
、高いほど良い)toxicity
: 有害または不適切な内容を検出(0-1
、低いほど良い)bias
: 出力に潜在する偏りを検出(0-1
、低いほど良い)keyword-coverage
: 技術用語の網羅状況を評価(0-1
、高いほど良い)