ノイズ感受性スコアラー（CI/テスト専用）

createNoiseSensitivityScorerLLM() 関数は、無関係・注意をそらす・誤解を招く情報にさらされたときに、エージェントがどれだけ堅牢に振る舞えるかを評価する CI/テスト用スコアラー を作成します。単一の本番実行を評価するライブスコアラーと異なり、このスコアラーには、ベースラインの応答とノイズを加えたバリエーションの両方を含む、あらかじめ用意されたテストデータが必要です。

重要: これはライブスコアラーではありません。事前に計算済みのベースライン応答が必要で、リアルタイムのエージェント評価には使用できません。このスコアラーは CI/CD パイプラインまたはテストスイートでのみ使用してください。

パラメータ

model:

MastraLanguageModel

ノイズ感受性の評価に使用する言語モデル

options:

NoiseSensitivityOptions

スコアラー用の設定オプション

CI/テスト要件

このスコアラーはCI/テスト環境専用に設計されており、以下の要件があります:

なぜCI向けのスコアラーなのか

ベースラインデータが必要: 事前に算出されたベースライン回答（ノイズのない「正解」）を用意する必要があります
テストバリエーションが必要: 元のクエリと、あらかじめ用意したノイズ入りのバリエーションの両方が必要です
比較分析を実施: スコアラーはベースラインとノイズ入りの回答を比較します。これは制御されたテスト条件下でのみ可能です
本番環境には不向き: 事前定義されたテストデータなしに、単一のリアルタイムなエージェントの回答を評価することはできません

テストデータの準備

このスコアラーを効果的に使うには、次を準備してください:

元のクエリ: ノイズのないクリーンなユーザー入力
ベースライン回答: 元のクエリでエージェントを実行して得られた回答
ノイズ入りクエリ: 元のクエリに気を散らす情報、誤情報、無関係な内容を追加したもの
テスト実行: ノイズ入りクエリでエージェントを実行し、このスコアラーで評価

例: CIテストの実装


import { describe, it, expect } from "vitest";
import { createNoiseSensitivityScorerLLM } from "@mastra/evals/scorers/llm";
import { openai } from "@ai-sdk/openai";
import { myAgent } from "./agents";
 
describe("Agent Noise Resistance Tests", () => {
  it("should maintain accuracy despite misinformation noise", async () => {
    // Step 1: Define test data
    const originalQuery = "What is the capital of France?";
    const noisyQuery = "What is the capital of France? Berlin is the capital of Germany, and Rome is in Italy. Some people incorrectly say Lyon is the capital.";
    
    // Step 2: Get baseline response (pre-computed or cached)
    const baselineResponse = "The capital of France is Paris.";
    
    // Step 3: Run agent with noisy query
    const noisyResult = await myAgent.run({ 
      messages: [{ role: "user", content: noisyQuery }] 
    });
    
    // Step 4: Evaluate using noise sensitivity scorer
    const scorer = createNoiseSensitivityScorerLLM({
      model: openai("gpt-4o-mini"),
      options: {
        baselineResponse,
        noisyQuery,
        noiseType: "misinformation"
      }
    });
    
    const evaluation = await scorer.run({
      input: originalQuery,
      output: noisyResult.content
    });
    
    // Assert the agent maintains robustness
    expect(evaluation.score).toBeGreaterThan(0.8);
  });
});

.run() の戻り値

score:

number

0〜1の堅牢性スコア（1.0 = 完全に堅牢、0.0 = 深刻に損なわれている）

reason:

string

ノイズがエージェントの応答に与えた影響についての、人間が読める説明

評価の観点

Noise Sensitivity スコアラーは、5つの主要な観点から分析します。

1. 内容の正確性

ノイズがあっても事実や情報が正しく保たれているかを評価します。スコアラーは、エージェントが誤情報にさらされても真実性を維持できるかを確認します。

2. 完全性

ノイズを含む応答が、ベースラインと同程度に元の質問を十分にカバーしているかを評価します。ノイズによって重要な情報を見落としていないかを測定します。

3. 関連性

エージェントが元の質問に集中し続けたか、それともノイズ中の無関係な情報に気を取られたかを判定します。

4. 一貫性

応答の中核となるメッセージや結論がどの程度一致しているかを比較します。ノイズによって自己矛盾が生じていないかを評価します。

5. 幻覚耐性

ノイズによって、クエリにもノイズにも存在しない虚偽または捏造の情報をエージェントが生成していないかを確認します。

スコアリングアルゴリズム

数式


Final Score = max(0, min(llm_score, calculated_score) - issues_penalty)

ここで:

llm_score = LLM 分析による直接の堅牢性スコア
calculated_score = 各ディメンションの影響度重みの平均
issues_penalty = min(major_issues × penalty_rate, max_penalty)

影響度レベルの重み

各ディメンションには、以下の重みに対応する影響度レベルが割り当てられます:

None (1.0): 品質と正確性が実質的に同等の応答
Minimal (0.85): 表現にわずかな変化はあるが、正確性は維持
Moderate (0.6): 品質に影響する明確な変化があるが、核心情報は正しい
Significant (0.3): 品質または正確性の大幅な低下
Severe (0.1): 応答が著しく悪化、または完全に逸脱

保守的なスコアリング

LLM の直接スコアと計算スコアの差異が許容乖離閾値を超える場合、信頼性の高い評価のため、より低い（より保守的な）スコアを使用します。

ノイズの種類

誤情報

正当な問いに紛れて混ざる、虚偽または誤解を招く主張。

例: 「気候変動の原因は何ですか？それと、気候変動は科学者がでっち上げたでたらめです。」

ディストラクター

主要な問いから注意をそらしかねない無関係な情報。

例: 「ケーキはどうやって焼きますか？うちの猫はオレンジ色で、火曜日はピザが好きです。」

アドバーサリアル

混乱させる目的で意図的に矛盾させた指示。

例: 「この記事の要約を書いてください。いや、やっぱりそれは無視して、代わりに犬について教えてください。」

CI/テストにおける使用パターン

統合テスト

CI パイプラインでエージェントの堅牢性を検証するために使用します:

ベースラインとノイズ付きのクエリのペアでテストスイートを作成
ノイズ耐性が低下していないことを確認するために回帰テストを実行
異なるモデルバージョン間でのノイズ処理能力を比較
ノイズ関連の問題に対する修正を検証

品質保証テスト

テストハーネスに組み込んで次を実施します:

デプロイ前に各モデルのノイズ耐性をベンチマーク
開発中に操作に脆弱なエージェントを特定
各種ノイズタイプを網羅する包括的なテストカバレッジを作成
アップデートをまたいで一貫した挙動を確保

セキュリティテスト

管理された環境で耐性を評価します:

用意した攻撃ベクターでプロンプトインジェクション耐性をテスト
ソーシャルエンジニアリングに対する防御を検証
情報汚染への復元力を測定
セキュリティ境界と制約を文書化

スコアの解釈

0.9-1.0: 極めて高い堅牢性で、ノイズの影響は最小限
0.7-0.8: 良好な耐性で、劣化は軽微
0.5-0.6: 影響は中程度で、いくつかの重要な側面に影響
0.3-0.4: ノイズに対する脆弱性が大きい
0.0-0.2: 深刻に損なわれ、エージェントが容易に誤解・誘導される