Zum Inhalt

Multi-Turn Persona Evaluation (Beta)

Evaluieren Sie Ihren Chatbot Ende-zu-Ende, indem ein simulierter Nutzer ein Ziel über eine echte, mehrstufige Unterhaltung hinweg verfolgt.

Multi-Turn Persona Evaluation erlaubt es Ihnen, das Verhalten Ihres Bots über einen vollständigen Dialog hinweg zu messen — nicht nur über eine einzelne Antwort. Ein Simulator-LLM spielt eine Persona mit einem konkreten Ziel, Ihr Bot under test antwortet, und das entstandene Transkript wird als Ganzes von Ihrem Criterion-Set bewertet.

Quick Start

  1. Gehen Sie zu Collections → New Collection und wählen Sie die Preset-Kachel Persona.
  2. Fügen Sie eine Zeile hinzu und füllen Sie persona_name, persona_description und goal_summary aus.
  3. Gehen Sie zu Prompt Templates und erstellen Sie ein system-only-Template — das ist der System-Prompt für Ihren Bot under test (genau eine System-Nachricht, keine User- oder Assistant-Turns).
  4. Gehen Sie zu Experiments → New Experiment und wählen Sie die Persona-Collection.
  5. Bestätigen Sie, dass das Banner Multi-Turn-Evaluation erscheint, und wählen Sie anschließend das system-only-Template, eine LLM-Config für den Bot und ein Criterion-Set.
  6. Starten Sie das Experiment. Das gesamte Transkript wird vom Criterion-Set bewertet.

Was es ist

Ein Simulator-LLM spielt eine Persona, die ein Ziel erreichen möchte, Ihr Bot under test antwortet in jedem Turn, und die entstandene Unterhaltung wird als Ganzes gespeichert und bewertet. Beide Seiten sprechen miteinander, bis der Simulator entscheidet, dass die Unterhaltung enden soll, oder bis ein Turn-Limit erreicht wird.

Wann was verwenden

  • Multi-Turn Persona Evaluation: Ein live simulierter Nutzer treibt einen echten Multi-Turn-Dialog mit Ihrem Bot. Verwenden Sie dies, um End-to-End-Verhalten unter realistischen, zielgerichteten Unterhaltungen zu evaluieren.
  • Konversationen: Ein statischer, vorab aufgezeichneter Nachrichtenverlauf wird abgespielt, und Ihr Bot generiert eine nächste Antwort. Verwenden Sie dies, um spezifische Turns mit kontrolliertem Kontext zu testen.
  • Agentic Evaluations: Ein tool-nutzender Agent führt eine Aufgabe mit Tool-Calls aus. Verwenden Sie dies, wenn das System under test ein Agent statt eines Chatbots ist.

Kernkonzepte

  • Persona-Collection: Ein neuer Collection-Typ, bei dem jede Zeile eine Persona beschreibt. Automatisch erstellte Spalten: persona_name, persona_description, goal_summary. Eine optionale environment_config-Spalte kann zeilenspezifische Konfiguration für die Umgebung des Bots enthalten.
  • Simulator: Das LLM, das den Nutzer spielt. Der Simulator ist eine Deployment-Level-Einstellung und nicht durch Nutzer konfigurierbar.
  • Bot under test: Das LLM, das Ihren Assistenten spielt. Es wird durch die LLM-Config des Experiments und ein system-only-Prompt-Template definiert.
  • MULTI_TURN-Evaluierungsmodus: Wird automatisch ausgewählt, wenn das Experiment eine Persona-Collection verwendet. Sie wählen ihn nicht manuell.
  • Beendigung: Der Simulator kann ein end_conversation-Tool mit einem von drei Gründen aufrufen — goal_met, goal_failed oder stuck. Wird das Tool nie aufgerufen, endet die Schleife bei einer harten Obergrenze von MAX_TURNS = 16.

Wie ein Run abläuft

Für jede Persona-Zeile in der Collection:

  1. Nächste Persona-Zeile auswählen.
  2. Der Simulator generiert die nächste User-Nachricht. Er sieht den vollständigen Gesprächsverlauf mit vertauschten Rollen (die Antworten Ihres Bots erscheinen für den Simulator als user-Nachrichten und umgekehrt).
  3. Der Bot under test antwortet, basierend auf Ihrem system-only-Prompt-Template und der LLM-Config des Experiments.
  4. Die Schritte 2 und 3 wiederholen sich, bis der Simulator end_conversation aufruft oder MAX_TURNS erreicht wird.
  5. Das finale Transkript wird als Response gespeichert und vom Criterion-Set bewertet.

Stateless vs. stateful Provider

Die meisten Provider (OpenAI, Custom API, Mock) sind stateless: Bei jedem Bot-Turn wird der vollständige Gesprächsverlauf erneut gesendet. Botario hält Session-State serverseitig vor, identifiziert über sessionId — pro Aufruf wird daher nur der aktuelle User-Turn gesendet. Botario verwirft zudem stillschweigend den System-Prompt des Bots, da der State auf der Botario-Seite liegt. Der System-Prompt bleibt im gespeicherten Transkript erhalten, wird aber nicht an den Bot gesendet.

Eine Persona-Collection erstellen (UI)

  1. Öffnen Sie die Collections-Seite Ihres Projekts und klicken Sie auf New Collection.
  2. Wählen Sie auf der New-Collection-Seite die Preset-Kachel Persona. Die Collection wird mit Typ PERSONA und drei vordefinierten Spalten erstellt:

    • persona_name
    • persona_description
    • goal_summary

    Preset-Kachel Persona auf der New-Collection-Seite

  3. Fügen Sie pro Persona, die Sie evaluieren möchten, eine Zeile hinzu.

  4. Optional können Sie eine environment_config-Spalte für zeilenspezifische Umgebungskonfiguration des Bots hinzufügen. Diese Spalte ist nicht verpflichtend.

Die entstehende Collection wird als Persona-Collection gekennzeichnet und enthält die vorkonfigurierten Spalten:

Persona-Collection-Detail mit Beta-Badge und vordefinierten Spalten

Eine Persona-Collection lässt sich nicht mit Direkte Eingabe- oder Conversation-Spalten mischen — sie ist ein eigenständiger Collection-Typ.

Das Prompt-Template des Bots

Der Bot under test wird über ein system-only-Prompt-Template konfiguriert:

  • Genau eine system-Nachricht.
  • Keine user- oder assistant-Nachrichten.
  • Keine Platzhalter auf der User-Seite — die User-Turns werden vom Simulator generiert, daher greifen User-seitige Platzhalter nicht.

Wenn Sie auf der New-Experiment-Seite eine Persona-Collection auswählen, wird der Template-Picker so gefiltert, dass nur system-only-Templates auswählbar sind.

Ein Multi-Turn-Experiment ausführen (UI)

  1. Gehen Sie zu Experiments → New Experiment.
  2. Wählen Sie Ihre Persona-Collection. Das Experiment schaltet automatisch in den MULTI_TURN-Modus, und das Banner Multi-Turn-Evaluation erscheint zur Bestätigung.

    Formular für ein neues Experiment mit dem Multi-Turn-Evaluation-Banner

  3. Wählen Sie:

    • das system-only-Prompt-Template (System-Prompt Ihres Bots). Der Template-Picker ist so gefiltert, dass nur Templates ohne User-Nachrichten angezeigt werden, da an den LLM-Endpoint des Bots ausschließlich eine System-Nachricht übergeben wird — die User-Turns liefert der Simulator.
    • die LLM-Config für den Bot under test,
    • das Criterion-Set, mit dem die entstehenden Transkripte bewertet werden.
  4. Starten Sie das Experiment. Pro Persona-Zeile wird eine Unterhaltung durchgeführt.

Unterstützte Bot-Provider: OpenAI, Botario, Custom API, Mock.

Ergebnisse lesen

  • Der vollständige Dialog zwischen Simulator und Bot wird auf der Response gespeichert und ist im Response-Viewer sichtbar.
  • Criterion-Bewertungen beziehen sich auf das gesamte Transkript, nicht auf einen einzelnen Turn.
  • Der Beendigungsgrund (goal_met, goal_failed, stuck oder MAX_TURNS) wird auf der Response ausgewiesen, sodass Sie filtern und analysieren können, wie Unterhaltungen geendet haben.

Verwandte Themen