Experimente¶
Experimente helfen Ihnen dabei, verschiedene Prompts systematisch zu vergleichen und deren Effektivität zu bewerten. Sie sind besonders nützlich, wenn Sie mehrere Varianten von Prompts testen und analysieren möchten, welche für Ihren Anwendungsfall am besten geeignet ist. Zusätzlich ermöglichen Experiments die Analyse, welche Evaluationskriterien im Allgemeinen gut über verschiedene Prompts hinweg funktionieren und welche konstant fehlschlagen. Dies hilft Ihnen, systematische Stärken und Schwächen in Ihren Prompt-Designs zu identifizieren.
Ein Experiment kombiniert mehrere Komponenten:
- Ein Prompt Template als Grundlage
- Eine Reihe von Eingaben (Template Variables oder Collection)
- Evaluationskriterien und Ratings für die Antworten
Schauen Sie gerne in den Abschnitt Key Concepts für einen detaillierten Überblick über die Konzepte. Aber bevor wir zu tief in die Details einsteigen, lassen Sie uns ein Beispiel betrachten.
1. Erstellen Sie ein `Experiment`. Falls das `Experiment` bereits existiert, wird es zurückgegeben. Beachten Sie, dass das gleiche `PromptTemplate` und die gleiche `Collection`, die zur Generierung der `Response`s verwendet wurden, hier ebenfalls verwendet werden.
2. Hier werden die Ratings für die `Response`s erstellt. Durch die Übergabe des zuvor erstellten `Experiment`s werden die `Response`s mit Ratings mit dem `Experiment` verknüpft.
3. Die `Response`s mit Ratings sind über die `rated_responses`-Eigenschaft des `Experiment`s zugänglich.
Experiments anzeigen¶
Sie können die Ergebnisse eines Experiments in der Benutzeroberfläche betrachten. Die Experiment-Ansicht zeigt hilfreiche Statistiken, die Ihnen helfen zu erkennen, welche Kriterien im Allgemeinen erfüllt werden und welche nicht. Die Experiment-Ansicht sieht wie folgt aus. Hier werden einige Statistiken angezeigt:
- Overall Score: Der Mittelwert und die Standardabweichung aller Antworten
- Average Tokens: Der Mittelwert und die Standardabweichung der für alle Antworten verwendeten Tokens
- Weakest Criteria: Die am wenigsten erfüllten Kriterien und der Prozentsatz der Antworten, die sie erfüllt haben
Im Criteria Performance-Graphen sehen Sie, welche Kriterien generell erfüllt werden und welche besonders herausfordernd sind.
Es gibt auch einen detaillierten Analyse-Tab, der wie folgt aussieht. Hier können Sie die Score Distribution und die Criteria Performance Analysis der Antworten sehen, um die Gesamtleistung zu verstehen und Ausreißer zu identifizieren. Außerdem können Sie Antwortbeispiele untersuchen, die nach Leistung kategorisiert und sortiert sind.
Im individuellen Antwort-Tab können Sie jede Antwort im Detail inspizieren.
Experiments vergleichen¶
Wenn Sie mehrere Experiments haben, können Sie in der Dashboard-Ansicht der Benutzeroberfläche einen Vergleich starten. Dies ist besonders nützlich für den Vergleich von Antworten aus verschiedenen Prompts, die auf unterschiedlichen Prompt Templates basieren.
Anschließend erhalten Sie eine detaillierte Statistik des Vergleichs der Experiments. Hier können Sie sehen, wie die Kriterien im Vergleich erfüllt wurden und wie die Prompts im Vergleich abgeschnitten haben.
Sie können auch einen detaillierten Vergleichsbericht einsehen, der Folgendes zeigt:
- Wie viele Antworten sich verbessert haben, verschlechtert haben oder den gleichen Score aber unterschiedliche Bewertungen haben
- Eine detaillierte Auflistung der Bewertungen für diese Antworten
- Eine Zusammenfassung, welche Kriterien am häufigsten nicht erfüllt wurden
Experiments sind hervorragend geeignet für:
-
Vergleichende Analyse: Vergleichen Sie verschiedene Prompt Templates oder Ansätze direkt nebeneinander. Zum Beispiel können Sie verschiedene Versionen des gleichen Prompts testen, um die effektivste Formulierung zu finden.
-
Qualitätsevaluation: Verfolgen und analysieren Sie die Antwortqualität durch systematische Erfassung von Ratings. Dies hilft dabei, Muster in der Antwortqualität und Verbesserungsbereiche zu identifizieren.
-
Leistungsverfolgung: Berechnen und überwachen Sie wichtige Metriken über Antworten innerhalb eines Experiments. Dies ist besonders nützlich beim Testen verschiedener Konfigurationen oder Ansätze.
Experiments überwachen¶
Um die Performance von Experimenten über die Zeit zu überwachen, klicken Sie im Experiment Dashboard auf die Schaltfläche View Timeline.
Dies führt Sie zur Experiment Timeline, wo Sie die Scores aller Experimente im Zeitverlauf sehen können. Sie können die Experimente nach Datum, Prompt Template, Collection und Modellkonfiguration filtern. Wenn Sie mit der Maus über einen Datenpunkt halten, werden die entsprechenden Experiment-Informationen in einem Tooltip angezeigt. Durch Klicken auf einen Datenpunkt gelangen Sie zur detaillierten Experiment-Ansicht, die im Abschnitt Experiments anzeigen beschrieben ist.
Experiments planen¶
Sie können Experimente auch so planen, dass sie regelmäßig ausgeführt werden. Dies ist besonders nützlich, wenn Sie Evaluierungen nach einem Zeitplan ohne manuelles Eingreifen durchführen möchten. Um ein Experiment zu planen, klicken Sie in der Experiment Timeline-Ansicht auf die Schaltfläche Schedule Run. Hier können Sie den Zeitplan konfigurieren.
Sie können Folgendes konfigurieren:
Häufigkeit:
- Täglich: Einmal täglich zu einer bestimmten Zeit ausführen
- Wöchentlich: An bestimmten Wochentagen zu einer bestimmten Zeit ausführen
- Monatlich: An bestimmten Tagen des Monats zu einer bestimmten Zeit ausführen
Benachrichtigungseinstellungen:
- E-Mail-Adressen für Benachrichtigungen
- Benachrichtigungsschwellwert. Wenn der Durchschnittsscore eines Experiments unter diesen Schwellenwert fällt, werden Benachrichtigungen an die konfigurierten E-Mail-Adressen gesendet
Experiment-Parameter:
- Prompt Template
- Template Variables Collection
- Modell für die Generierung von Antworten
- Rating-Modus (schnell vs. detailliert)
Ihre geplanten Ausführungen werden im Bereich Scheduled Runs angezeigt. Hier haben Sie einen klaren Überblick über Ihre geplanten Ausführungen und die wichtigsten Einstellungen, wie zum Beispiel die Zeitplanung.
Durch Auswahl des Filter-Icons in einem Zeitplan werden nur die Ausführungen aus diesem Zeitplan angezeigt. Zusätzlich wird der konfigurierte Schwellenwert für den Durchschnittsscore der Experimente angezeigt. Dies ermöglicht es Ihnen, sich auf spezifische Experimente zu konzentrieren, was die Analyse der Leistung erleichtert.
Sie können auch eine bestehende geplante Ausführung modifizieren, wenn Sie auf das Bearbeiten-Icon klicken. Sie können Folgendes anpassen:
- Ausführungshäufigkeit
- Benachrichtigungsschwelle
- Benachrichtigungs-E-Mails
- Zeitplan deaktivieren