Criterion Sets¶

Organisieren Sie Bewertungskriterien in wiederverwendbaren Sets, die konsistente Bewertungen ermöglichen

Criterion Sets sind Sammlungen von Bewertungskriterien, die definieren, wie KI-Antworten bewertet werden sollen. Sie ermöglichen eine systematische Evaluierung, indem sie verwandte Kriterien zusammenfassen, sodass sie einfach in Ihren Experimenten verwendet werden können.

Was sind Criterion Sets?¶

Ein Criterion Set enthält ein oder mehrere Criteria - binäre Bewertungsfragen, die KI-Antworten als "pass" oder "fail" bewerten. Jedes Criterion stellt eine spezifische Ja/Nein-Frage zur Antwortqualität, wie "Beantwortet die Antwort die Frage korrekt?" oder "Ist die Antwort frei von schädlichen Inhalten?".

Criterion Sets bieten Konsistenz durch die Anwendung derselben Bewertungsstandards über Ihre Experimente hinweg, ermöglichen Wiederverwendbarkeit durch geteilte Criteria und verbessern die Effizienz durch die Reduzierung von Doppelarbeiten bei der Bewertung ähnlicher Prompt-Variationen.

Key Concepts¶

Criteria: Einzelne Bewertungsfragen, die spezifische Aspekte der Antwortqualität bewerten. Jedes Criterion muss mit Ja/Nein beantwortbar sein und sollte auf einen bestimmten Aspekt der Antwortqualität abzielen.

Template Linking: Criterion Sets können mit Prompt Templates verknüpft werden. Diese Verknüpfung bestimmt, welches Criterion Set standardmäßig für Experimente mit diesem Prompt Template ausgewählt wird. Ein alternativer Ansatz ist die Auswahl des Criterion Sets bei der Experiment-Erstellung.

Collection Compatibility: Criterion Sets müssen mit Collections kompatibel sein, um in Experimenten verwendet werden zu können. Kompatibilität bedeutet, dass Criteria-Platzhalter (z.B. {{user_question}}) exakt mit den Spaltennamen der Collection übereinstimmen. Bei der Erstellung von Experimenten sind nur kompatible Criterion Sets zur Auswahl verfügbar. Wenn keine Platzhalter in den Criteria verwendet werden, ist die Kompatibilität mit jeder Collection garantiert.

Version Control: Automatische Versionierung verfolgt Änderungen an Criteria für Reproduzierbarkeit und stellt sicher, dass Experimente konsistent bleiben, auch wenn Criteria aktualisiert werden.

Getting Started¶

Ihr erstes Criterion Set erstellen¶

Navigieren Sie zu Criteria Library in Ihrer Projekt-Seitenleiste, um alle Criterion Sets zu verwalten. Klicken Sie auf "New Criterion Set", um Ihr erstes Set zu erstellen.

Erforderliche Information:

Name: Aussagekräftige Bezeichnung für das Criterion Set (z.B. "Content Safety", "Technical Accuracy")
Description: Kurze Erklärung des Zwecks und Umfangs des Sets

Hinzufügen von Criteria¶

Sobald Sie ein Criterion Set erstellt haben, klicken Sie darauf, um einzelne Criteria hinzuzufügen. Jedes Criterion sollte:

Binäre Ja/Nein Bewertung sicherstellen
Auf beobachtbare Antwortmerkmale fokussieren
Klare, eindeutige Sprache verwenden
Auf einen bestimmten Aspekt der Antwortqualität abzielen

Beispiel Criteria:

"Enthält die Antwort korrekte Informationen?"
"Ist die Antwort frei von schädlichen Inhalten?"
"Hält die Antwort das geforderte Format ein?"

Mit Templates verknüpfen¶

Criterion Sets können mit Prompt Templates verknüpft werden. Sie können Sets beim Erstellen von Templates verknüpfen oder die Funktion "Link a Prompt Template" verwenden, um bestehende Sets zu verbinden.

Wenn Sie Experimente erstellen, wird das mit Ihrem ausgewählten Prompt Template verknüpfte Criterion Set standardmäßig ausgewählt, aber es ist möglich, es durch ein anderes kompatibles Criterion Set zu ersetzen. Das Bewertungssystem generiert Antworten, wendet Criteria an, um jede Antwort zu bewerten, und produziert Pass/Fail-Bewertungen für jedes Criterion.

Fortgeschrittene Features¶

Template-Set Verknüpfungen¶

Criterion Sets können mit mehreren Templates verknüpft werden, aber diese Verknüpfung ist nicht fest und kann für jedes Experiment nach Ihren Bedürfnissen angepasst werden. Diese Flexibilität ermöglicht es Ihnen:

Universelle Criteria (Sicherheit, Grundqualität) über alle Templates hinweg anzuwenden
Spezifische Criteria für bestimmte Anwendungsfälle (Kundenservice, technische Dokumentation) zu verwenden
Verschiedene Bewertungsaspekte für umfassende Bewertungen zu kombinieren

Verknüpfungen verwalten:

Alle Templates anzeigen, die mit einem bestimmten Criterion Set verknüpft sind
Ein anderes Criterion Set mit bestehenden Templates verknüpfen
Sets entknüpfen, während historische Experimentdaten bewahrt werden

Ergebnise and Analyse¶

Ergebnisse von Experimenten zeigen die Leistung von einzelnen Criteria. Dazu gehören Pass-Raten für jedes Criterion, Response-Level Bewertungen (die zeigen, welche Criteria bestanden oder durchgefallen sind) sowie Gesamtscores, die alle Criteria in die Gesamtleistung des Templates kombinieren.

Beim Vergleich von Experimenten über die Zeit können Sie Trends in der Criterion-Leistung analysieren, um zu verstehen, welche Aspekte Ihrer Prompts sich verbessern oder Aufmerksamkeit benötigen.

Best Practices¶

Set Organization Strategie¶

Organisieren Sie Criterion Sets nach Zweck, um Klarheit und Wiederverwendbarkeit zu erhalten. Häufige Gruppen umfassen:

Accuracy Sets - Inhaltskorrektheit, Sachrichtigkeit, Vollständigkeit

Safety Sets - Schädliche Inhalte, Bias-Erkennung, Compliance-Anforderungen

Quality Sets - Klarheit, Kohärenz, professioneller Ton

Functional Sets - Aufgabenerfüllung, Formateinhaltung, Anweisungsbefolgung

Criteria Design Guidelines¶

Designen Sie Criteria, um umfassend und fokussiert zu sein. Stellen Sie sicher, dass Ihre Criteria alle wichtigen Bewertungsdimensionen abdecken, während Sie ausgewogene Erwartungen aufrechterhalten, die weder zu nachsichtig noch unmöglich streng sind.

Fokussieren Sie auf umsetzbare Rückmeldungen - Ergebnisse sollten spezifische Verbesserungsbereiche anzeigen, anstatt nur Pass/Fail-Status. Verwenden Sie klare, eindeutige Sprache, die subjektive Interpretation minimiert.

Workflow Integration¶

Definieren Sie Criteria vor der Erstellung von Prompt Templates, um sicherzustellen, dass Bewertungsstandards früh etabliert werden. Erstellen Sie Criterion Sets für jede große Bewertungskategorie und verknüpfen Sie die am häufigsten verwendeten mit Ihrem Prompt Template.

Validieren Sie Criteria durch erste Experiment-Durchläufe und iterieren Sie basierend auf Bewertungsergebnissen. Für Teamzusammenarbeit verwenden Sie konsistente Criterion Sets über Teammitglieder hinweg und pflegen Sie klare Dokumentation dessen, was jedes Criterion testet.

SDK Integration¶

Für die programmatische Verwaltung von Criterion Sets verwenden Sie das elluminate SDK:

from elluminate import Client

client = Client()  # Uses ELLUMINATE_API_KEY env var

# Criterion set erstellen
criterion_set = client.criterion_sets.create(
    name="Inhaltsqualität",
    description="Bewerten Sie Antwortgenauigkeit und Vollständigkeit"
)

# Kriterien zum Set hinzufügen
criterion = client.criteria.create(
    criterion_set=criterion_set,
    label="Genauigkeit",
    criterion_str="Liefert die Antwort genaue Informationen?"
)

# Mit Prompt-Template verknüpfen
template = client.prompt_templates.get("Kundenservice Bot")
client.criterion_sets.link_template(criterion_set, template)

# In Experiment verwenden
experiment = client.experiments.create(
    name="Qualitätsbewertung",
    prompt_template=template,  # Verwendet verknüpfte Kriteriensets automatisch
    collection=test_collection,
    llm_config=model_config
)

Für die vollständige SDK-Dokumentation siehe die API Reference.

Troubleshooting¶

Common Issues¶

Inkonsistente Ergebnisse: Überprüfen Sie, dass Criteria als binäre Ja/Nein-Fragen geschrieben sind. Zusammengesetzte Fragen, die mehrere Aspekte testen, können zu inkonsistenten Bewertungen führen. Eine positive Antwort auf die Frage führt zu einer "Ja"-Bewertung, überlegen Sie also, ob Ihr Testfall Criteria beinhalten sollte, die als negative Fragen formuliert sind.

Fehlende Evaluations: Bestätigen Sie, dass Ihre LLM-Antworten in einem Format sind, das mit Ihren Criteria kompatibel ist. Einige Criteria können spezifische Antwortstrukturen oder Inhaltstypen erfordern.

Criterion Set nicht für Experiment verfügbar: Wenn Ihr Criterion Set bei der Erstellung eines Experiments nicht erscheint, überprüfen Sie, ob die Criteria-Platzhalter exakt mit den Spaltennamen Ihrer Collection übereinstimmen. Nur kompatible Criterion Sets werden im Experiment-Erstellungsformular angezeigt.

Hilfe erhalten¶

Wenn Criterion Sets nicht wie erwartet funktionieren, überprüfen Sie die Experiment-Logs auf spezifische Fehlermeldungen, prüfen Sie, dass Criteria ordnungsgemäß mit Templates verknüpft sind, und überprüfen Sie die Criterion-Formulierung auf Klarheit und Objektivität.

Das Verständnis von Criterion Sets ermöglicht systematische, reproduzierbare Bewertungen von KI-Antworten bei gleichzeitiger Aufrechterhaltung der Konsistenz über Ihre Bewertungs-Workflows hinweg.