Zum Inhalt

Experimente

Lernen Sie, Ihre LLM-Anwendungen systematisch zu testen und zu vergleichen

Experimente helfen Ihnen dabei, verschiedene Prompts systematisch zu vergleichen, ihre Effektivität zu bewerten und die Leistung im Zeitverlauf zu verfolgen. Sie sind die Grundlage für datengetriebene LLM-Entwicklung und ermöglichen es Ihnen, mehrere Varianten zu testen und zu analysieren, welche für Ihren spezifischen Anwendungsfall am besten funktioniert.

Was ist ein Experiment?

Ein Experiment kombiniert mehrere Schlüsselkomponenten, um eine systematische Evaluierung zu erstellen:

  • Prompt Template - Die Grundlage mit Ihrem Prompt und {{Variablen}}
  • Collection - Eine Reihe von Test-Eingaben (Template-Variablen), die verschiedene Szenarien repräsentieren
  • LLM Config - Die Modellkonfiguration (Anbieter, Parameter, etc.)
  • Criterion Set - Evaluationskriterien, die definieren, was eine gute Antwort ausmacht

Wenn Sie ein Experiment ausführen, generiert elluminate Antworten für jede Eingabe in Ihrer Collection und evaluiert dann automatisch jede Antwort anhand Ihrer Kriterien.

Ihr erstes Experiment erstellen

Schritt 1: Zu Experimenten navigieren

Gehen Sie in Ihrem Projekt zur Experiments-Seite. Sie sehen Ihre Liste der Experimentausführungen mit Optionen zum Erstellen neuer Experimente oder zum Anzeigen der Timeline.

Experiment Runs

Schritt 2: Neues Experiment erstellen

Klicken Sie auf "New Experiment", um den Dialog zur Experiment-Erstellung zu öffnen. Sie konfigurieren:

Grundeinstellungen:

  • Collection - Wählen Sie Ihren Test-Eingaben-Datensatz
  • Prompt Template - Wählen Sie Ihr Template mit Variablen
  • Criterion Set - Kriterien zur Bewertung der Antworten
  • Modell - Wählen Sie, welche LLM-Config für die Antwortgenerierung verwendet werden soll
  • Experiment Name - Aussagekräftiger Name für dieses Experiment
  • Beschreibung - Optionale Details darüber, was Sie testen

Kompatibilitätsregeln Das System bietet nur gegenseitig kompatible Collections, Prompt Templates und Criterion Sets an. Wenn Ihre gewünschte Auswahl nicht erscheint, überprüfen Sie Ihre Platzhalter und Spaltenbenennung auf Probleme.

Erweiterte Einstellungen - Rating Mode: Der Detailed-Modus enthält Begründungen für jedes Kriterium und wird für bessere Interpretierbarkeit empfohlen. Der Fast-Modus liefert nur Bewertungen ohne Erklärungen und kann etwas schneller sein. - Epochs: Epochs ermöglichen es, dieselbe Evaluierung mehrfach auszuführen. Dies macht die Statistiken zuverlässiger, kann aber einige Zeit in Anspruch nehmen. - Rating Version: Wählen Sie die Rating-Modell-Version zur Bewertung der Antworten. Standardmäßig wird die in Ihren Projekteinstellungen festgelegte Version verwendet.

Create New Experiment

Schritt 3: Das Experiment ausführen

Nach dem Klicken auf "Create Experiment" wird elluminate:

  1. Antworten generieren - LLM-Antworten für jede Test-Eingabe erstellen
  2. Antworten bewerten - Jede Antwort anhand Ihrer Kriterien evaluieren
  3. Ergebnisse berechnen - Gesamtscores und Kriterien-Performance berechnen

Sie können den Fortschritt in Echtzeit von der Experiment-Detailseite aus überwachen.

Experimentergebnisse verstehen

Sobald Ihr Experiment abgeschlossen ist, können Sie die Ergebnisse in zwei Hauptansichten analysieren:

Tab "Detailed Analysis"

Dieser Tab bietet aggregierte Einblicke und die Inspektion von einzelnen Antworten:

  • Overall Score - Erfolgsraten, Score-Verteilungen, Token-Verbrauch
  • Criterion Breakdown - Welche Kriterien am häufigsten bestehen/nicht bestehen
  • Sample Navigator - Durchsuchen einzelner Antworten mit vollständigen Bewertungsdetails
  • Performance-Charts - Visuelle Analyse von Score-Mustern und Verteilungen

Detailed Analysis Tab

Tab "Individual Responses"

Dieser Tab bietet eine tabellarische Ansicht aller Ergebnisse:

  • Antwort-Tabelle - Sortierbare Liste aller Prompt-Antwort-Paare
  • Bewertungsdetails - Bestanden/Nicht-bestanden-Status für jedes Kriterium pro Antwort
  • Export-Optionen - Ergebnisse als CSV mit vollständigen Daten herunterladen
  • Filtern - Fokus auf bestimmte Score-Bereiche oder Kriterien-Ergebnisse

Für detaillierte Analysetechniken siehe den Response Analyse Guide.

Individual Responses Tab

Experimente vergleichen

elluminate unterstützt das Vergleichen von Experimenten, um Verbesserungen zu identifizieren und Leistungsänderungen zu verfolgen.

Zwei-Experiment-Vergleich

Vergleichen Sie zwei Experimente nebeneinander, um Unterschiede zu verstehen:

  1. Wählen Sie zwei Experimente aus Ihrer Liste
  2. Klicken Sie auf "Compare" für eine detaillierte Vergleichsansicht
  3. Analysieren Sie nebeneinander Antworten, Kriterien-Performance-Deltas und Gesamtscore-Änderungen

Comparison View

Multi-Experiment-Vergleich

Für einen Überblick über mehrere Experimente hinweg:

  1. Wählen Sie 3+ Experimente aus Ihrer Liste
  2. Nutzen Sie die Multi-Vergleichsansicht für aggregierte Performance-Trends
  3. Identifizieren Sie, welche Experimente bei verschiedenen Kriterien am besten abschneiden

Performance über Zeit überwachen

Timeline-Ansicht

Die Timeline bietet historische Performance-Verfolgung:

  • Performance-Trends - Sehen Sie, wie Ihre Experimente über die Zeit abschneiden
  • Filter-Optionen - Filtern Sie nach Zeitbereich, Prompt Template, Collection oder Modell
  • Datenpunkt-Details - Darüberfahren für Experiment-Informationen, klicken für Detailansicht

Experiment Timeline

Geplante Experimente

Automatisieren Sie regelmäßige Evaluierungen mit geplanten Experimenten:

Zeitpläne erstellen:

  1. Klicken Sie in der Timeline-Ansicht auf "Schedule Run"
  2. Konfigurieren Sie Häufigkeit (täglich, wöchentlich, monatlich)
  3. Setzen Sie Experiment-Parameter (Template, Collection, Modell)
  4. Konfigurieren Sie Benachrichtigungen und Schwellenwerte

Edit Scheduled Run

Zeitplan-Management:

  • Alle Zeitpläne anzeigen - Überwachen Sie aktive Zeitpläne und ihre Einstellungen
  • Zeitpläne bearbeiten - Häufigkeit, Schwellenwerte modifizieren oder Zeitpläne deaktivieren
  • Benachrichtigungs-Alerts - E-Mails erhalten, wenn Performance unter Schwellenwerte fällt

Fortgeschrittene Features

Structured Outputs und Tool Calling

Experimente funktionieren nahtlos mit fortgeschrittenen LLM-Features:

  • Structured Outputs - JSON-Antworten mit Schema-Validierungskriterien evaluieren
  • Tool Calling - Tool-Nutzung und Parameter-Korrektheit in agentischen Anwendungen bewerten
  • Multi-Step-Workflows - Komplexe Interaktionsmuster evaluieren

Für Details siehe Structured Outputs und Tool Calling.

Integration mit anderen Komponenten

Experimente nutzen Ihr gesamtes elluminate-Setup:

  • Collections - Testdatensätze über verschiedene Experimente wiederverwenden
  • Prompt Templates - Versionskontrolle gewährleistet Experiment-Reproduzierbarkeit
  • Criterion Sets - Konsistente Evaluationsstandards anwenden
  • LLM Configs - Verschiedene Modelle und Parameter systematisch testen

Best Practices

Experiment-Design

  • Klare Ziele - Definieren Sie, was Sie testen, bevor Sie Experimente ausführen
  • Repräsentative Daten - Stellen Sie sicher, dass Ihre Collection reale Szenarien abdeckt
  • Geeignete Kriterien - Wählen Sie Evaluationskriterien, die zu Ihrem Anwendungsfall passen
  • Kontrollierte Variablen - Ändern Sie jeweils nur eine Sache für klare Erkenntnisse

Performance-Optimierung

  • Batch-Testing - Führen Sie mehrere Variationen zusammen für schnellere Iteration aus
  • Strategisches Sampling - Nutzen Sie kleinere Collections für schnelles Prototyping
  • Kostenmanagement - Nutzen Sie den Fast-Rating-Modus, wenn detaillierte Erklärungen nicht benötigt werden
  • Historischer Kontext - Vergleichen Sie mit vorherigen Experimenten, um Verbesserungen zu verfolgen

Qualitätssicherung

  • Manuelle Überprüfung - Stichproben der automatisierten Bewertungen auf Genauigkeit prüfen
  • Edge-Case-Testing - Herausfordernde Szenarien in Ihre Collections einschließen
  • Konsistente Evaluation - Gleiche Criterion Sets für vergleichbare Ergebnisse verwenden
  • Dokumentation - Experimentziele und Erkenntnisse in Beschreibungen festhalten

SDK-Integration

Für programmatische Experiment-Erstellung und -Management können Sie das elluminate SDK verwenden:

from elluminate import Client

client = Client()  # Nutzt ELLUMINATE_API_KEY env var

# Experiment erstellen und ausführen
experiment, created = client.experiments.get_or_create(
    name="Prompt Optimization v2",
    description="Testing improved clarity instructions",
    prompt_template=template,
    collection=test_collection,
    llm_config=model_config
)

# Antworten generieren
responses = client.responses.generate_many(
    prompt_template=template,
    collection=test_collection,
    llm_config=model_config,
    experiment=experiment
)

# Antworten bewerten
ratings = client.ratings.rate_many(
    responses=responses,
    criterion_set=evaluation_criteria,
    rating_mode="detailed"
)

# Auf Ergebnisse zugreifen
print(f"Experiment Score: {experiment.results.overall_score}")
print(f"Success Rate: {experiment.results.success_rate}")

Für vollständige SDK-Dokumentation siehe die API-Referenz.

Troubleshooting

Häufige Probleme

  • Generierungsfehler - LLM-Config-Einstellungen und Rate-Limits überprüfen
  • Bewertungsfehler - Criterion Set-Kompatibilität mit Antwortformat verifizieren
  • Performance-Probleme - Fast-Rating-Modus für große Collections verwenden
  • Fehlende Ergebnisse - Vor der Analyse sicherstellen, dass das Experiment erfolgreich abgeschlossen wurde

Hilfe erhalten

Wenn Experimente nicht wie erwartet funktionieren:

  • Logs überprüfen - Experiment-Logs auf spezifische Fehlermeldungen überprüfen
  • Komponenten validieren - Prompt Templates und Collections unabhängig testen
  • Einstellungen überprüfen - Prüfen, ob LLM-Config-Parameter geeignet sind
  • Support kontaktieren - Mit Experiment-IDs für detaillierte Unterstützung