Zum Inhalt

Schnellstart (GUI)

Beginnen Sie in wenigen Minuten mit der Evaluierung von Prompts mit Elluminate über die Weboberfläche. Kein Programmieren erforderlich! Für einen codebasierten Ansatz siehe unseren SDK-Schnellstart.

Voraussetzungen

Sie benötigen:

  • Ein Elluminate-Benutzerkonto

Schritt 1: Anmelden und auf Ihr Projekt zugreifen

Navigieren Sie zu elluminate.de oder Ihrer eigenen Instanz und melden Sie sich mit Ihren Zugangsdaten an.

Projekt-Startseite

Schritt 2: Ein neues Testprojekt erstellen

Für dieses Tutorial erstellen wir ein neues Projekt zum Experimentieren. Dies hält Ihre Testdaten von bestehenden Arbeiten getrennt.

1. Klicken Sie auf den Projektnamen in der oberen linken Ecke (z.B. Demo Project)

2. Klicken Sie im Dropdown auf Add project

Projekt hinzufügen

3. Füllen Sie den Project Name aus: "Testprojekt" (oder einen beliebigen Namen)

4. Optional füllen Sie die Description aus: "Ein Testprojekt"

5. Klicken Sie auf Create Project

Neues Projekt erstellen

6. Sie sehen nun Ihr neues Projekt mit der leeren Prompt Templates-Seite

Schritt 3: Ein Prompt-Template erstellen

Erstellen Sie Ihr erstes Prompt-Template. Sie sollten bereits auf der Prompt Templates-Seite vom vorherigen Schritt sein, falls nicht, klicken Sie auf Prompt Templates in der Seitenleiste.

1. Klicken Sie auf die Schaltfläche New Template in der oberen rechten Ecke

Prompt Templates: Neues Template

2. Geben Sie den Template Name ein: "Support Bot"

3. Geben Sie die User Message ein: "Du bist ein Kundendienstmitarbeiter. Gib hilfreiche und freundliche Ratschläge zur Benutzeranfrage: {{user_query}}"

4. Klicken Sie auf Create Template, um Ihr Template zu erstellen

Neues Template erstellen

5. Sie sehen nun die Templates Details-Seite

Template-Details

Schritt 4: Ihr Template testen

Bevor wir Evaluierungskriterien erstellen, testen wir unser Template schnell mit dem Response Generator auf der Template Details-Seite.

1. Scrollen Sie nach unten zum Bereich Response Generator weiter unten auf der Template Details-Seite, klicken Sie zum Erweitern des standardmäßig eingeklappten Bereichs darauf, dann klicken Sie auf Generate Response, um das Formular zur Antwortgenerierung zu öffnen

Antwort generieren

2. Wählen Sie eine LLM Configuration aus dem Dropdown (z.B. "Default GPT-4o-mini")

3. Geben Sie einen Testwert für die user_query-Variable ein; eine einfache Begrüßung reicht für den Anfang: "Hi!"

4. Klicken Sie auf Generate, um zu sehen, wie Ihr Template funktioniert

Antwort generieren

5. Überprüfen Sie die generierte Antwort, um sicherzustellen, dass Ihr Template wie erwartet funktioniert

Wichtig: Wenn Sie den Response Generator verwenden, wird jeder Wert, den Sie für die Variablen eingeben, automatisch in Ihrer Collection gespeichert. Das bedeutet, Sie testen nicht nur Ihr Template, sondern bauen gleichzeitig Ihre Testfall-Collection auf!

Schritt 5: Evaluierungskriterien hinzufügen

Der Criteria-Bereich bietet drei Möglichkeiten, Evaluierungskriterien zu Ihrem Template hinzuzufügen:

  • Manually Add Criteria: Volle Kontrolle, wenn Sie spezifische Evaluierungsanforderungen haben
  • Generate Criteria: Schnellstart mit KI-generierten Kriterien, die auf Ihren spezifischen Prompt zugeschnitten sind
  • Link Existing Criterion Sets...: Zeit sparen durch Wiederverwenden von Kriterien aus anderen Templates in Ihrem Projekt

1. Suchen Sie in Ihrer Prompt Templates-Ansicht den Bereich Criteria unterhalb des Response Generator

2. Klicken Sie auf Manually Add Criteria, um Ihre eigenen Evaluierungskriterien einzugeben

Kriterien

3. Geben Sie ein Kriterium zur Bewertung von Antworten ein, wie: "Ist die Antwort hilfreich?"

4. Klicken Sie auf das Häkchen, um Ihr Kriterium zu speichern

Hinzugefügte Kriterien

Schritt 6: Ihre Template Variables Collection überprüfen

Erinnern Sie sich, wie wir erwähnt haben, dass der Response Generator automatisch Ihre Variablen speichert? Schauen wir uns die Standard-Collection an, die für Ihr Template erstellt wurde.

1. Navigieren Sie zu Collections in der Seitenleiste

2. Sie sehen, dass eine Collection namens "Support Bot" automatisch als Standard-Collection für Ihr Template erstellt wurde

3. Diese Collection enthält bereits den Testwert, den wir früher eingegeben haben (user_query: "Hi!"), als wir den Response Generator verwendet haben

Collections

Schritt 7: Weitere Template-Variable-Werte hinzufügen

Fügen wir weitere Testfälle hinzu, um unser Prompt-Template gründlich zu evaluieren. Sie können sehen, dass es zwei Möglichkeiten gibt, Werte für Variablen am Ende der Collection hinzuzufügen:

  • + Schaltfläche: Werte für Variablen einzeln manuell hinzufügen mit voller Kontrolle über jeden Wert
  • ✨ (Funkeln) Schaltfläche: Werte für Variablen automatisch mit Ihrem Prompt-Template und KI generieren

Für dieses Tutorial fügen wir ein paar weitere Testfälle manuell hinzu:

1. Klicken Sie auf die + Schaltfläche, um manuell einen Wert hinzuzufügen

Variable hinzufügen Schaltflächen

2. Fügen Sie einen neuen "user_query"-Wert hinzu: "Hey, was geht?"

3. Klicken Sie auf Save, um diesen Wert zu Ihrer Collection hinzuzufügen

Variable hinzufügen

Wiederholen Sie diesen Vorgang, um weitere Benutzeranfragen hinzuzufügen und ein umfassendes Testset zu erstellen:

  • Was machst du?
  • Kannst du mir mehr über ein Produkt erzählen?
  • Wie ist das Wetter in Bremen?

Variablen hinzugefügt

Schritt 8: Ihr erstes Experiment durchführen

Nachdem wir alle Komponenten haben (Prompt-Template, Evaluierungskriterien und Testfälle), führen wir ein vollständiges Experiment durch, um unser Template systematisch zu evaluieren.

1. Navigieren Sie zu Experiments in der Seitenleiste

2. Klicken Sie auf New Experiment

Experiments: Neues Experiment

3. Optional geben Sie einen Name ein: "Support Bot Evaluation" (ein Name wird automatisch generiert, wenn leer gelassen)

4. Fügen Sie eine Description (Optional) hinzu: "Evaluierung unseres Support-Bots"

5. Wählen Sie Ihr Prompt Template: "Support Bot" (v1)

6. Wählen Sie Ihre Template Variables Collection: "Support Bot"

7. Wählen Sie ein Model (z.B. "Default GPT-4o-mini")

8. Überprüfen Sie die Experimenteinstellungen (behalten Sie die Standards für dieses Tutorial):

  • Generate automatically: ✓ (aktiviert) - Das Experiment generiert sofort Antworten und Bewertungen bei der Erstellung
  • Rating Mode: "detailed" - Enthält Begründungen für jedes Evaluierungskriterium (empfohlen für bessere Interpretierbarkeit)
  • Number of Epochs: "1" - Wie oft die Evaluierung durchgeführt wird (höhere Zahlen bieten zuverlässigere Statistiken)

9. Klicken Sie auf Create and Run Experiment, um das Experiment zu starten

Neues Experiment erstellen

10. Das Experiment generiert automatisch Antworten für alle Ihre Testfälle und evaluiert sie anhand Ihrer Kriterien

Experiment läuft

Schritt 9: Ihre Evaluierungsergebnisse ansehen

Sobald Ihr Experiment abgeschlossen ist, sehen Sie umfassende Ergebnisse, die zeigen, wie Ihr Prompt-Template bei allen Testfällen abgeschnitten hat.

Evaluierungsergebnisse

Ihre Ergebnisse verstehen

Wichtige Metriken oben:

  • Overall Score: Der Prozentsatz der Evaluierungskriterien, die bei allen Antworten bestanden wurden (in diesem Beispiel: 100%)
  • Average Tokens: Zeigt Input-Tokens (↑), die an das LLM gesendet wurden, und Output-Tokens (↓), die in Antworten generiert wurden
  • Response Time: Durchschnittliche Zeit, die das LLM zur Generierung jeder Antwort benötigte

Kriterien-Performance (linke Seite):

Die grünen Balken zeigen, wie gut jedes Evaluierungskriterium abgeschnitten hat:

  • 100% bedeutet, dass alle Antworten dieses spezifische Kriterium bestanden haben
  • Niedrigere Prozentsätze zeigen Bereiche an, in denen Ihr Prompt verbessert werden könnte
  • Verschiedene Kriterien können unterschiedliche Erfolgsraten haben - dies hilft Ihnen zu identifizieren, welche Aspekte Ihres Prompts gut funktionieren und welche Verfeinerung benötigen

Verteilungsdiagramme (rechte Seite):

  • Output Tokens Distribution: Zeigt die Verteilung der Antwortlängen - hilft bei der Identifizierung der Konsistenz
  • Response Duration Distribution: Zeigt Timing-Muster - nützlich für Leistungsoptimierung
  • Interaktive Filterung: Klicken Sie auf einen Balken in diesen Diagrammen, um den Sample Navigator zu filtern und nur Antworten in diesem Bereich anzuzeigen

Einzelne Antworten analysieren

Sample Navigator (unterer Bereich):

Dieses mächtige Tool ermöglicht es Ihnen, jeden Testfall im Detail zu untersuchen:

  • Navigation: Verwenden Sie die Pfeil-Schaltflächen oder die Tastatur (←→), um durch Ihre Testfälle zu navigieren (der Zähler zeigt Ihre aktuelle Position)
  • Markdown Toggle: Wechseln Sie zwischen formatierter und einfacher Textansicht der Antworten
  • Sort By: Ordnen Sie Ergebnisse nach Bewertung, Token-Anzahl oder Antwortzeit
  • Filter: Konzentrieren Sie sich auf spezifische Kriterien oder verstecken Sie perfekte Antworten

Zwei Analysemodi:

  • Detailed Analysis: Detaillierte Ansicht einzelner Antworten mit vollständigem Kontext und kriterienweiser Aufschlüsselung
  • Individual Responses: Tabellenansicht aller Antworten auf einmal für schnellen Vergleich

Ihre Ergebnisse interpretieren

Nutzen Sie diese Ergebnisse, um die Performance Ihres Prompt-Templates zu verstehen:

Wenn Sie hohe Werte sehen (80%+ bei allen Kriterien):

  • Ihr Prompt-Template funktioniert gut
  • Erwägen Sie Tests mit anspruchsvolleren oder vielfältigeren Beispielen
  • Sie können dieses Template vertrauensvoll für ähnliche Aufgaben verwenden

Wenn Sie gemischte oder niedrigere Werte sehen:

  • Schauen Sie sich die Kriterien mit niedrigeren Prozentsätzen an, um Verbesserungsbereiche zu identifizieren
  • Verwenden Sie den Sample Navigator, um spezifische fehlgeschlagene Fälle zu untersuchen
  • Verfeinern Sie Ihr Prompt-Template basierend auf häufigen Fehlermustern
  • Führen Sie zusätzliche Experimente durch, um Ihre Verbesserungen zu testen

Wichtig für alle Ergebnisse:

  • Stichprobenartig bestandene Samples prüfen - Auch wenn Antworten Ihre Kriterien bestehen, untersuchen Sie einige Stichproben, um zu überprüfen, ob Ihre Evaluierungskriterien mit dem übereinstimmen, was Sie tatsächlich als erfolgreich betrachten
  • Dies hilft sicherzustellen, dass Ihre Kriterien nicht zu nachsichtig sind oder wichtige Qualitätsaspekte übersehen

Ihre Evaluierung erweitern:

Unabhängig von Ihren anfänglichen Ergebnissen sind hier Möglichkeiten, Ihren Evaluierungsprozess zu verbessern:

  • Probieren Sie verschiedene LLM-Konfigurationen aus, um die Performance zu vergleichen
  • Fügen Sie vielfältigere Testfälle hinzu, um Ihr Template gründlich zu prüfen
  • Experimentieren Sie mit verschiedenen Evaluierungskriterien, um andere Qualitätsaspekte zu erfassen

Nächste Schritte

Nachdem Sie Ihre erste Evaluierung über die Weboberfläche abgeschlossen haben:

  • Richten Sie Experiment Schedules ein, um automatisch Evaluierungen regelmäßig durchzuführen und benachrichtigt zu werden, wenn die Performance sinkt
  • Folgen Sie unserem SDK-Schnellstart, um zu lernen, wie Sie dieselben Workflows mit der Elluminate CLI und dem Python SDK durchführen
  • Erkunden Sie Experiments, um systematische Evaluierungen durchzuführen
  • Erfahren Sie mehr über Criterion Sets, um benutzerdefinierte Evaluierungskriterien zu erstellen
  • Probieren Sie Batch Processing, um mehrere Antworten auf einmal zu evaluieren
  • Lernen Sie Key Concepts für einen tieferen Einblick in die Funktionen von Elluminate

Was Sie erreicht haben

  • ✅ Ein Prompt-Template mit Platzhalter erstellt
  • ✅ Ihr Template mit dem Response Generator getestet
  • ✅ Evaluierungskriterien manuell hinzugefügt
  • ✅ Eine Template-Variablen-Collection mit Testfällen erstellt
  • ✅ Zusätzliche Testvariablen manuell hinzugefügt
  • ✅ Ein vollständiges Experiment mit systematischer Evaluierung durchgeführt
  • ✅ Umfassende Ergebnisse mit erweiterten Tools analysiert
  • ✅ Gelernt, Performance-Metriken und Verteilungen zu interpretieren

Sie sind nun bereit, Ihre Evaluierungs-Workflows mit Elluminate zu erweitern!