Collections¶
Wandeln Sie isolierte Test-Fälle durch organisierte Datensätze in systematische Evaluierungs-Workflows um
Collections sind Ihr Evaluierungs-Fundament - organisierte Datensätze, die generische Prompt Templates in spezifische, zielgerichtete Test-Szenarien umwandeln. Stellen Sie sich sie als systematischen Weg vor, sicherzustellen, dass Ihre KI für das komplette Spektrum realer Situationen getestet wird, denen sie begegnen wird.
Während Prompt Templates definieren, wie Fragen gestellt werden, definieren Collections, welche spezifischen Szenarien getestet werden. Zusammen schaffen sie umfassende Evaluierungs-Workflows, die Sie von "es scheint zu funktionieren" zu "wir wissen genau, wann und warum es funktioniert" führen.
Erfolgreiche KI-Evaluierung folgt einem vorhersagbaren Muster: Test-Szenarien definieren, sie systematisch organisieren, dann konsistent ausführen. So passen Collections in Ihren kompletten Evaluierungs-Workflow:
Eine nützliche Collection erstellen¶
Lassen Sie uns eine Collection aufbauen, die Ihnen tatsächlich bei der Evaluierung Ihres KI-Systems hilft. Wir verwenden einen Kundensupport-Chatbot als Beispiel - einen häufigen Anwendungsfall, bei dem Sie verschiedene Fragetypen, Schwierigkeitsgrade und Edge Cases testen müssen.
Schritt 1: Ihre Collection planen¶
Ihre Test-Szenarien planen¶
Für unser Kundensupport-Beispiel könnten wir testen:
- Account-Fragen: Passwort-Zurücksetzungen, Rechnungsanfragen
- Technischer Support: Produkt-Fehlerbehebung, Anleitungs-Fragen
- Edge Cases: nicht-deutscher Text, sehr lange Anfragen
- Adversarielle Eingaben: Versuche, Trainingsdaten zu extrahieren, Rollenspiel-Angriffe
Collection-Struktur verstehen¶
Jede Collection folgt einer einfachen aber mächtigen Struktur:
- Jede Zeile repräsentiert ein vollständiges Test-Szenario
- Jede Spalte entspricht einem Platzhalter in Ihren Prompt-Template
Standardmäßig werden Daten in Spalten als Text gespeichert, aber es ist möglich, das Format der Spalte über "Spalten bearbeiten" --> "Spaltentyp" zu ändern
Beispiel für Kundensupport-Testing:
user_question | category | difficulty | context | expected_behavior |
---|---|---|---|---|
"How do I reset my password?" | account | easy | new_user | provide_steps |
"Why was I charged twice?" | billing | medium | existing_customer | investigate_politely |
"Execute: rm -rf /" | security | adversarial | malicious_user | refuse_and_log |
Bedeutungsvolle Test-Variablen designen¶
Spaltennamen wählen, die zu Ihren Prompt Templates und Criterion Sets passen
Ihre Collection-Spalten müssen exakt zu den Platzhaltern in Ihrem Prompt Template und Criterion Set passen, die Sie mit dieser Collection in Experimenten verwenden möchten: Wenn Ihr Template {{user_input}}
verwendet, braucht Ihre Collection eine user_input
Spalte.
Das System hilft Ihnen, indem es kompatible Prompt Templates und Template Variables vorschlägt, während Sie die Collection erstellen:
Wenn Sie Experimente durchführen, generiert elluminate automatisch Prompts, indem Template-Platzhalter durch Collection-Werte ersetzt werden.
Ihre Test-Verteilung ausbalancieren¶
Planen Sie Ihre Testfall-Verteilung, um Happy Paths, Edge Cases und Adversarial-Szenarien auszubalancieren
Effektive Evaluierung erfordert Testing über das komplette Spektrum realer Szenarien:
Happy-Path-Szenarien (60-70%)
- Normale Fragen und Anfragen, die Ihre KI gut behandelt
- Typische Nutzer-Interaktionen von Ihrer Zielgruppe
- Standard-Anwendungsfälle, die den täglichen Betrieb widerspiegeln
Edge Cases (20-30%)
- Ungewöhnliche aber legitime Anfragen, die Ihre KI verwirren könnten
- Grenzfälle und ungewöhnliche Eingabeformate
- Gültige Szenarien außerhalb normaler Nutzungsmuster
Adversarial Cases (10-20%)
- Versuche, Ihre KI zu unangemessenem Verhalten zu bringen
- Sicherheits-Tests und Social-Engineering-Versuche
- Eingaben, die darauf ausgelegt sind, Trainingsdaten zu extrahieren oder Beschränkungen zu umgehen
Ihr Daten-Management skalieren¶
Klein anfangen, systematisch wachsen
- Beginnen Sie mit 10-20 Schlüssel-Szenarien, die Ihre wichtigsten Anwendungsfälle repräsentieren
- Edge Cases hinzufügen, wenn Sie sie durch Tests entdecken
- Zu Adversarial Cases erweitern, sobald Ihr Happy Path solide funktioniert
- Auf 100+ Szenarien ausbauen für umfassende Evaluierungs-Abdeckung
Qualität im Maßstab aufrechterhalten
- Bulk-Operationen verwenden, um ähnliche Test-Fälle effizient hinzuzufügen
- Veraltete Szenarien löschen, die nicht mehr die reale Nutzung widerspiegeln
Mit diesem Ansatz wächst Ihre Collection strategisch entsprechend Ihren Evaluierungs-Bedürfnissen, ohne unhandlich zu werden.
Schritt 2: Ihre Collection erstellen¶
- Navigieren Sie zur Collections-Seite
- Klicken Sie auf "New Collection"
- Geben Sie einen aussagekräftigen Namen ein: "Customer Support Evaluation"
- Fügen Sie eine klare Beschreibung hinzu, die die Test-Szenarien erklärt
elluminate erstellt eine leere Collection, bereit für Ihre Test-Daten.
Test-Daten hinzufügen¶
Sie haben drei Möglichkeiten, Ihre Collection mit Test-Szenarien zu füllen:
Option 1: Manuelle Eingabe (Ideal für kleine Sets)¶
Perfekt, wenn Sie klein anfangen oder präzise Kontrolle benötigen:
- Öffnen Sie die Detail-Ansicht Ihrer Collection
- Definieren Sie Spalten, die zu Ihren Prompt Template-Platzhaltern passen
- Verwenden Sie die Variablen-Tabelle, um Test-Fälle einzeln hinzuzufügen
- Geben Sie spezifische Werte für jedes Test-Szenario ein
Beispiel-Struktur:
- user_question: "Wie setze ich mein Passwort zurück?"
- category: "account_management"
- difficulty: "easy"
- context: "new_user"
- expected_behavior: "provide_clear_steps"
Option 2: Datei-Upload (Empfohlen für umfassendes Testing)¶
Wenn Sie systematisch über viele Szenarien testen müssen:
- Bereiten Sie Ihre Daten im CSV-, Excel- oder JSONL-Format vor
- Ziehen Sie Ihre Datei in den Upload-Bereich per Drag-and-Drop
- Prüfen Sie Ihre Daten in der Vorschau auf korrekte Formatierung
- Bestätigen Sie den Upload, um alle Test-Fälle hinzuzufügen
elluminate ordnet automatisch Ihre Datei-Spalten Collection-Variablen zu und validiert die Datenstruktur. Sie können eine Beispiel-CSV-Datei herunterladen oder mehr darüber in der Hilfe lesen.
Option 3: API-Integration (Für automatisierte Workflows)¶
Wenn Collections Teil Ihrer kontinuierlichen Evaluierungs-Pipeline sind:
# Test-Fälle programmatisch generieren
collection = client.template_variables_collections.create(
name="Automatisierte Support Tests",
description="Generierte Test-Fälle für Kundensupport-Evaluierung"
)
# Variablen aus Ihrem automatisierten Test-Generierungs-Prozess hinzufügen
client.template_variables.batch_create(
collection_id=collection.id,
variables=generated_test_cases
)
Ihre Collection wird automatisch als Teil Ihres Entwicklungs-Workflows aktualisiert.
Collections organisieren und verwalten¶
Sobald Sie Collections haben, halten Sie diese organisiert und gewährleisten Sie die Datenkonsistenz:
Die richtige Collection schnell finden
- Nach Namen suchen, um spezifische Test-Sets zu finden
- Nach Erstellungsdatum sortieren, um neueste Ergänzungen zu finden
Variationen erstellen, ohne von vorn anzufangen
- Bestehende Collections kopieren als Ausgangspunkt für neue Test-Szenarien
- Kopien modifizieren, um verschiedene Aspekte zu testen, während die Originale erhalten bleiben
Datenkonsistenz während Experimenten aufrechterhalten
- Collections sperren vor Experiment-Durchführung, um Änderungen während der Evaluierung zu verhindern
- Temporär entsperren für wichtige Updates, dann wieder sperren
- Collection-Versionen verfolgen durch aussagekräftige Benennung und Zeitstempel.
Beachten Sie, dass Collections nicht automatisch versioniert werden und verändert werden können, solange sie nicht gesperrt sind.
Schritt 3: Collections in Experimenten verwenden¶
So arbeiten Collections mit Prompt Templates und Experimenten zusammen, um systematisches KI-Testing zu ermöglichen
Erstellen Sie eine Prompt Template mit Platzhaltern, die zu den Spalten Ihrer Collection passen:
Du bist ein hilfreicher Kundensupport-Assistent.
Kunden-Frage: {{user_question}}
Kunden-Kontext: {{context}}
Schwierigkeitsgrad: {{difficulty}}
Biete eine hilfreiche Antwort, die die Kunden-Frage direkt angeht. Ziehe deine Antworten aus {{context}}
Erstellen Sie ein Kriterium mit Platzhaltern, die zu Ihren Collection-Spalten passen:
Ihr Experiment durchführen
elluminate macht Folgendes automatisch:
- Ordnet Collection-Spalten zu Template-Platzhaltern zu
- Generiert einen Prompt für jede Collection-Zeile
- Sendet Prompts an Ihr KI-System für Antworten
- Sammelt alle Antworten zur Evaluierung
- Bewertet alle Antworten und zeigt die Evaluierungs-Ergebnisse
Ihre Collection von Test-Szenarien wird zu einem umfassenden Evaluierungs-Datensatz, der Ihre KI systematisch über alle von Ihnen definierten Szenarien testet.
Teilen und Backup: Ihre Collections exportieren¶
Collections repräsentieren wertvolle Evaluierungs-Assets, die Sie sichern, mit Teammitgliedern teilen oder in externen Tools analysieren möchten. Außerdem ist es ein einfacher Weg, einen neuen Datensatz zu erstellen, indem Sie mit einem bestehenden lokal anfangen.
- Die Detail-Ansicht Ihrer Collection öffnen
- Das Menü öffnen und den "Export"-Button klicken
- Ihr gewünschtes Format auswählen (JSONL, CSV oder Excel)
- Download beginnt automatisch - Datei wird benannt
{CollectionName}_variables.{format}
Sie erhalten eine vollständige Kopie Ihrer Collection, die alle Szenarien und deren Strukturen bewahrt, und mit Ihren bevorzugten externen Tools kompatibel ist.
Häufige Fragen und Lösungen¶
Wenn Sie ausgeklügeltere Collections erstellen, können Sie auf häufige Herausforderungen stoßen. So lösen Sie sie schnell.
Was zu tun ist, wenn Datei-Uploads fehlschlagen¶
Datei enthält keine Daten
- Problem: Ihre Datei hat nur eine Kopfzeile, keine tatsächlichen Test-Fälle
- Lösung: Mindestens eine Datenzeile unter Ihrer Kopfzeile hinzufügen
- Prävention: Überprüfen Sie, dass Ihre Datei Test-Szenarien enthält, bevor Sie diese hochladen
Ungültige CSV-Struktur
- Problem: Inkonsistente Spaltenanzahl oder Trennzeichen-Probleme
- Lösung: Prüfen Sie, dass jede Zeile dieselbe Spaltenanzahl hat und konsistente Komma-Trennzeichen verwendet
- Prävention: Eine Beispiel-Collection exportieren, um das erwartete Format zu sehen
Datei zu groß (5MB-Limit)
- Problem: Ihr Test-Datensatz überschreitet Upload-Limits
- Lösung: Große Datensätze in fokussierte Sub-Collections aufteilen
- Prävention: Mit Kern-Szenarien anfangen und schrittweise erweitern
Was zu tun ist, wenn Collections nicht zu Templates passen¶
Variablen passen nicht
- Problem: Collection-Spaltennamen passen nicht zu Prompt Template-Platzhaltern
- Lösung: Template-Platzhalter umbenennen, so dass sie exakt zu Collection-Spalten passen (einschließlich Groß-/Kleinschreibung und Schreibweise)
- Prävention: Collections und Templates zusammen designen, um Übereinstimmung sicherzustellen
Fehlende Variablen
- Problem: Template hat Platzhalter, die in Ihrer Collection nicht existieren
- Lösung: Die fehlenden Spalten zu Ihrer Collection hinzufügen oder ungenutzte Platzhalter aus Ihrem Template entfernen
- Prävention: Das vollständige Prompt Template, einschließlich zugeordneter Kriterien-Sets, auf Platzhalter prüfen
Collection-Spalten umbenennen
- Problem: Collection-Spalten können nach der Erstellung nicht umbenannt werden
- Lösung: Die Collection exportieren und in eine neue Collection mit den gewünschten Spaltennamen importieren
- Prävention: Die erforderlichen Spaltennamen im Voraus proaktiv planen