Response-Analyse¶
Meistern Sie die Kunst der Analyse und Bewertung Ihrer LLM-Experimentergebnisse
Nach der Durchführung eines Experiments bietet elluminate umfassende Tools zur Analyse Ihrer Ergebnisse. Diese Anleitung behandelt das Verstehen von Experimentergebnissen, die Überprüfung einzelner Antworten, die Analyse der Kriterienleistung sowie die Arbeit mit detaillierten Bewertungen und Begründungen.
Alle Analysen finden über die Experimente-Seite in Ihrem Projekt statt. Navigieren Sie zu Ihrem Experiment und verwenden Sie die Zwei-Tab-Oberfläche, um Ergebnisse aus verschiedenen Blickwinkeln zu analysieren.
Experimentergebnisse verstehen¶
Zwei Ansichten der Experimentdaten¶
Jedes Experiment in elluminate bietet zwei sich ergänzende Perspektiven auf Ihre Ergebnisse:
- Detailed Analysis: Aggregierte Ansicht mit Gesamtleistungsmetriken und kriterienbasierten Aufschlüsselungen
- Individual Responses: Überprüfung einzelner Antworten mit vollständigem Inhalt und detaillierten Bewertungen
Wichtige Metriken erklärt¶
Erfolgsraten: Prozentsatz der Antworten, die jedes Kriterium erfüllten
- Bestanden (≥80%): Grünes Badge, Kriterium meistens erfüllt
- Warnung (50-79%): Gelbes Badge, schwankende Leistung
- Fehlgeschlagen (<50%): Rotes Badge, Kriterium häufig nicht erfüllt
Gesamtleistung: Aggregierte Bewertungen, die den Status des Experiments anzeigen
- Erfolgsrate: Prozentsatz der Antworten, die alle Kriterien erfüllen
- Token-Verbrauch: Input- und Output-Token-Verbrauch
- Antwortzeiten: Durchschnittliche Generierungszeiten pro Antwort
Wenn Sie zur Detailseite eines Experiments navigieren, finden Sie die Hauptbereiche zur Analyse Ihrer Ergebnisse:
Experiment-Übersicht¶
Der Übersichtsbereich zeigt:
- Gesamtleistungsmetriken: Erfolgsraten, Token-Verbrauch, Antwortzeiten
- Kriterienleistung: Individuelle Kriterien-Bestehen/Fehlschlagen-Raten
- Generierungsfortschritt: Echtzeit-Status während der Experimentausführung
- Fehler-Zusammenfassung: Fehlgeschlagene Antworten und interne Fehler
- Diagramme: Die Diagramme sind interaktiv und erlauben es die Antworten schnell zu filtern.
Tab "Detailed Analysis"¶
Der Tab "Detailed Analysis" bietet eine Überprüfung einzelner Experimentergebnisse.
Sample Navigation¶
- Antworten durchsuchen: Individuelle Prompt-Antwort-Paare durchblättern
- Nach Kriterien filtern: Fokus auf spezifische Bewertungskriterien
- Sortieroptionen: Nach Bewertung, Kriterienleistung oder chronologisch ordnen
- Vergleichsmodus: Bei Experimentvergleichen Ergebnisse nebeneinander anzeigen
Bewertungsdetails¶
Jede Antwort zeigt detaillierte Bewertungsinformationen:
Kriterienleistung¶
- Bestehen/Fehlschlagen-Indikatoren: Klare visuelle Status für jedes Kriterium
- Leistungsmetriken: Erfolgsraten bei der Anzeige mehrerer Antworten
- Kriterientext: Vollständige Bewertungsfragen mit Variablenersetzung
Begründungsanalyse¶
Wenn Experimente RatingMode.DETAILED
verwenden, enthält jede Bewertung:
- Erklärungstext: Warum die Antwort bei jedem Kriterium bestanden oder fehlgeschlagen ist
- Manuelle Überschreibung: Bewertungen und Begründungen bei Bedarf bearbeiten
- Bewertungsvertrauen: Systemvertrauen in die Bewertung
Manuelle Bewertungsanpassungen¶
Sie können Bewertungen bei Bedarf manuell anpassen. Navigieren Sie dazu zum Sample Navigator und klicken Sie auf "View" neben einer Antwort, um eine Bewertung zu sehen:
Sie können Bewertungen mit dem "Edit"-Button neben jeder einzelnen Antwort bearbeiten.
Sie können den Bestehen/Fehlschlagen-Status für individuelle Kriterien ändern und den Erklärungstext modifizieren.
Tab "Individual Responses"¶
Der Tab "Individual Responses" bietet eine tabellarische Ansicht aller Experimentergebnisse.
Response Table Features¶
- Sortierbare Spalten: Nach Bewertung, Tokens, Antwortzeit oder anderen Metriken ordnen
- Filteroptionen: Nur spezifische Score-Spannen oder Kriterienergebnisse anzeigen
- Bulk Operations: Mehrere Antworten gleichzeitig exportieren oder analysieren
- Antwortvorschau: Vollständige LLM-Antworten anzeigen, ohne die Tabelle zu verlassen
Export und Analyse¶
Exportieren Sie Ihre Ergebnisse in verschiedenen Formaten:
- CSV Export: Vollständige Daten einschließlich Bewertungen, Begründungen und Metadaten
- Gefilterte Exports: Nur Antworten exportieren, die Ihren aktuellen Filtern entsprechen
- Antwortinhalt: Vollständigen Prompt- und Antworttext in Exporten einschließen
Fortgeschrittene Analyse-Workflows¶
Multi-Experiment-Vergleich¶
elluminate unterstützt das Vergleichen mehrerer Experimente, um Verbesserungen zu identifizieren und Leistungsunterschiede zu verstehen:
Zwei-Experiment-Vergleich¶
Bei Vergleich von zwei Experimenten erhalten Sie eine detaillierte nebeneinande liegende Analyse:
- Nebeneinander-Ansicht: Antworten auf identische Prompts vergleichen
- Leistungsdeltas: Sehen, welches Experiment pro Kriterium besser abschnitt
- Statistische Signifikanz: Vertrauen in Leistungsunterschiede verstehen
Multi-Experiment-Vergleich¶
Für den Vergleich von drei oder mehr Experimenten erhalten Sie eine umfassende Übersicht:
- Leistungstrending: Sehen, wie Experimente relativ zueinander abschneiden
- Kriterien-Übersicht: Erfolgsraten über mehrere Experimente hinweg vergleichen
- Schnelle Auswahl: Spezifische Experimente für einen detaillierten Vergleich einfach auswählen
Best Practices¶
Systematischer Analyse-Ansatz¶
- Mit Übersicht beginnen: Gesamtexperimentleistung verstehen
- Muster identifizieren: Diagramme verwenden, um Leistungstrends zu erkennen
- Vertiefen: Individuelle Antworten untersuchen, die Muster repräsentieren
- Erkenntnisse dokumentieren: Experimentkommentare verwenden, um Erkenntnisse festzuhalten
- Iterieren: Erkenntnisse anwenden, um Prompts und Bewertungskriterien zu verbessern
Richtlinien für manuelle Überschreibungen¶
- Änderungen dokumentieren: Immer erklären, warum manuelle Überschreibungen notwendig waren
- Konsistenz beibehalten: Ähnliche Standards über alle manuellen Überprüfungen hinweg anwenden
- Regelmäßige Kalibrierung: Periodisch Überschreibungsmuster auf Konsistenz überprüfen
- Team-Abstimmung: Sicherstellen, dass mehrere Reviewer konsistente Standards anwenden
Leistungsoptimierung¶
- Geschwindigkeit vs. Detail ausbalancieren: Geeignete Bewertungsmodi für Ihren Anwendungsfall wählen
- Strategisches Sampling: Detaillierte Analyse auf repräsentative Stichproben fokussieren
- Regelmäßige Überprüfungen: Periodische Analysen planen, um Qualität zu erhalten
Fehlerbehebung¶
Häufige Analyse-Herausforderungen¶
- Inkonsistente Bewertungen: Auf Prompt-Mehrdeutigkeit oder Kriterienklarheit-Probleme prüfen
- Niedrige Leistung: Analysieren, ob Probleme Prompt-bezogen oder Modell-bezogen sind
- Hohe Varianz: Nach Template-Variablenwerten suchen, die Leistungsunterschiede verursachen
- Export-Probleme: Filtereinstellungen und Berechtigungen vor dem Export überprüfen
Hilfe erhalten¶
Wenn Analyseergebnisse unerwartet erscheinen:
- Kriterien überprüfen: Sicherstellen, dass Bewertungskriterien Ihren tatsächlichen Anforderungen entsprechen
- Variablen prüfen: Überprüfen, ob Template-Variablen korrekt ersetzt werden
- Prompts validieren: Bestätigen, dass Prompts erwartete Antworttypen generieren
- Support kontaktieren: Für detaillierte Unterstützung kontaktieren sie [email protected] mit spezifischen Experiment-IDs