Mehrere Prompts in der Masse ausführen

Hinweis

Die Funktion "Bulk Run" war früher eine eigenständige Webview-Funktion in AI Toolkit. Sie ist jetzt vollständig in Agent Builder unter der Registerkarte Evaluation integriert. Sie können sie weiterhin über die AI Toolkit-Ansicht aufrufen, indem Sie TOOLS > Bulk Run auswählen.

Die Funktion "Bulk Run" in AI Toolkit ermöglicht es Ihnen, Agents und Prompts im Batch-Modus gegen mehrere Testfälle zu testen. Im Gegensatz zum Playground, der einen Prompt nach dem anderen ausführt, automatisiert "Bulk Run" den Prozess, indem er einen Datensatz als Eingabe verwendet und alle Prompts sequenziell ausführt.

Nach der Ausführung erscheinen die KI-Antworten in der Datensatzansicht neben Ihren ursprünglichen Prompts. Sie können den vollständigen Datensatz mit Antworten zur weiteren Analyse überprüfen, vergleichen und exportieren.

Screenshot showing AI Toolkit interface with the bulk run feature. The dataset table displays multiple prompts and responses, with queries about weather in Paris France and Shanghai China.

Eine Massenausführung starten

Um eine Massenausführung in AI Toolkit zu starten, befolgen Sie diese Schritte

Wählen Sie in der AI Toolkit-Ansicht Agent Builder aus der Activity Bar.
Geben Sie Ihren Prompt und Ihre Variablen im Format ein. Wählen Sie ein Modell aus, gegen das der Prompt ausgeführt werden soll.
Wechseln Sie zur Registerkarte Evaluation in Agent Builder.

Hinweis

AI Toolkit verwendet dieselben LLM-Modelle, die Sie für Agents verwenden, um Datensätze zu generieren, was Kosten verursachen kann. Sie können den Metaprompt, der zur Generierung von Datensätzen verwendet wurde, im AI Toolkit GitHub-Repository einsehen.

Wählen Sie Generate Data, um einen synthetischen Datensatz zu erstellen.
Wählen Sie die Anzahl der zu generierenden Zeilen und zeigen Sie die Logik zur Datengenerierung an oder ändern Sie sie.
Wählen Sie Generate, um den Datensatz zu erstellen.

Tipp

Sie können wählen, nur die verbleibenden Abfragen auszuführen, die noch nicht ausgeführt wurden.

Sobald der Datensatz geladen ist, wählen Sie Run, um eine einzelne Zeile auszuführen, oder Run All, um alle Zeilen im Datensatz auszuführen.

Datensatz bearbeiten

Screenshot showing AI Toolkit interface with dataset operations and a table of evaluation results.

AI Toolkit bietet mehrere Operationen zur Verwaltung und Analyse Ihres Datensatzes während einer Massenausführung

Generate Data: Erstellen Sie einen synthetischen Datensatz basierend auf einem Prompt und Variablen. Geben Sie die Anzahl der Zeilen an und ändern Sie die Logik zur Datengenerierung.
Add Row: Fügen Sie dem Datensatz eine neue Zeile hinzu.
Delete Row: Löschen Sie die ausgewählte Zeile aus dem Datensatz.
Export Dataset: Exportieren Sie den Datensatz in eine CSV-Datei zur weiteren Analyse oder Berichterstattung.
Import Dataset: Importieren Sie einen Datensatz aus einer CSV-Datei, um ihn als Eingabe für die Massenausführung zu verwenden.
Run: Führen Sie eine einzelne Zeile im Datensatz gegen das ausgewählte Modell aus.
Run All: Führen Sie alle Zeilen im Datensatz gegen das ausgewählte Modell aus.
Run Remaining: Führen Sie nur die Zeilen aus, die noch nicht gegen das ausgewählte Modell ausgeführt wurden.
Manual Evaluation: Markieren Sie Antworten als Daumen hoch oder Daumen runter, um einen Datensatz manueller Bewertungen zu führen.

Ergebnisse der Massenausführung auswerten

AI Toolkit ermöglicht es Ihnen, die Ergebnisse Ihrer Massenausführung direkt in der Datensatzansicht auszuwerten.

Screenshot showing AI Toolkit interface in full screen mode with the Evaluation tab expanded. The dataset table displays multiple columns, including query prompts and AI responses, for detailed analysis.

Sie können die Registerkarte Evaluation in den Vollbildmodus erweitern, um eine detailliertere Ansicht der Ergebnisse zu erhalten. Der Vollbildmodus bietet dieselbe Funktionalität wie die Standardansicht, jedoch mit einem größeren Anzeigebereich für bessere Sichtbarkeit und Analyse.

Screenshot showing detailed view of evaluation results with a modal dialog displaying a full conversation between user and assistant about weather queries.

Wählen Sie View Details, um die vollständige Antwort für jede Abfrage anzuzeigen.

In der Detailansicht können Sie

Die vollständige Konversation zwischen dem Benutzer und dem Assistenten überprüfen.
Die Antworten der KI analysieren.
Antworten als gut oder schlecht markieren, um eine Aufzeichnung manueller Bewertungen zu führen.
Zu vorherigen oder nächsten Abfragen im Datensatz navigieren.
Wählen Sie Exit, um zur Datensatzübersicht zurückzukehren.
Sehen Sie die Gesamtzahl der Abfragen im Datensatz und den aktuellen Abfrageindex.

Datenspalten verwalten

Screenshot showing AI Toolkit interface with dataset management options and column management controls.

Mit der Verwaltung von Datenspalten können Sie die Datensatzansicht anpassen, um sich auf die relevantesten Informationen für Ihre Massenauswertungsanalyse zu konzentrieren.

Sie können

Add Columns: Spalten links oder rechts von der aktuellen Spalte hinzufügen.
Edit Column Name: Ändern Sie den Namen einer beliebigen Spalte im Datensatz.
Add Ground Truth Column: Fügen Sie eine Spalte für Ground Truth-Werte hinzu, um sie mit den KI-Antworten zu vergleichen.

Was Sie gelernt haben

In diesem Artikel haben Sie gelernt, wie Sie

Einen synthetischen Datensatz für Massenausführungen generieren.
Datensätze im CSV-Format importieren und exportieren.
Auswertungen von Massenausführungsergebnissen durchführen.
Antworten als gut oder schlecht markieren, um eine Aufzeichnung manueller Bewertungen zu führen.
Details zu Antworten anzeigen und zwischen Abfragen im Datensatz navigieren.
Datenspalten für eine bessere Analyse verwalten.

Nächste Schritte

Führen Sie eine Auswertung mit den beliebten Evaluatoren durch

07/14/2025