Hop til hovedindhold

Evalueringer

Lær at definere kvalitetsmetrikker og teste dit flow med automatiske evalueringer.

Adgang

  • Udvikler, Anmelder, Administrator: Kan oprette og køre evalueringer

Oversigt

Evalueringssystemet giver dig mulighed for at:

  • Definere kvalitetsmetrikker for dine flow-outputs
  • Oprette testcases med specifikke inputværdier
  • Automatisk score outputs mod definerede metrikker
  • Gennemgå evalueringsresultater som anmelder

Måder at oprette metrikker:

  • Skabelon: Vælg fra et bibliotek af foruddefinerede metrikker
  • Beskriv: Beskriv hvad du vil tjekke med dine egne ord (dansk/engelsk)
  • Generer med AI: Lad AI analysere dit flow og foreslå metrikker
  • Manuel: Opret en metrik fra bunden

Åbn evalueringspanelet

Fra flow-editoren, klik på Evaluering-knappen (lilla clipboard-ikon) i værktøjslinjen.

Evalueringsknap i værktøjslinje

Panelet har to faner:

  • Metrikker: Definer kvalitetskriterier for dine outputs
  • Testcases: Administrer testcases og kør evalueringer

Metrikker

Metrikker definerer hvordan dine flow-outputs skal evalueres. Hver metrik er knyttet til et specifikt output fra en node.

Se metrikker

Metrikpanelet viser alle definerede metrikker grupperet efter output:

Metrikpanel

For hver metrik vises:

  • Navn: Metrikkens identifikator
  • Beskrivelse: Detaljerede kriterier for scoring (inkluderer scoringskala)

Opret metrik manuelt

  1. Klik + Manuel for at tilføje en ny metrik
  2. Vælg target-output (det node-output der skal evalueres)
  3. Indtast et metriknavn
  4. Skriv en detaljeret beskrivelse der forklarer scoringskriterierne
  5. Gem metrikken

Vælg fra skabelon

Klik Skabelon for at vælge fra et bibliotek af foruddefinerede metrikker.

Skabelon-knap

Skabelonbiblioteket indeholder metrikker organiseret i kategorier:

KategoriBeskrivelse
TekstkvalitetHøflig tone, professionelt sprog, passende længde
FormatvalideringGyldig JSON, email-format, dato-format
IndholdscheckIndeholder hilsen, nævner produkt, faktuel korrekthed
StrukturStruktureret svar, JSON med påkrævede felter

Funktioner:

  • Foreslåede skabeloner: Systemet foreslår relevante skabeloner baseret på dit output (f.eks. JSON-skabeloner for API-outputs)
  • Kategorier: Gennemse alle skabeloner organiseret efter type
  • Tilpasning: Vælg en skabelon og tilpas den til dine behov

Beskriv med dine egne ord

Klik Beskriv for at oprette en metrik ved at beskrive hvad du vil tjekke på dansk eller engelsk.

Beskriv-knap

Sådan fungerer det:

  1. Beskriv hvad du vil tjekke med dine egne ord
  2. AI genererer en passende metrik
  3. Forhåndsvis resultatet
  4. Accepter direkte eller rediger først

Eksempler på beskrivelser:

  • "Tjek at svaret er høfligt"
  • "Svaret skal være mellem 100 og 500 tegn"
  • "Check the response contains a greeting"
  • "Teksten skal indeholde en email-adresse"

Systemet vælger automatisk den simpleste evalueringstype der passer til din beskrivelse. For eksempel bliver "svaret skal være mellem 100 og 500 tegn" til en længde interval-metrik i stedet for en dyr LLM-evaluering.

AI-genererede metrikker

Klik Generer med AI for automatisk at oprette relevante metrikker for et output.

AI-generer knap

Systemet analyserer dit flow og foreslår passende evalueringskriterier. Dette er nyttigt når:

  • Du er usikker på hvilke metrikker der skal bruges
  • Du ønsker omfattende dækning af kvalitetsaspekter
  • Du har brug for et udgangspunkt til tilpasning

Evalueringstyper

Metrikker kan bruge forskellige evalueringstyper afhængigt af hvad du vil tjekke:

TypeBeskrivelseKonfiguration
LLMAI-baseret semantisk evaluering (standard)Beskrivelse af kriterier
IndeholderTjek om output indeholder en specifik tekstForventet tekst, versalfølsom
Lig medTjek om output er præcis lig med en værdiForventet værdi (tekst, tal, boolean)
RegexTjek om output matcher et mønsterRegex-mønster
Længde intervalTjek om output-længde er inden for et intervalMin/max længde
Gyldig JSONTjek om output er valid JSONValgfrit JSON-skema

LLM-evaluering

LLM-evaluering bruger AI til at vurdere outputkvalitet baseret på beskrivelsen. Dette er ideelt til:

  • Semantisk kvalitet (er svaret relevant?)
  • Tonalitet og stil
  • Komplekse kriterier der kræver forståelse

Deterministiske evalueringer

Deterministiske evalueringer er hurtige og billige (ingen LLM-kald). Brug dem til:

  • Indeholder: Tjek for påkrævede nøgleord eller fraser
  • Lig med: Validering af eksakte værdier (f.eks. "ja"/"nej" svar)
  • Regex: Validering af formater (datoer, emails, telefonnumre)
  • Længde interval: Sikre output er inden for forventet længde
  • Gyldig JSON: Validere struktureret output
Brug deterministiske metrikker

Deterministiske metrikker er 100% reproducerbare og koster intet at køre. Brug dem hvor muligt for format- og indholdsvalidering.

Scoringskala

Metrikker bruger en 0.0 til 1.0 scoringskala.

LLM-evalueringer kan give enhver score i intervallet:

ScoreBetydning
0.0Opfylder slet ikke kriterierne
0.2-0.4Opfylder delvist med væsentlige problemer
0.6Opfylder de fleste kriterier med mindre problemer
0.8Opfylder kriterierne godt
1.0Opfylder alle kriterier perfekt

Deterministiske evalueringer giver binære scores:

  • 1.0 (100%): Kriteriet er opfyldt
  • 0.0 (0%): Kriteriet er ikke opfyldt

Scores vises som procenter og farvekodes:

  • Rød (0-39%): Dårlig performance
  • Gul (40-69%): Acceptabel men kan forbedres
  • Grøn (70-100%): God performance

Testcases

Testcases definerer specifikke inputværdier til at køre gennem dit flow for evaluering.

Se testcases

Testcases-panelet viser alle definerede testcases med:

  • Score-indikator: Cirkulært badge med gennemsnitsscore (hvis evalueret)
  • Navn: Testcase-identifikator
  • Inputværdier: Forhåndsvisning af inputparametrene

Testcases-panel

Opret testcase

  1. Klik + Ny testcase
  2. Indtast et beskrivende navn
  3. Udfyld værdier for hver flow-inputparameter
  4. Gem testcasen

Rediger og slet testcases

Hver testcase har handlingsknapper:

  • Rediger (blyant-ikon): Ændre navn eller inputs
  • Slet (skraldespand-ikon): Fjern testcasen

Kør evalueringer

Kør enkelt testcase

Klik afspil-knappen på en testcase for at:

  1. Køre flowet med testcasens inputs
  2. Score outputs mod alle definerede metrikker
  3. Vise resultaterne i den udvidede visning

Kør alle testcases

Klik Kør alle for at evaluere alle testcases sekventielt.

Kør alle-knap

Dette er nyttigt til:

  • Omfattende kvalitetskontrol
  • Regressionstest efter flow-ændringer
  • Sammenligning af performance på tværs af forskellige inputs

Se evalueringsresultater

Klik på udvid-pilen på en testcase for at se detaljerede resultater:

Udvidede evalueringsresultater

For hver metrik vises:

  • Metriknavn: Hvilket kriterium der blev evalueret
  • Score-bar: Visuel procent med farvekodning
  • Begrundelse: AI-genereret forklaring af scoren

Evalueringer for anmeldere

Når du gennemgår en flow-indsendelse, vises evalueringer inline på anmeldelsessiden.

Metrikoversigt

Anmeldelsessiden viser alle definerede metrikker med deres fulde beskrivelser.

Evalueringer på anmeldelsesside

Testcase-resultater

Testcases vises med udvidelige kort:

  • Klik for at udvide og se detaljerede scores
  • Farvekodede score-indikatorer viser overordnet performance
  • Individuelle metrikscores med begrundelse vises

Evalueringsdetaljer på anmeldelsesside

Dette giver anmeldere mulighed for at:

  • Hurtigt vurdere overordnet kvalitet fra score-badges
  • Dykke ned i specifikke metrikker for detaljeret analyse
  • Træffe informerede godkendelses-/afvisningsbeslutninger

Best practices

Vælg den rigtige evalueringstype

ScenarieAnbefalet type
Tjek for påkrævet nøgleordIndeholder
Validere ja/nej svarLig med (boolean)
Tjek email- eller datoformatRegex
Sikre svar ikke er for langt/kortLængde interval
Validere JSON API-responsGyldig JSON
Vurdere kvalitet eller relevansLLM
Tjek tonalitet eller stilLLM

Design effektive metrikker

  1. Vær specifik: Definer tydeligt hvad der udgør hvert scoreniveau
  2. Fokuser på ét aspekt: Hver metrik bør evaluere én kvalitetsdimension
  3. Inkluder eksempler: Referer til specifikke forventede adfærd i beskrivelser
  4. Dæk nøglekrav: Sørg for at metrikker adresserer alle kritiske kvalitetsaspekter
  5. Brug deterministiske først: Valider format og indhold med billige checks før dyre LLM-evalueringer

Opret gode testcases

  1. Dæk edge cases: Inkluder grænsetilfælde og usædvanlige inputs
  2. Repræsenter reel brug: Brug realistiske inputværdier
  3. Test variation: Inkluder forskellige inputkombinationer
  4. Navngiv beskrivende: Brug navne der indikerer hvad der testes

Fortolk resultater

  1. Se på trends: Sammenlign scores på tværs af flere testcases
  2. Læs begrundelser: AI-forklaringer giver handlingsorienteret indsigt
  3. Prioriter rettelser: Fokuser på metrikker med konsekvent lave scores
  4. Iterér: Kør evalueringer igen efter forbedringer af flowet

Fejlfinding

Ingen evalueringsresultater

Hvis en testcase ikke viser scores:

  • Tjek at metrikker er defineret for flow-outputs
  • Kontroller at flowet kørte succesfuldt
  • Verificer at testcasen har gyldige inputværdier

Uventede scores

Hvis scores ikke matcher forventninger:

  • Gennemgå metrikbeskrivelsen for klarhed
  • Tjek om outputtet matcher hvad metrikken forventer
  • Overvej at justere metrik-kriterierne

Relaterede sider