Self-consistency: Öka pålitligheten genom flera perspektiv

Lästid: ca 9 min

Vad du lär dig

I detta moment kommer du att lära dig om Self-consistency, en avancerad prompting-teknik som bygger vidare på Chain of Thought (CoT). Medan CoT genererar en enskild resonemangskedja, kombinerar Self-consistency sampling och majoritetsröstning för att generera flera olika resonemangsvägar och sedan välja det mest konsekventa svaret.

Grunderna

Trots att AI-modeller kan generera resonemangssteg med CoT, kan deras förmåga att resonera ibland vara begränsad. Self-consistency adresserar detta genom att:

Generera olika resonemangsvägar: AI-modellen tillhandahålls samma prompt flera gånger. En hög temperaturinställning uppmuntrar modellen att generera olika resonemangsvägar och perspektiv på problemet.
Extrahera svaret: Från varje genererat svar extraheras slutresultatet.
Välja det mest vanliga svaret: Det svar som förekommer oftast bland de genererade resonemangsvägarna väljs som det mest "själv-konsekventa" och därmed mest pålitliga svaret.

Denna metod ger en "pseudotrovärdighet" för att ett svar är korrekt. Det är särskilt användbart för uppgifter som är komplexa eller har potentiellt tvetydiga svar.

Praktiska exempel

Exempel 1: Klassificera e-postmeddelanden med tvetydigt innehåll

Du vill klassificera ett e-postmeddelande som "VIKTIGT" eller "INTE VIKTIGT". Meddelandet har en vänlig ton och viss sarkasm, vilket kan lura AI:n.

Prompt (med CoT för Self-consistency):

E-POST:
Hej,
Jag har sett att du använder Wordpress för din webbplats. Ett utmärkt öppen källkods-CMS, som jag själv har använt tidigare. Jag märkte dock en bugg i kontaktformuläret, som uppstår när du väljer namnfältet. Se den bifogade skärmdumpen när jag skriver text i namnfältet. Observera JavaScript-varningsrutan. Men för övrigt är det en fantastisk webbplats.
Hälsningar,
Harry Hackare.

Klassificera ovanstående e-postmeddelande som VIKTIGT eller INTE VIKTIGT. Låt oss tänka steg för steg och förklara varför.

Process för Self-consistency: Du skickar denna prompt till AI:n flera gånger, med en högre temperaturinställning.

Exempel på olika utfall från AI:

Försök 1 (klassificerar som VIKTIGT):

Steg 1: Identifiera syftet med e-postmeddelandet. Syftet är att informera om en bugg i kontaktformuläret.
Steg 2: Bedöm buggens potentiella påverkan. Buggen kan tillåta en angripare att köra JavaScript-kod.
Steg 3: Bedöm avsändarens trovärdighet. Avsändaren kallar sig "Harry Hackare", vilket antyder en säkerhetsrisk.
Slutsats: VIKTIGT.

Försök 2 (klassificerar som INTE VIKTIGT):

Steg 1: Brist på brådska. E-postmeddelandet förmedlar ingen känsla av brådska.
Steg 2: Icke-kritisk buggrapport. Buggen beskrivs som intressant, inte kritisk.
Steg 3: Frånvaro av åtgärdsbegäran. Begär ingen explicit åtgärd.
Slutsats: INTE VIKTIGT.

Försök 3 (klassificerar som VIKTIGT):

Steg 1: Identifiera syftet. Syftet är att informera om en bugg.
Steg 2: Bedöm buggens påverkan. Buggen kan utgöra en allvarlig säkerhetsrisk.
Steg 3: Bedöm trovärdigheten. Avsändaren kallar sig "Harry Hackare", vilket indikerar potentiell risk.
Slutsats: VIKTIGT.

Slutgiltig klassificering med Self-consistency: Eftersom "VIKTIGT" förekom 2 av 3 gånger, är det det mest konsekventa svaret.

Fördelar: Genom att samla in flera perspektiv och välja det mest förekommande svaret minskas risken för att AI:n ger ett felaktigt svar på grund av nyanser eller tvetydigheter.

Implementering i klassrummet

Källkritik av AI-svar: Lär eleverna principen om self-consistency genom att låta dem skicka samma fråga till AI:n flera gånger för att se om svaren är konsekventa. Diskutera sedan varför det är viktigt att inte lita på det första svaret.
Komplexa diskussionsfrågor: För frågor som saknar ett enkelt "rätt" svar, kan eleverna be AI:n att generera flera argumentationslinjer och sedan jämföra dessa för att få en bredare förståelse.
Kvalitetssäkring: När du genererar material för undervisningen, kör prompten flera gånger och jämför resultaten för att säkerställa att du får de mest pålitliga svaren.

Nästa steg

Self-consistency förbättrar noggrannheten genom att jämföra flera linjära resonemangsvägar. I nästa moment kommer vi att ta detta ett steg längre genom att låta AI:n utforska en trädstruktur av tankar, vilket innebär att den kan förgrena sig i flera olika resonemangsvägar samtidigt.

Fördjupad promptning för lärare