Tidligere på bloggen har vi introdusert KI og cybersikkerhet og deres utfordringer. I det siste har det vært et større søkelys på «mørke» KI-modeller som oppgir feil eller farlig informasjon. Mørk KI er språkmodeller som har blitt tuklet med, og har et ondsinnet formål. Det finnes flere måter å gjøre KI-modellen mørk. I dette innlegget ser vi nærmere på virkelige eksempler, samt hvilke tiltak man bør gjøre for å forhindre at språkmodeller fortsetter å spre uriktig informasjon.

«Jailbreaking» av språkmodeller er en måte å gjøre KI-modellen mørk. Det har lenge vært et kjent problem og allerede blitt laget film om. Det innebærer blant annet å spørre språkmodellene på måter som forestiller deg hypotetiske scenarier, for eksempel om hvordan du bryter deg inn i et hus. Det finnes egne subreddits dedikert til å finne ut hvordan man skal lure AI-modellene til å gjøre ting en «ikke har lov til», som f.eks. å produsere nakenbilder. Med kun små endringer kan chatboter instruere brukere hvordan utføre kriminelle aktiviteter, inkludert produksjon av bomber, stjele biler og til og med forføre barn.
Det har også florert screenshots av at f.eks. Google «AI Overview», som dukker opp på toppen av Google-søk, har spredd farlig informasjon. I noen tilfeller er dette korrekt, slik som å foreslå å putte lim i pizzasausen for at den ikke skal renne så mye. I andre tilfeller har det vært forfalskninger, slik som en falsk skjermdump som gir inntrykk av at Google AI Overview anbefaler en deprimert bruker å besøke Golden Gate Bridge.
Det finnes allerede hendelser hvor reelle trusselaktører bruker språkmodeller til ondsinnede aktiviteter. Forest Blizzard er en organisert kriminell gruppe som retter seg mot kritisk infrastruktur i vestlige land, med tilknytninger mot Russland. De har blant annet brukt språkmodeller til å forstå forskningssatellitt- og radarteknologier som kan refereres til militære operasjoner i Ukraina, samt hjelp til å utvikle bedre rekognoseringsverktøy og skripts for å styrke deres cyberoperasjoner. Som svar på slike trusler deaktiverte store selskaper som OpenAI kontoene og eiendelene knyttet til disse spesifikke trusselaktørenes profiler.
Hva kan man gjøre for å hindre det?
Strategier for å redusere feil informasjon fra språkmodeller innebærer å filtrere uønskede utsagn fra treningssettet, enten under innledende trening, finjustering etter den innledende treningen, filtrering av svarene til språkmodellen, eller under design av instruksjoner. Selskaper som utvikler språkmodeller, er ansvarlig for å teste språkmodellene sine tilstrekkelig igjennom hele AI-livssyklusen.
Videre har forskning også introdusert et konsept som fungerer som en slags «brannmur» mellom instruks og svar i språkmodellene. En slik løsning kan fungere som beskyttelse mellom brukere og modellen som et ytterligere filtreringslag under bruk. Flere selskaper har begynt å tilby en lignende løsning, blant annet IBMs Granite Guardian og Metas Llama Guard.
På samme måte som for cybersikkerhet i tradisjonelle systemer bør man opprettholde penetrasjonstesting av språkmodellen med ulike grupper («Red Team»), og tilby premier for brukere som finner ukjente sårbarheter og instrukser («Bug Bounty»). Slik kan man sørge for at man raskere eksponerer uønsket informasjon, og legger inn tiltak fortløpende.
Hva hvis vi kan få KI-modellene til å «glemme» tidligere læring? Amerikanske forskere har undersøkt muligheten for å fjerne tidligere læring, uten å måtte lære hele modellen på nytt. Dette er fortsatt forskning i en tidlig fase, men dersom man kan finjustere teknikken, kan man effektivt fjerne uønsket informasjon fra etablerte språkmodeller.
Sist, men ikke minst er det essensielt med bevissthet rundt temaet. Leverandører av språkmodeller bør holdes ansvarlige for spredning av feil eller farlig informasjon. Som forbruker må man forstå at språkmodeller innehar en sikkerhetsrisiko tilgang til informasjon om hvordan man kan lage våpen. Begrensning av tilgangen for utsatte grupper som barn burde prioriteres av beslutningstakere.
Språkmodeller blir stadig tatt i bruk i større deler av samfunnet. Likevel er det en bakside av medaljen, da modellene blir tatt for å spre farlig eller feil informasjon. Det er viktig å forstå problemet gjennom hele KI-livssyklusen, ettersom en angriper går gjennom forskjellige stadier for å utføre et angrep og kan bruke språkmodeller til forskjellige formål på hvert trinn for å nå sine mål. Å begrense trusselen fra ondsinnede språkmodeller krever et lagdelt, proaktivt forsvar. På samme måte som at vi ønsker å beskytte barn fra uønsket innhold på nettet, bør vi også sikre at språkmodellene ikke eksponeres for farlig eller feil informasjon.
Trenger du hjelp og veiledning? Ta kontakt med oss for et uforpliktende møte.