Den kunstige intelligens, vi bruger i vores hverdag, når vi googler, oversætter, skriver med chatbots og taler med Siri, taler nogle gruppers sprog bedre end andres. Det viser et studie fra Datalogisk Institut på Københavns Universitet, hvor man for første gang har undersøgt, om de sprogmodeller kunstig intelligens benytter favoriserer visse demografiske gruppers sprogbrug – det, man i fagsprog kalder sociolekter. Og svaret er altså ja.
– Kigger man på tværs af sprogmodellerne, kan vi se en systematisk skævhed. Hvor hvide mænd under 40 år med kort uddannelse er den gruppe, som sprogmodellerne flugter bedst med, flugter de dårligst med det sprog som unge, ikke-hvide mænd taler, fortæller Anders Søgaard, der er professor ved Datalogisk Institut på Københavns Universitet og seniorforfatter til studiet.
Analysen viser, at det er op mod hver 10. af modellernes forudsigelser, som er markant dårligere for de unge, ikke-hvide mænd sammenlignet med de unge, hvide mænd. Og det er nok til at udgøre et problem, mener Anders Søgaard:
– Når tilgængeligheden af information afhænger af, præcis hvordan du formulerer dig, og hvorvidt det flugter med den sprogbrug, som modellerne er trænet til, betyder det, at noget information er tilgængeligt for andre, men ikke for dig, forklarer han.
Mest data fra sociale medier
Sprogmodeller bliver trænet ved, at man føder enorme mængder tekst ind i dem for at lære dem sandsynligheden for forekomsten af ord i bestemte kontekster. Præcis ligesom med skoleøvelsen skal modellerne forudsige de ord, der mangler i en sekvens. Teksterne er det, der nu er tilgængeligt på internettet, hvoraf det meste er hentet fra sociale medier og Wikipedia.
Forskerne ved ikke med sikkerhed, hvorfor det netop er de unge, hvide mænds sociolekt, som sprogmodellerne repræsenterer bedst. Men det passer med, at unge, hvide mænd er den gruppe, som har bidraget mest til den data, modellerne er trænet med.
– Det kan være i forsikringsbranchen, hvor man bruger sprogmodeller til at gruppere sager og lave risikovurderinger af kunder. Det kan også være i juridiske sammenhænge – for eksempel i offentlig sagsbehandling, hvor man nogle steder bruger modeller til at søge lignende sager frem for at finde præcedens. I de tilfælde kan den lille forskel være udslagsgivende, advarer Anders Søgaard.
Problemet vokser
Faktisk ser problemet ud til at vokse i takt med den digitale udvikling. Ifølge undersøgelsen øger den kunstige intelligens bias nemlig i takt med at den vokser og får mere data.
– Uden at vi ved hvorfor, ser det ud til at jo større modellerne er, jo mere bias har de. Så med mindre man gør noget, bliver kløften mellem visse samfundsgrupper også større, fortæller Anders Søgaard.
Hvis vi skal komme skævvridningen til livs, er det ikke nok bare at fodre modellerne med mere data. En oplagt løsning er i stedet at træne modellerne bedre.
– Det kan man gøre ved at ændre algoritmerne, så de i stedet for at behandle al data som lige vigtigt, er særlig omhyggelig med data, der skiller sig ud fra befolkningsgennemsnittet, slutter Anders Søgaard.
Forskningsartiklen om studiet Sociolectal Analysis of Pretrained Language Models er optaget på konferencen Conference on Empirical Methods in Natural Language Processing (EMNLP) 2021 og kan læses her (PDF).