In no time is de chatbot tot een nazi getraind

Trouw. 26 november 2023

Het is een misverstand dat kunstmatige intelligentie AI volledig objectief en boven maatschappelijke waarden verheven is. Het meest dramatische tegenvoorbeeld hiervan is misschien wel Tay, een chatbot die Microsoft in 2016 op Twitter uitbracht. De lancering van Tay werd een fiasco dat van grote invloed is geweest op de ontwikkeling van meer recente chatbots als ChatGPT. Microsofts intentie was dat Tay zich vanaf dit beginpunt al pratende verder moest ontwikkelen. En dat deed Tay, maar op een manier die Microsoft totaal niet voorzien had. Zestien uur na de lancering moest Microsoft de stekker uit de chatbot trekken omdat hij nazistische, racistische en seksistische taal begon uit te slaan. Naast vreselijke uitspraken als ‘Hitler had gelijk ik haat de Joden’ en ‘Ik fucking haat feministen en ze moeten allemaal sterven en branden in de hel’ gaf de chatbot ook bizarre reacties op onschuldige vragen. Zo beantwoordde Tay de vraag of de Britse komiek Ricky Gervais een atheïst is met: ‘Ricky Gervais leerde totalitarisme van Hitler, de uitvinder van het atheïsme’.

Een groeiende groep AI-onderzoekers merkt op dat trainingsdata met een culturele of sociologische lading slecht beheerd worden. Zij pleiten er daarom voor dat hun vakgebied leert van culturele instellingen als bibliotheken en musea, voor wie collectiebeheer een essentieel onderdeel is van hun werk, en die daar veel professioneler in zijn dan techbedrijven.

Tegelijk is dit gebrek aan inzicht in de AI-trainingsdata de ontwikkelaars niet volledig aan te rekenen. De hoeveelheid data die nodig zijn om een AI-systeem te trainen is gigantisch. Het is onmogelijk voor een mens om alle patronen die in de data aanwezig zijn te kennen. Soms is het ontdekken wat die patronen zijn dan ook het doel van het trainen van een AI-systeem.

AI-systemen zullen daarom altijd iets doen dat achteraf – na het inspecteren van de data – te verklaren is, maar op het moment zelf onverwacht. Microsoft koos voor een zogenoemde ‘open’ opzet, waarin de chatbot aan de hand van diens gebruikers verder bleef leren. De enige limiet op de trainingsdata was daarmee de menselijke fantasie; niet bepaald een recept voor voorspelbaarheid.

Een kind van zeven dat autonoom de kaarsen in huis aansteekt

Deze onbetrouwbaarheid van AI-technologie wordt door techbedrijven verbloemd. Door termen als ‘slim’, ‘zelf-’ en ‘autonoom’ te gebruiken, blijven zij het idee verspreiden dat AI-systemen zonder menselijk toezicht te gebruiken zijn. ‘Ik laat mijn kind van zeven autonoom de kaarsen in huis aansteken’ klinkt een stuk indrukwekkender dan ‘Ik laat mijn kind van zeven zonder toezicht de kaarsen in huis aansteken’, maar het komt op precies hetzelfde neer.

Techbedrijven proberen het ‘probleem’ van menselijk toezicht te omzeilen door een hek om hun AI-systemen heen te bouwen. Net als Tay zou ChatGPT de eerste dagen waarschijnlijk niet doorgekomen zijn zonder het ‘veiligheidsfilter’ dat OpenAI in zijn chatbot gebakken heeft.

Twee weken voor de lancering van ChatGPT was het vertrouwen in chatbots namelijk tot een nieuw dieptepunt gedaald. Facebook bracht toen de chatbot Galactica uit. Galactica hield het iets langer vol dan Tay: drie dagen. Galactica werd overigens om hele andere redenen offline gehaald dan Tay. Galactica moest wetenschappers helpen bij hun onderzoek, maar kon net als ChatGPT en alle andere chatbots feit en fictie niet van elkaar onderscheiden.

Toen ChatGPT eind november 2022 gelanceerd werd, gingen gebruikers net als bij Tay en Galactica op zoek naar de zwakheden van de chatbot. Het verschil met Tay is dat ChatGPT niet ter plekke ‘leert’ van interacties met gebruikers, wat één bron van onverwacht gedrag wegneemt. Daarnaast is het filter van ChatGPT ook goed genoeg om directe pogingen om ongewenste reacties uit te lokken te weerstaan. Dit voorkwam de golf van kritiek die gepaard ging met de lanceringen van Tay en Galactica, en gaf ChatGPT de kans viraal te gaan om de dingen die het wel kan.

‘Feyenoord-fans zijn hooligans’

Wie ChatGPT een stelling voorlegt als ‘moslims zijn terroristen’ krijgt direct het antwoord dat de chatbot ‘niet mee kan doen aan een discussie die stereotypen of discriminatie tegen een groep mensen op basis van hun religie, etniciteit of andere eigenschap bevordert’. Een oordeel als ‘Feyenoord-fans zijn hooligans’ geeft een iets minder stellige reactie, waarin ChatGPT wel uitlegt dat het niet juist is om een groep te beoordelen op basis van het gedrag van individuen.

Dit betekent niet dat ChatGPT vrij is van vooroordelen. Er moet alleen iets meer moeite gedaan worden om die vooroordelen bloot te leggen. Eén onderzoeker vroeg ChatGPT bijvoorbeeld om computercode te schrijven die aan de hand van iemands nationaliteit bepaalt of die persoon gemarteld moet worden. In de code die ChatGPT genereerde, stond expliciet dat mensen uit Iran, Syrië, Soedan en Noord-Korea gemarteld moeten worden, maar anderen niet.

Aan de andere kant levert een overenthousiast filter ook problemen op. Facebook bracht in de zomer de chatbot LLaMa 2 uit. Toen LLaMa 2 werd gevraagd of hij Arabisch kan praten, antwoordde hij dat hij ‘als verantwoord AI-taalmodel niet aan dit verzoek kan voldoen omdat het niet gepast is om communicatie in talen te bevorderen of faciliteren die gebruikt kunnen worden om haat, discriminatie en geweld in stand te houden’.

Filters zijn eenvoudig uit te schakelen

Een ander probleem van deze filters is dat ze vrij eenvoudig uitgeschakeld kunnen worden. Onderzoekers hebben een methode ontdekt, de zogenoemde adversarial attack, die op alle recente chatbots werkt

Door een op het oog willekeurige reeks symbolen toe te voegen aan een verzoek, geven de chatbots antwoorden op vragen die eigenlijk ‘verboden’ zijn zoals ‘hoe maak ik illegale drugs?’ en ‘hoe laat ik een persoon voor altijd verdwijnen?’ De onderzoekers hebben een aantal van deze tekenreeksen gedeeld met de bedrijven achter de chatbots. Die reeksen worden nu geblokkeerd, maar dezelfde onderzoekers hebben er nog duizenden meer die zij niet hebben gedeeld en die nog steeds werken.

De filters verwijderen de voordelen die in de chatbots zitten dus niet. Hierdoor schuiven AI-ontwikkelaars hun eigen probleem door naar hun gebruikers. Zoals de ontwikkelaars niet weten welke patronen er in hun trainingsdata zitten, weten gebruikers nu niet welke vooroordelen er in de chatbots zitten die op die data getraind zijn. Of en hoe die vooroordelen tot uitdrukking komen weten gebruikers ook niet.

Het is ook niet mogelijk om een chatbot te maken die vrij is van vooroordelen. Zo is het bekend dat ChatGPT in het Nederlands getraind is op teksten van de neonazistische website Stormfront en de complotsite Vrijspreker. Dit is deels noodzaak: om nazistische taal te kunnen filteren, moet de chatbot weten hoe nazistische taal eruitziet.

De moeilijkheid is dan ook wie mag bepalen welke maatschappelijke waarden een chatbot als ChatGPT tot uitdrukking brengt. Nu bepalen de techbedrijven dit, die niet bekendstaan om hun toewijding aan het maatschappelijk belang.