Inwieweit ist eine KI, die nicht gendersensitiv sind, ein praktisch relevantes Problem?
Ich untersuche das Problem vorranging in Bezug auf "Large Language Models" (LLM). Also grosse Sprachmodelle, mit denen heute viele KI betrieben werden, wie z.B. ChatGPT von OpenAI / Microsoft oder Bard von Google. Tatsächlich wurde in den verschiedensten Studien* wie auch in einfachen Experimenten festgestellt, dass diese Modelle 'voreingenommen' sind. D.h. sie behandeln die Geschlechter nicht gleich, sondern reproduzieren Stereotypen. Sogar in Sprachen, die linguistisch neutral sind, wie z.B. englisch, werden solche Stereotypen wiederholt.
Zwei Beispiele:
1. In deutsch: Wenn wir in Deepl eine Übersetzung von 'kindergarden teacher' auf deutsch anfragen, so wird diese automatisch als weibliche Person übersetzt, obwohl die englische Version in keiner Weise darauf hin deutet.
2. In englisch: Wenn man ChatGPT Fragen stellt in Bezug auf Arzt (in englisch: doctor; genderneutraler Begriff) und Pflegeverantwortliche (in englisch: nurse, genderneutraler Begriff), so reproduziert ChatGPT den Stereotyp, dass ein 'doctor' ein Mann sein muss und eine 'nurse' eine Frau. Wenn man ChatGPT darauf hinweist, dass eine 'nurse' ein Mann sein könnte, dann widerspricht hier ChatGPT und meint, es handle sich wahrscheinlich um einen Logik- oder Grammatik-Fehler.
LLMs lernen von menschlichem, auf dem Internet publizierten und in der Vergangenheit geschriebenen Inhalt. Diese Daten werden dem Algorithmus gefüttert. Dieser lernt dann aufgrund der Daten selbst, welches die Regeln des Inhaltes sind und wendet diese bei der Produktion von neuen Texten an. Je nach KI geht es darum, einen Text zu übersetzen (deepL) oder eben selbst Text zu schreiben (chatGPT). Es gibt noch viele weitere Anwendungsbereiche, die zurzeit einen grossen Boom erleben. In gewissen Fällen werden auch sogenannte 'Supervisor' dazwischengeschaltet, die dem Algorithmus anfangs helfen, Daten zu verstehen. Solche Supervisor bestimmen zum Beispiel, ob ein Begriff eine rassistische Konnotation hat. Denn ein LLM hat kein ethisches Verständnis.
JETZT HERUNTERLADEN
DIE DOKUMENTATION DIESER FACHDEBATTE
DIE DOKUMENTATION ENTHÄLT
Übersicht aller aktiven Debattenteilnehmer
Summary für Ihr Top-Management
Die Frage ist, wieso ist es ein Problem, wenn solche Sprach-KI Stereotypen wiedergibt?
Man könnte ja einfach sagen, dass das eben Stereotypen oder sogar Tatsachen sind, die es einfach gibt in unserer Gesellschaft. Z.B. eine Mehrzahl der Krankenpfleger sind nun mal Frauen. Diese Argumentation scheint mir viel zu gefährlich, denn sie nimmt in Kauf, dass wir uns als Gesellschaft nicht vorwärts bewegen wollen; dass wir uns nicht entwickeln können. Sprache hat sich immer angepasst und gemäss der gesellschaftlichen Entwicklung verändert. Sprache ist nicht nur ein Symptom unserer Gesellschaft, sondern auch Vorreiterin. Wenn neue Erfindungen gemacht werden oder neue Phänomene entstehen, dann entsteht dafür ein Wort, meist zuerst durch eine kleine Gruppe. Diese trägt das neue Wort in die Welt hinaus und - sofern die Erfindung einigermassen erfolgreich ist - wird es in den allgemeinen Wortschatz übernommen. Hinter diesem Wort verbirgt sich eine neue Vorstellung, z.B. die Lösung eines Problems oder ein neuer Trend. Nun verstehen alle das neue Konzept und die Gesellschaft hat dabei einen Fortschritt gemacht - nicht nur in der Sprache, sondern auch im Verständnis des Problems oder des Trends. Um das etwas klarer zu machen: In der Schweiz sind 60% der Medizin-Absolvierenden Frauen. Dass also die KI besagt, dass ein 'doctor' ein Mann sein muss, ist also grundfalsch. Das LLM kann den Trend nicht erkennen, weil sie auf alten Daten aufbaut und eine falsche Regel gelernt hat.
Nun liegt das LLM nicht nur falsch, sondern mit diesen falschen Annahmen kreiert es auch eine Realität, die wir nicht mehr haben wollen. Denn Sprache ist nicht neutral. Wörter, die wir nutzen, um unsere Umwelt zu beschreiben, bestimmt, wie wir diese Welt sehen und empfinden. Sprechen wir also nur von Krankenschwestern, dann sehen wir vor dem inneren Auge auch nur Frauen. Formulieren wir dies jedoch um zu Krankenpfleger*innen, so stellen wir plötzlich fest, dass wir uns auch andere Geschlechter in diesem Beruf vorstellen können. Damit ermöglichen nicht nur wir uns selbst eine aufgeschlossenere Sichtweise, sondern öffnen auch die Türen für Menschen, die diesen Beruf wählen wollen, aber keine Frauen sind. Denn damit fallen die Stereotypen weg und die Stigmata, die dem Beruf anfallen.
Dass ein LLM alte Stereotypen übernimmt, ist problematisch, weil die von LLM produzierten Texte meist ohne weitere Überprüfung von den Nutzenden übernommen werden. So verbreiten sich Stereotypen weiterhin, obwohl wir sie als Gesellschaft loshaben wollen. Da auch Sprach-KI einen echten Boom erlebt, können wir annehmen, dass ein Vielfaches an Texten ins Internet zurückgespielt wird, die von KI geschaffen wurde. Damit amplifiziert sich sogar der rückwärtsgewandte Trend.
Und das ist ein Problem: Für uns als Gesellschaft und für viele soziale Gruppen. Wenn voreingenommene Sprach-KI immer öfters ungeprüft genutzt wird, dann werden sich Stereotypen in der Sprache wieder stärker durchsetzen. Durch die Wirkung der Sprache auf die Gesellschaft bedeutet dies, dass wir selbst wieder in mehr Stereotypen beginnen zu denken. Und das ist eine Rückwärtsbewegung, die Ungleichstellung zwischen den Geschlechtern verstärkt und das Geschlechterverständnis der neuen Generationen nicht berücksichtigt.
In welchen Bereichen sehen Sie ein besonderes Risko der LLM?
Texte, die mit LLM erschaffen wurden, können für Unternehmen mehrere Nachteile haben und sogar Risiken bergen, wenn sie unüberprüft übernommen werden. Abgesehen vom Datenschutz, sind dies die folgenden:
Nutzen wichtige Persönlichkeiten wie Geschäftsleitungsmitglieder oder Politiker*innen solche Texte, schleichen sich Begriffe oder Ausdrücke ein, die Diskriminierung ausdrücken oder einen Stereotypen wiederholen. Verschiedene Communities und die Generation Z hat ein scharfes Auge auf solche voreingenommenen Aussagen. Inzwischen führen sie in den USA sofort zu einem PR-Fiasko. Die Vertreter*innen von Politik und Wirtschaft müssen zurücktreten oder werden entlassen. Teilweise führte es sogar zu Rechtsverfahren. Dies haben wir bis anhin noch nicht gesehen in Europa. Aber es gibt die ersten Anzeichen dafür, dass Partner Verträge kündigen, wenn solche diskriminierende Aussagen durch GL-Mitglieder gemacht werden, weil ihre Marke damit in Verbindung gebracht wird. D.h. die von der KI vorgegebenen Texte stellen für Unternehmen ein Risiko dar - für Führungskräfte wie auch für die Marke selbst.
In Zeiten des Fachkräftemangels ist es wichtig, dass alle potentiellen Talente angesprochen werden. LLM-produzierte Texte verwenden jedoch einerseits, wie oben gesehen, Stereotypen in Bezug auf die Titel; andererseits produziert Chat GPT Stellenanzeigen, die 'traditionell' geschrieben sind. D.h. mit Ausdrücken, die Leistung und Wettbewerb zum Ausdruck bringen. Aus Studien der TU München und Harvard wissen wir jedoch, dass weibliche Talente nicht gut auf solche Wortwahl ansprechen und sich dann eher nicht bewerben. Werden also LLM-produzierte Texte genutzt für die Stellenanzeigen, Employer Branding Texte oder für das Active Sourcing, dann werden die Bewerbungen nicht so vielfältig ausfallen, wie sie eigentlich könnten. Durch die Sprache werden potentielle Talente abgeschreckt.
Im Marketing muss heute ein sehr breiter Fächer von Zielgruppen angegangen werden. Menschen in Europa werden immer älter und die Globalisierung führt zu einer wachsenden Diversität. Aufgrund der letzten Volkszählung in der USA wird prognostiziert, dass die "Weissen" in den USA in 2045 zur Minderheit werden. Für Unternehmen bedeutet dies auch diesseits des Atlantik, dass sie all diese Zielgruppen in ihrem Marketing ansprechen können müssen, um wettbewerbsfähig zu sein. ChatGPT wird heute im Marketing zunehmend verwendet. Eine kürzlich durchgeführte, nicht repräsentative Studie von FreelancerMap im deutschsprachigen Raum hat ergeben, dass 61 % der 854 befragten Freiberufler*innen regelmäßig KI bei ihrer Arbeit einsetzen, und 40 % von ihnen verwenden Sprach-KI, um bei der Erstellung von Texten zu helfen. Wenn nun diese Texte unüberprüft übernommen werden und damit auch die Stereotypen und unbewussten Diskriminierungen bedeutet dies für Unternehmen, dass sie mögliche Kund*innen abschrecken. Sie verlieren also damit Marktpotenzial.
Ich empfehle darum jeweils eine Überprüfung der Resultate von Sprach-KI mit dafür gemachten Tools, die Voreingenommenheiten und Stereotypen in den LLM-Texten erkennen können. Diese Tools werden 'AI Whisperer' genannt. Sie flüstern den LLM-Texten gender-neutralere und unvoreingenommenere Lösungen ein. Witty (https://witty.works) ist ein Beispiel eines solchen Tools.
Was ist zu tun, damit Algorithmen die Geschlechter unterscheiden und adäquat zuordnen können? Welche Herausforderungen sind dabei zu lösen?
Die Idee der LLM ist, dass der Algorithmus selbst von einer grossen Datenmenge lernen kann. Um also in seinem Umgang mit Geschlechtern besser zu werden, sind drei Faktoren wichtig:
1. Die Trainings-Daten müssen schon bereinigt sein. D.h. es muss zuerst überprüft werden, ob die Daten selbst schon Voreingenommenheiten enthalten oder Stereotypen beinhalten. Dies ist noch einfach, wenn man sich eine kleine Datenmenge vorstellt und es nur um Geschlechter geht. Es wird schwierig, wenn mit sehr grossen Datenmengen gearbeitet wird ('aller Content des Internet') und nicht nur Voreingenommenheit in Bezug auf Geschlecht, sondern auch in Bezug auf z.B. sozio-ökonomische Schichten ausgeräumt werden sollen.
2. Die Modelle werden von Teams erarbeitet. Sind diese Teams homogen aufgestellt, dann werden ihnen Voreingenommenheit in ihren Entscheidungen weniger auffallen. Dies wiederum bedeutet, dass die Modelle auf Unvoreingenommenheiten nicht sensibilisiert sind. Um dies zu verhindern, sollten die Teams selbst divers aufgestellt sein.
3. Die Supervisor selbst sollten auch divers sein, damit sie möglichst viele Diversitätsdimensionen abdecken können und somit die Daten dementsprechend unter die Lupe nehmen.
Ist Gendergerechtigkeit vorrangig eine öffentliche Aufgabe oder auch privatwirtschaftlich relevant? Welche rechtlichen Vorgaben sollten diesbezügliche Algorithmen bekommen?
Gendergerechtigkeit ist privatwirtschaftlich relevant. Studien von Boston Consulting Group, McKinsey, Deloitte wie auch der ILO bezeugen, dass divers aufgestellte Unternehmen innovativer und langfristig erfolgreicher sind, da die Entscheidungen von heterogenen Teams gefällt werden. Will ein Unternehmen nachhaltig erfolgreich sein, ist Diversität im Team ein Business-Imperativ. Zudem bedeutet Gendergerechtigkeit im Unternehmen mehr Fairness für alle. Denn wenn Frauen fair behandelt werden, hat dies einen positiven Einfluss auf andere unterrepräsentierte Gruppen. Für das Unternehmen selbst ist Gendergerechtigkeit auch kurzfristig von Interesse: Frauen fühlen sich dadurch im Unternehmen angenommen. Sie sind produktiver, bleiben länger beim Unternehmen und sprechen gegen aussen gut über das Unternehmen. Alles Folgen, die sich positiv auf das Geschäftsergebnis auswirken.
Es ist daher wichtig, dass es mehr rechtliche Vorgaben gibt für Sprach-KI. Zurzeit befinden wir uns in einem fast rechtlosen Raum. Folgende Bestimmungen wären wichtig:
- Die KI darf Menschen weder offensichtlich noch unbewusst diskriminieren aufgrund ihres Geschlechts, Herkunft, sexuelle Orientierung, Alter, usw. So wie es in den meisten Verfassungen hinterlegt ist.
- Das Unternehmen muss offenlegen, welche Daten für das Training des Algorithmus genutzt werden.
- Supervisor sowie Teams müssen einen gewissen Grad an Diversität ausweisen.
- Zu grosser Einfluss durch einzelne Unternehmen sollte verhindert werden, da sonst ihre Modelle zu vorherrschend werden.
Diese Vorschläge sind nicht abschliessend gemeint.
* siehe eine Zusammenfassung hier: https://www.witty.works/en/blog/is-chatgpt-able-to-generate-inclusive-language