Methods for detecting and mitigating linguistic bias in text corpora

Download statistics - Document (COUNTER):

Hube, Christoph: Methods for detecting and mitigating linguistic bias in text corpora. Hannover : Gottfried Wilhelm Leibniz Universität, Diss., 2020, xviii, 124 S. DOI: https://doi.org/10.15488/9873

Selected time period:

year: 
month: 

Sum total of downloads: 750




Thumbnail
Abstract: 
Im Zuge der fortschreitenden Ausbreitung des Webs in alle Aspekte des täglichenLebens wird Bias in Form von Voreingenommenheit und versteckten Meinungen zu einemzunehmend herausfordernden Problem. Eine weitverbreitete Erscheinungsform ist Bias inTextdaten. Um dem entgegenzuwirken hat die Online-Enzyklopädie Wikipedia das Prinzipdes neutralen Standpunkts (Englisch: Neutral Point of View, kurz: NPOV) eingeführt,welcher die Verwendung neutraler Sprache und die Vermeidung von einseitigen oder subjektivenFormulierungen vorschreibt. Während Studien gezeigt haben, dass die Qualität vonWikipedia-Artikel mit der Qualität von Artikeln in klassischen Enzyklopädien vergleichbarist, zeigt die Forschung gleichzeitig auch, dass Wikipedia anfällig für verschiedene Typenvon NPOV-Verletzungen ist. Bias zu identifizieren, kann eine herausfordernde Aufgabe sein,sogar für Menschen, und mit Millionen von Artikeln und einer zurückgehenden Anzahl vonMitwirkenden wird diese Aufgabe zunehmend schwieriger. Wenn Bias nicht eingedämmtwird, kann dies nicht nur zu Polarisierungen und Konflikten zwischen Meinungsgruppenführen, sondern Nutzer auch negativ in ihrer freien Meinungsbildung beeinflussen. Hinzukommt, dass sich Bias in Texten und in Ground-Truth-Daten negativ auf Machine LearningModelle, die auf diesen Daten trainiert werden, auswirken kann, was zu diskriminierendemVerhalten von Modellen führen kann.In dieser Arbeit beschäftigen wir uns mit Bias, indem wir uns auf drei zentrale Aspektekonzentrieren: Bias-Inhalte in Form von geschriebenen Aussagen, Bias von Crowdworkernwährend des Annotierens von Daten und Bias in Word Embeddings Repräsentationen.Wir stellen zwei Ansätze für die Identifizierung von Aussagen mit Bias in Textsammlungenwie Wikipedia vor. Unser auf Features basierender Ansatz verwendet Bag-of-WordFeatures inklusive einer Liste von Bias-Wörtern, die wir durch das Identifizieren von Clusternvon Bias-Wörtern im Vektorraum von Word Embeddings zusammengestellt haben.Unser verbesserter, neuronaler Ansatz verwendet Gated Recurrent Neural Networks, umKontext-Abhängigkeiten zu erfassen und die Performance des Modells weiter zu verbessern.Unsere Studie zum Thema Crowd Worker Bias deckt Bias-Verhalten von Crowdworkernmit extremen Meinungen zu einem bestimmten Thema auf und zeigt, dass dieses Verhaltendie entstehenden Ground-Truth-Label beeinflusst, was wiederum Einfluss auf die Erstellungvon Datensätzen für Aufgaben wie Bias Identifizierung oder Sentiment Analysis hat. Wirstellen Ansätze für die Abschwächung von Worker Bias vor, die Bewusstsein unter denWorkern erzeugen und das Konzept der sozialen Projektion verwenden.Schließlich beschäftigen wir uns mit dem Problem von Bias in Word Embeddings,indem wir uns auf das Beispiel von variierenden Sentiment-Scores für Namen konzentrieren.Wir zeigen, dass Bias in den Trainingsdaten von den Embeddings erfasst und annachgelagerte Modelle weitergegeben wird. In diesem Zusammenhang stellen wir einenDebiasing-Ansatz vor, der den Bias-Effekt reduziert und sich positiv auf die produziertenLabel eines nachgeschalteten Sentiment Classifiers auswirkt.
License of this version: CC BY 3.0 DE
Document Type: doctoralThesis
Publishing status: publishedVersion
Issue Date: 2020
Appears in Collections:Fakultät für Elektrotechnik und Informatik
Dissertationen

distribution of downloads over the selected time period:

downloads by country:

pos. country downloads
total perc.
1 image of flag of Germany Germany 218 29.07%
2 image of flag of United States United States 131 17.47%
3 image of flag of United Kingdom United Kingdom 45 6.00%
4 image of flag of India India 39 5.20%
5 image of flag of No geo information available No geo information available 29 3.87%
6 image of flag of Canada Canada 21 2.80%
7 image of flag of Netherlands Netherlands 18 2.40%
8 image of flag of Czech Republic Czech Republic 17 2.27%
9 image of flag of China China 16 2.13%
10 image of flag of Austria Austria 15 2.00%
    other countries 201 26.80%

Further download figures and rankings:


Hinweis

Zur Erhebung der Downloadstatistiken kommen entsprechend dem „COUNTER Code of Practice for e-Resources“ international anerkannte Regeln und Normen zur Anwendung. COUNTER ist eine internationale Non-Profit-Organisation, in der Bibliotheksverbände, Datenbankanbieter und Verlage gemeinsam an Standards zur Erhebung, Speicherung und Verarbeitung von Nutzungsdaten elektronischer Ressourcen arbeiten, welche so Objektivität und Vergleichbarkeit gewährleisten sollen. Es werden hierbei ausschließlich Zugriffe auf die entsprechenden Volltexte ausgewertet, keine Aufrufe der Website an sich.

Search the repository


Browse