Methods for detecting and mitigating linguistic bias in text corpora

Hube, Christoph

Methods for detecting and mitigating linguistic bias in text corpora

Services

Deutsch English

About the Repository Search and Browse Publish

Download statistics - Document (COUNTER):

Hube, Christoph: Methods for detecting and mitigating linguistic bias in text corpora. Hannover : Gottfried Wilhelm Leibniz Universität, Diss., 2020, xviii, 124 S. DOI: https://doi.org/10.15488/9873

Selected time period:

Sum total of downloads: 1,289

distribution of downloads over the selected time period
downloads by country

back to single item view (close usage statistics)

FilePhD_Thesis_Hube_2 ...

Size1,46 MB

FormatAdobe PDF

View

Abstract:
Im Zuge der fortschreitenden Ausbreitung des Webs in alle Aspekte des täglichenLebens wird Bias in Form von Voreingenommenheit und versteckten Meinungen zu einemzunehmend herausfordernden Problem. Eine weitverbreitete Erscheinungsform ist Bias inTextdaten. Um dem entgegenzuwirken hat die Online-Enzyklopädie Wikipedia das Prinzipdes neutralen Standpunkts (Englisch: Neutral Point of View, kurz: NPOV) eingeführt,welcher die Verwendung neutraler Sprache und die Vermeidung von einseitigen oder subjektivenFormulierungen vorschreibt. Während Studien gezeigt haben, dass die Qualität vonWikipedia-Artikel mit der Qualität von Artikeln in klassischen Enzyklopädien vergleichbarist, zeigt die Forschung gleichzeitig auch, dass Wikipedia anfällig für verschiedene Typenvon NPOV-Verletzungen ist. Bias zu identifizieren, kann eine herausfordernde Aufgabe sein,sogar für Menschen, und mit Millionen von Artikeln und einer zurückgehenden Anzahl vonMitwirkenden wird diese Aufgabe zunehmend schwieriger. Wenn Bias nicht eingedämmtwird, kann dies nicht nur zu Polarisierungen und Konflikten zwischen Meinungsgruppenführen, sondern Nutzer auch negativ in ihrer freien Meinungsbildung beeinflussen. Hinzukommt, dass sich Bias in Texten und in Ground-Truth-Daten negativ auf Machine LearningModelle, die auf diesen Daten trainiert werden, auswirken kann, was zu diskriminierendemVerhalten von Modellen führen kann.In dieser Arbeit beschäftigen wir uns mit Bias, indem wir uns auf drei zentrale Aspektekonzentrieren: Bias-Inhalte in Form von geschriebenen Aussagen, Bias von Crowdworkernwährend des Annotierens von Daten und Bias in Word Embeddings Repräsentationen.Wir stellen zwei Ansätze für die Identifizierung von Aussagen mit Bias in Textsammlungenwie Wikipedia vor. Unser auf Features basierender Ansatz verwendet Bag-of-WordFeatures inklusive einer Liste von Bias-Wörtern, die wir durch das Identifizieren von Clusternvon Bias-Wörtern im Vektorraum von Word Embeddings zusammengestellt haben.Unser verbesserter, neuronaler Ansatz verwendet Gated Recurrent Neural Networks, umKontext-Abhängigkeiten zu erfassen und die Performance des Modells weiter zu verbessern.Unsere Studie zum Thema Crowd Worker Bias deckt Bias-Verhalten von Crowdworkernmit extremen Meinungen zu einem bestimmten Thema auf und zeigt, dass dieses Verhaltendie entstehenden Ground-Truth-Label beeinflusst, was wiederum Einfluss auf die Erstellungvon Datensätzen für Aufgaben wie Bias Identifizierung oder Sentiment Analysis hat. Wirstellen Ansätze für die Abschwächung von Worker Bias vor, die Bewusstsein unter denWorkern erzeugen und das Konzept der sozialen Projektion verwenden.Schließlich beschäftigen wir uns mit dem Problem von Bias in Word Embeddings,indem wir uns auf das Beispiel von variierenden Sentiment-Scores für Namen konzentrieren.Wir zeigen, dass Bias in den Trainingsdaten von den Embeddings erfasst und annachgelagerte Modelle weitergegeben wird. In diesem Zusammenhang stellen wir einenDebiasing-Ansatz vor, der den Bias-Effekt reduziert und sich positiv auf die produziertenLabel eines nachgeschalteten Sentiment Classifiers auswirkt.
License of this version:	CC BY 3.0 DE
Document Type:	DoctoralThesis
Publishing status:	publishedVersion
Issue Date:	2020
Appears in Collections:	Fakultät für Elektrotechnik und Informatik Dissertationen

distribution of downloads over the selected time period:

downloads by country:

pos.	country		downloads
pos.	country		total	perc.
1		Germany	459	35.61%
2		United States	211	16.37%
3		United Kingdom	76	5.90%
4		India	51	3.96%
5		No geo information available	42	3.26%
6		Netherlands	34	2.64%
7		China	32	2.48%
8		Russian Federation	28	2.17%
9		Canada	27	2.09%
10		Czech Republic	21	1.63%
		other countries	308	23.89%

Further download figures and rankings:

Hinweis

Zur Erhebung der Downloadstatistiken kommen entsprechend dem „COUNTER Code of Practice for e-Resources“ international anerkannte Regeln und Normen zur Anwendung. COUNTER ist eine internationale Non-Profit-Organisation, in der Bibliotheksverbände, Datenbankanbieter und Verlage gemeinsam an Standards zur Erhebung, Speicherung und Verarbeitung von Nutzungsdaten elektronischer Ressourcen arbeiten, welche so Objektivität und Vergleichbarkeit gewährleisten sollen. Es werden hierbei ausschließlich Zugriffe auf die entsprechenden Volltexte ausgewertet, keine Aufrufe der Website an sich.

Search the repository

Browse

All content
- Communities & Collections
- By Issue Date
- Authors
- Titles
- Subjects
- Subjects (GND)
- DDC
- License
- Type
This Collection
- By Issue Date
- Authors
- Titles
- Subjects
- Subjects (GND)
- DDC
- License
- Type

Methods for detecting and mitigating linguistic bias in text corpora

Download statistics - Document (COUNTER):

Selected time period:

Sum total of downloads: 1,289

distribution of downloads over the selected time period:

downloads by country:

Further download figures and rankings:

Search the repository

Browse

All content

This Collection