Computer-Assisted Understanding of Stance in Social Media

Formalizations, Data Creation, and Prediction Models

Michael Wojatzki|2019

Universität Duisburg-Essen




Schlagworte

Soziale Medien, Stance

Zusammenfassung

Stance (dt: Haltung, Position oder Standpunkt) bezeichnet die positive oder negative Evaluation von Personen, Dingen oder Ideen (Du Bois, 2007). Versteht man den Stance, den Menschen in den sozialen Medien zum Ausdruck bringen, eröffnen sich vielfältige Anwendungsmöglichkeiten: Auf der einen Seiten können Regierungen, Unternehmen oder andere Informationssuchende Einblicke darüber gewinnen, wie Menschen ihre Entscheidungen, Ideen oder Produkte bewerten. Auf der anderen Seite können Social Media Nutzer, denen der Stance anderer Nutzer bekannt ist, effizientere Diskussionen führen und letztendlich bessere kollektive Entscheidungen treffen.

Da die Anzahl der in sozialen Medien getätigter Beiträge zu hoch für eine manuelle Analyse ist, sind computergestützte Methoden zum Verständnis von Stance notwendig. In dieser Arbeit untersuchen wir drei Hauptaspekte solcher computergestützten Methoden: (i) abstrakte Stance Formalisierungen, die sich über mehrere Social Media Beiträge hinweg quantifizieren lassen, (ii) die Erstellung geeigneter Datensätze, die einer bestimmten Formalisierung entsprechen, und (iii) automatische Systeme zur Erkennung von Stance, die Social Media Beiträgen ein Stance Label zuordnen können. Wir untersuchen vier verschiedene Formalisierungen, die sich darin unterscheiden, wie spezifisch die Erkenntnisse sind, welche sie bei der Analyse von Social Media Debatten liefern: Stance gegenüber einzelnen Targets definiert Stance als ein Tupel, welches aus einem einzigen Target (z.B. Atheismus) und einer Polarität (z.B. für oder gegen das Target sein) besteht. Stance gegenüber mehreren Targets modelliert eine Polarität, die gegenüber einem übergeordneten Target und mehreren logisch verknüpften Targets ausgedrückt wird. Stance gegenüber nuancierten Targets, modelliert Stance als eine Polarität gegenüber allen Texten in einem bestimmten Datensatz. Darüber hinaus untersuchen wir hasserfüllten Stance als eine Formalisierung, die modelliert, ob ein Text Hass gegenüber einem einzelnen Target (z.B. Frauen oder Flüchtlingen) ausdrückt.

Systeme, die auf Methoden des maschinellen Lernens basieren, benötigen eine ausreichende Menge von mit Labeln versehenen Trainingsdaten. Da solche Daten nicht für jede Formalisierung verfügbar sind, wurden im Rahmen dieser Arbeit eigene Datensätze erstellt. Auf der Basis dieser Datensätze führen wir quantitative Analysen durch, welche Aufschluss darüber geben, wie zuverlässig die Annotation der Daten ist und in welcher Weise Social Media-Nutzer Stance kommunizieren. Unsere Analyse zeigt, dass die Zuverlässigkeit unserer Daten durch subjektive Interpretationen der Annotatoren und durch die Häufigkeit, mit der bestimmte Targets auftreten, beeinflusst wird. Unsere Studien zeigen weiterhin, dass die Wahrnehmung von Hass mit dem persönlichen Stance der Annotatoren korreliert, woraus wir folgern, dass Stance Annotationen bis zu einem gewissen Grad subjektiv sind und dass diese Subjektivität bei der Datenerstellung zukünftig berücksichtigt werden sollte. Darüber hinaus schlagen wir einen neuartigen Prozess für die Erstellung von Datensätzen vor, die subjektive Annotationen beinhalten, die der Formalisierung Stance gegenüber nuancierten Targets entsprechen und damit umfassende Einblicke in die zugrundeliegende Social Media Debatte liefert.

Um den Stand der Technik der automatischen Stance Erkennung zu untersuchen, haben wir relevante shared tasks organisiert und an ihnen teilgenommen, sowie Experimente an eigenen Datensätzen durchgeführt. Unsere Untersuchungen zeigen über alle Experimente und Datensätze hinweg, dass vergleichsweise einfache Methoden eine äußerst wettbewerbsfähige Leistung erbringen. Des Weiteren zeigen unsere Betrachtungen, dass neuronale Ansätze zwar wettbewerbsfähig, aber nicht deutlich besser als herkömmliche Ansätze zur Textklassifizierung sind. Wir zeigen, dass Ansätze, die auf der Beurteilungsähnlichkeit basieren – definiert als das Ausmaß mit dem Texte von einer großen Anzahl von Menschen ähnlich beurteilt werden – die Leistung von Referenzansätzen deutlich übertreffen. Daraus schließen wir, dass diese Beurteilungsähnlichkeit eine vielversprechende Richtung ist, um weitere Verbesserungen in den Bereichen automatischen Erkennung von Stance und verwandten Aufgaben wie Sentimentanalyse oder Argument Mining zu erzielen.


Zitiervorschlag

Wojatzki, Michael Maximilian. Computer-Assisted Understanding of Stance in Social Media: Formalizations, Data Creation, and Prediction Models. Universität Duisburg-Essen, 2019, doi:10.17185/duepublico/48043.

Repository

duepublico.uni-duisburg-essen.de

Identifikatoren

urn: urn:nbn:de:hbz:464-20190201-140926-6

doi: 10.17185/duepublico/48043

Veröffentliche

deine Dissertation

auf OpenD und steigere

deine Online-Sichtbarkeit

einreichen