Gemeinsame Fachgruppentagung Methoden & DigiKomm 2024

Sitzung

Evaluation of LLMs

Zeit:

Donnerstag, 19.09.2024:

11:15 - 12:45

Chair der Sitzung: Hendrik Meyer

Ort: ESA O 221 (2. Stock)

Edmund-Siemers-Allee 1, Flügelbau Ost (ESA O), Raum 221 (2. Stock)

Präsentationen

Classifying the needle in the haystack? Problemstellungen beim Einsatz von Argument-Mining für kommunikationswissenschaftliche Fragestellungen am Beispiel der Waffenlieferungsdebatte

Katharina Kleinen-von Königslöw¹, Laura Liebig¹, Gerret von Nordheim¹, Jonas Rieger², Mattes Ruckdeschel³, Gregor Wiedemann³, Kostiantyn Yanchenko⁴

¹Universität Hamburg, Deutschland; ²Universität Dortmund, Deutschland; ³Leibniz-Institut für Medienforschung Hans-Bredow Institut, Deutschland; ⁴Universität Jena, Deutschland

Angesichts der rasanten Fortschritte im Natural Language Processing (NLP) durch den

Einsatz von transformerbasierten, vortrainierten Sprachmodellen wendet sich die

Kommunikationswissenschaft (KW) verstärkt diesen Methoden zu (siehe z.B. Eisele et al.

2023). Beim Übertragen computerlinguistischer Methoden auf klassische KW-Fragestellungen

treten aber häufig Zielkonflikte zwischen den beteiligten Disziplinen auf.

Während für das NLP die Optimierung der verwendeten Classifier, Adapter, Modelle und/oder

Rechenzeiten im Fokus steht, ist für KW die Anwendbarkeit und Performance auf realen

Mediendaten entscheidend. Der geplante Beitrag adressiert diesen Zielkonflikt, seine Folgen

und Lösungsmöglichkeiten mit Blick auf die Erfassung von Positionen und Frames in

Medientexten am Beispiel der deutschen Debatte zu Waffenlieferungen an die Ukraine.

Bias in LLM-Based Classification – Limits in Detecting Various Incivility Towards Female Politicians on Social Media

Anke Stoll, Aliya Andrich, Jingyuan Yu, Emese Domahidi

Technische Universität Ilmenau, Deutschland

In this study, we investigate whether state-of-the-art large language models (LLMs) show biases in the automated classification of uncivil language in online discussions. To this end, we evaluate current LLMs-based approaches regarding their capability of identifying multiple forms of uncivil utterances on the use case of user comments posted to female politicians on social media. If distinct forms of incivility are not recognized equally well, the application of LLMs could undermine the visibility of different social groups in online discussions and research data. In our study, we compare different LLMs models as well as different training approaches, including established fine-tuning pipelines and few-shot learning. Results show that even current, significantly more powerful LLMs suffer from severe prediction bias caused by class distribution. These findings suggest that modern LLM-based approaches are not sufficiently able to detect infrequent cases of incivility but focus on prevalent examples in the training data.

Der Einfluss von Prompt-Strategien auf die Qualität und Konsistenz von LLM-Codierungen: Ein Kochbuch für Mistral

Andreas Reich, Claudia Thoms, Tobias Schrimpf

Universität Hohenheim, Deutschland

Quantitative Inhaltsanalysen sind fester Bestandteil des kommunikationswissenschaftlichen Methodenrepertoires. Jedoch sind mit ihnen zumeist ein hoher Arbeits-, Personal- und Zeitaufwand verbunden. Large Language Models (LLMs) stellen in diesem Kontext vielversprechende Tools dar, die vorgegebene Texte verarbeiten und neue Texte generieren können. Aufgrund dieser Eigenschaften können sie zur Unterstützung oder Erweiterung manueller Codierungen eingesetzt werden. Basierend auf 586.400 Anfragen an das LLM Mistral zeigen wir, welche Rolle theoretisch hergeleitete Prompt-Strategien für die Qualität LLM-basierter Codierungen haben. In unserer Studie konnten wir erste Erkenntnisse über die Konsistenz des LLMs und unterschiedlicher Prompt-Strategien gewinnen. Außerdem konnten wir Kenntnisse über förderliche und hinderliche Prompt-Strategien ermitteln. Indem wir Antworten auf diese beiden Fragen liefern, schaffen wir die Basis für fundierte Empfehlungen, die einen möglichst wirksamen Einsatz von LLMs zur Codierung ermöglichen.

Evaluating Large Language Models: A Systematic Review of Quality Assurance Practices in Computational Social Sciences

Fiarra Pudritzki, Steffen Kolb

HTW Berlin, Deutschland

Large Language Models (LLMs) in Computational Social Sciences (CSS) offer significant benefits due to their speed, cost-effectiveness, and broad applicability, but they also present challenges such as issues with data integrity and the lack of standardized quality assurance measures.

This study aims to establish a baseline for model validation by conducting a systematic review of current quality measurement practices in CSS, focusing on identifying gaps in quality assurance and proposing methodological standards for the use of LLMs.

Through a detailed analysis of the most cited journals since January 2020, the research will assess the implementation of various quality criteria such as accuracy and the F1 Score, and explore the impact of prompt design on LLM performance, aiming to enhance reliability and transparency in the field.

Veranstaltungsprogramm