Sitzung | ||
Evaluation of LLMs
| ||
Präsentationen | ||
Classifying the needle in the haystack? Problemstellungen beim Einsatz von Argument-Mining für kommunikationswissenschaftliche Fragestellungen am Beispiel der Waffenlieferungsdebatte 1Universität Hamburg, Deutschland; 2Universität Dortmund, Deutschland; 3Leibniz-Institut für Medienforschung Hans-Bredow Institut, Deutschland; 4Universität Jena, Deutschland Angesichts der rasanten Fortschritte im Natural Language Processing (NLP) durch den Einsatz von transformerbasierten, vortrainierten Sprachmodellen wendet sich die Kommunikationswissenschaft (KW) verstärkt diesen Methoden zu (siehe z.B. Eisele et al. 2023). Beim Übertragen computerlinguistischer Methoden auf klassische KW-Fragestellungen treten aber häufig Zielkonflikte zwischen den beteiligten Disziplinen auf. Während für das NLP die Optimierung der verwendeten Classifier, Adapter, Modelle und/oder Rechenzeiten im Fokus steht, ist für KW die Anwendbarkeit und Performance auf realen Mediendaten entscheidend. Der geplante Beitrag adressiert diesen Zielkonflikt, seine Folgen und Lösungsmöglichkeiten mit Blick auf die Erfassung von Positionen und Frames in Medientexten am Beispiel der deutschen Debatte zu Waffenlieferungen an die Ukraine. Bias in LLM-Based Classification – Limits in Detecting Various Incivility Towards Female Politicians on Social Media Technische Universität Ilmenau, Deutschland In this study, we investigate whether state-of-the-art large language models (LLMs) show biases in the automated classification of uncivil language in online discussions. To this end, we evaluate current LLMs-based approaches regarding their capability of identifying multiple forms of uncivil utterances on the use case of user comments posted to female politicians on social media. If distinct forms of incivility are not recognized equally well, the application of LLMs could undermine the visibility of different social groups in online discussions and research data. In our study, we compare different LLMs models as well as different training approaches, including established fine-tuning pipelines and few-shot learning. Results show that even current, significantly more powerful LLMs suffer from severe prediction bias caused by class distribution. These findings suggest that modern LLM-based approaches are not sufficiently able to detect infrequent cases of incivility but focus on prevalent examples in the training data. Der Einfluss von Prompt-Strategien auf die Qualität und Konsistenz von LLM-Codierungen: Ein Kochbuch für Mistral Universität Hohenheim, Deutschland Quantitative Inhaltsanalysen sind fester Bestandteil des kommunikationswissenschaftlichen Methodenrepertoires. Jedoch sind mit ihnen zumeist ein hoher Arbeits-, Personal- und Zeitaufwand verbunden. Large Language Models (LLMs) stellen in diesem Kontext vielversprechende Tools dar, die vorgegebene Texte verarbeiten und neue Texte generieren können. Aufgrund dieser Eigenschaften können sie zur Unterstützung oder Erweiterung manueller Codierungen eingesetzt werden. Basierend auf 586.400 Anfragen an das LLM Mistral zeigen wir, welche Rolle theoretisch hergeleitete Prompt-Strategien für die Qualität LLM-basierter Codierungen haben. In unserer Studie konnten wir erste Erkenntnisse über die Konsistenz des LLMs und unterschiedlicher Prompt-Strategien gewinnen. Außerdem konnten wir Kenntnisse über förderliche und hinderliche Prompt-Strategien ermitteln. Indem wir Antworten auf diese beiden Fragen liefern, schaffen wir die Basis für fundierte Empfehlungen, die einen möglichst wirksamen Einsatz von LLMs zur Codierung ermöglichen. Evaluating Large Language Models: A Systematic Review of Quality Assurance Practices in Computational Social Sciences HTW Berlin, Deutschland Large Language Models (LLMs) in Computational Social Sciences (CSS) offer significant benefits due to their speed, cost-effectiveness, and broad applicability, but they also present challenges such as issues with data integrity and the lack of standardized quality assurance measures. This study aims to establish a baseline for model validation by conducting a systematic review of current quality measurement practices in CSS, focusing on identifying gaps in quality assurance and proposing methodological standards for the use of LLMs. Through a detailed analysis of the most cited journals since January 2020, the research will assess the implementation of various quality criteria such as accuracy and the F1 Score, and explore the impact of prompt design on LLM performance, aiming to enhance reliability and transparency in the field. |