Albanian Social Media Sentiment: A Machine Learning Perspective
- Natural Language Processing (NLP) plays a significant role in enabling machines to understand, interpret, and produce human language across an array of tasks and domains. For low-resource languages, the development of feasible NLP solutions remains a challenge in the absence of large annotated datasets and linguistic infrastructure.The research presented in the thesis contributes to addressing this gap through the evaluation of Albanian language sentiment analysis on social media data. The main objective is the evaluation of the ability of cross-lingual pre-trained transformer models, mBERT, XLM-R, and mT5, to be adapted by fine-tuning for sentiment classification (classification of an input text into positive, negative, or neutral sentiment). Two fine-tuning approaches are evaluated: full (vanilla) and Low-Rank Adaptation (LoRA). The models are fine-tuned and tested on a manually annotated dataset for Albanian that contains expressions typical of social media interactions (i.e., code-switched linguistics, emoticon usage, repeated letter words, etc.) It was shown that the highest generalization potential of the language was achieved by XLM-R, which consistently performed higher across metrics such as F1-score and overall accuracy. mBERT followed closely in performance, while mT5, likely due to its generative architecture, yielded comparatively lower results than its encoder-based counterparts. On the other hand, LoRA demonstrated faster training ability with a notable drop in classification performance against the vanilla counterpart, emphasizing the significant trade-off for the usage of the strategy. With the results presented in this study, the thesis provides a basis for different fine-tuning strategies for three key pre-trained transformer-based models, which can inform future research on low-resource language modelling (specifically in the Albanian language) and domain-specific adaptation.
- Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) spielt eine wichtige Rolle, wenn es darum geht, Maschinen in die Lage zu versetzen, menschliche Sprache in einer Vielzahl von Aufgaben und Bereichen zu verstehen, zu interpretieren und selbst zu erzeugen. Für ressourcenarme Sprachen („low-resource languages“) stellt die Entwicklung praktikabler NLP-Lösungen nach wie vor eine Herausforderung dar, da keine ausreichend großen annotierten Datensätze und keine linguistische Infrastruktur vorhanden sind. Die in dieser Arbeit vorgestellte Forschung trägt dazu bei, diese Lücke durch die Evaluierung der albanischen Stimmungsanalyse auf Social Media-Daten zu schließen. Das Hauptziel ist die Evaluierung der Fähigkeit von sprachübergreifenden, vortrainierten Transformer-Modellen, mBERT, XLM-R und mT5, durch Fine-Tuning für die Sentiment-Klassifizierung (Einstufung eines Textes als positiv, negativ oder neutral) angepasst zu werden. Dabei werden zwei Feinabstimmungsansätze evaluiert: vollständige (Vanilla) und Low-Rank-Adaptation (LoRA). Die Modelle werden an einem manuell annotierten Datensatz für Albanisch getestet, der Ausdrücke enthält, die für Interaktionen in sozialen Medien typisch sind (z. B. Code-Switching, Verwendung von Emoticons, wiederholte Buchstabenwörter usw.). Die Ergebnisse zeigen, dass das höchste Generalisierungspotenzial der albanischen Sprache von XLM-R erreicht wurde, das bei Metriken wie dem F1-Score und der Gesamtgenauigkeit durchgängig besser abschnitt. mBERT folgte in der Leistung dicht dahinter, während mT5 - wahrscheinlich aufgrund seiner generativen Architektur - vergleichsweise niedrigere Ergebnisse als seine encoder - based Gegenstücke lieferte. Auf der anderen Seite zeigte LoRA eine schnellere Trainingsfähigkeit mit einem deutlichen Rückgang der Klassifizierungsleistung im Vergleich zum Vanilla-Pendant, was den erheblichen Kompromiss in Bezug auf Trainingseffizienz und Performance bei der Verwendung der Strategie unterstreicht. Mit den in dieser Arbeit gewonnenen Ergebnissen wird eine Grundlage zur Bewertung verschiedener Fine-Tuning-Strategien dreier Schlüsselmodelle geschaffen, die zukünftige Forschung im Bereich der Sprachmodellierung für gering ausgestattete Sprachen (insbesondere Albanisch) sowie domänenspezifischer Adaptionen unterstützen kann.