Potentials of topic modeling and sentiment analysis for datadriven persona generation

  • Understanding user behaviors and preferences is crucial in today’s digital landscape, driving the need for automated persona generation. This thesis explores the potential of topic modeling and sentiment analysis to enhance data-driven persona creation. Analyzing a corpus of 676,000 tweets from 6,760 Twitter users (now x.com1), the study applies BERTopic for topic modeling and VADER for sentiment analysis to identify distinct themes and emotional tendencies in usergenerated content. A key finding is the significant impact of pre-processing, which improves topic coherence andinterpretability, contradicting claims that BERTopic performs equally well on raw data. The results indicate that bots predominantly generate neutral, task-oriented content, while humanusers – particularly female users – express more varied and emotionally rich sentiment.Integrating topic modeling and sentiment analysis enables multidimensional persona creationby combining thematic interests with emotional characteristics, emphasizing the value of author profiling in data-driven persona generation.This thesis highlights the potential of text mining techniques in persona creation while acknowledging challenges such as sentiment misclassification and the differentiation between bots and humans. Moreover, the findings highlight the need for structured datasets to enhance large language model-based persona descriptions, ensuring greater accuracy and coherence.Future research should explore alternative machine learning models, refine clustering methods, and assess cross-platform applicability. The combination of topic modeling and sentiment analysis offers promising opportunities for automating persona generation, enhancing e.g.,targeted marketing, and improving social media analysis.
  • Das Verständnis von Nutzerverhalten und -präferenzen ist in der heutigen digitalen Landschaft von entscheidender Bedeutung und erhöht den Bedarf an automatisierter Persona-Erstellung. Diese Arbeit untersucht das Potenzial von Topic Modeling und Sentiment Analysis zur Verbesserung der datengesteuerten Persona-Generierung. Die Arbeit analysiert ein Korpus von 676.000 Tweets von insgesamt 6.760 Twitter-Nutzerinnen und -Nutzern (heute x.com2) und wendet BERTopic für das Topic Modeling und VADER für die Sentiment Analyse an, um bestimmte Themen und emotionale Tendenzen in nutzergenerierten Inhalten zu identifizieren. Ein zentrales Ergebnis ist die signifikante Auswirkung der Datenvorverarbeitung (Pre-Processing), die die Kohärenz und Interpretierbarkeit der Topics verbessert. Dies widerspricht der Behauptung, dass BERTopic mit Rohdaten ebenso effektiv arbeitet wie mit vorverarbeiteten Daten. Die Ergebnisse zeigen, dass Bots überwiegend neutrale, aufgabenorientierte Inhalte generieren, während menschliche Nutzer – insbesondere weibliche Nutzerinnen – eine vielfältigere und emotionalere Ausdrucksweise aufweisen. Die Kombination von Topic Modeling und Sentiment Analysis ermöglicht die Erstellung multidimensionaler Personas, die sowohl thematische Interessen als auch emotionale Merkmale erfassen und unterstreicht den Wert des Author-Profilings bei der datengesteuerten Persona-Erstellung. Diese Arbeit unterstreicht das Potenzial von Textmining-Techniken bei der Erstellung von Personas, wobei Herausforderungen wie die Fehlklassifizierung von Emotionen oder die Schwierigkeit der Unterscheidung zwischen Bots und menschlichen Nutzerinnen und Nutzern berücksichtigt werden. Darüber hinaus unterstreichen die Ergebnisse den Bedarf an strukturierten Datensätzen, um Large-Language-Model-basierte Persona-Beschreibungen zu verbessern und eine größere Genauigkeit und Kohärenz zu gewährleisten. Zukünftige Forschungen sollten alternative Machine-Learning-Modelle untersuchen, Clustering-Methoden verfeinern und die plattformübergreifende Anwendbarkeit bewerten. Die Kombination von Topic Modeling und Sentiment Analysis bietet vielversprechende Möglichkeiten zur Automatisierung der Persona-Generierung, unter anderem zur Verbesserung von zielgerichtetem Marketing sowie zur Optimierung von Social-Media-Analysen.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author(s):Caroline Spielhofer
DOI:https://doi.org/10.58023/1156
Document Type:Master's Thesis
Language:English
Year of Publication:2025
Publishing Institution:FH CAMPUS 02 (CAMPUS 02 Fachhochschule der Wirtschaft)
Granting Institution:FH CAMPUS 02 (CAMPUS 02 Fachhochschule der Wirtschaft)
Release Date:2025/06/30
GND Keyword:PersonaGND
Page Number:VI, 78
Institutes:Informationstechnologien & Wirtschaftsinformatik
Dewey Decimal Classification:6 Technik, Medizin, angewandte Wissenschaften / 65 Management, Öffentlichkeitsarbeit / 658 Allgemeines Management
BKL-Classification:85 Betriebswirtschaft / 85.40 Marketing
Open Access:ja
Licence (German):License LogoBundesgesetz über das Urheberrecht an Werken der Literatur und der Kunst und über verwandte Schutzrechte (Urheberrechtsgesetz)

$Rev$