Entwicklung einer cloudbasierten KI-Lösung zur Analyse von Audiosignalen

  • Künstliche Intelligenz (KI) und Cloud-Computing sind treibende Kräfte der digitalen Transformation und Erfolgsfaktoren für eine nachhaltige Wettbewerbsfähigkeit. Insbesondere der Bereich der KI-basierten Audiosignalverarbeitung weist ein hohes Potential zur Fehlererkennung von Maschinen und Anlagen auf. Jedoch scheitert die Umsetzung von KI-Projekten oftmals bereits vor Projektstart aufgrund fehlender Fachkenntnisse der Unternehmen. Das Ziel dieser Masterarbeit ist zu zeigen, wie KI-basierte Audioklassifizierungssysteme unter Verwendung von Cloud-Services implementiert werden können. Zu diesem Zweck werden die einzelnen Phasen eines KI-Projektes, von der Datenanalyse bis hin zur Bereitstellung eines fertig trainierten Modells in der Cloud-Umgebung, betrachtet. Frühere Arbeiten haben gezeigt, dass State-of-the-Art-Audioklassifizierungs-systeme auf Konzepten wie der Fourier-Analyse, Convolutional Neural Networks (CNN) und Recurrent Neural Networks (RNN) basieren. Anhand dieser Methoden wurden insgesamt 33 Klassifizierungsmodelle mittels Python, PyTorch und der cloudbasierten Plattform Google Vertex AI implementiert, trainiert und verglichen. Aufgrund der dynamischen Charakteristik der Audiodateien, wurde dazu ein komplexer Datensatz der Plattform Kaggle als Entwicklungsgrundlage verwendet (BirdCLEF2022). Das ausgewählte Modell wurde hinsichtlich der Vorhersagegenauigkeit optimiert und auf Vertex AI zur Beantwortung von Vorhersageanfragen veröffentlicht. Dabei konnte ein auf der CNN-Architektur basierendes Klassifizierungsmodell entwickelt werden, das neun unterschiedliche Klassen mit einer Vorhersagegenauigkeit von 80,4 % klassifiziert. Weitere Ideen zur Verbesserung des Ergebnisses konnten vorgestellt werden, wodurch bewiesen wird, dass schwierige Daten mit einer Vorhersagegenauigkeit von über 90 % klassifiziert werden können. Diese Masterarbeit zeigt, wie ein KI-basiertes Audioklassifizierungssystem unter Verwendung verschiedener Cloud-Dienste und State-of-the-Art-Deep-Learning-Methoden, entwickelt werden kann.
  • Artificial intelligence (AI) and cloud computing are driving forces of digital transformation and a success factor in sustainable competitiveness. In particular, the field of AI-based audio signal processing displays considerable potential with regard to error detection in machines and systems. However, the implementation of AI projects often fails before the projects commence due to a lack of expertise. The aim of this master’s thesis is to demonstrate how AI-based audio classification systems can be implemented using cloud services. For this purpose, the individual phases of an AI project are considered, ranging from data analysis to the deployment of a fully trained model in the cloud environment. Previous work has shown that state-of-the-art audio classification systems are based on concepts such as Fourier analysis, convolutional neural networks (CNN) and recurrent neural networks (RNN). Using these methods, a total of 33 different classification models were implemented, trained and compared using Python, PyTorch and the cloud-based platform Google Vertex AI. Due to the dynamic characteristics of the audio files, a complex dataset from the Kaggle platform was used as the basis for development (BirdCLEF2022). The chosen model was optimized in terms of prediction accuracy and published on Vertex AI to answer prediction queries. Ultimately a classification model based on the CNN architecture was developed that classifies nine different classes with a prediction accuracy of 80.4 %. Further ideas for additional improvement of the classification results were able to be presented, which proves that difficult data can be classified with a prediction accuracy above 90 %. This master’s thesis demonstrates how an AI-based audio classification system can be developed by using various cloud services and state-of-the-art deep learning methods.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author(s):Daniel Schwaiger
DOI:https://doi.org/10.58023/150
Referee:Dieter LutzmayrGND
Advisor:Dieter Lutzmayr
Document Type:Master's Thesis
Language:German
Year of Publication:2022
Publishing Institution:FH CAMPUS 02 (CAMPUS 02 Fachhochschule der Wirtschaft)
Granting Institution:FH CAMPUS 02 (CAMPUS 02 Fachhochschule der Wirtschaft)
Release Date:2024/05/10
GND Keyword:Akustisches Signal
Page Number:ii, 112
Institutes:Automatisierungstechnik-Wirtschaft
Dewey Decimal Classification:6 Technik, Medizin, angewandte Wissenschaften / 62 Ingenieurwissenschaften / 621 Angewandte Physik
BKL-Classification:53 Elektrotechnik / 53.83 Überwachungstechnik, Leittechnik
Open Access:ja
Licence (German):License LogoBundesgesetz über das Urheberrecht an Werken der Literatur und der Kunst und über verwandte Schutzrechte (Urheberrechtsgesetz)