Im Rahmen meines Masterstudiums „Embedded Systems“ an der Lucian-Blaga-Universität Hermannstadt ist folgende Präsentation zusammen mit einer Java-Anwendung entstanden:
Text Klassizierung für deutsche und rumänische Texte
Professor: Prof. Dr. Ing. Daniel Volovici, Sef L. Dr. Radu Crețelescu, Conf. Dr. Ing. Daniel Morariu
Kurs: Machine Learning
Basierend auf dem Labor-Projekt der Advanced Group „Text Document Classification using Naïve Bayes“, sollte eine Anwendung entstehen, die deutsche und rumänische Texte klassifizieren kann. Im Labor wurde ein spezieller Datensatz mit englischen Texten verwendet, der von Reuters zur Verfügung gestellt wurde. Da es einen gleichwertige Datensatz für deutsche und rumänische Texte nicht gibt, habe ich Wikipedia-Einträge verwendet. Diese sind eindeutig klassifiziert, besitzen eine durchgängige Struktur und sind auf Deutsch und Rumänisch in großer Zahl verfügbar. Meine Ergebnisse finden Sie in der Präsentation unten, den Quellcode auf GitHub.
Download:
- Präsentation (PDF): TextClassification
- Quellcode: GitHub-Repository
Lizenz:
Die Präsentation „Text Classification“ von Stefan Feilmeier ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz.