Supervised Machine Learning Methods for Classification

Machachane, Olímpio

Title:	Supervised Machine Learning Methods for Classification
Language:	English
Authors:	Machachane, Olímpio
Keywords:	Künstliche Intelligenz; Maschinelles Lernen; Tiefes Lernen; Data Mining; Überwachtes Lernen; Unbeaufsichtigtes Lernen; Halbüberwachtes Lernen; Verstärkungslernen; Künstliche neurale Netzwerke; Artificial Intelligence; K-nearest Neighbours; Decision Trees; Support Vector Machines
Issue Date:	12-Jun-2020
Abstract:	Diese These befasst sich mit der Rolle von Methoden des überwachten maschinellen Lernens für die Klassifikationserstellung. Diese ist ein wichtiges Teilgebiet der Umgebung des maschinellen Lernens und ein gutes Beispiel dafür, dass die Informatik mit den verschiedensten wissenschaftlichen Bereichen konvergiert, wodurch sich feststellen lassen kann, dass sie sich mit fast allen Wissenschaften fusionieren lässt. Im Wesentlichen werden die Grundlagen des maschinellen Lernens behandelt, wobei ähnliche Themen wie künstliche Intelligenz, mehrschichtiges Lernen und Data-Mining verglichen werden, um den Leser zu situieren und einige wichtige Konzepte zu veranschaulichen. Die Arbeit beinhaltet außerdem eine Auseinandersetzung mit der Entstehung verschiedener Arten von Systemen des maschinellen Lernens, wie z.B. beaufsichtigtes Lernen, unbeaufsichtigtes Lernen, halbbeaufsichtigtes Lernen, Klassifikation und Regression. Abschließend werden die Grundlagen des maschinellen Lernens besprochen, wobei Algorithmen des überwachten Lernens wie k-Nearest Neighbours, lineare Regression, logistische Regression, Support Vector Machines (SVMs), Entscheidungsbäume und Random-Forests, Naive Bayes und neuronale Netzwerke behandelt werden. Die Fallstudie enthält die Implementierung eines Textklassifizierungssystems (ein System, das ein vordefiniertes Thema, Tag oder eine Kategorie eines Textdatensatzes auf der Grundlage seines Inhalts zuweist) mit einigen verschiedenen überwachten Klassifizierungstechniken unter Verwendung des Scikit-Learn-Rahmens. Der Studienzweck dieser Diplomarbeit umfasst eine Aufbereitung der Schritte des maschinellen Lernprozesses von der Datenerfassung bis zur Klassifikation oder Vorhersage. Das Ziel dieser Untersuchungen besteht darin, verschiedene überwachte Klassifizierungstechniken zu vergleichen, zu analysieren und die Vor- und Nachteile, beziehungsweiße Stärken und Schwächen, dieser Techniken in deren spezifischen Situationen zu identifizieren. Das Ziel dieser Arbeit besteht darin, einen Beitrag zur Entwicklung des maschinellen Lernens als Wissenschaft zu leisten, die Wichtigkeit der Klassifikationsmodelle hervorzuheben und die Diskussion über maschinelles Lernen fortzusetzen, indem eine mögliche Anwendung von überwachten maschinellen Lernverfahren zur Klassifikation unter Verwendung verschiedener überwachter Algorithmen vorgestellt wird. This thesis approaches the role of Supervised Machine Learning Methods for Classification which is an important fragment of the machine learning environment and a good example of the computer science convergence with various other fields, since it is fairly acceptable to risk to say that it can be fused with almost all the sciences. Essentially, it covers the basics of the machine learning world briefly comparing similar topics such as Artificial Intelligence, Deep Learning, and Data Mining to situate the reader and clarify some important concepts. It also includes the discussion of the genesis of different types of machine learning systems such as Supervised Learning, Unsupervised Learning, Semi-supervised Learning, Classification and Regression. It ends the basics of machine learning covering Supervised Learning algorithms such as k-Nearest Neighbours, Linear Regression, Logistic Regression, Support Vector Machines (SVMs), Decision Trees and Random Forests, Naive Bayes and Neural Networks. The case study contains the implementation of a Text Classification system (a system that assigns a predefined topic, tag or category of a text dataset based on its content) with some different Supervised Classification techniques using the Scikit-Learn framework. For learning purposes, it covers the steps of Machine Learning process from Gathering Data to the Classification or Prediction. The main purpose of this study is to compare and analyse different supervised classification techniques and identify the advantages and disadvantages, strengths and weaknesses for each of them in a specific situation. The main purposes of this thesis are to contribute in the development of the Machine Learning as a science, highlight the importance of the classification models, and continue the machine learning discussion, showing a possible application of supervised machine learning methods for classification using distinct supervised algorithms.
URI:	https://hdl.handle.net/20.500.12738/16211
Institute:	Department Informatik Fakultät Technik und Informatik
Type:	Thesis
Thesis type:	Bachelor Thesis
Advisor:	Zukunft, Olaf
Referee:	Dai, Zhen Ru
Appears in Collections:	Theses