Anomaly Detection in Financial Data by Using Machine Learning Methods

Morozov, Ivan

DC Element	Wert	Sprache
dc.contributor.advisor	von Luck, Kai	-
dc.contributor.author	Morozov, Ivan
dc.date.accessioned	2020-09-29T13:27:54Z	-
dc.date.available	2020-09-29T13:27:54Z	-
dc.date.created	2016
dc.date.issued	2016-06-10
dc.identifier.uri	http://hdl.handle.net/20.500.12738/7363	-
dc.description.abstract	The instant online issuing of micro-loans is a modern credit lending business solution. It is based on a machine learning algorithm that automatically scores loan applications. It is not uncommon that some malicious persons try to bypass the system and get a loan. This thesis aims to utilize advanced machine learning methods to predict possible fraud on data collected during the credit-application process. Fraudulent/anomalous cases are by definition rare, thus, the machine learning methods discussed in this thesis are based on discriminating fraudsters by using only positive (good customers that repay loans) and unlabeled (customers with a still unknown repayment status) data. A brief analysis of the underlying data is performed and several characteristics and issues like the high amount of missing values are discussed. Three machine learning algorithms able to learn only from positive and unlabeled data are introduced. The one-class Support Vector Machine (SVM) uses only positive instances in contrast to Positive and Unlabeled Learning (PUL) and PUL Ensemble, where both - positive and unlabeled data are used. An experiment that utilizes the preprocessing operations and the machine learning algorithms showed that a one-class SVM can deliver a promising fraud detection rate but at the expense of a large number of trustworthy applicants being misclassified; PUL significantly decreases the false negative rate but failed to detect more fraud cases, whereas a PUL ensemble achieves a zero false negative rate while driving the fraud detection rate to about 73%. In addition, a positive effect of the preprocessing pipeline and a negative impact of Principal Component Analysis is discovered. Finally, a business value of deploying a PUL ensemble as a part of credit scoring system is calculated for a given test set. The thesis came to the conclusion that a successful fraud detection is possible even when fraud cases are rare or unavailable.	en
dc.description.abstract	Die vergabe von Sofort-Krediten online ist eine moderne Business-Lösung. Ein Algorithmus basierend auf der Theorie vom maschinellen lernen entscheidet, ob ein Kredit vergeben wird oder nicht. Es ist nicht unüblich, dass Personen mit betrügerischen Absichten versuchen, das System zu umgehen - mit dem Ziel, einen Kredit zu bekommen. Diese Arbeit hat das Ziel, Methoden des maschinellen Lernens zu nutzen, um mögliche Betrugsfälle prognostizieren zu können. Die dafür verwendeten Daten werden während des Kreditantragsverfahrens gesammelt. Betrugs- bzw. anomale Fälle sind selten, so verwenden die Methoden in dieser Arbeit nur positive (Kunden die Kredite zurückzahlen) und unmarkierte (Kunden mit einem unbekannten Status der Rückzahlung) Daten um Betrugsfälle zu identifizieren. Eine Analyse der zugrunde liegenden Daten wurde durchführt und diverse Merkmale und Probleme wie z. B. die hohe Anzahl von fehlenden Daten wird diskutiert. Drei Maschinen-Lern-Algorithmen werden vorgestellt. Die one-class SVM verwendet nur positive Instanzen im Gegensatz zu Positive and Unlabeled Learning (PUL) und PUL Ensemble, wo beide - sowohl positive als auch unmarkierte - Daten verwendet werden. Ein Experiment unter der Verwendung von Vorverarbeitungsoperationen und der diskutierten Algorithmen wurde durchgeführt. Dieser zeigte eine viel versprechende Betrugserkennungsrate bei der Verwendung von one-class SVM auf Kosten einer großen Anzahl von vertrauenswürdigen Bewerbern, die als Betrüger klassifiziert wurden. PUL verringerte die Anzahl der falsch vorhergesagten Rückzahler, während ein PUL Ensemble alle vertrauenswürdigen Bewerber richtig klassifizierte und die Betrugserkennungsrate auf etwa 73% brachte. Zusätzlich wurde ein positiver Effekt der Vorverarbeitung von Daten und eine negative Auswirkung der Hauptkomponentenanalyse entdeckt. Schließlich wurde der mögliche Effekt von PUL-Ensemble als ein Teil des Kredit-Scoring- systems berechnet. Die Arbeit kommt zu dem Schluss, dass eine erfolgreiche Betrugserkennung auch ohne die Verwendung bereits dokumentierter Betrugsfälle möglich ist.	de
dc.language.iso	en	en
dc.rights.uri	http://rightsstatements.org/vocab/InC/1.0/	-
dc.subject.ddc	600 Technik
dc.title	Anomaly Detection in Financial Data by Using Machine Learning Methods	en
dc.type	Thesis
openaire.rights	info:eu-repo/semantics/openAccess
thesis.grantor.department	Department Informatik
thesis.grantor.place	Hamburg
thesis.grantor.universityOrInstitution	Hochschule für angewandte Wissenschaften Hamburg
tuhh.contributor.referee	Schoeneberg, Klaus-Peter	-
tuhh.gvk.ppn	860855775
tuhh.identifier.urn	urn:nbn:de:gbv:18302-reposit-73654	-
tuhh.note.extern	publ-mit-pod
tuhh.note.intern	1
tuhh.oai.show	true	en_US
tuhh.opus.id	3342
tuhh.publication.institute	Department Informatik
tuhh.type.opus	Bachelor Thesis	-
dc.subject.gnd	Maschinelles Lernen
dc.type.casrai	Supervised Student Publication	-
dc.type.dini	bachelorThesis	-
dc.type.driver	bachelorThesis	-
dc.type.status	info:eu-repo/semantics/publishedVersion
dc.type.thesis	bachelorThesis
dcterms.DCMIType	Text	-
tuhh.dnb.status	domain	-
item.advisorGND	von Luck, Kai	-
item.creatorGND	Morozov, Ivan	-
item.creatorOrcid	Morozov, Ivan	-
item.grantfulltext	open	-
item.languageiso639-1	en	-
item.openairecristype	http://purl.org/coar/resource_type/c_46ec	-
item.openairetype	Thesis	-
item.fulltext	With Fulltext	-
item.cerifentitytype	Publications	-
Enthalten in den Sammlungen:	Theses