Fulltext available Open Access
DC FieldValueLanguage
dc.contributor.advisorvon Luck, Kai-
dc.contributor.authorMorozov, Ivan
dc.date.accessioned2020-09-29T13:27:54Z-
dc.date.available2020-09-29T13:27:54Z-
dc.date.created2016
dc.date.issued2016-06-10
dc.identifier.urihttp://hdl.handle.net/20.500.12738/7363-
dc.description.abstractThe instant online issuing of micro-loans is a modern credit lending business solution. It is based on a machine learning algorithm that automatically scores loan applications. It is not uncommon that some malicious persons try to bypass the system and get a loan. This thesis aims to utilize advanced machine learning methods to predict possible fraud on data collected during the credit-application process. Fraudulent/anomalous cases are by definition rare, thus, the machine learning methods discussed in this thesis are based on discriminating fraudsters by using only positive (good customers that repay loans) and unlabeled (customers with a still unknown repayment status) data. A brief analysis of the underlying data is performed and several characteristics and issues like the high amount of missing values are discussed. Three machine learning algorithms able to learn only from positive and unlabeled data are introduced. The one-class Support Vector Machine (SVM) uses only positive instances in contrast to Positive and Unlabeled Learning (PUL) and PUL Ensemble, where both - positive and unlabeled data are used. An experiment that utilizes the preprocessing operations and the machine learning algorithms showed that a one-class SVM can deliver a promising fraud detection rate but at the expense of a large number of trustworthy applicants being misclassified; PUL significantly decreases the false negative rate but failed to detect more fraud cases, whereas a PUL ensemble achieves a zero false negative rate while driving the fraud detection rate to about 73%. In addition, a positive effect of the preprocessing pipeline and a negative impact of Principal Component Analysis is discovered. Finally, a business value of deploying a PUL ensemble as a part of credit scoring system is calculated for a given test set. The thesis came to the conclusion that a successful fraud detection is possible even when fraud cases are rare or unavailable.en
dc.description.abstractDie vergabe von Sofort-Krediten online ist eine moderne Business-Lösung. Ein Algorithmus basierend auf der Theorie vom maschinellen lernen entscheidet, ob ein Kredit vergeben wird oder nicht. Es ist nicht unüblich, dass Personen mit betrügerischen Absichten versuchen, das System zu umgehen - mit dem Ziel, einen Kredit zu bekommen. Diese Arbeit hat das Ziel, Methoden des maschinellen Lernens zu nutzen, um mögliche Betrugsfälle prognostizieren zu können. Die dafür verwendeten Daten werden während des Kreditantragsverfahrens gesammelt. Betrugs- bzw. anomale Fälle sind selten, so verwenden die Methoden in dieser Arbeit nur positive (Kunden die Kredite zurückzahlen) und unmarkierte (Kunden mit einem unbekannten Status der Rückzahlung) Daten um Betrugsfälle zu identifizieren. Eine Analyse der zugrunde liegenden Daten wurde durchführt und diverse Merkmale und Probleme wie z. B. die hohe Anzahl von fehlenden Daten wird diskutiert. Drei Maschinen-Lern-Algorithmen werden vorgestellt. Die one-class SVM verwendet nur positive Instanzen im Gegensatz zu Positive and Unlabeled Learning (PUL) und PUL Ensemble, wo beide - sowohl positive als auch unmarkierte - Daten verwendet werden. Ein Experiment unter der Verwendung von Vorverarbeitungsoperationen und der diskutierten Algorithmen wurde durchgeführt. Dieser zeigte eine viel versprechende Betrugserkennungsrate bei der Verwendung von one-class SVM auf Kosten einer großen Anzahl von vertrauenswürdigen Bewerbern, die als Betrüger klassifiziert wurden. PUL verringerte die Anzahl der falsch vorhergesagten Rückzahler, während ein PUL Ensemble alle vertrauenswürdigen Bewerber richtig klassifizierte und die Betrugserkennungsrate auf etwa 73% brachte. Zusätzlich wurde ein positiver Effekt der Vorverarbeitung von Daten und eine negative Auswirkung der Hauptkomponentenanalyse entdeckt. Schließlich wurde der mögliche Effekt von PUL-Ensemble als ein Teil des Kredit-Scoring- systems berechnet. Die Arbeit kommt zu dem Schluss, dass eine erfolgreiche Betrugserkennung auch ohne die Verwendung bereits dokumentierter Betrugsfälle möglich ist.de
dc.language.isoenen
dc.rights.urihttp://rightsstatements.org/vocab/InC/1.0/-
dc.subject.ddc600 Technik
dc.titleAnomaly Detection in Financial Data by Using Machine Learning Methodsen
dc.typeThesis
openaire.rightsinfo:eu-repo/semantics/openAccess
thesis.grantor.departmentDepartment Informatik
thesis.grantor.placeHamburg
thesis.grantor.universityOrInstitutionHochschule für angewandte Wissenschaften Hamburg
tuhh.contributor.refereeSchoeneberg, Klaus-Peter-
tuhh.gvk.ppn860855775
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-73654-
tuhh.note.externpubl-mit-pod
tuhh.note.intern1
tuhh.oai.showtrueen_US
tuhh.opus.id3342
tuhh.publication.instituteDepartment Informatik
tuhh.type.opusBachelor Thesis-
dc.subject.gndMaschinelles Lernen
dc.type.casraiSupervised Student Publication-
dc.type.dinibachelorThesis-
dc.type.driverbachelorThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersion
dc.type.thesisbachelorThesis
dcterms.DCMITypeText-
tuhh.dnb.statusdomain-
item.creatorGNDMorozov, Ivan-
item.fulltextWith Fulltext-
item.creatorOrcidMorozov, Ivan-
item.grantfulltextopen-
item.cerifentitytypePublications-
item.advisorGNDvon Luck, Kai-
item.languageiso639-1en-
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.openairetypeThesis-
Appears in Collections:Theses
Files in This Item:
File Description SizeFormat
BA_Morozov.pdf1.67 MBAdobe PDFView/Open
Show simple item record

Page view(s)

420
checked on Dec 26, 2024

Download(s)

222
checked on Dec 26, 2024

Google ScholarTM

Check

HAW Katalog

Check

Note about this record


Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.