Fulltext available Open Access
DC FieldValueLanguage
dc.contributor.advisorZukunft, Olaf-
dc.contributor.authorKossendey, Robert-
dc.date.accessioned2024-05-22T08:29:21Z-
dc.date.available2024-05-22T08:29:21Z-
dc.date.created2020-09-28-
dc.date.issued2024-05-22-
dc.identifier.urihttp://hdl.handle.net/20.500.12738/15790-
dc.description.abstractIm Mittelpunkt dieser Arbeit steht die domänenspezifische Texterkennung am Beispiel der automatischen Rechnungsverarbeitung in der Versicherungsbranche. Im Rahmen der Abwicklung eines Schadensfalls werden von den Beteiligten Dokumente in verschiedenen Formaten, zum Beispiel EML oder PDF, ausgetauscht. Um die enthaltenen Daten weiter zu verarbeiten können, müssen sie aus den vorliegenden Dokumenten extrahiert werden. Um diesen, meist noch manuellen Prozess, zu automatisieren, wurde in dieser Arbeit ein System entwickelt, das die Möglichkeit zulässt, aus zwei verschiedenen Formaten von EML-Dateien die enthaltenen Daten zu extrahieren und Texterkennung auf PDF-Dateien laufen zu lassen. Die EML-Verarbeitung wurde an 1000 Sample-Dateien getestet und ergab bei der Extraktion der Daten eine Fehlerquote von 29 Prozent. Bei der Texterkennung wurden eine Open Source Lösung (Tesseract) und eine proprietäre Lösung (Amazon Textract) an verschiedenen Sample-Dateien getestet und die Testergebnisse miteinander verglichen. Amazon Textract schneidet dabei, bezogen auf den Anwendungsfall, mit einer Fehlerquote von 4 Prozent deutlich besser ab als Tesseract, das eine Fehlerquote von 17 Prozent aufweist.de
dc.description.abstractThis thesis focuses on domain-specific text recognition using the example of automatic invoice processing in the insurance industry. In the course of processing a claim, the parties involved exchange documents in different formats, for example EML or PDF. In order to automate this process, which is usually still manual, a system was developed that allows the data contained in two different formats of EML files to be extracted and text recognition to be run on PDF files. The EML processing was tested on 1000 sample files and resulted in an error rate of 29 percent when extracting the data. For text recognition, an open source solution (Tesseract) and a proprietary solution (AmazonTextract) were tested on different sample files and the test results were compared. Amazon Textract scored significantly better than Tesseract, with an error rate of 4 percent and an error rate of 17 percent.en
dc.language.isodeen_US
dc.subjectDomänenspezifische Informationsextraktionen_US
dc.subjectOptische Zeichenerkennungen_US
dc.subjectProzess Automatisierungen_US
dc.subjectDomain specific information extractionen_US
dc.subjectOptical character recognitionen_US
dc.subjectprocess automationen_US
dc.subject.ddc004: Informatiken_US
dc.titleDomänenspezifische Texterkennung am Beispiel der automatischen Rechnungsverarbeitung: Konzeption und Realisierungde
dc.typeThesisen_US
openaire.rightsinfo:eu-repo/semantics/openAccessen_US
thesis.grantor.departmentDepartment Informatiken_US
thesis.grantor.universityOrInstitutionHochschule für Angewandte Wissenschaften Hamburgen_US
tuhh.contributor.refereeSteffens, Ulrike-
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-186286-
tuhh.oai.showtrueen_US
tuhh.publication.instituteDepartment Informatiken_US
tuhh.publication.instituteFakultät Technik und Informatiken_US
tuhh.type.opusBachelor Thesis-
dc.type.casraiSupervised Student Publication-
dc.type.dinibachelorThesis-
dc.type.driverbachelorThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionen_US
dc.type.thesisbachelorThesisen_US
dcterms.DCMITypeText-
tuhh.dnb.statusdomainen_US
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.fulltextWith Fulltext-
item.grantfulltextopen-
item.openairetypeThesis-
item.creatorGNDKossendey, Robert-
item.languageiso639-1de-
item.creatorOrcidKossendey, Robert-
item.cerifentitytypePublications-
item.advisorGNDZukunft, Olaf-
Appears in Collections:Theses
Show simple item record

Page view(s)

15
checked on Jul 3, 2024

Download(s)

17
checked on Jul 3, 2024

Google ScholarTM

Check

HAW Katalog

Check

Note about this record


Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.