Domänenspezifische Texterkennung am Beispiel der automatischen Rechnungsverarbeitung: Konzeption und Realisierung

Kossendey, Robert

DC Element	Wert	Sprache
dc.contributor.advisor	Zukunft, Olaf	-
dc.contributor.author	Kossendey, Robert	-
dc.date.accessioned	2024-05-22T08:29:21Z	-
dc.date.available	2024-05-22T08:29:21Z	-
dc.date.created	2020-09-28	-
dc.date.issued	2024-05-22	-
dc.identifier.uri	http://hdl.handle.net/20.500.12738/15790	-
dc.description.abstract	Im Mittelpunkt dieser Arbeit steht die domänenspezifische Texterkennung am Beispiel der automatischen Rechnungsverarbeitung in der Versicherungsbranche. Im Rahmen der Abwicklung eines Schadensfalls werden von den Beteiligten Dokumente in verschiedenen Formaten, zum Beispiel EML oder PDF, ausgetauscht. Um die enthaltenen Daten weiter zu verarbeiten können, müssen sie aus den vorliegenden Dokumenten extrahiert werden. Um diesen, meist noch manuellen Prozess, zu automatisieren, wurde in dieser Arbeit ein System entwickelt, das die Möglichkeit zulässt, aus zwei verschiedenen Formaten von EML-Dateien die enthaltenen Daten zu extrahieren und Texterkennung auf PDF-Dateien laufen zu lassen. Die EML-Verarbeitung wurde an 1000 Sample-Dateien getestet und ergab bei der Extraktion der Daten eine Fehlerquote von 29 Prozent. Bei der Texterkennung wurden eine Open Source Lösung (Tesseract) und eine proprietäre Lösung (Amazon Textract) an verschiedenen Sample-Dateien getestet und die Testergebnisse miteinander verglichen. Amazon Textract schneidet dabei, bezogen auf den Anwendungsfall, mit einer Fehlerquote von 4 Prozent deutlich besser ab als Tesseract, das eine Fehlerquote von 17 Prozent aufweist.	de
dc.description.abstract	This thesis focuses on domain-specific text recognition using the example of automatic invoice processing in the insurance industry. In the course of processing a claim, the parties involved exchange documents in different formats, for example EML or PDF. In order to automate this process, which is usually still manual, a system was developed that allows the data contained in two different formats of EML files to be extracted and text recognition to be run on PDF files. The EML processing was tested on 1000 sample files and resulted in an error rate of 29 percent when extracting the data. For text recognition, an open source solution (Tesseract) and a proprietary solution (AmazonTextract) were tested on different sample files and the test results were compared. Amazon Textract scored significantly better than Tesseract, with an error rate of 4 percent and an error rate of 17 percent.	en
dc.language.iso	de	en_US
dc.subject	Domänenspezifische Informationsextraktion	en_US
dc.subject	Optische Zeichenerkennung	en_US
dc.subject	Prozess Automatisierung	en_US
dc.subject	Domain specific information extraction	en_US
dc.subject	Optical character recognition	en_US
dc.subject	process automation	en_US
dc.subject.ddc	004: Informatik	en_US
dc.title	Domänenspezifische Texterkennung am Beispiel der automatischen Rechnungsverarbeitung: Konzeption und Realisierung	de
dc.type	Thesis	en_US
openaire.rights	info:eu-repo/semantics/openAccess	en_US
thesis.grantor.department	Department Informatik	en_US
thesis.grantor.universityOrInstitution	Hochschule für Angewandte Wissenschaften Hamburg	en_US
tuhh.contributor.referee	Steffens, Ulrike	-
tuhh.identifier.urn	urn:nbn:de:gbv:18302-reposit-186286	-
tuhh.oai.show	true	en_US
tuhh.publication.institute	Department Informatik	en_US
tuhh.publication.institute	Fakultät Technik und Informatik	en_US
tuhh.type.opus	Bachelor Thesis	-
dc.type.casrai	Supervised Student Publication	-
dc.type.dini	bachelorThesis	-
dc.type.driver	bachelorThesis	-
dc.type.status	info:eu-repo/semantics/publishedVersion	en_US
dc.type.thesis	bachelorThesis	en_US
dcterms.DCMIType	Text	-
tuhh.dnb.status	domain	en_US
item.advisorGND	Zukunft, Olaf	-
item.creatorGND	Kossendey, Robert	-
item.creatorOrcid	Kossendey, Robert	-
item.grantfulltext	open	-
item.languageiso639-1	de	-
item.openairecristype	http://purl.org/coar/resource_type/c_46ec	-
item.openairetype	Thesis	-
item.fulltext	With Fulltext	-
item.cerifentitytype	Publications	-
Enthalten in den Sammlungen:	Theses