Fulltext available Open Access
Title: Domänenspezifische Texterkennung am Beispiel der automatischen Rechnungsverarbeitung: Konzeption und Realisierung
Language: German
Authors: Kossendey, Robert 
Keywords: Domänenspezifische Informationsextraktion; Optische Zeichenerkennung; Prozess Automatisierung; Domain specific information extraction; Optical character recognition; process automation
Issue Date: 22-May-2024
Abstract: 
Im Mittelpunkt dieser Arbeit steht die domänenspezifische Texterkennung am Beispiel der automatischen Rechnungsverarbeitung in der Versicherungsbranche. Im Rahmen der Abwicklung eines Schadensfalls werden von den Beteiligten Dokumente in verschiedenen Formaten, zum Beispiel EML oder PDF, ausgetauscht. Um die enthaltenen Daten weiter zu verarbeiten können, müssen sie aus den vorliegenden Dokumenten extrahiert werden. Um diesen, meist noch manuellen Prozess, zu automatisieren, wurde in dieser Arbeit ein System entwickelt, das die Möglichkeit zulässt, aus zwei verschiedenen Formaten von EML-Dateien die enthaltenen Daten zu extrahieren und Texterkennung auf PDF-Dateien laufen zu lassen. Die EML-Verarbeitung wurde an 1000 Sample-Dateien getestet und ergab bei der Extraktion der Daten eine Fehlerquote von 29 Prozent. Bei der Texterkennung wurden eine Open Source Lösung (Tesseract) und eine proprietäre Lösung (Amazon Textract) an verschiedenen Sample-Dateien getestet und die Testergebnisse miteinander verglichen. Amazon Textract schneidet dabei, bezogen auf den Anwendungsfall, mit einer Fehlerquote von 4 Prozent deutlich besser ab als Tesseract, das eine Fehlerquote von 17 Prozent aufweist.

This thesis focuses on domain-specific text recognition using the example of automatic invoice processing in the insurance industry. In the course of processing a claim, the parties involved exchange documents in different formats, for example EML or PDF. In order to automate this process, which is usually still manual, a system was developed that allows the data contained in two different formats of EML files to be extracted and text recognition to be run on PDF files. The EML processing was tested on 1000 sample files and resulted in an error rate of 29 percent when extracting the data. For text recognition, an open source solution (Tesseract) and a proprietary solution (AmazonTextract) were tested on different sample files and the test results were compared. Amazon Textract scored significantly better than Tesseract, with an error rate of 4 percent and an error rate of 17 percent.
URI: http://hdl.handle.net/20.500.12738/15790
Institute: Department Informatik 
Fakultät Technik und Informatik 
Type: Thesis
Thesis type: Bachelor Thesis
Advisor: Zukunft, Olaf 
Referee: Steffens, Ulrike 
Appears in Collections:Theses

Show full item record

Page view(s)

50
checked on Dec 25, 2024

Download(s)

73
checked on Dec 25, 2024

Google ScholarTM

Check

HAW Katalog

Check

Note about this record


Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.