Fulltext available Open Access
DC FieldValueLanguage
dc.contributor.advisorNeitzke, Michael-
dc.contributor.authorGoemann, Philipp
dc.date.accessioned2020-09-29T15:34:03Z-
dc.date.available2020-09-29T15:34:03Z-
dc.date.created2019
dc.date.issued2019-11-08
dc.identifier.urihttp://hdl.handle.net/20.500.12738/9166-
dc.description.abstractInhalt dieser Arbeit ist die Veranschaulichung von AlphaZero. AlphaZero ist das erfolgreichste Computerprogramm für komplexe Brettspiele, welche es sich mit Hilfe eines neuartigen Algorithmus selbst beibringt. Um dies zu veranschaulichen, wurde basierend auf AlphaZero eine eigene Implementation für das Spiel Vier-Gewinnt entwickelt. In AlphaZero wird eine Monte Carlo Tree-Search von einem neuronalen Netz geleitet. Das neuronale Netz gibt Wahrscheinlichkeiten P an, aus gegebenem Zustand die möglichen Folgezüge auszuwählen. Zusätzlich approximiert es einen Wert v für das Spielergebnis z, anstatt dieses durch ein rollout zu schätzen, wodurch die zeitintensive Phase des rollouts in der Monte Carlo Tree-Search entfällt. Am Ende einer Simulation der Monte Carlo Tree-Search in AlphaZero liefert diese ebenfalls Wahrscheinlichkeiten, die Folgezüge auszuw ählen. Diese Wahrscheinlichkeiten, als (pi) bezeichnet, können als eine Verbesserung der initialen Wahrscheinlichkeiten P angesehen werden. Die verbesserten Wahrscheinlichkeiten (pi) sowie das tatsächliche Spielergebnis z werden genutzt, um v und P des neuronalen Netzes zu verbessern. Für die eigene Implementation werden Optimierungsmöglichkeiten aufgezeigt und unterschiedliche Ansätze für die Gestaltung der Architektur und Wahl der Parameter diskutiert.de
dc.description.abstractThe goal of this paper is to illustrate AlphaZero, which is the most succesful computer program for complex board games so far. It learns to play these boardgames solely by self-play, using a novel algorithm. For the purpose of demonstrating AlphaZero, an own implementation of Connect-Four, based on AlphaZero, has been developed. In AlphaZero a Monte Carlo Tree-Search is guided by a neural network. The neural network outputs probabilties, called P, for choosing the next move. Additionally, a value v for the game result z is approximated by the neural network, instead of performing a rollout to guess z. By doing so, the time-consuming simulation phase of Monte Carlo Tree-Search gets omitted. At the end of a simulation of Monte Carlo Tree-Search in AlphaZero, the performed simulation returns probabilities (pi), which also represent which of the following moves to choose next. (Pi) can be viewed as an improvement over the initial probabilites P. (Pi) and z are used to improve P and v of the neural network. Possible ways to improve the own implementation and different approaches to creating the neural networks, as well as choosing parameters, are discussed in this paper.en
dc.language.isodede
dc.rights.urihttp://rightsstatements.org/vocab/InC/1.0/-
dc.subject.ddc004 Informatik
dc.titleWenn die Maschine den Menschen schlägt - AlphaZero amBeispiel von 4-Gewinntde
dc.title.alternativeWhen the machine beats human - AlphaZero explained by Connect-Fouren
dc.typeThesis
openaire.rightsinfo:eu-repo/semantics/openAccess
thesis.grantor.departmentDepartment Informatik
thesis.grantor.placeHamburg
thesis.grantor.universityOrInstitutionHochschule für angewandte Wissenschaften Hamburg
tuhh.contributor.refereeSarstedt, Stefan-
tuhh.gvk.ppn168151611X
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-91683-
tuhh.note.externpubl-mit-pod
tuhh.note.intern1
tuhh.oai.showtrueen_US
tuhh.opus.id5252
tuhh.publication.instituteDepartment Informatik
tuhh.type.opusBachelor Thesis-
dc.subject.gndMaschinelles Lernen
dc.subject.gndOperante Konditionierung
dc.subject.gndKünstliche Intelligenz
dc.type.casraiSupervised Student Publication-
dc.type.dinibachelorThesis-
dc.type.driverbachelorThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersion
dc.type.thesisbachelorThesis
dcterms.DCMITypeText-
tuhh.dnb.statusdomain-
item.creatorGNDGoemann, Philipp-
item.fulltextWith Fulltext-
item.creatorOrcidGoemann, Philipp-
item.grantfulltextopen-
item.cerifentitytypePublications-
item.advisorGNDNeitzke, Michael-
item.languageiso639-1de-
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.openairetypeThesis-
Appears in Collections:Theses
Files in This Item:
File Description SizeFormat
thesis.pdf1.37 MBAdobe PDFView/Open
Show simple item record

Page view(s)

380
checked on Dec 27, 2024

Download(s)

815
checked on Dec 27, 2024

Google ScholarTM

Check

HAW Katalog

Check

Note about this record


Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.