Abstract: | |
Diese Arbeit beschäftigt sich mit dem Problem der semantischen Segmentierung von Luftbildern in Landbedeckungsklassen. Maschinelle Lernverfahren bieten dabei sehr robuste Methoden zur Erzeugung von hochgenauen Klassifikatoren, welche die Basisbausteine von Verfahren zur Erzeugung solcher Segmentierungen darstellen. Moderne und praktikable Lernverfahren sind jedoch nahezu ausschließlich den überwachten Methoden zuzuschreiben. Ihr Wissen über das zu lösende Klassifikationsproblem wird aus gelabelten Stichproben extrahiert, welche zuerst in mühevoller manueller Arbeit von qualifizierten Fachkräften aus den Eingangsbildern erzeugt werden müssen. Die Reduktion dieses manuellen Aufwands wurde daher in vielen Arbeiten als Kernproblem in Angriff genommen, woraus sich sehr unterschiedliche und heutzutage essentielle Teilgebiete des maschinellen Lernens entwickelt haben, wie u. a. dem Transferlernen. Im Transferlernen wird das Anlernen des Klassifikators durch andere, bereits vorhandene Datenquellen augmentiert. Insbesondere gilt für die Domänenadaption, dass das Eingangsbild ungelabelt ist und Klasseninformation lediglich aus diesen Datenquellen abgeleitet werden kann. Dieses Vorgehen kann jedoch nur funktionieren, falls das Eingangsbild und die Datenquellen große Ähnlichkeiten aufweisen und in einer modellierbaren Relation zueinander stehen. Die ansonsten resultierende Verschlechterung der Klassifikation heißt dann negativer Transfer. In dieser Arbeit wird ein bestehendes theoretisches Modell zur Prädiktion von negativen Transfer für die Domänenadaption in ein Bayessches Entscheidungsmodell umformuliert. Dessen Implementierung durch ein Markov-Chain-Monte-Carlo Verfahren ist mit einer hohen Wahrscheinlichkeit dazu in der Lage, aus einer Vielzahl von potentiellen Quellenkandidaten die beste Quelle für ein gegebenes Eingangsbild auszuwählen. Eine anschließend hergeleitete Approximation dieser Methode besitzt eine lineare Laufzeitkomplexität bezüglich der Stichprobengröße und der Anzahl der Quellenkandidaten und erlaubt somit die Verarbeitung von sehr großen Datensätzen mit mehr als 15.000 Lernbeispielen pro Quelle und mehreren Dutzend Quellenkandidaten in weniger als 10 Sekunden. Weiterhin konnte der Speicherverbrauch ohne messbare Einbußen auf wenige Kilobyte pro Quelle reduziert werden. Auf 7 untersuchten Datensätzen reduzierte die Bayessche Quellenselektion den Medianverlust der Klassifikationsgenauigkeit im Vergleich mit konventionellen Ansätzen im Mittel von 5% auf 3%. Das entwickelte Verfahren besitzt keine kritischen Parameter. Eine aufwändige Parametersuche entfällt somit im direkten Vergleich zu Konkurrenzmethoden. In einem weiteren Experiment wurden zunächst ungelabelte Quellenkandidaten verwendet. Durch einen neuartigen Clustering Ansatz, basierend auf dem zuvor entwickelten Quellenselektionsmodell, konnten aus diesen die relevanten Quellen zuverlässig ermittelt werden. Ein manuelles labeln von redundanten Quellen entfällt somit. Auf den untersuchten Datensätzen konnte bei gleichbleibender Klassifikationsgenauigkeit eine Reduktion des Arbeitsaufwandes um bis zu 90% erreicht werden.
|
|
License of this version: | CC BY 3.0 DE - http://creativecommons.org/licenses/by/3.0/de/ |
Publication type: | DoctoralThesis |
Publishing status: | publishedVersion |
Publication date: | 2019 |
Keywords german: | Maschinelles Lernen, Transferlernen, Domänenadaption |
Keywords english: | Machine Learning, Transfer Learning, Domain Adaptation |
DDC: | 004 | Informatik |