Classifying distinct data types: textual streams protein sequences and genomic variants

Melidis, Damianos P.

dc.identifier.uri	http://dx.doi.org/10.15488/13514
dc.identifier.uri	https://www.repo.uni-hannover.de/handle/123456789/13624
dc.contributor.author	Melidis, Damianos P.	eng
dc.date.accessioned	2023-04-11T11:06:26Z
dc.date.available	2023-04-11T11:06:26Z
dc.date.issued	2023
dc.identifier.citation	Melidis, Damianos P.: Classifying distinct data types: textual streams protein sequences and genomic variants. Hannover : Gottfried Wilhelm Leibniz Universität, Diss., 2023, xx, 139 S., DOI: https://doi.org/10.15488/13514	eng
dc.description.abstract	Artificial Intelligence (AI) is an interdisciplinary field combining different research areas with the end goal to automate processes in the everyday life and industry. The fundamental components of AI models are an “intelligent” model and a functional component defined by the end-application. That is, an intelligent model can be a statistical model that can recognize patterns in data instances to distinguish differences in between these instances. For example, if the AI is applied in car manufacturing, based on an image of a part of a car, the model can categorize if the car part is in the front, middle or rear compartment of the car, as a human brain would do. For the same example application, the statistical model informs a mechanical arm, the functional component, for the current car compartment and the arm in turn assembles this compartment, of the car, based on predefined instructions, likely as a human hand would follow human brain neural signals. A crucial step of AI applications is the classification of input instances by the intelligent model. The classification step in the intelligent model pipeline allows the subsequent steps to act in similar fashion for instances belonging to the same category. We define as classification the module of the intelligent model, which categorizes the input instances based on predefined human-expert or data-driven produced patterns of the instances. Irrespectively of the method to find patterns in data, classification is composed of four distinct steps: (i) input representation, (ii) model building (iii) model prediction and (iv) model assessment. Based on these classification steps, we argue that applying classification on distinct data types holds different challenges. In this thesis, I focus on challenges for three distinct classification scenarios: (i) Textual Streams: how to advance the model building step, commonly used for static distribution of data, to classify textual posts with transient data distribution? (ii) Protein Prediction: which biologically meaningful information can be used in the input representation step to overcome the limited training data challenge? (iii) Human Variant Pathogenicity Prediction: how to develop a classification system for functional impact of human variants, by providing standardized and well accepted evidence for the classification outcome and thus enabling the model assessment step? To answer these research questions, I present my contributions in classifying these different types of data: temporalMNB: I adapt the sequential prediction with expert advice paradigm to optimally aggregate complementary distributions to enhance a Naive Bayes model to adapt on drifting distribution of the characteristics of the textual posts. dom2vec: our proposal to learn embedding vectors for the protein domains using self-supervision. Based on the high performance achieved by the dom2vec embeddings in quantitative intrinsic assessment on the captured biological information, I provide example evidence for an analogy between the local linguistic features in natural languages and the domain structure and function information in domain architectures. Last, I describe GenOtoScope bioinformatics software tool to automate standardized evidence-based criteria for pathogenicity impact of variants associated with hearing loss. Finally, to increase the practical use of our last contribution, I develop easy-to-use software interfaces to be used, in research settings, by clinical diagnostics personnel.	eng
dc.description.abstract	Künstliche Intelligenz (KI) ist ein interdisziplinäres Gebiet, das verschiedene Forschungsbereiche mit dem Ziel verbindet, Prozesse im Alltag und in der Industrie zu automatisieren. Die grundlegenden Komponenten von KI-Modellen sind ein “intelligentes” Modell und eine durch die Endanwendung definierte funktionale Komponente. Das heißt, ein intelligentes Modell kann ein statistisches Modell sein, das Muster in Dateninstanzen erkennen kann, um Unterschiede zwischen diesen Instanzen zu unterscheiden. Wird die KI beispielsweise in der Automobilherstellung eingesetzt, kann das Modell auf der Grundlage eines Bildes eines Autoteils kategorisieren, ob sich das Autoteil im vorderen, mittleren oder hinteren Bereich des Autos befindet, wie es ein menschliches Gehirn tun würde. Bei der gleichen Beispielanwendung informiert das statistische Modell einen mechanischen Arm, die funktionale Komponente, über den aktuellen Fahrzeugbereich, und der Arm wiederum baut diesen Bereich des Fahrzeugs auf der Grundlage vordefinierter Anweisungen zusammen, so wie eine menschliche Hand den neuronalen Signalen des menschlichen Gehirns folgen würde. Ein entscheidender Schritt bei KI-Anwendungen ist die Klassifizierung von Eingabeinstanzen durch das intelligente Modell. Unabhängig von der Methode zum Auffinden von Mustern in Daten besteht die Klassifizierung aus vier verschiedenen Schritten: (i) Eingabedarstellung, (ii) Modellbildung, (iii) Modellvorhersage und (iv) Modellbewertung. Ausgehend von diesen Klassifizierungsschritten argumentiere ich, dass die Anwendung der Klassifizierung auf verschiedene Datentypen unterschiedliche Herausforderungen mit sich bringt. In dieser Arbeit konzentriere ich uns auf die Herausforderungen für drei verschiedene Klassifizierungsszenarien: (i) Textdatenströme: Wie kann der Schritt der Modellerstellung, der üblicherweise für eine statische Datenverteilung verwendet wird, weiterentwickelt werden, um die Klassifizierung von Textbeiträgen mit einer instationären Datenverteilung zu erlernen? (ii) Proteinvorhersage: Welche biologisch sinnvollen Informationen können im Schritt der Eingabedarstellung verwendet werden, um die Herausforderung der begrenzten Trainingsdaten zu überwinden? (iii) Vorhersage der Pathogenität menschlicher Varianten: Wie kann ein Klassifizierungssystem für die funktionellen Auswirkungen menschlicher Varianten entwickelt werden, indem standardisierte und anerkannte Beweise für das Klassifizierungsergebnis bereitgestellt werden und somit der Schritt der Modellbewertung ermöglicht wird? Um diese Forschungsfragen zu beantworten, stelle ich meine Beiträge zur Klassifizierung dieser verschiedenen Datentypen vor: temporalMNB: Verbesserung des Naive-Bayes-Modells zur Klassifizierung driftender Textströme durch Ensemble-Lernen. dom2vec: Lernen von Einbettungsvektoren für Proteindomänen durch Selbstüberwachung. Auf der Grundlage der berichteten Ergebnisse liefere ich Beispiele für eine Analogie zwischen den lokalen linguistischen Merkmalen in natürlichen Sprachen und den Domänenstruktur- und Funktionsinformationen in Domänenarchitekturen. Schließlich beschreibe ich ein bioinformatisches Softwaretool, GenOtoScope, zur Automatisierung standardisierter evidenzbasierter Kriterien für die orthogenitätsauswirkungen von Varianten, die mit angeborener Schwerhörigkeit in Verbindung stehen.	eng
dc.language.iso	eng	eng
dc.publisher	Hannover : Institutionelles Repositorium der Leibniz Universität Hannover
dc.rights	CC BY 3.0 DE	eng
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/de/	eng
dc.subject	classification	eng
dc.subject	textual streams	eng
dc.subject	concept drifts	eng
dc.subject	feature drifts	eng
dc.subject	ensemble learning	eng
dc.subject	time series	eng
dc.subject	protein domain architectures	eng
dc.subject	word embeddings	eng
dc.subject	quantitative quality assessment	eng
dc.subject	SCOPe secondary structure class	eng
dc.subject	enzymatic commission class	eng
dc.subject	human genomic variants	eng
dc.subject	hearing loss	eng
dc.subject	ACMG/AMP classification	eng
dc.subject	bioinformatics	eng
dc.subject	clinical diagnostics	eng
dc.subject	Klassifizierung	ger
dc.subject	Textströme	ger
dc.subject	Konzeptdrift	ger
dc.subject	Featuresdrift	ger
dc.subject	Ensemble-Lernen	ger
dc.subject	Zeitserien	ger
dc.subject	Proteindomänenarchitekturen	ger
dc.subject	Word Embeddings	ger
dc.subject	quantitative Qualitätsbewertung	ger
dc.subject	SCOPe-Sekundärstrukturklasse	ger
dc.subject	Enzymkommissionsklasse	ger
dc.subject	humangenomische Varianten	ger
dc.subject	Hörverlust	ger
dc.subject	ACMG/AMP-Klassifizierung	ger
dc.subject	Bioinformatik	ger
dc.subject	klinische Diagnostik	ger
dc.subject.ddc	500 \| Naturwissenschaften	eng
dc.title	Classifying distinct data types: textual streams protein sequences and genomic variants	eng
dc.type	DoctoralThesis	eng
dc.type	Text	eng
dcterms.extent	xx, 139 S.	eng
dc.description.version	publishedVersion	eng
tib.accessRights	frei zug�nglich	eng

Name: phd_thesis.pdf

Größe: 26.19Mb

Format: PDF

Beschreibung: Doctorate Thesis

Öffnen

Die Publikation erscheint in Sammlung(en):

Fakultät für Elektrotechnik und Informatik
Frei zugängliche Publikationen aus der Fakultät für Elektrotechnik und Informatik
Dissertationen
Dissertationsschriften der Leibniz Universität Hannover

Classifying distinct data types: textual streams protein sequences and genomic variants

Die Publikation erscheint in Sammlung(en):

Suche im Repositorium

Durchblättern

Gesamter Bestand

Diese Sammlung

Mein Nutzer/innenkonto

Nutzungsstatistiken