Citation link: http://dx.doi.org/10.25819/ubsi/10429
DC FieldValueLanguage
crisitem.author.orcid0000-0002-3204-3801-
dc.contributor.authorSeelbach Benkner, Louisa-
dc.date.accessioned2023-10-30T11:56:42Z-
dc.date.available2023-10-30T11:56:42Z-
dc.date.issued2023de
dc.description.abstractWe analyze lossless tree compression algorithms under information-theoretic and combinatorial aspects. One of the most important and widely used compression methods for rooted trees is to represent a tree by its minimal directed acyclic graph, shortly referred to as minimal DAG. The size of the minimal DAG of the tree is the number of distinct fringe subtrees occurring in the tree, where a fringe subtree of a rooted tree is a subtree induced by one of the nodes and all its descendants. In the first part of this work, we study the average number of distinct fringe subtrees (i.e., the average size of the minimal DAG) in random trees. Specifically, we consider the random tree models of leaf-centric binary tree sources, simply generated families of trees and very simple families of increasing trees. In the second part of this work, we analyze grammar-based tree compression via tree straight-line programs (TSLPs) from an information-theoretic point of view. Specifically, we extend the notion of empirical entropy from stings to node-labeled binary trees and plane trees and show that a suitable binary encoding of TSLPs yields binary tree encodings of size bounded by the empirical entropy plus some lower order terms. This generalizes recent results from grammar-based string compression to grammar-based tree compression. In the third part of this work, we present a new compressed encoding of unlabeled binary and plane trees. We analyze this encoding under an information-theoretic point of view by proving that this encoding is universal und thus asymptotically optimal for a great variety of tree sources; this covers in particular the vast majority of tree sources, with respect to which previous tree sources codes were shown to be universal.en
dc.description.abstractWir analysieren verlustfreie Methoden der Baumkomprimierung unter informationstheoretischen und kombinatorischen Gesichtspunkten. Eine weit verbreitete Methode der Baumkomprimierung ist die sogenannte DAG-Komprimierung, bei der ein Baum durch seinen zugehörigen minimalen gerichteten azyklischen Graphen (engl. directed acyclic graph, kurz DAG) dargestellt wird. Die Größe dieses minimalen DAGs eines Baums ist die Anzahl der verschiedenen fringe subtrees des Baums. Ein fringe subtree eines gewurzelten Baums ist ein Teilbaum, der von einem der Knoten inklusive aller seiner Nachkommen induziert wird. Im ersten Teil dieser Arbeit analysieren wir die erwartete Anzahl der verschiedenen fringe subtrees (d.h., die durchschnittliche Größe des minimalen DAGs) bzgl. verschiedener Wahrscheinlichkeitsverteilungen auf verschiedenen Baumfamilien. Wir betrachten das Modell der leaf-centric tree sources, das Modell der simply generated families of trees und das Modell der increasing trees. Im zweiten Teil der Arbeit analysieren wir Grammatik-basierte Baumkompression durch sogenannte tree straight-line programs (TSLPs). Wir erweitern den Begriff der empirischen Entropie von Wörtern auf Bäume und zeigen, dass eine geeignete Binärkodierung von TSLPs binäre Baumkodierungen liefert, deren Größe in der empirischen Entropie (plus lower-order terms) beschränkt ist. Im dritten Teil der Arbeit stellen wir eine neue komprimierte Darstellung von Bäumen vor, die universal und daher optimal bezüglich einer großen Anzahl an Baumverteilungen ist; insbesondere gilt dies auch für die Mehrzahl der Verteilungen, bezüglich derer für bisherige Baumkodierungen Universalität nachgewiesen werden konnte.de
dc.identifier.doihttp://dx.doi.org/10.25819/ubsi/10429-
dc.identifier.urihttps://dspace.ub.uni-siegen.de/handle/ubsi/2640-
dc.identifier.urnurn:nbn:de:hbz:467-26408-
dc.language.isoende
dc.rightsAttribution-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nd/4.0/*
dc.subject.ddc004 Informatikde
dc.subject.otherTree compressionen
dc.subject.otherGrammar-based compressionen
dc.subject.otherDirected acyclic graphsen
dc.subject.otherEmpirical entropyen
dc.subject.otherAverage-case analysisen
dc.subject.otherDatenbäumede
dc.subject.swbAzyklischer gerichteter Graphde
dc.subject.swbDatenkompressionde
dc.titleCombinatorial and information-theoretic aspects of tree compressionen
dc.title.alternativeKombinatorische und informationstheoretische Aspekte der Baumkompressionde
dc.typeDoctoral Thesisde
item.fulltextWith Fulltext-
ubsi.contributor.refereeLohrey, Markus-
ubsi.date.accepted2023-10-19-
ubsi.organisation.grantingUniversität Siegen-
ubsi.origin.dspace51-
ubsi.publication.affiliationInstitut für Theoretische Informatikde
ubsi.subject.ghbsTWWde
ubsi.subject.ghbsTVMGde
ubsi.subject.ghbsTKGGde
ubsi.subject.ghbsTUHde
Appears in Collections:Hochschulschriften
Files in This Item:
File Description SizeFormat
Dissertation_Seelbach_Benkner_Louisa.pdf1.71 MBAdobe PDFThumbnail
View/Open

This item is protected by original copyright

Show simple item record

Page view(s)

337
checked on Nov 28, 2024

Download(s)

179
checked on Nov 28, 2024

Google ScholarTM

Check

Altmetric


This item is licensed under a Creative Commons License Creative Commons