Title data
Hagedorn, Gregor:
Structuring Descriptive Data of Organisms — Requirement Analysis and Information Models.
Bayreuth
,
2007
(
Doctoral thesis,
2007
, Universität Bayreuth, Fakultät für Biologie, Chemie und Geowissenschaften)
Abstract in another language
Data that describe organisms in a structured form are indispensable not only for taxonomic and identification purposes, but also many phylogenetic, genetic, or ecological analyses. By analyzing existing information models and performing selected fundamental requirement analyses, the present work contributes to a broadening of the understanding of these forms of data. It falls into an interdisciplinary area between biology and information science. The term “descriptive data” is understood here in a broad sense: As descriptions of individuals, populations, or taxa, intended for various purposes (e. g., genetic, phylogenetic, diagnostic, taxonomic, or ecological), and covering a wide array of observation methods and data types (e. g., morphological, anatomical, genetic, physiological, molecular, or behavioral data). The position of descriptive data in the context of biodiversity framework concepts (covering, e. g., nomenclatural data, specimen collection data, or resource management) is discussed. A number of fundamental problems arise when modeling biological descriptive data. The ways in which existing data exchange formats, information models, and software applications address them are studied and future possible solutions are outlined. One such solution, the information model for the software “DiversityDescriptions (DeltaAccess)” is one of the results of this thesis and fully documented (Ch. 7). This entity relationship model fully supports the concepts of the traditional DELTA data exchange format (Description Language for Taxonomy; TDWG standard since 1986). If further improves on DELTA by introducing “modifiers” as a new terminology class, by introducing a more flexible system of handling statistical measures, by improving the handling of multilingual data sets, by supporting subset and filter features for concurrent collaborative editing (instead of supporting these for report-generation purposes alone), by supporting improved character attributes to create natural language descriptions from structured descriptions, and by adding metadata for a data set to improve the ability of data exchange without external documentation. In preparation of a future improved information model for descriptive data, the results of three requirement analyses are presented: a data-centric analysis of general concepts, a process-centric analysis of identification tools, and a high-level use case analysis. The first analysis (Ch. 4) is a structured inventory of fundamental approaches and problems involved in collecting and summarizing scientific descriptions of organisms. It is informed in part by current practices in information science, comparative data analysis, statistical, descriptive or phylogenetic software applications, and data exchange formats in biodiversity informatics. At the end three topics are discussed in particular detail (“Federation and modularization of terminology”, “Modifiers”, and “Secondary classification resulting in description scopes”). Except for phylogenetic analyses, identification is the most common usage of descriptive data. The second analysis (Ch. 5) therefore studies the processes, data structures, presentational and user interface requirements for printable and computer-aided identification tools (“keys”). Finally, a general use case analysis is performed with the goal of creating a framework of high-level use cases into which present as well as future requirements may be integrated (Ch. 6). All three requirement analyses are explorative and do not fulfill formal criteria of software engineering. They identify many requirements not addressed by the relational DiversityDescriptions model. Some of these could only be explored and await future solutions. For others solutions are proposed (some of which could already be incorporated into the design of SDD, an xml-based TDWG standard since 2005): The traditional data types are changed into an extensible character type model. The importance of data aggregation concepts was recognized to be fundamental. Complementary to data aggregation, the present and potentially future use of data inheritance along the lines of the taxonomic hierarchy is briefly studied. The concept of calculated characters could be addressed only insofar as the mapping between values can potentially be generalized. Character decomposition models are studied, but ultimately the traditional character concept, supplemented with a forest of ontologies for compositional and generalization concept hierarchies, is preferred as a more general concept. Both the traditional character subset and character applicability models can be integrated into concept hierarchies.
Abstract in another language
Strukturierte Beschreibungsdaten von Organismen sind nicht nur für Taxonomie und Bestimmung, sondern auch viele phylogenetische, genetische oder ökologische Analysen unentbehrlich. Durch Analysen existierender Informationsmodelle und durch fundamentale Anforderungsanalysen leistet die vorliegende Arbeit einen Beitrag zum Verständnis dieser Daten. Sie ist interdisziplinär zwischen Biologie und Informatik angelegt. Der Begriff „Beschreibungsdaten“ wird in einem weiten Sinn definiert, nämlich als Beschreibungen von Individuen, Populationen oder Taxa, gesammelt z. B. für genetische, phylogenetische, diagnostische, taxonomische oder ökologische Zwecke, und unter Einschluss diverser Datentypen (z. B., morphologische, anatomische, genetische, physiologische, molekulare oder Verhaltensdaten). Die Abgrenzung von Beschreibungsdaten zu anderen Biodiversitätsdaten (z. B. Nomenklatur, Sammlungsdaten, oder Medien- und Literaturressourcen), und das Konzept übergreifender Rahmenkonzepte für Biodiversitätsdaten wird erläutert. In der Arbeit werden grundlegende bei der Modellierung von Beschreibungsdaten auftretende Probleme besprochen, vorhandene Lösungsansätze in Datenaustauschformaten, Modellen und Programmen untersucht, und zukünftige Lösungen aufgezeigt. Eine solche Lösung, das relationale Informationsmodell für die Software „DiversityDescriptions (DeltaAccess)“, ist ein Ergebnis dieser Arbeit und wird im Detail dokumentiert (Kap. 7). Dieses Modell deckt die Konzepte des traditionellen DELTA-Datenaustauschformats (Description Language for Taxonomy; TDWG Standard seit 1986) vollständig ab. Darüber hinaus erweitert es DELTA erheblich. Es führt eine neue Form von Beschreibungsvokabular („Modifizierer“), ein flexibleres System für statistische Maße und erweiterte Merkmalsattribute zur Erzeugung natürlichsprachlicher Beschreibungen aus strukturierten Daten ein. Weiterhin verbessert es die Behandlung mehrsprachiger Datensammlungen, nutzt Filter auch für gemeinschaftliches Redigieren (anstatt diese nur zur Berichterzeugung zu nutzen), und unterstützt Metadaten für Projekte. Ein weiteres wesentliches Ergebnis dieser Arbeit sind die Resultate von drei Anforderungsstudien, die eine solide Basis für künftige Weiterentwicklungen darstellen: Eine datenorientierte Studie allgemeiner Konzepte, eine prozessorientierte Analyse von Bestimmungsmethoden, sowie eine allgemeine „Use-Case“ Analyse. Die erste Studie (Kap. 4) ist eine strukturierte Aufzählung grundlegender Probleme, welche bei der Beschreibung und Charakterisierung von Organismen auftreten. Die Informationen dazu basieren auf Datenverwaltungs- und statistischen Analysemethoden, wie sie in allgemein-statistischer, phylogenetischer und taxonomischer Software (bzw. Datenaustauschformaten) vorkommen. Der allgemeine Teil wird ergänzt durch drei ausgewählte vertiefende Analysen: „Verteilte und modularisierte Terminologie“, „Modifizierer“ und „Sekundäre Klassifikationen in Beschreibungen“. Die zweite Analyse (Kap. 5) untersucht Bestimmungsmethoden, welche die – neben phylogenetischen Analysen – wohl wichtigste Anwendung von Beschreibungsdaten sind. Die Prozesse, Daten, Darstellungsformen und Benutzeroberflächen von gedruckten oder Computer-gestützten Bestimmungshilfsmitteln werden detailliert in Hinsicht auf Anforderungen an das Informationsmodell untersucht. Schließlich wird in der „Use-Case“-Analyse (Kap. 6) der allgemeine Gebrauch von Beschreibungsdaten untersucht. Dabei wird eine Gliederung erstellt in welche gegenwärtige und künftige Anforderungen integriert werden können. Alle drei Anforderungsanalysen sind explorativ und erfüllen keine formalen Kriterien der Softwareentwicklung. In ihnen werden viele Punkte erfasst die nicht durch DiversityDescriptions abgedeckt werden. Etliche Anforderungen und Probleme können nur herausgearbeitet werden und müssen auf zukünftige Lösungen warten. Zum Teil können aber bereits mögliche Lösungen präsentiert oder skizziert werden. Einige sind bereits in das Design von SDD, dem neuen xml-basierten TDWG Standard für Beschreibungsdaten seit 2005, eingeflossen: Die traditionellen Datentypen werden als erweiterbares Typsystem neu konzipiert; die Bedeutung von Datensummierung und Synthese wird neu bewertet; die umgekehrte Bedeutung von Datenvererbung entlang der taxonomischen Hierarchie wird kurz studiert. Berechnete Merkmale werden insoweit abgedeckt, als sie eine einfache Abbildung zwischen zwei Merkmalen sind („mapping“). Merkmals-Dekompositionsmodelle werden untersucht, das traditionelle Merkmalskonzept jedoch als das allgemeinere Konzept bevorzugt. Dieses wird durch mehrfache strukturelle und generalisierende Ontologien (Konzepthierarchien) ergänzt. Sowohl traditionelle Untermengen („Subsets“) als auch Merkmalsabhängigkeiten können hier integriert werden.