Project

General

Profile

bug #4134

feature request #2625: [E+M Overview] Data aggregation functionalities for E+M (TransmissionEngine)

Transmissionengine Distribution seems to miss distributions for higher Taxa

Added by Andreas Kohlbecker over 5 years ago. Updated 9 days ago.

Status:
Resolved
Priority:
Highest
Category:
cdmlib
Target version:
Start date:
08/18/2014
Due date:
% Done:

90%

Severity:
normal
Found in Version:

Description

reported by Norbert:

wie kommt es eigentlich, dass für das Taxon "Cichorieae" die Transmission Engine Distribution nur so extrem fragmentarischen Inhalt hat ( http://wp6-cichorieae.e-taxonomy.eu/portal/cdm_dataportal/taxon/c34eb662-6bba-4ad7-b84e-dd98f2fd9788)??

Was im Portal angezeigt wird, entspricht dem tatsächlichen INhalt des features "Transmission Engine Distribution ".

This may also affect the euro+med project!

History

#1 Updated by Andreas Kohlbecker over 5 years ago

  • Keywords set to Euro+Med,Migration

#2 Updated by Andreas Kohlbecker over 5 years ago

  • Subject changed from Transmissionengine Ditrubution seems to miss distributions for higher Taxa to Transmissionengine Distrubution seems to miss distributions for higher Taxa

#3 Updated by Andreas Kohlbecker over 4 years ago

  • Subject changed from Transmissionengine Distrubution seems to miss distributions for higher Taxa to Transmissionengine Distribution seems to miss distributions for higher Taxa

#4 Updated by Andreas Kohlbecker over 4 years ago

  • Status changed from New to In Progress
  • Target version changed from Euro+Med Migration to Release 3.8

#5 Updated by Andreas Kohlbecker over 4 years ago

waiting for #5176 to be solved before starting with this issue.

#6 Updated by Andreas Kohlbecker over 4 years ago

  • Keywords changed from Euro+Med,Migration to Euro+Med,Migration,TransmissionEngineDistribution

#7 Updated by Andreas Kohlbecker over 4 years ago

  • Status changed from In Progress to Worksforme
  • Resolution set to worksforme
  • % Done set to 0
  • Target version deleted (Release 3.8)

wie kommt es eigentlich, dass für das Taxon "Cichorieae" die Transmission Engine Distribution nur so extrem fragmentarischen Inhalt hat (http://wp6-cichorieae.e-taxonomy.eu/portal/cdm_dataportal/taxon/c34eb662-6bba-4ad7-b84e-dd98f2fd9788)

Derzeit gibt es für diese Taxon keinerlei DescriptionElements und insofern auch keine Verbreitungsangaben.

Die Aggregation über die Rangstufen wurde nur für die Rangstufen UNRANKED_INFRASPECIFIC bis GENUS durchgeführt. Dies entspricht exakt dem Verhalten der originalen BerlinModel TransmissionEngine. Hier ein Zitat aus dem Code: "* 6 rank levels to be calculated between microspecies and genus ..._"

Bei der Agregation über die Area-Hierarchie werden dagegen alle Taxa berücksichtigt, Daher hat das Taxon Cichorieae Lam. & DC., eine TransmissionEngineDistribution die aber leer ist da dieses Taxon keine editierten Verbreitungsangaben enthält.

Das original taxon in der BerlinModel datenbank hat ebenfalls keine Verbreitungsangaben http://ww2.bgbm.org/euroPlusMed/PTaxonDetail.asp?NameCache=Cichorieae&PTRefFk=7000000

Insofern ist offensichtlich alles korrekt.

#8 Updated by Andreas Kohlbecker over 4 years ago

  • Status changed from Worksforme to Feedback
  • Resolution deleted (worksforme)
  • % Done changed from 0 to 0

Hallo Andreas,

das verstehe ich nicht ganz: OK, http://cichorieae.e-taxonomy.net/portal/cdm_dataportal/taxon/c34eb662-6bba-4ad7-b84e-dd98f2fd9788 hat keine eigene Distribution, aber die Transmission-Engine-Distribution ist ja nicht leer, sondern hat 8 Einträge, die ja auch angezeigt werden.

Wie auch immer, heißt dies, dass wenn dieses Taxon eine editierte Distribution hat, dann würden die volle Aggregation über die Area-Hierarchie laufen?

Beste Grüße,

Norbert

#9 Updated by Andreas Kohlbecker over 4 years ago

Hi Norbert,

< das verstehe ich nicht ganz: OK, hat keine eigene Distribution, aber die Transmission-Engine-Distribution ist ja nicht leer, sondern hat 8 Einträge, die ja auch angezeigt werden.

das ist tatsächlich etwas seltsam. Ich kann mir das nur so erklären, dass die Transmission-Engine-Distribution für die Cihorieae wohl doch so gestartet worden ist, dass sie über alle Rangstufen läuft. Denn bei Euro+Med, wo der die Standarteinstellung (UNRANKED_INFRASPECIFIC bis GENUS) benutzt worden ist ist alles wie erwartet.

... wenn dieses Taxon eine editierte Distribution hat, dann würden die volle Aggregation über die Area-Hierarchie laufen?

Genau so ist es, die Verbreitungsangaben zu den Arealen werden derzeit für jedes Taxon aufaggregiert, das editierte Verbreitungsangaben hat. Dieser Aggregationsschritt läuft zuerst. Danach startet die Aggregation über die Taxon-Hierarchie. Bei diesem Schritt werden sowohl editierte als auch berechnete Angaben berücksichtigt, wobei die berechneten Vorrang haben.

Der erste Aggregationsschritt über die Areal-Hierachie wird für alle Taxa durchgeführt. Der zweite Schritt kann auf ein bestimmtes Rangintervall beschränkt werden, er bezieht also nur diese Taxa die in diesem Intervall liegen. Dies entspricht exakt dem Verhalten der Transmisison-Engine im Berlin-Model. Ich fände es logischer und auch das Ergebnis der Aggregation wäre konsistenter wenn die Beschränkung auf bestimmte Taxa auch für die Aggregation über die Areal-Hierarchie gelten würde. Ansonsten gibt es Taxa beiden die Verbreitungsangaben der Unter-Taxa mir einbezogen wurde und bei anderen wurde nur die Areal-hierarchie berücksichtigt. Mir leuchtet nicht ein warum man so etwas wollen kann.

Andreas

#10 Updated by Andreas Kohlbecker about 4 years ago

Hallo Andreas,

ich finde es logisch, was Du schreibst und sehe das genauso. Ehrlich gesagt hätte ich auch erwartet, dass sowohl die Areal-Aggregation als auch die Taxa-Aggregation nur bis zu bestimmten Rangstufen durchgeführt werden. Dass dies nicht der Fall ist, wundert mich etwas. Andererseits: in Euro+Med hatten wir editierte Verbreitungsangaben grundsätzlich nur für Unterarten und Arten, da dürfte es also keine Rolle spielen, oder?

Schönen Gruß, Eckhard

#11 Updated by Andreas Kohlbecker about 4 years ago

  • Status changed from Feedback to Closed
  • Resolution set to fixed
  • % Done changed from 0 to 100

Hallo,

ich habe mittlerweile angefangen den code für die Transmissionengine so umzuschreiben, dass alle Aggregationenen nur die Taxa berücksichtigen die vom definierten Rang-Intervals erfasst werden. Dies führ nicht nur zu einer besseren Konsistenz sondern verbessert auch die Performancem, daher sind all diese commits im ticket #5177 (improve perfomance of TransmissionEngineDistribution) zu finden.

Die Frage die zur Eröffnung dieses Tickets geführt hat ist beantwortet, also werde ich das ticket schließen. Die Antwort nochmal in Kurzform: Die TransminssionEngine hat keine Taxa mit höheren Rängen ausgelassen, sondern ein Aggregationsschritt war nicht auf die Taxa im Ranginterval beschränkt, daher die scheinbar unvollständigen Distributions.

Andreas

#12 Updated by Andreas Kohlbecker over 2 years ago

  • Private changed from Yes to No

#13 Updated by Andreas Müller about 1 month ago

  • Description updated (diff)
  • Status changed from Closed to Feedback
  • Assignee changed from Andreas Kohlbecker to Norbert Kilian
  • Target version set to Release 5.12

Das ist für mich nicht logisch. Auch wenn die Aggregation über die Areale auch auf höheren Rangstufen erfolgte (was im BM wirklich so war, weil dort die Aggregation NUR für E+M geschrieben war und in E+M es keine Verbreitungen mit Rang >Species gibt), erklärt das nicht, woher die Verbreitungen in "Cichorieae Lam. & DC." stammen. Schließlich gibt es eigentlich keine nativ eingegebene Verbreitung, dann hätte da doch auch ncihts aggregiert worden sein können entlang der Arealhierarchie. Das sollten wir nach der Neuimplementierung/Korrektur der Verbreitungsaggregation nochmal checken.

Anm.: Später wurde wohl doch noch 1 native Verbreitung (Germany, TDWGL4) von dir eingegeben, Norbert. Ohne Quelle. Soll die so sein oder ist das ein Versehen.

Und: können wir diese ganzen Berechneten Verbreitungen auf oberer Ebene (Tribus, Subtribus) löschen? Dann ließe sich die nächste Verbreitungsaggregation besser testen, die dann ja nur bis zur Gattung soll(?).

#14 Updated by Andreas Müller about 1 month ago

  • Due date deleted (09/29/2015)

#15 Updated by Andreas Müller about 1 month ago

  • Status changed from Feedback to In Progress
  • Assignee changed from Norbert Kilian to Andreas Müller
  • % Done changed from 100 to 70

NK:

Vor eine Neuaggregation können und sollten die Neuberechnungen auf Subtribus- und Tribus-Ebene gelöscht werden. Aber: die Verbreitungsdatenaggregation sollte im Cichorieae-Portal schon bis auf Tribusebene einschließlich erfolgen. In absehbarer Zeit wird sich die Klassifikation insoweit ändern, als eine höhere Rangstufe, die Unterfamilie, dazukommt (und wahrscheinlich 2 Taxa als neue Tribus ausgegliedert werden), deshalb wäre es sinnvoll, wenn die Aggregation bis zum höchsten verwendeten Taxon berechnet wird.

#16 Updated by Andreas Müller about 1 month ago

AM:

Ja, ich habe dann später auch festgestellt, dass die Aggregation bis zum Tribus in dem Fall gewünscht war. Daher stellt sich jetzt aber andersherum die Frage, warum nur so wenige Areale bis auf diese Stufe aggregiert wurden. Da stimmt auf jeden Fall etwas noch nicht. Das müssen nach der Überarbeitung der Distribution Aggregation testen.

#17 Updated by Andreas Müller about 1 month ago

  • Status changed from In Progress to Resolved
  • % Done changed from 70 to 50

I set to resolved as I guess it is fixed. But needs to be reviewed.

#18 Updated by Andreas Müller 23 days ago

  • Priority changed from New to Highest

#19 Updated by Andreas Müller 9 days ago

  • Assignee changed from Andreas Müller to Norbert Kilian
  • % Done changed from 50 to 90

I think this is fully fixed with the new implementation of the transmission engine (which allows the user to decide to which final subtree parent and/or rank he/she wants to aggregate.

Norbert, can you please have a final look if any of the issues discussed here might be missing in the current implementation or in the data currently aggregated with the new algorithm on cichorieae?
Afterwards we may close the ticket.

Also available in: Atom PDF

Add picture from clipboard (Maximum size: 40 MB)