Liebe Campanula-Kollegen,
einige Monate sind vergangen, seit wir uns durch die DNA-Elemente und die Modellierung des CDM gekämpft haben. Die Term-Liste ist inzwischen auch um Elemente aus dem Metagenomics-Bereich erweitert worden und wir betreiben im Moment ein Review der Terme. Falls Ihr mögt würde ich mich freuen auch von Euch ein Feedback zu bekommen und mir die Liste ausgefüllt zurückzuschicken. Auch im Rahmen von SYNTHESYS geht es um die Schritte zwischen Extraktion und finaler Sequenz in GenBank etc., so dass ich denke wir sollten uns hier auf jeden Fall kurzschließen wie Ihr Euch die Workflows speziell für Campanula und das CDM überlegt habt. Das wäre mir eine große Hilfe bei der Umsetzung der Bedürfnisse in unserer eigenen Bank.
Viele Grüße
Gabi
Hallo Gabi, Norbert, Tilo,
pünktlich zum 14.3. habe ich nun endlich Zeit gefunden in den Term-Entwurf zu schauen. Zu den dort gestellten fragen wie Needed, Usually Collected, Ease, ... kann ich natürlich nichts sagen, aber ich habe den Entwurf einfach mal mit dem verglichen, was wir derzeit im CDM haben oder vorhaben.
Dabei sind mir einige Fragen gekommen. Einige davon Verständnis fragen, da der Liste keine Semantik beigefügt ist und sich mir als nicht Biologen nicht unbedingt immer alle Begriffe sofort erschliessen. :
1) Was bedeutet das Feld sequence bei Tissue facts ?
2) Was bedeutet sequence bei DNA/RNA. Die Consensus Sequence kann hier ja wohl nicht gemeint sein, da die noch später kommt.
3) MethodDeterminationConcentrationAndRatios: Ist das alles eine Methode oder mehrere?
4) Was bedeutet CompositeDesign bei Tissue facts?
5) Brauchen wir CompositeDesign und SampleWeight für Tissue facts im CDM auch. Bisher wurden diese Parameter nicht genannt.
6) Ist PreservationType gleichzustellen mit PreservationMedium in älteren Versionen? Wenn ja, warum wurde es umbenannt?
7) Ist PreparationType gleichzustellen mit Preparation Materials And Methods? Wenn ja, warum wurde es umbenannt?
8) Im CDM brauchen wir die Angaben Volume - QualityCheckDate nicht, oder?
9) GelRemarks haben wir im CDM bislang nicht. Brauchen wir das oder fliegt das zusammen mit den Amplificationsdaten sowieso eher raus?
10) GSC related DNA facts: Ist das für CDM relevant? Sagt mir inhaltlich nichts.
11) ConsensusSequence: Es wundert mich, dass diese unterhalb Amplification aufgezählt wird. Sollten wir dafür nicht eine eigene Rubrik haben. Insbesondere auch, wenn man bedenkt, dass das Verhältnis nicht unbedingt immer 1:1 ist?
12) GeneticAccessionNumberURI: Was ist hiermit genau gemeint? Das hängt doch davon ab, auf welches System man verlinkt, daher würde ich es entweder GenBankAccessionURI/EMBLAccessionURI/... nennen oder ganz weglassen, da es leicht on the fly berechnet werden kann. Letzteres machen wir im CDM.
13) GSC related Amplification facts: Diese behandeln wir im CDM derzeit nicht. Benötigt?
13) Single Sequencing: FragmentLength. Das gibt es im CDM bislang nicht und wurde bislang auch incht genannt. Wird es benötigt?
14) Primer: Adapters und MultiplexIdentifiers gibt es bislang nicht im CDM. Benötigt?
15) Bei der ConsensusSequence wurde auf die Angabe von Referenzen verzichtet. Bewusst, weil diese auch über GenBank zu beziehen sind oder gibt es anderen Grund?
16) Auch das contigFile steht nicht zur Verfügung. Gewollt?
17) Bei ChromatogramFileURI hatten wir uns im CDM für Pherogram als Begriff entschieden, da dieser spezifischer ist.
18) MaterialSampleID: Verstehe ich es richtig, dass dies die ID des Samples ist? Ist der Begriff aus einem anderem Schema abgeleitet oder für GGBN neu kreiert? (im CDM benutzen wir nur ID für alle Klassen, lediglich Fremdschlüssel werden mit semantischen Namen versehen).
19) Sind die Beziehungen zwischen den einzelnen Teilen bewusst weggelassen worden oder handelt es sich wirklich um eine flache Liste? Ich fände es hilfreich, wenn diese Felder auch mit auf die Liste kämen, so dass diese klar sind und auch klar ist, inwieweit Mehrfachverwendung von gewissen Elementen abgedeckt und benötigt wird.
Soviel erstmal.
@Norbert, Tilo: Hattet ihr eigentlich auch schon auf die Liste geschaut?
Viele Grüße,
Andreas M.
Hallo Andreas,
erstmal vielen Dank fürs Durchkucken. Ich bin ab Mittwoch wieder da, aber kurz eine Rückmeldung.
Alles, was unter GSC gelistet ist stammt aus der Metagenomics-Szene (Bakterien, 10.000e Sequenzen pro Sample) und ist bis auf Weiteres nicht relevant fürs CDM, z.B: Deine Fragen 4,5, 10, 13a, 14
MaterialSampleID kommt durch die Diskussion mit DarwinCore-Archive, dort wird diese ID benötigt (kann alles mögliche sein, z.B. Datenbank-ID), in ABCD wird es z.B. nicht benötigt.
Die Relationen zueinander sind bewusst unterdrückt worden. Es geht hier rein um die Terme. Wie man sie implementiert und in Relation setzt soll hier nicht Thema sein.
Dokumentation gibt’s hier: http://goo.gl/WgsAqs
Soweit erstmal.
Viele Grüße