Hallo @Anni2017,
fragen finde ich nicht verkehrt. Eine komplette Lösung im Rahmen einer Masterarbeit zu liefern hat für mich einen gewissen Beigeschmack. Daher hier ein paar generelle Hinweise von mir. Zumal mir für eine komplette "Lösung" auch einige Hinweise fehlen.
Zu Deinen Fragen:
ID's mit Charactern einzulesen sollte kein Problem sein. Wer sagt denn, dass eine ID immer numerisch sein muss? Oder sind in der Datei einfach die numerischen ID's plus zusätzliche irrelevante Character-Zeichen in den Feldern enthalten?
Grundsätzlich sollten die Delimiter in einer Datei natürlich klar gegeben sein. Wenn ich mir ein paar ID's in der Datei Verwandschaft anschaue, scheint es auch so zu sein, dass immer mit Semicolon getrennt ist. Leerzeichen sind ja auch nur Character-Werte und sollten bei der Angabe eines Delimiters nicht stören.
SAS kennt zwei Datentypen: Character und Numerisch.
Ein Datum oder eine Uhrzeit ist auch nur ein numerischer Wert, der einfach anders dargestellt wird (das erledigen die Formate).
Was SAS beim Import Wizard macht ist, dass die ersten paar Datensätze (z.B. die ersten 100 Datensätze) analysiert und daraufhin seinen Code generiert. Wenn in den ersten analysierten Datensätzen nur numerische Werte vorkommen geht der Wizard davon aus, dass es sich um ein numerisches Feld handelt. Wird ein Datum erkannt, wird ein entsprechendes Format für das Feld gewählt.
Hier ist also wichtig eine genaue und korrekte Felddefinition zu haben. Entweder Du hast diese in der Datenbeschreibung mitbekommen oder Du solltest die Anzahl Zeilen, die von dem Wizard analysiert werden erhöhen, damit verschiedene Fälle in den Daten entdeckt werden können. (Ich vermute Du nutzt den Enterprise Guide?)
Letztendlich ist so ein Wizard immer nur eine Hilfestellung und kann nie garantieren, dass er in Deinem speziellen Fall korrekt arbeitet. Gegebenenfalls liefert der Wizard zumindest einen ersten Code, den Du dann für Dich anpassen kannst.
Die Thematik der ID-Bereinigung habe ich nicht ganz verstanden. Sind manchmal nur zusätzliche Character-Zeichen enthalten, die aus den Daten entfernt werden sollen oder soll den ID's mit Charactern eine komplett neue ID zugeordnet werden?
Für alle Anforderungen gibt es (verschiedene) Lösungsmöglichkeiten.
Was ich auch nicht verstanden habe ist, wieso Du die Verwandschaftsdatei zunächst als Excel bearbeitet hast und dann einliest?
Ich würde Dir dazu raten einmal die Schritte durchzudenken und auszuformulieren. Was möchtest Du tun, bzw. was würdest Du tun, wenn Du die Bearbeitung von Hand auf Papier machen müsstest? Z.B.:
1) Einlesen der Performance-Datei
2) Einlesen der Verwandschafts-Datei
3) Überarbeiten der ID's ... (was genau?!)
4) ...
Dann kannst Du Dich daran machen, die geeigneten Schritte und Vorgehensweisen bei SAS zu suchen, bzw. zu erfragen.
Herzliche Grüße und viel Erfolg
Michael
... View more