About mfab

mfab · ‎10-18-2016

Hallo zusammen, ich verwende ein Hash, welches ich aus einer bestehenden Tabelle befülle und nutze es, um Informationen an eine Tabelle zu joinen. Wenn ich definedata() nicht explizit vorgebe, werden die Felder im Ergebnis nicht befüllt. Daher suche ich nun eine Möglichkeit meine durchnummerierten Felder im definedata() als Variablen-Liste anzugeben. Das scheint allerdings nicht möglich zu sein. Nachfolgend einige Beispiele, die leider nicht funktionieren (egal, ob mit Hochkommas oder ohne): rc = h_obj.definedata("meineFelder:"); rc = h_obj.definedata("meineFelder_00-meineFelder_24"); rc = h_obj.definedata("_NUMERIC_"); rc = h_obj.definedata("meineFelder-numeric") ; Hat jemand schon Vergleichbares versucht und eine Lösung dafür gefunden? Besten Dank für Hinweise dazu. Viele Grüße Michael

mfab · ‎09-21-2016

Hallo @arial34, zunächst sollte das PROC SQL meines Wissens mit einem "QUIT;" beendet werden, anstatt mit einem "RUN;". Das Quit beendet den SQL-Processor und verhindert, dass ggf. weitere Resourcen belegt werden, die nicht mehr belegt sein müssten. Das Problem welches entsteht ist im Log mit folgender Zeile ersichtlich: MPRINT(_EG_WHEREPARAM): location_id IN 1 Ich arbeite nicht mit dem _eg_whereparam Marco, aber wie es scheint wird bei der Eingabe von nur einem Parameter nur die oben stehende Zeile generiert. Nach dem IN-Operator muss allerdings entweder eine Aufzählung in Klammern erfolgen, also in dem Beispiel "location_id IN (1)" oder eben ein select - "location_id IN select id from [...]" /* Funktioniert nicht: */ PROC SQL NOPRINT; CREATE TABLE WORK.TEST AS SELECT * FROM WORK.INPUT WHERE location_id IN 1 ; QUIT; /* Funktioniert: */ PROC SQL NOPRINT; CREATE TABLE WORK.TEST AS SELECT * FROM WORK.INPUT WHERE location_id IN (1) ; QUIT; Mögliche Lösung wäre demnach entweder das Macro nicht zu verwenden oder davor abzuprüfen, wieviele Parameter geliefert werden. Wird nur ein Parameter geliefert ist statt dem "IN" vielleicht besser ein "EQ" (oder 😃 zu verwenden. Beste Grüße mfab

mfab · ‎08-15-2016

Hi @RW9, I know what you mean... let me clarify. I am programming SAS for several years now and still, I am learning new things. In this case however, I am sure, that I know exactly what I am doing. As for your reference to merging. Please check the merge with multiple by values. It might be personal preference, but for all SAS Programmers that I have been talking to, this is most inconvenient. We tend to use SQL for most joins, which not only provides the expected results. It is also faster to implement and reasier to read. Only in rare cases we use the merge for its functionality and additional options within the data step. There are several papers out there, describing the pitfalls of the merge. (Yes, we do understand the merge, we just don't like it!) Also, I know, that I could program the whole functionality myself in base code. My aspiration in this case is to understand some procedures a little bit better and use them when applicable. My thoughts are that the compare should fit for this problem only with the slight inconvenience of the warning message in the log. The default proc compare behaviour is as follows (see this link, last paragraph): Avoiding Duplicate ID Values The observations in each data set should be uniquely labeled by the values of the ID variables. If PROC COMPARE finds two successive observations with the same ID values in a data set, then it does the following: prints the warning Duplicate Observations for the first occurrence for that data set prints the total number of duplicate observations found in the data set in the observation summary report uses the duplicate observations in the base data set and the comparison data set to compare the observations on a one-to-one basis Again, the proc compare does exactly the things I need for the given data, that I can't change. It also does perform as described in the documentation. My only question is: how do I suppress the warning? (since I know what I am doing) Cheers, mfab

mfab · ‎08-11-2016

@RW9: well to be honest, I avoid the merge whereever I can, because I do not like its default behaviour. As for my example the compare does exactly as it should and saves me some time programming it all myself in datasteps or sql. The behaviour is perfectly as described in the documentation, so there are no uncertainties for me. I know what you mean when referring to an ID variable. However I had to make up an example... let's say, we have two tables without ID variables. The issue remains the same. My example is shortened, so in the real world I have multiple variables and the datasets are sorted properly. However I do not have a key variable or several fields that I could use as key. In the end, the sorting matches about 98% of the data successfully, which is sufficient in our case. So the compare does exactly as it should and manual programming would bring the same results. @RyanSimmons: Thanks, I think I have seen that note before. It is not what I am looking for in this example, since it is not an error and I do not want to suppress all the warnings or something. Just this specific warning generated by this procedure. I find it to be good programming style, if the code does not produce any warnings. That is my personal aspiration 😉 and also our programs are ended in batch mode, once they run into a certain number of warnings.

mfab · ‎08-11-2016

Hello all, I have two datasets, that I do already compare with proc compare. Let's say I have a dataset from day 1 and a dataset from day 2. Both contain records from customers. A customer may have a change in his existing record and the customer may have new records. The following describes the situation in code: data day1; input idfield valuefield $; datalines; 1 D 2 A 2 A 3 D 3 A 3 A ; run; data day2; input idfield valuefield $; datalines; 1 D 1 A 2 A 2 A 3 D 3 D 4 A ; run; proc compare base=day1 comp=day2 outnoequal outcomp out=work.compout (/*keep=_type_ _obs_*/); id idfield; var valuefield; run; Now I do get the results I want from the proc compare, which is great. Here are the resutls with a comment added manually: _TYPE_ _OBS_ idfield valuefield comment COMPARE 2 1 A there is a new record (obs 2) for id 1 COMPARE 6 3 D there is a change from 'A' to 'D' in the second record for id 3 (obs 6) COMPARE 7 4 A obs 7 provides a new record for a new id 4 Now since I have sorted both my tables exactly as I want to, I also get exactly the results I want to have. (proc compare does compare the observations on a one-to-one basis when it encounters duplicate observations per id varaiables) So far so good, now since I would like to write proper code, how do I get rid of the log warning message? WARNING: The data set WORK.DAY2 contains a duplicate observation at observation number 2. [...] WARNING: The data set WORK.DAY1 contains a duplicate observation at observation number 3. [...] This is really a bummer, especially since I have yet to find a way how to catch these warnings. On the other hand, I would like to prevent these warnings in my code altogether. Any help is appreciated. 🙂 Cheers Michael

mfab · ‎06-28-2016

Hello @ShelleySessoms, what if I don't see the button to 'Accept as Solution'? I would like to mark my topic as resolved, but I don't know how. It is a German sub-community: https://communities.sas.com/t5/CoDe-SAS-German/Verwendung-von-Hash-Objekt/gpm-p/280738#M2053 Any ideas on that? Thanks, Michael

mfab · ‎06-28-2016

Herzlichen Dank für die Rückmeldungen! Die SQL-Lösung wollte ich vermeiden, da die Datenmenge nicht gerade klein ist und ich im Data-Step noch weitere Schritte mache. Ich müsste dann auch wieder einen Join an die bestehenden Daten machen und denke, dass das Hash-Objekt hier eine gute Lösung ist. Außerdem wollte ich es auch einfach mal einsetzen 😉 Die Lösung von @chsc hat mich darauf gebracht, dass vermutlich nicht die Größe eines einzelnen Hash-Objektes das Problem sein dürfte. Vielmehr vermute ich, dass SAS wie beschrieben bei jeder Iteration ein Hash-Objekt erzeugt und somit irgendwann der Speicher voll läuft. Demzufolge hatte ich auch versucht das Hash mit h_obj.delete() zu löschen, was jedoch ohne Erfolg blieb. Der Gedanke einfach ein (if _n_ = 1) ist natürlich ganz prima! Herzlichen Dank für die Hinweise, ich würde das gerne als Lösung markieren, finde jedoch die Option dazu hier im Forum nicht. Cheers, Michael

mfab · ‎06-28-2016

Hallo zusammen, bei einer Problemstellung möchte ich ein Hash-Objekt für eine möglichst performante Lösung verwenden. Ausgang ist folgende Tabelle: data work.randomdata (drop=i j); length key1 key2 $20. datafield $1.; do i = 1 to 1000; /* hier absichtlich zunächst nur 1000 */ key1 = put(i, z20.); key2 = put(floor(ranuni(0)*100000000), z20.); if floor(2*ranuni(0)) then datafield = 'M'; else datafield = 'F'; output; do j = 1 to 5; if floor(2*ranuni(0)) then do; if floor(2*ranuni(0)) then do; key2 = put(floor(ranuni(0)*100000000), z20.); if floor(2*ranuni(0)) then datafield = 'M'; else datafield = 'F'; end; output; end; end; end; run; Ich habe also ein Schlüsselfeld (key1). Hierfür existieren jeweils ein oder mehrere weitere Felder (key2). Pro key2 sollte theoretisch nur ein Datenfeld (datafield) vorliegen, es kann jedoch auch vorkommen, dass hier unterschiedliche Werte pro key2 vorliegen. Datafield ist immer entweder 'M' oder 'F'. Der obige Code beschreibt meine Datenbasis wirklich erstaunlich gut. Aufgrund der zufälligen Werte könnte auch ein key2 mehrfach mit unterschiedlichem key1 vorkommen. Auch das habe ich in meinen Daten. Nun möchte ich pro key1 die Anzahl der distinct key2 zählen und gleichzeitig auch noch zählen, wieviele Ausprägungen in datafield ich pro key1 habe. Meiner Ansicht nach müsste sich ein Hash-Objekt hier bestens eignen. Die angedachte Vorgehensweise ist für mich wie folgt: - Sortieren der Daten nach key1 - Verarbeiten der Daten in einem Data-Step mit by-Statement (key1) und Ausgabe der Ergebnisse bei last.key1 - Nutzung eines Hash-Objektes, das pro key1 befüllt wird -- Hash-Objekt und Zähler erzeugen -- pro Zeile key2 als Schlüssel und datafield als Wert einfügen (wenn dieser Schlüssel schon vorliegt, wird der bestehende Satz ersetzt, somit ggf. das Datenfeld überschrieben - das ist in Ordnung für mich - pro key2 kann dann nur eine Ausprägung im Datenfeld vorliegen) -- Ausgabe der Anzahl Sätze im Hash-Objekt mit obj.num_items -- beim letzten Datensatz pro key1 (if last.key1) Iterierung über das Hash-Objekt und Zählung der Werte im Datenfeld (hier zähle ich zum Abgleich nochmal auch die Anzahl Datensätze im Hash komplett mit) -- leeren des Hash für die nächste Zählung pro key1 - Da ich (per Definition) maximal 5 Datensätze pro key1 habe, sollte die Größe des Hash mit 2 hoch 10 (hashexp: 10) deutlich ausreichen. Hier mein Code dazu: proc sort data=work.randomdata; by key1 key2; run; data work.test (keep=key1 count_m count_f count_key2 count_key2_2); length key2 datafield $20.; declare hash h_obj ; h_obj = _new_ hash(hashexp: 10); rc = h_obj.definekey("key2") ; rc = h_obj.definedata("datafield") ; declare hiter h_iter("h_obj") ; rc = h_obj.definedone() ; set work.randomdata; by key1; retain count_m count_f count_key2 count_key2_2; if first.key1 then do; count_m = 0; count_f = 0; count_key2 = 0; count_key2_2 = 0; end; rc = h_obj.replace(key: key2, data: datafield); if last.key1 then do; count_key2 = h_obj.num_items; rc = h_iter.first(); do while (rc = 0); if datafield = 'M' then count_m + 1; else if datafield = 'F' then count_f + 1; count_key2_2 + 1; rc = h_iter.next(); end; rc = h_obj.clear(); output; end; run; Folgende Problematik habe ich noch nicht durchschaut: - weshalb funktioniert die Zählung nicht richtig? Hier habe ich offensichtlich noch einen Fehler. - wenn ich die Anzahl der Datensätze von 1000 unterschiedlichen key1 auf 100.000 erhöhe, erhalte ich den schönen Fehler, dass nicht ausreichend Memory zur Verfügung steht: ERROR: Hash object added 0 items when memory failure occurred. FATAL: Insufficient memory to execute DATA step program. Aborted during the EXECUTION phase. ERROR: The SAS System stopped processing this step because of insufficient memory. Das passiert bei 13592 eingelesenen Sätzen. => Offensichtlich funktioniert das leeren des Hash nicht korrekt. Ich habe schon verschiedene Varianten durchgespielt, unter Anderem auch mit Löschen des Hash (h_obj.delete()) und einem vermeintlichen neuen Erzeugen des Hash pro neuem key1. Auch mit neuem Aufruf des Konstruktors (h_obj = _new_ hash() ) komme ich leider nicht weiter. Über sachdienliche Hinweise freue ich mich sehr Vorerst werde ich das wohl klassisch mit einem Array lösen. Beste Grüße Michael

mfab · ‎06-06-2016

wie wäre es denn mit den Transformationen unter "Analysis", z.B. Frequency oder Summary Statistics? 😉

mfab · ‎05-31-2016

Hallo @Fay123, eventuell könntest Du hier auch mit einem "Rank" (inkl. entsprechendem by-statement) und einem anschließenden "Extract" (auf die entsprechenden Ranks) arbeiten. Somit hättest Du auch wieder zwei Schritte, die aber ggf. im DI-Studio optisch leichter nachvollziehbar sind. Ein weiterer Vorschlag - nicht zur Verwirrung, nur der Vollständig halber Cheers, mfab

mfab · ‎05-25-2016

Hallo zusammen, hier möchte ich noch ein paar Aspekte ergänzen. Wir haben auf unseren Systemen den SAS SPDS im Einsatz. Obwohl bei uns I/O-Zugriffe immer noch oft das Bottleneck sind, konnten wir dank Parallel Join Facility und Verwendung von SQL statt Data Step einige Datenschritte deutlich beschleunigen (Faktor 4 war dabei keine Seltenheit). Dazu sollte ich ergänzen, dass bei Joins großer Datenmengen nie mehr als zwei Tabellen in einem Schritt verwendet werden sollten. Komplexeren Code finde ich im Data Step teilweise übersichtlicher und da bieten sich auch mehr Möglichkeiten, wenn man sie denn braucht. Insbesondere der Merge ist für mich aufgrund der von @AndreasMenrath angesprochenen Thematik nicht sinnvoll zu verwenden, weshalb ein SQL Join alternativlos ist. Sonnige Grüße Michael

mfab · ‎05-11-2016

Hallo Fay, das sollte mit einem Rank gehen. Hier lässt sich auch steuern, was mit zwei gleichen Beobachtungen geschehen soll. Anschließend lässt sich ggf. mit einem Where die Ausgabe steuern oder das Ergebnis anderweitig weiterverarbeiten. (Beispiel in Englisch: https://support.sas.com/documentation/cdl/en/etlug/66819/HTML/default/n1ekkk68nic8q9n1wf7b9o2rdm39.htm) Viele Grüße mfab

mfab · ‎03-11-2016

Wenn sich die Datensätze vervielfachen, klingt das für mich danach, dass in der Tabelle mit Zusatzinformationen (nennen wir sie mal Tzusatz) pro Datensatz in der anzureichernden Tabelle (nennen wir mal Tdaten) mehrere Informationen vorliegen. Dann wird bei einem Join natürlich jeweils ein Datensatz erzeugt, sprich: die Sätze in Tdaten vervielfältigen sich. (Wenn stattdessen durch die Anreicherung nur neue Sätze aus Tzusatz in Tdaten wandern und die Anzahl Sätze im Ergebnis erhöhen, reicht ein left, bzw. right Join - je nachdem welche Tabelle zuerst steht) Hierzu gibt es verschiedene Lösungen: Eine ist beispielsweise die Tabelle Tzusatz so aufzubereiten, dass pro Join-Kriterium nur noch ein Satz vorliegt, also die Informationen, die ggf. in mehreren Zeilen vorliegen auf mehrere Spalten verteilen und anschließend joinen der Tabelle. Falls Du für Dein Problem ein konkretes Beispiel hast, macht es das natürlich einfacher. Tabelle 1: NAME Uwe Udo Eva Tabelle 2: NAME ZUSATZINFO Uwe 46 Udo 32 Udo 40 Eva 34 In dem Fall also mehrfaches Vorkommen von Werten in der Zusatztabelle. Das ist ein anderes Problem als: Tabelle 1: wie oben und Tabelle 2: NAME ZUSATZINFO Uwe 46 Udo 32 Eva 34 Oli 50 Hier also mehr Werte in der Zusatztabelle, als in der Originaltabelle. Eventuell liegen auch beide Fälle zur gleichen Zeit vor...

mfab · ‎03-08-2016

Hallo Silke, ich arbeite fast nie mit der "print-Ausgabe", sondern immer mit Tabellen. Da bietet sich an, dass man einfach mit der Ausgabetabelle von proc corr weiter arbeitet. Hier mal ein kleines Beispiel: proc corr data=sashelp.cars out=work.tmp; run; data work.want; set work.tmp; array alles _numeric_; do over alles; if alles lt 0.5 then alles = .; alles = round(alles,0.01); end; run; Einfacher Fall: Die Ausgabe von proc corr verwende ich weiter und lege dort ein Array über alle numerischen Variablen. Wenn die Variable über dem Schwellwert (hier 0.5) ist, wird sie beibehalten, ansonsten auf missing gesetzt. Das schafft zumindest etwas übersichtlichkeit. Ich hoffe, das hilft vielleicht ansatzweise weiter. Beste Grüße Michael Edit: ich habe noch ein "round" eingefügt, damit das Ergebnis besser abzulesen ist. Natürlich kann man sich jetzt gleich fragen, ob zuerst das round stehen soll oder zuerst die Prüfung, ob der Schwellwert erreicht ist ... 😉

mfab · ‎03-02-2016

Hallo Herr Müller, ich sehe da kein Problem. Was genau funktioniert denn bei Ihnen in diesem Ablauf nicht? Viele Grüße Michael Edit: Anmerkung Wie @FreelanceReinh schon angemerkt hat, kann das mit den Anführungszeichen zu Verwirrung führen. %let flag = 'irgendwas'; speichert auch die Hochkommas in der Macro-Variablen. Andererseits führt ein data ergebnis; set eingang; if &flag. eq irgendwas [...] run; dazu, dass im Data Step (Program Data Vector) eine neue Variable mit Namen irgendwas angelegt wird. Daher bietet es sich vielleicht an, das Ganze mit einem "Pseudo-Boolean" abzufangen: %let flag = 1; data ergebnis; set eingang; if &flag. then a = 2*a; run; Achtung: Die Variable flag ist und bleibt ein String, allerdings kann SAS damit umgehen und die Abfrage "if 1 then .." ist wahr, "if 0 then..." wäre falsch. Wenn man dann die Variable umbenennt wird das recht einfach lesbar, z.B. "if &flag_gesetzt. then ..."

Online Status	Offline
Date Last Visited	‎09-05-2021 07:37 PM

Betreff: "Alle Spalten" auswählen, aber wie ?

Betreff: Dubletten löschen wenn zwei Spalten denselben Wert haben

Betreff: Übertragung von Informationen in anderen Datensätze

Betreff: Übertragung von Informationen in anderen Datensätze

Betreff: Doppelte Datensätze unter bestimmter Bedingung löschen

Re: Change Background Color in Program Editor (Enterprise Guide 8.1)

Change Background Color in Program Editor (Enterprise Guide 8.1)

Betreff: Anonymisierung der Kennnummer

Betreff: Anonymisierung der Kennnummer

Betreff: Spiegel Online Rätsel als SAS Code Kata

Re: Informationen aus anderem Datensatz hinzufügen

Betreff: Umwandeln Zahl in Datum

Betreff: Performance Proc Append und Umbenennen von Datasets

Re: Performance Proc Append und Umbenennen von Datasets

Activate Properties for Files and Folders in Enterprise Guide

Betreff: Dubletten löschen wenn zwei Spalten denselben Wert haben

Betreff: Übertragung von Informationen in anderen Datensätze

Betreff: Übertragung von Informationen in anderen Datensätze

Betreff: Doppelte Datensätze unter bestimmter Bedingung löschen

Betreff: Umwandeln Zahl in Datum

Liste von Variablen mit Hash verwenden

Betreff: Parameterübergabe an Stored Process in PROC STP

Re: proc compare: suppress duplicate observation warning

Re: proc compare: suppress duplicate observation warning

proc compare: suppress duplicate observation warning

Re: Importance of Accepted Solutions and Likes

Betreff: Verwendung von Hash-Objekt

Verwendung von Hash-Objekt

Betreff: Zähler

Betreff: Letzter Stichtag

Betreff: Data Step oder Proc SQL?

Betreff: 10 größte

Re: Update Funktion?

Re: Korrelationsmatrix Werte filtern bzw. Ausgabe der Koeffizienten nu...

Re: Globale Variable abfragen - nicht (!) innerhalb eines Makros

CoDe SAS German