<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/" version="2.0">
  <channel>
    <title>topic Re: data set to dedulicate in SAS Data Management</title>
    <link>https://communities.sas.com/t5/SAS-Data-Management/data-set-to-dedulicate/m-p/229809#M5629</link>
    <description>&lt;P&gt;Thank you for the reply.&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;The values for the "Result" are going to&amp;nbsp;be formatted to "Normal", "Abnormal", and "No result" after the duplicating. I've tried the measures you suggested, it worked for&amp;nbsp;part of the records, but not for those like&amp;nbsp;ID #2.&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;I'm thinking probably I have to separate the data set to several sub data sets to dedup. Then merge them back together after the dedupping.&lt;/P&gt;</description>
    <pubDate>Tue, 13 Oct 2015 20:51:55 GMT</pubDate>
    <dc:creator>CynthiaFan</dc:creator>
    <dc:date>2015-10-13T20:51:55Z</dc:date>
    <item>
      <title>data set to dedulicate</title>
      <link>https://communities.sas.com/t5/SAS-Data-Management/data-set-to-dedulicate/m-p/229348#M5620</link>
      <description>&lt;P&gt;Hi, I have a&amp;nbsp;data set to deduplicate,&amp;nbsp;I have problem summarizing a complete deduplicating rules, but here’s a few records from it with&amp;nbsp;how to deduplicate.&lt;/P&gt;
&lt;P&gt;If any value&amp;nbsp;of status1_date, status1, status2, status3, or status4 are different under the same ID, then all records should be kept.&lt;/P&gt;
&lt;P&gt;For ID 1, rec_no 2 should be kept, because if all variable values under the same ID are the same, then we don’t keep the “NA” result.&lt;/P&gt;
&lt;P&gt;For ID 2, rec_no 4 should be kept, because Result_date2 should be later then status_date.&lt;/P&gt;
&lt;P&gt;For ID 3, rec_no 5 and 6 should be kept because status 2 are different.&lt;/P&gt;
&lt;P&gt;For ID 4, rec_no 7 and 8 should be kept, because status 2 are different.&lt;/P&gt;
&lt;P&gt;For ID 5, no need to dedup.&lt;/P&gt;
&lt;P&gt;For ID 6, keep rec_no 10 and 11, because status 2 are different.&lt;/P&gt;
&lt;TABLE width="700"&gt;
&lt;TBODY&gt;
&lt;TR&gt;
&lt;TD width="80"&gt;
&lt;P&gt;rec_no&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;ID&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="132"&gt;
&lt;P&gt;status1_date&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;status1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;status2&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;status3&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;status4&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;Result_date1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;Result_date2&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;Result&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;To keep&lt;/P&gt;
&lt;/TD&gt;
&lt;/TR&gt;
&lt;TR&gt;
&lt;TD width="80"&gt;
&lt;P&gt;1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="132"&gt;
&lt;P&gt;10/22/2013&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;7&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;No&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;7&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;25-Oct-13&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;25-Oct-13&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;NA&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;&amp;nbsp;&lt;/TD&gt;
&lt;/TR&gt;
&lt;TR&gt;
&lt;TD width="80"&gt;
&lt;P&gt;2&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="132"&gt;
&lt;P&gt;10/22/2013&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;7&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;No&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;7&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;25-Oct-13&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;25-Oct-13&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;A1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;x&lt;/P&gt;
&lt;/TD&gt;
&lt;/TR&gt;
&lt;TR&gt;
&lt;TD width="80"&gt;
&lt;P&gt;3&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;2&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="132"&gt;
&lt;P&gt;2/25/2014&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;7&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;Unknown&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;0&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;27-Feb-14&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;15-Jan-14&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;NA&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;&amp;nbsp;&lt;/TD&gt;
&lt;/TR&gt;
&lt;TR&gt;
&lt;TD width="80"&gt;
&lt;P&gt;4&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;2&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="132"&gt;
&lt;P&gt;2/25/2014&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;7&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;Unknown&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;0&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;27-Feb-14&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;27-Feb-14&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;A1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;x&lt;/P&gt;
&lt;/TD&gt;
&lt;/TR&gt;
&lt;TR&gt;
&lt;TD width="80"&gt;
&lt;P&gt;5&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;3&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="132"&gt;
&lt;P&gt;2/25/2014&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;0&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;Unknown&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;0&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;25-Feb-14&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;15-Jan-14&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;NA&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;x&lt;/P&gt;
&lt;/TD&gt;
&lt;/TR&gt;
&lt;TR&gt;
&lt;TD width="80"&gt;
&lt;P&gt;6&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;3&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="132"&gt;
&lt;P&gt;2/25/2014&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;7&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;Unknown&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;0&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;25-Feb-14&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;27-Feb-14&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;A1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;x&lt;/P&gt;
&lt;/TD&gt;
&lt;/TR&gt;
&lt;TR&gt;
&lt;TD width="80"&gt;
&lt;P&gt;7&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;4&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="132"&gt;
&lt;P&gt;5/14/2014&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;5&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;0&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;No&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;0&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;NA&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;x&lt;/P&gt;
&lt;/TD&gt;
&lt;/TR&gt;
&lt;TR&gt;
&lt;TD width="80"&gt;
&lt;P&gt;8&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;4&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="132"&gt;
&lt;P&gt;5/14/2014&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;5&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;7&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;No&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;0&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;NA&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;x&lt;/P&gt;
&lt;/TD&gt;
&lt;/TR&gt;
&lt;TR&gt;
&lt;TD width="80"&gt;
&lt;P&gt;9&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;5&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="132"&gt;
&lt;P&gt;11/20/2013&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;5&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;7&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;No&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;NA&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;x&lt;/P&gt;
&lt;/TD&gt;
&lt;/TR&gt;
&lt;TR&gt;
&lt;TD width="80"&gt;
&lt;P&gt;10&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;6&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="132"&gt;
&lt;P&gt;5/14/2014&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;5&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;0&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;No&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;0&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;A1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;x&lt;/P&gt;
&lt;/TD&gt;
&lt;/TR&gt;
&lt;TR&gt;
&lt;TD width="80"&gt;
&lt;P&gt;11&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;6&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="132"&gt;
&lt;P&gt;5/14/2014&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;5&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;7&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;No&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;0&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="150"&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;A1&lt;/P&gt;
&lt;/TD&gt;
&lt;TD width="80"&gt;
&lt;P&gt;x&lt;/P&gt;
&lt;/TD&gt;
&lt;/TR&gt;
&lt;/TBODY&gt;
&lt;/TABLE&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;Thank you.&lt;/P&gt;</description>
      <pubDate>Sat, 10 Oct 2015 12:59:24 GMT</pubDate>
      <guid>https://communities.sas.com/t5/SAS-Data-Management/data-set-to-dedulicate/m-p/229348#M5620</guid>
      <dc:creator>CynthiaFan</dc:creator>
      <dc:date>2015-10-10T12:59:24Z</dc:date>
    </item>
    <item>
      <title>Re: data set to dedulicate</title>
      <link>https://communities.sas.com/t5/SAS-Data-Management/data-set-to-dedulicate/m-p/229671#M5624</link>
      <description>&lt;P&gt;What other values for "Result" can there be?&lt;/P&gt;&lt;P&gt;First sort your data according to id and Result DESC (if NA is the "highest" value).&lt;/P&gt;&lt;P&gt;Then&amp;nbsp;just proc sort nodupkey using your change tracking variables in the BY statement.&lt;/P&gt;</description>
      <pubDate>Tue, 13 Oct 2015 10:37:59 GMT</pubDate>
      <guid>https://communities.sas.com/t5/SAS-Data-Management/data-set-to-dedulicate/m-p/229671#M5624</guid>
      <dc:creator>LinusH</dc:creator>
      <dc:date>2015-10-13T10:37:59Z</dc:date>
    </item>
    <item>
      <title>Re: data set to dedulicate</title>
      <link>https://communities.sas.com/t5/SAS-Data-Management/data-set-to-dedulicate/m-p/229809#M5629</link>
      <description>&lt;P&gt;Thank you for the reply.&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;The values for the "Result" are going to&amp;nbsp;be formatted to "Normal", "Abnormal", and "No result" after the duplicating. I've tried the measures you suggested, it worked for&amp;nbsp;part of the records, but not for those like&amp;nbsp;ID #2.&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;I'm thinking probably I have to separate the data set to several sub data sets to dedup. Then merge them back together after the dedupping.&lt;/P&gt;</description>
      <pubDate>Tue, 13 Oct 2015 20:51:55 GMT</pubDate>
      <guid>https://communities.sas.com/t5/SAS-Data-Management/data-set-to-dedulicate/m-p/229809#M5629</guid>
      <dc:creator>CynthiaFan</dc:creator>
      <dc:date>2015-10-13T20:51:55Z</dc:date>
    </item>
    <item>
      <title>Re: data set to dedulicate</title>
      <link>https://communities.sas.com/t5/SAS-Data-Management/data-set-to-dedulicate/m-p/229823#M5631</link>
      <description>&lt;P&gt;I believe you're mixing validation rules with de-duping.&amp;nbsp;&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;May be in a first step remove all records which don't comply with your validation rule and only then de-dupe.&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;If it's only the date thing then you could have a where clause in your Proc Sort and remove the records there.&lt;/P&gt;</description>
      <pubDate>Tue, 13 Oct 2015 21:55:20 GMT</pubDate>
      <guid>https://communities.sas.com/t5/SAS-Data-Management/data-set-to-dedulicate/m-p/229823#M5631</guid>
      <dc:creator>Patrick</dc:creator>
      <dc:date>2015-10-13T21:55:20Z</dc:date>
    </item>
    <item>
      <title>Re: data set to dedulicate</title>
      <link>https://communities.sas.com/t5/SAS-Data-Management/data-set-to-dedulicate/m-p/232272#M5712</link>
      <description>&lt;P&gt;Hi guys,&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;Just an FYI of how I ended up dedupping.&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;I've been trying macro, array, do loop,&amp;nbsp;statements of DO+WHILE/UNTIL/LEAVE/CONTINUE, but I could not make it. So I then&amp;nbsp;first transposed duplicated&amp;nbsp;variables to calculate an only value&amp;nbsp;for those "once true, always true" values. For the rest of the other variables,&amp;nbsp;I proc sort_ed by&amp;nbsp;prioritized variables and select the first record for each unique ID.&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;Thank you.&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;YingKer from Los Angeles&lt;/P&gt;</description>
      <pubDate>Thu, 29 Oct 2015 17:05:34 GMT</pubDate>
      <guid>https://communities.sas.com/t5/SAS-Data-Management/data-set-to-dedulicate/m-p/232272#M5712</guid>
      <dc:creator>CynthiaFan</dc:creator>
      <dc:date>2015-10-29T17:05:34Z</dc:date>
    </item>
  </channel>
</rss>

