<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/" version="2.0">
  <channel>
    <title>topic missing values with proc varclus in Statistical Procedures</title>
    <link>https://communities.sas.com/t5/Statistical-Procedures/missing-values-with-proc-varclus/m-p/42455#M1838</link>
    <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt; It might, if the time series aren't too wild and noisy. &lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;You need to do (1) because if there are variables that contain only a few nonmissing observations, those should be dropped from the analysis. Using PROC EXPAND (or any interpolation/imputation scheme) on data that has only a few valid points is not a good idea. &lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
    <pubDate>Wed, 01 Feb 2012 14:41:52 GMT</pubDate>
    <dc:creator>Rick_SAS</dc:creator>
    <dc:date>2012-02-01T14:41:52Z</dc:date>
    <item>
      <title>missing values with proc varclus</title>
      <link>https://communities.sas.com/t5/Statistical-Procedures/missing-values-with-proc-varclus/m-p/42450#M1833</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt;Hi,&lt;/P&gt;&lt;P&gt;I'm trying to use Proc Varclus and I'm getting a lot of &lt;/P&gt;&lt;P&gt;&lt;SPAN style="color: #ff0000;"&gt;ERROR: All observations in data set WORK.PROTEIN have missing values, or the sum of weights or&lt;/SPAN&gt;&lt;/P&gt;&lt;P&gt;&lt;SPAN style="color: #ff0000;"&gt;frequencies is nonpositive.&lt;/SPAN&gt;&lt;/P&gt;&lt;P&gt;because of the missing values in my data. &lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;This is my code&lt;/P&gt;&lt;P&gt;&lt;SPAN style="font-size: 10pt; font-family: Courier New;"&gt;&lt;/SPAN&gt;&lt;/P&gt;&lt;P&gt;proc varclus data=IN outtree=OUT centroid;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;var VAR01-VAR200;&lt;/P&gt;&lt;P&gt;run;&lt;/P&gt;&lt;P&gt;&lt;SPAN style="font-size: 10pt; font-family: Courier New;"&gt;﻿&lt;/SPAN&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;Is there a way around it or would proc varclus work fine if I make the missing to 0's. The values are averages of different economical growth rates. So for example average growth rate ot the unemployment rate in the past 5 years, and average GDP growth rate in the past 5 years, etc... Thanks&lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Tue, 31 Jan 2012 21:04:49 GMT</pubDate>
      <guid>https://communities.sas.com/t5/Statistical-Procedures/missing-values-with-proc-varclus/m-p/42450#M1833</guid>
      <dc:creator>podarum</dc:creator>
      <dc:date>2012-01-31T21:04:49Z</dc:date>
    </item>
    <item>
      <title>missing values with proc varclus</title>
      <link>https://communities.sas.com/t5/Statistical-Procedures/missing-values-with-proc-varclus/m-p/42451#M1834</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt;For averages of growth rate you're setting 0, which is assuming a stable system. I think 0 would be misleading, especially as every observation is missing a variable. &lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;I'd double check why the variables are missing and seeing if there was something logically incorrect with my calculations or if there was another way to interpolate these numbers than assume 0. &lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Tue, 31 Jan 2012 22:50:20 GMT</pubDate>
      <guid>https://communities.sas.com/t5/Statistical-Procedures/missing-values-with-proc-varclus/m-p/42451#M1834</guid>
      <dc:creator>Reeza</dc:creator>
      <dc:date>2012-01-31T22:50:20Z</dc:date>
    </item>
    <item>
      <title>missing values with proc varclus</title>
      <link>https://communities.sas.com/t5/Statistical-Procedures/missing-values-with-proc-varclus/m-p/42452#M1835</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt;If it is indeed the case that every observation has at least one missing value, you might need to choose another approach. Three ideas:&lt;/P&gt;&lt;P&gt;1) There might be one or two (or 10) variables that contain mostly missing values, whereas the other 999 variables don't contain ANY missings. &lt;/P&gt;&lt;P&gt;If so, you can exclude those "bad" variables and just use the good ones. To count the number of missing values for each variable, use&lt;/P&gt;&lt;P&gt;&lt;SPAN style="color: #000080; font-weight: bold;"&gt;proc means&lt;/SPAN&gt; &lt;SPAN style="color: #000080; font-weight: bold;"&gt;data&lt;/SPAN&gt;=IN &lt;SPAN style="color: #0000ff;"&gt;NMISS&lt;/SPAN&gt; &lt;SPAN style="color: #0000ff;"&gt;N&lt;/SPAN&gt;; var VAR01-Var200; &lt;SPAN style="color: #000080; font-weight: bold;"&gt;run&lt;/SPAN&gt;;&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;2) If your missing values are scattered at random throughout the variables, you might be able to impute values for the missings by using PROC MI, and then analyze the imputed variables.&amp;nbsp; However, if you have too many missing values (like 60%). I'm not sure I would trust the MI results.&lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;3) Instead of VARCLUS, you can use PROC CORR to look at PAIRWISE correlations between variables.&amp;nbsp; A pairwise approach uses all observations in common between a pair of variables, whereas the LISTWISE approach that you are currently using requires all 200 variables be nonmissinging.There are then various ways to cluster variables based on the pairwise correlations. For example, see &lt;/P&gt;&lt;P&gt;C. Hurley (2004) "Clustering Visualisations of Multidimensional Data", &lt;EM&gt;J. Comp. and Graphical Stats&lt;/EM&gt;, 13(4), pp 788-806&lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Wed, 01 Feb 2012 13:01:35 GMT</pubDate>
      <guid>https://communities.sas.com/t5/Statistical-Procedures/missing-values-with-proc-varclus/m-p/42452#M1835</guid>
      <dc:creator>Rick_SAS</dc:creator>
      <dc:date>2012-02-01T13:01:35Z</dc:date>
    </item>
    <item>
      <title>missing values with proc varclus</title>
      <link>https://communities.sas.com/t5/Statistical-Procedures/missing-values-with-proc-varclus/m-p/42453#M1836</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt; Thanks Rick, I'll try 2 and 3 ...&lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Wed, 01 Feb 2012 14:11:19 GMT</pubDate>
      <guid>https://communities.sas.com/t5/Statistical-Procedures/missing-values-with-proc-varclus/m-p/42453#M1836</guid>
      <dc:creator>podarum</dc:creator>
      <dc:date>2012-02-01T14:11:19Z</dc:date>
    </item>
    <item>
      <title>missing values with proc varclus</title>
      <link>https://communities.sas.com/t5/Statistical-Procedures/missing-values-with-proc-varclus/m-p/42454#M1837</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt; Rick, would it also make sense to use PROC EXPAND to intrapolate the missing values (whether they're growth rates or the actual values)&amp;nbsp; and then VARCLUS or PROC SIMILARITY woudl work? Since I do have a Date stamp ..&lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Wed, 01 Feb 2012 14:33:20 GMT</pubDate>
      <guid>https://communities.sas.com/t5/Statistical-Procedures/missing-values-with-proc-varclus/m-p/42454#M1837</guid>
      <dc:creator>podarum</dc:creator>
      <dc:date>2012-02-01T14:33:20Z</dc:date>
    </item>
    <item>
      <title>missing values with proc varclus</title>
      <link>https://communities.sas.com/t5/Statistical-Procedures/missing-values-with-proc-varclus/m-p/42455#M1838</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;P&gt; It might, if the time series aren't too wild and noisy. &lt;/P&gt;&lt;P&gt;&lt;/P&gt;&lt;P&gt;You need to do (1) because if there are variables that contain only a few nonmissing observations, those should be dropped from the analysis. Using PROC EXPAND (or any interpolation/imputation scheme) on data that has only a few valid points is not a good idea. &lt;/P&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Wed, 01 Feb 2012 14:41:52 GMT</pubDate>
      <guid>https://communities.sas.com/t5/Statistical-Procedures/missing-values-with-proc-varclus/m-p/42455#M1838</guid>
      <dc:creator>Rick_SAS</dc:creator>
      <dc:date>2012-02-01T14:41:52Z</dc:date>
    </item>
  </channel>
</rss>

