Após a instalação do pacote é preciso ativa-lo. Para isso, deve-se
utilizar a função library
ou require
library(MultivariateAnalysis)
Posteriormente, deve-se carregar no R o conjunto de dados a serem analizados. Isso pode ser feito de diferentes formas.
Uma possibilidade é utilizando a função read.table
.
Neste exemplo vamos trabalhar com o banco de dados do pacote, o qual
pode ser carregado com a função data
.
Este exemplo trata-se de dados binarios vindo do uso de marcadores moleculares em cinco individuos.
data("Dados.DBC")
head(Dados.DBC)
#> Trat Bloco Altura MS Diam Ramificacoes1 Ramificacoes2 Infloresc
#> 1 Variedade1 1 74.00 14.43 7.87 24.67 6.33 8.67
#> 2 Variedade1 2 89.00 17.00 8.58 29.67 4.33 9.33
#> 3 Variedade1 3 82.00 20.13 10.60 27.33 7.33 12.00
#> 4 Variedade1 4 84.00 16.43 9.25 28.00 4.67 9.67
#> 5 Variedade1 5 70.33 17.67 10.86 23.44 6.00 11.33
#> 6 Variedade2 1 80.00 17.87 7.94 26.67 7.00 10.00
#> P.Sementes Germinacao TeorOleo
#> 1 3.29 6 23.10165
#> 2 6.02 9 24.55870
#> 3 4.74 5 26.02185
#> 4 2.63 6 24.74041
#> 5 5.00 11 21.56860
#> 6 7.00 4 24.40737
Quando se quer saber se há diferença entre os “Tratamentos” do ponto
de vista multivariado, pode-se fazer a analise de variância
multivariada. Para isso, deve-se utilizar a função MANOVA
.
Dessa função deve-se considerar o delineamento desejado no argumento
Modelo
:
1 = Delineamento inteiramente casualizado (DIC)
2 = Delineamento em blocos casualizados (DBC)
3 = Delineamento em quadrado latino (DQL)
4 = Esquema fatorial em DIC
5 = Esquema fatorial em DBC
=MANOVA(Dados.DBC,Modelo=2)
Res
Res#> __________________________________________________________________________
#> MANOVA com o teste Pillai
#> Df Pillai approx F num Df den Df
#> Trat 8 3.41112687003393 2.56041879215572 72 248
#> Bloco 4 1.01952256443478 1.02620058679435 36 108
#> Residuals 32
#> Pr(>F)
#> Trat 3.88033554581756e-08
#> Bloco 0.444201237736759
#> Residuals
#>
#> MANOVA com o teste Wilks
#> Df Wilks approx F num Df den Df
#> Trat 8 0.00224676346620771 3.67964225576572 72 153.565638439245
#> Bloco 4 0.283651652720517 1.01776238907217 36 91.6764243863006
#> Residuals 32
#> Pr(>F)
#> Trat 6.79854759058188e-12
#> Bloco 0.458726231922828
#> Residuals
#>
#> MANOVA com o teste Hotelling
#> Df Hotelling-Lawley approx F num Df den Df
#> Trat 8 14.4192295284348 4.45594245843992 72 178
#> Bloco 4 1.59818345907489 0.998864661921807 36 90
#> Residuals 32
#> Pr(>F)
#> Trat 3.24533729991487e-16
#> Bloco 0.485684435194678
#> Residuals
#>
#> MANOVA com o teste Roy
#> Df Roy approx F num Df den Df
#> Trat 8 7.04048563648178 24.2505616367706 9 31
#> Bloco 4 0.79426617101982 2.38279851305946 9 27
#> Residuals 32
#> Pr(>F)
#> Trat 1.21249826306718e-11
#> Bloco 0.0392110037699888
#> Residuals
#>
#> As medias dos tratamentos podem ser acessados com o $Med
#> Os Graus de liberdade do residuo podem ser acessados com o $GLres
#> A matriz de (co)variancias residuais pode ser acessada com o $CovarianciaResidual
#> __________________________________________________________________________
Muitas são as opções que este pacote oferece de medidas de
dissimilaridade. Convidamos os usuários a ler o manual da funcao
Distancia
(?Distancia
).
Para se ter diferentes medidas de dissimilaridade basta colocar o
respectivo numero no argumento Metodo
dentro da função
Distancia
:
1 = Distancia euclidiana.
2= Distancia euclidiana media.
3 = Quadrado da distancia euclidiana media.
4 = Distancia euclidiana padronizada.
5 = Distancia euclidiana padronizada media.
6 = Quadrado da distancia euclidiana padronizada media.
7 = Distancia de Mahalanobis.
8 = Distancia de Cole Rodgers.
#colocando nome nos individuos
=Res$Med
DadosMed=Distancia(DadosMed,Metodo = 7,Cov = Res$CovarianciaResidual)
Distround(Dist$Distancia,3)
#> Variedade1 Variedade2 Variedade3 Variedade4 Variedade5 Variedade6
#> Variedade2 11.660
#> Variedade3 28.788 10.998
#> Variedade4 13.999 15.755 32.336
#> Variedade5 27.438 12.888 21.119 19.604
#> Variedade6 4.952 23.056 42.768 11.126 41.850
#> Variedade7 27.274 16.266 13.541 41.384 15.205 47.267
#> Variedade8 34.033 22.028 36.735 18.543 23.392 33.879
#> Variedade9 18.909 8.612 14.809 28.479 9.651 35.785
#> Variedade7 Variedade8
#> Variedade2
#> Variedade3
#> Variedade4
#> Variedade5
#> Variedade6
#> Variedade7
#> Variedade8 36.001
#> Variedade9 3.658 26.759
Informações importantes podem ser obtidas dessa matriz com a função
SummaryDistancia
:
=SummaryDistancia(Dist) resumo
resumo#> _________________________________________________________________________
#> Tabela com o resumo da matriz dissimilaridade
#> Medio Minimo Maximo sd MaisProximo MaisDistante
#> Variedade1 20.88 4.95 34.03 10.07 Variedade6 Variedade8
#> Variedade2 15.16 8.61 23.06 5.19 Variedade9 Variedade6
#> Variedade3 25.14 11.00 42.77 11.76 Variedade2 Variedade6
#> Variedade4 22.65 11.13 41.38 10.42 Variedade6 Variedade7
#> Variedade5 21.39 9.65 41.85 10.08 Variedade9 Variedade6
#> Variedade6 30.09 4.95 47.27 15.50 Variedade1 Variedade7
#> Variedade7 25.07 3.66 47.27 15.35 Variedade9 Variedade6
#> Variedade8 28.92 18.54 36.74 7.09 Variedade4 Variedade3
#> Variedade9 18.33 3.66 35.78 11.19 Variedade7 Variedade6
#>
#> Menor Distancia: 3.657931
#> Maior Distancia: 47.26671
#> Media das Distancias: 23.07077
#> Amplitude das Distancias: 43.60877
#> Desvio Padrao das Distancias: 11.57168
#> Coeficiente de variacao das Distancias: 50.15731
#> Individuos mais proximos: Variedade7 Variedade9
#> Individuos mais distantes: Variedade6 Variedade7
#> _________________________________________________________________________
A fim de resumir as informações da matriz de dissimilaridade a fim de
melhorar a visualização da dissimilaridade, pode-se fazer um Dendrograma
com o auxilio da função Dendrograma
. Varios algoritimos
podem ser utilizados para a construção deste Dendrograma. Para isso,
deve-se indicar no argumento Metodo
:
1 = Ligacao simples (Metodo do vizinho mais proximo).
2 = Ligacao completa (Metodo do vizinho distante).
3 = Ligacao media entre grupo (UPGMA).
4 = Metodo de Ward.
5 = Metodo de ward (d2).
6= Metodo da mediana (WPGMC).
7= Metodo do centroide (UPGMC).
8 = Metodo mcquitty (WPGMA).
#Dendrograma com o metodo UPGMA
Dendrograma(Dist,Metodo=3)
#> _________________________________________________________________________
#> Estimativa de correlacao cofenetica:
#> [1] 0.7485545
#> Significancia da correlacao cofenetica pelo teste Mantel
#> pvalor: 0.001
#> Hipotese alternativa: A correlacao e maior que 0
#>
#> Criterio de Corte
#> k=1.25
#> 26.7541
#>
#> Agrupamentos
#> Cluster
#> Variedade1 1
#> Variedade2 2
#> Variedade3 2
#> Variedade4 1
#> Variedade5 2
#> Variedade6 1
#> Variedade7 2
#> Variedade8 3
#> Variedade9 2
#> _________________________________________________________________________
Adcionalmente, pode-se fazer o agrupamento Tocher com o auxilio da
função Tocher
:
#Dendrograma com o metodo UPGMA
Tocher(Dist)
#> _________________________________________________________________________
#> Agrupamento Tocher
#> Cluster1:
#> Variedade7 Variedade9 Variedade5 Variedade2 Variedade3
#>
#> Cluster2:
#> Variedade1 Variedade6 Variedade4
#>
#> Cluster3:
#> Variedade8
#>
#> Distancia intra e intercluster:
#> Cluster1 Cluster2 Cluster3
#> Cluster1 12.67463 29.49025 28.98313
#> Cluster2 29.49025 10.02584 28.81815
#> Cluster3 28.98313 28.81815 0.00000
#>
#>
#> Correlacao Cofenetica: 0.7279256
#> pvalor: 0.004 baseado no teste Mantel
#> Hipotese alternativa: A correlacao e maior que 0
#> _________________________________________________________________________
###Outra possibilidade é o estudo dos componentes principais:
ComponentesPrincipais(DadosMed,padronizar = TRUE)
#> $`Autovalor da matriz de covariancia`
#> [1] 4.6673 2.1446 1.2643 0.5185 0.2047 0.1669 0.0238 0.0098 0.0000
#>
#> $`Autovetor da matriz de covariancia`
#> [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
#> [1,] -0.3349 0.3823 -0.2001 -0.3611 -0.4281 -0.1438 0.3823 0.2176 0.4169
#> [2,] -0.4045 -0.1715 -0.1144 0.3121 0.6123 -0.3986 0.3558 0.0673 0.1776
#> [3,] -0.3320 -0.3749 -0.1491 -0.4508 0.1210 0.5160 0.3397 -0.2272 -0.2754
#> [4,] -0.2637 0.4996 -0.2116 -0.3148 0.2703 -0.2694 -0.3985 -0.3815 -0.2951
#> [5,] 0.3409 -0.3744 -0.3008 -0.2426 -0.0076 -0.2344 -0.0911 -0.5078 0.5226
#> [6,] 0.3946 -0.1801 -0.2902 -0.3517 0.0453 -0.4234 0.1607 0.4482 -0.4426
#> [7,] 0.3767 0.3729 -0.0016 0.2294 -0.0303 -0.0184 0.6350 -0.4621 -0.2199
#> [8,] 0.1141 0.0444 0.7960 -0.4713 0.2663 -0.1525 0.1243 -0.0148 0.1395
#> [9,] 0.3429 0.3473 -0.2674 -0.1124 0.5293 0.4730 -0.0179 0.2803 0.3081
#>
#> $`Escores dos componentes principais`
#> [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
#> Variedade1 -1.3523 -1.6250 0.6574 -0.4684 -0.1801 -0.1322 -0.2428 0.1398 0
#> Variedade2 0.2650 -0.9987 -0.4955 0.6115 -0.3303 -0.7992 0.1790 0.0099 0
#> Variedade3 -0.5878 0.2284 0.1220 1.6153 0.4659 0.1844 -0.1272 -0.0162 0
#> Variedade4 -0.1723 -0.8748 -1.3782 -0.1515 0.1346 0.6242 0.1929 0.1095 0
#> Variedade5 3.6273 -0.2689 -1.4413 -0.4755 0.1051 -0.0607 -0.1662 -0.0964 0
#> Variedade6 -3.2585 -1.0656 0.3857 -0.5407 0.1604 0.0783 0.0540 -0.1813 0
#> Variedade7 1.4232 1.2448 1.3803 -0.5637 0.7459 -0.2466 0.1044 0.0538 0
#> Variedade8 -2.1243 3.1462 -0.8592 -0.2212 -0.3769 -0.0716 -0.0465 0.0186 0
#> Variedade9 2.1797 0.2137 1.6288 0.1942 -0.7247 0.4235 0.0523 -0.0378 0
#>
#> $`Correlacao entre as variaveis e os comp. principais`
#> [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
#> Altura -0.7234 0.5599 -0.2250 -0.2600 -0.1937 -0.0588 0.0590 0.0216
#> MS -0.8738 -0.2511 -0.1286 0.2247 0.2770 -0.1628 0.0549 0.0067
#> Diam -0.7172 -0.5490 -0.1676 -0.3246 0.0548 0.2108 0.0524 -0.0225
#> Ramificacoes1 -0.5696 0.7316 -0.2380 -0.2267 0.1223 -0.1101 -0.0615 -0.0378
#> Ramificacoes2 0.7366 -0.5483 -0.3382 -0.1747 -0.0034 -0.0958 -0.0141 -0.0504
#> Infloresc 0.8526 -0.2638 -0.3263 -0.2532 0.0205 -0.1730 0.0248 0.0445
#> P.Sementes 0.8139 0.5461 -0.0018 0.1652 -0.0137 -0.0075 0.0980 -0.0458
#> Germinacao 0.2465 0.0650 0.8951 -0.3393 0.1205 -0.0623 0.0192 -0.0015
#> TeorOleo 0.7409 0.5086 -0.3007 -0.0809 0.2394 0.1932 -0.0028 0.0278
#> [,9]
#> Altura -0.0789
#> MS -0.1333
#> Diam -0.1947
#> Ramificacoes1 -0.0114
#> Ramificacoes2 0.0325
#> Infloresc 0.1854
#> P.Sementes 0.3489
#> Germinacao 0.1884
#> TeorOleo 0.3735
#>
#> $`Explicacao dos componentes principais`
#> [,1] [,2] [,3] [,4] [,5] [,6] [,7]
#> Autovalor 4.6673 2.1446 1.2643 0.5185 0.2047 0.1669 0.0238
#> % Explicacao 51.8592 23.8290 14.0482 5.7612 2.2739 1.8542 0.2649
#> % Explicacao Acumulada 51.8592 75.6882 89.7364 95.4976 97.7716 99.6257 99.8906
#> [,8] [,9]
#> Autovalor 0.0098 0
#> % Explicacao 0.1094 0
#> % Explicacao Acumulada 100.0000 100
#>
#> attr(,"class")
#> [1] "ComponentesPrincipais"
###Porém, quando se tem repetições, o mais indicado é o estudo de variáveis canônicas:
Para isso, deve-se indicar qual é o Modelo
referente ao
delineamento:
1 = Delineamento inteiramente casualizado (DIC)
2 = Delineamento em blocos casualizados (DBC)
3 = Delineamento em quadrado latino (DQL)
4 = Esquema fatorial em DIC
5 = Esquema fatorial em DBC
VariaveisCanonicas(Dados.DBC,Modelo = 2,)
#> [1] "a"
#> __________________________________________________________________
#> Estudo das variaveis canonicas
#>
#> Explicacao das variaveis canonicas
#> CanRsq Autovalor Porcentagem PorcentagemAcumulada
#> VC1 0.8756 7.0405 48.8271 48.8271
#> VC2 0.7799 3.5429 24.5708 73.3979
#> VC3 0.6219 1.6445 11.4048 84.8027
#> VC4 0.5861 1.4160 9.8203 94.6229
#> VC5 0.3631 0.5701 3.9537 98.5766
#> VC6 0.1265 0.1448 1.0041 99.5807
#> VC7 0.0458 0.0480 0.3332 99.9138
#> VC8 0.0123 0.0124 0.0862 100.0000
#>
#> Escores das variaveis canonicas
#> Can1 Can2 Can3 Can4 Can5 Can6 Can7 Can8
#> Variedade1 -1.9220 1.9665 0.7113 0.0915 0.2706 0.3454 -0.0806 0.1822
#> Variedade2 0.3394 0.3677 -0.7531 -0.1462 1.5286 0.0764 0.1822 -0.0743
#> Variedade3 2.1634 0.9320 -2.4979 0.2026 -0.4863 0.0084 -0.1527 0.0262
#> Variedade4 -2.5448 -1.0317 -0.5459 -1.2742 -0.4535 -0.3795 0.2576 0.0708
#> Variedade5 1.5205 -1.3708 0.7359 -1.9637 -0.1280 0.3503 -0.1783 -0.0546
#> Variedade6 -3.7660 1.3411 0.2066 0.4908 -0.4275 -0.0175 -0.1064 -0.1731
#> Variedade7 3.0204 0.8747 0.9996 0.7279 -0.6974 0.1760 0.3149 -0.0281
#> Variedade8 -0.7784 -3.4833 -0.0100 1.6393 0.0669 0.1367 -0.0561 0.0311
#> Variedade9 1.9673 0.4037 1.1536 0.2320 0.3266 -0.6962 -0.1807 0.0198
#>
#> Importancia
#> Correlacao das caracteristicas com os escores das variaveis canonicas
#> Can1 Can2 Altura MS Diam Ramificacoes1 Ramificacoes2
#> P.Sementes 0.8577 -0.4350 -0.3177 -0.8085 -0.9331 -0.1062 0.2735
#> Germinacao 0.3916 0.5167 -0.2737 -0.3785 -0.2578 -0.2084 -0.0922
#> TeorOleo 0.6211 -0.5821 -0.2198 -0.7197 -0.6809 0.0471 0.3620
#> Infloresc
#> P.Sementes 0.5100
#> Germinacao 0.0005
#> TeorOleo 0.5888
#> __________________________________________________________________