resumo
a dissertação apresentada visa o estudo de métodos de classificação não hierárquica que se
inserem na metodologia vl.
a metodologia vl, validade da ligação, acenta no uso de medidas de probabilidade para
comparar elementos e/ou classes. os métodos classificatórios não hierárquicos abordados usam
como critério de afectação de um elemento a uma classe, a função de distribuição de uma
estatística amostral sobre os valores de comparação entre o elemento a classificar e os elementos
da classe. os métodos vl estudados recorrem a estatísticas amostrais de tendência central,
nomeadamente, à média aritmética, à média geométrica, à mediana a ao centro, resultando os
métodos nhmean, nhvgm, nhvmed e nhvc. simultaneamente, realiza-se um estudo sobre os
correspondentes métodos directos, cujo critério de afectação assenta na aplicação directa da
estatística sobre os valores de comparação entre elementos.
em geral, um procedimento classificatório não hierárquico inicia-se com um conjunto de centros
que assumem o papel de pólos de agregação. com base no critério wise-choice e considerando a
estatística definida em cada um dos métodos, propõem-se novos critérios de inicialização.
o desempenho dos métodos foi avaliado face a conjuntos de dados simulados, com estruturas
inicialmente impostas, usando como medida de comparação, entre a partição inicial e a estrutura
fornecida, o indice de rand modificado. os métodos foram também aplicados a conjuntos de
dados reais já estudados na literatura.
abstract
the objective of the present dissertation is to study methods of non-hierarchical clustering that
come within the vl methodology.
the vl – validity of the link – methodology is based in the use of probability measures to compare
elements and/or classes. the considered non-hierarchical clustering methods use as criterion to
assign an element to a class the distribution function of a sample statistics of the comparison values
between the element to assign and the classe’s elements. the studied vl methods use sample
central statistics, namely, the arithmetic mean, the geometrical mean, the median and the centre,
leading respectively to the methods nhmean, nhvgm, nhvmed and nhvc. simultaneously, a
study of the corresponding direct methods, whose assignment criteria is based on the direct
application of the statistics of the values of comparison between elements, is performed.
generally a non-hierarchical clustering process is initialized with a set of centres, that act as
aggregation poles. new initialization criteria are proposed, based on the wise-choice criterion and
considering the specific statistics defined in each of the methods.
the performance of the methods is evaluated by considering simulated data with pre-defined
structures, and using the modified rand index to compare the initial and the obtained partitions.
the methods are also applied to real sets, previously studied in the literature.