Frota rewbenio sbai 2005 proposta de uma metodologia nao parametrica

Page 1

PROPOSTA DE UMA METODOLOGIA NÃO-PARAMÉTRICA PARA AVALIAÇÃO DE REDES NEURAIS EM TAREFAS DE DETECÇÃO DE NOVIDADES

Rewbenio A. Frota, Guilherme A. Barreto e João C.M.Mota∗ {rewbenio,guilherme,mota}@deti.ufc.br ∗

Departamento de Engenharia de Teleinformática (DETI), Universidade Federal do Ceará (UFC) Av. Mister Hull S/N, Centro de Tecnologia, Campus do Pici, Fortaleza-CE

ABSTRACT Artificial neural networks have been successfully used in novelty detection applications. Several approaches for almost every network architecture are available what makes it hard to know which neural-based method is the best for a given application or data configuration. Trying to give some introductory steps, we introduce a new systematic methodology to compare the performance of neural methods applied to novelty detection. In order to compute reliable decision thresholds, we generalize the recent application of the bootstrap resampling technique to unsupervised novelty detection to the supervised case. Finally, we evaluate the performance of the neural network methods through simulations on a breast cancer data set, assessing their robustness to outliers and their sensitivity to training parameters, such as number of neurons, training epochs and size of the training set. KEYWORDS: Artificial neural networks, novelty detection, outlier detection, anomaly detection, bootstrap resampling, decision intervals.

RESUMO Redes neurais artificiais têm sido utilizadas com sucesso em aplicações de detecção de novidades. Diversas abordagens estão disponíveis utilizando quase todas as arquiteturas neurais mais conhecidas, tornando difícil saber qual dessas abordagens é melhor para uma dada aplicação. Buscando tornar este cenário menos difuso, este artigo propõe um procedimento sistemático para comparar o desempenho de métodos baseados em redes neurais aplicados à detecção de novidades. A fim de calcular limiares de decisão estatisticamente confiáveis, generaliza-se um método recente de detecção não-supervisionada de novidades para o domínio das redes supervisionadas. Para isto, é utilizado a reamostragem bootstrap. Finalmente, avalia-se o desempenho das diferentes abordagens para a detecção de novidades por meio de simulação usando um conjunto de dados de câncer de mama, avaliando sua robustez a outliers e sua sensibilidade a

VII SBAI / II IEEE LARS. São Luís, setembro de 2005

parâmetros de treinamento, tais como o número de neurônios, épocas de treinamento e tamanho do conjunto de treinamento. PALAVRAS-CHAVE: Redes neurais artificiais, detecção de

novidades, detecção de outliers, detecção de anomalias, reamostragem bootstrap, intervalos de decisão.

1

INTRODUÇÃO

Detecção de novidades é o problema de se reportar a ocorrência de novos eventos ou novas observações a partir de um modelo pré-estabelecido para os dados (Marsland, 2003). Dependendo da aplicação, pode-se encontrar também o termo detecção de observações discrepantes (outlier detection) ou detecção de anomalias (anomaly detection) referindo-se à detecção de novidades. Estas áreas têm experimentado crescente demanda dentro dos campos de aprendizado de máquinas, reconhecimento de padrões e mineração de dados. Isto se dá, em parte, pela necessidade existente em certas aplicações de detectar padrões (observações, eventos, etc.) que não se adequam suficientemente bem ao modelo construído para representar os dados. Dentre estas aplicações podem ser citadas as seguintes: detecção e diagnóstico de falhas em máquinas elétricas (Tanaka et al., 1995), processamento de imagens (Singh e Markou, 2004), aprendizado de trajetória de robôs móveis (Marsland et al., 2002), segurança em redes de computadores (Höglund et al., 2000), monitoramento de falhas em sistemas de telecomunicações (Barreto et al., 2004), entre outras. Em vista do crescente interesse, há um número considerável de estudos no campo de detecção de novidades (Hodge e Austin, 2004), porém poucos trabalhos têm sido propostos explorando plataformas de comparação, nem fornecem resultados claros indicando, por exemplo, qual técnica funciona melhor para qual tipo de dados, ou qual é mais robusta a outliers1 . Em geral, as técnicas atualmente disponíveis variam segundo os 1 Um outlier é uma observação que parece ser inconsistente com o restante daquele conjunto de dados. (Hodge e Austin, 2004)

1


3. Usar a nova metodologia para avaliar a sensibilidade dos classificadores à proporção relativa entre dados positivos e negativos.

seguintes pontos: • Estratégia de Classificação: pode-se utilizar uma estratégia de classificação binária, na qual se treina o classificador com exemplos de uma única classe, chamados exemplos positivos (Scholkopf et al., 2000), ou uma estratégia de classificação multi-classes na qual se treina o classificador com dados de todas as classes em questão (Vasconcelos et al., 1995). • Tipo de Rede Neural: esta escolha tem algum grau de relação com o item acima. Pode-se utilizar métodos que utilizam redes supervisionadas e redes nãosupervisionadas. Essa escolha influencia bastante o tipo de medida de novidade que deverá ser escolhida para fazer a decisão. • Tipo de Teste: a partir da modelagem dos dados usando redes neurais, calculam-se limiares para decidir sobre a novidade de um vetor de dados, com base na medida de novidade gerada por ele. Pode-se utilizar testes de limiar simples ou de limiar duplo. • Regra para Cálculo do(s) Limiar(es) de Decisão: podese utilizar regras heurísticas, bem como métodos bem fundamentados estatisticamente. Esta última questão, envolvendo o cálculo de limiares, é uma das mais delicadas (Singh e Markou, 2004), uma vez que mesmo havendo concordância com relação aos três primeiros pontos acima, ainda assim pode-se divergir bastante sobre o modo de se calcular os limiares. A motivação para se propor uma metodologia geral para o cálculo de limiares é a observação de que muitos sistemas neurais de detecção de novidades, especialmente aqueles baseadas nas redes MLP e RBF, têm seus limiares calculados heuristicamente, sem princípios claramente indicados. Um exemplo é a regra Winner-Take-All (WTA) (Li et al., 2002) para classificadores clássicos baseados nas redes MLP/RBF segundo a qual a saída assume o valor 1 se a ativação do respectivo neurônio for superior a 0,5 e, caso contrário, assume o valor 0. Por outro lado, a maioria dos métodos de cálculo de limiar utilizados em detectores de novidade baseados em redes competitivas como a rede SOM (Barreto et al., 2004; Höglund et al., 2000; Muñoz e Muruzábal, 1998) é mais bem fundamentada em termos estatísticos. Este artigo sustenta que os métodos de cálculo de limiares de decisão utilizados em redes competitivas podem igualmente ser usadas por detectores de novidades baseados nas redes supervisionadas (como MLP e RBF). Para tanto, propõe-se uma abordagem unificada para o cálculo de tais limiares. Tendo em vista os pontos acima, os objetivos específicos deste artigo são: 1. Propor uma metodologia não-paramétrica para o cálculo de limiares de decisão válida para sistemas de detecção de novidades baseados em redes neurais supervisionadas e redes não-supervisionadas; 2. Comparar os diferentes métodos para determinação dos limiares de decisão usando diferentes redes neurais; VII SBAI / II IEEE LARS. São Luís, setembro de 2005

O restante do artigo está organizado da seguinte forma. A Seção 2 apresenta as redes neurais que serão avaliadas neste artigo. Em seguida, a Seção 3 descreve as abordagens de detecção de novidades baseadas em limiares de decisão. Em seguida, apresenta-se a técnica de reamostragem de Bootstrap na Seção 4, que será utilizada para aumentar a confiabilidade dos limiares calculados. A Seção 5 apresenta a metodologia para cálculo de limiares proposto neste artigo. Segue-se a Seção 6 com os testes computacionais. A Seção 7 conclui o artigo e propõe futuros desdobramentos para o presente trabalho.

2

DETECÇÃO NEURAL DE NOVIDADES

Neste artigo serão avaliadas as principais arquiteturas de redes neurais usadas em sistemas de detecção de novidades. Não há necessidade de uma explicação detalhada dessas redes, entretanto são apontadas as referências para o caso de ser necessário algum esclarecimento teórico. As redes neurais avaliadas são: • Redes não-supervisionadas: rede auto-organizável de Kohonen (Self-organising Map – SOM) (Kohonen, 2001; Kohonen, 1990); • Redes supervisionadas: redes MLP e RBF (Haykin, 1999), rede GMLP (Gaussian MLP) (Dawson e Schopflocher, 1992), MLP autoassociador (AAMLP) (Petsche et al., 1996). Para se utilizar uma rede neural é preciso ter em mãos um número finito de N exemplos de treinamento, cada um deles representado como xµ = [xµ1 xµ2 . . . xµn ]T ,

(1)

em que µ = 1, 2, . . . , N . Cada vetor xµ está associado a um rótulo da classe a qual pertence. As redes SOM e AAMLP são usualmente empregadas em detecção de novidades como classificadores binários, i.e. existem duas categorias de dados (normal/anormal), porém a rede é treinada apenas com dados de uma das classes. A detecção de um padrão pertencente à classe não “vista” durante o treinamento é feita por meio de uma medida de não-conformidade deste padrão ao modelo estatístico construído para a outra classe. As redes MLP, RBF e GMLP são empregadas em classificação multi-classes, em que a rede é treinada com os exemplos de todas as classes disponíveis. Na rede SOM, vetores de pesos wi estão relacionados aos neurônios i e são utilizados como protótipos representativos de uma determinada região do espaço de entrada. Em outras palavras, a rede SOM constrói um mapeamento não-linear Φ do espaço de entrada contínuo χ (espaço dos dados) num espaço de saída discreto A (espaço dos neurônios no arranjo geométrico) (Haykin, 1999). Tal mapeamento pode ser representado por Φ:χ→A.

(2)

A Figura 1 ilustra como a rede SOM implementa o mapeamento Φ, sendo que os círculos cheios indicam o vetor de pesos dos 2


Ď•1 A @ A@

@ → y1 ϕ2 A R x1 → @ .. A .. .. @ A A . A@

@ . . A -U R R @ϕ @ → yk xn → A i @ A .. @ A

. wln R @U A Ď• wkl l

neurônios da rede SOM. Para gerar esta figura foi usada uma rede SOM de arquitetura unidimensional, ou seja, os neurônios estão fisicamente posicionados ao longo de um segmento, de modo que cada neurônio só tem vizinhos à sua esquerda ou à sua direita. Assim, o vetor de pesos de um dado neurônios aparece conectado por linhas tracejadas aos seus vizinhos imediatos à esquerda e à direita. Perceba que os vetores de pesos fornecem uma aproximação discreta da distribuição de probabilidade do espaço de entrada.

Figure 2: Arquitetura geral de uma rede neural com 1 camada escondida. O cĂĄlculo de ui (t) tambĂŠm depende da rede utilizada: ui (t) =

n X

wij (t)xj (t),

(Redes MLP/GMLP) (8)

j=0

ui (t) = kx(t) − ci k,

(Rede RBF)

(9)

nas quais wij Ê o peso da ligação entre o i-Êsimo neurônio intermediårio e a entrada xj . Figure 1: Mapeamento implementado pela rede SOM.

Uma medida importante relacionada Ă rede SOM ĂŠ distância entre um vetor de entrada x e o vetor de pesos wi∗ do neurĂ´nio i∗ da rede SOM mais prĂłximo a ele, denominada erro de quantização:

(3)

Âľ e(t) q = kx (t) − wi∗ (t)k

na qual o parâmetro t indica a iteração do treinamento.

Nos testes realizados neste artigo, o valor da constante Îł > 0 na função de ativação dos neurĂ´nios escondidos da rede GMLP, Eq. (6), foi ajustado em 0,1. A rede RBF utilizada consistiu em uma primeira camada de funçþes de base gaussianas cujos os centros ci foram calculados pelo uso de uma rede SOM. Um Ăşnico raio de espalhamento (Ďƒ) ĂŠ definido para todas as gaussianas sendo calculado como uma fração da distância mĂĄxima entre os centros, ou seja, Ďƒ = √ dmax (ci , cj )/ 2l, ∀i 6= j, na qual l ĂŠ o nĂşmero de funçþes da base e dmax (ci , cj ) = max∀i6=j {kci − cj k}. Na rede AAMLP tenta-se reproduzir a entrada x(t) na saĂ­da y(t), o restante treinamento segue as mesmas diretrizes da rede MLP padrĂŁo. Uma medida importante nesta rede ĂŠ o chamado erro de reconstrução (Petsche et al., 1996):

Nas redes MLP/GMLP/RBF, as saĂ­das correspondentes para o kĂŠsimo neurĂ´nio linear de saĂ­da sĂŁo calculadas da seguinte forma:

yj (t) =

l X

3 mki Ď•i (ui (t)) , j = 1, . . . Ë›,

(4)

i=0

na qual ui (t) ĂŠ a ativação do i-ĂŠsimo neurĂ´nio intermediĂĄrio na iteração t do treinamento e mki ĂŠ o peso da ligação entre o iĂŠsimo neurĂ´nio intermediĂĄrio e o k-ĂŠsimo neurĂ´nio de saĂ­da. A função de ativação Ď• varia segundo a rede neural utilizada. A Figura 2 mostra a arquitetura geral das redes supervisionadas utilizadas neste artigo. As redes GMLP e RBF utilizam uma função de ativação gaussiana e a rede MLP utiliza uma função do tipo logĂ­stica: Ď•i (ui (t)) Ď•i (ui (t)) Ď•i (ui (t))

1 , 1 + exp[−ui (t)] 2 −ui (t) , = exp Îł2 2 −ui (t) = exp , 2Ďƒ 2

=

Âľ e(t) r = kx (t) − y(t)k

(Rede MLP)

(5)

(Rede GMLP)

(6)

(Rede RBF)

(7)

VII SBAI / II IEEE LARS. SĂŁo LuĂ­s, setembro de 2005

(10)

DETECĂ‡ĂƒO DE NOVIDADES

A maioria das tĂŠcnicas de detecção de novidades podem ser caracterizadas sob o formalismo dos testes estatĂ­sticos de hipĂłteses. Nesses testes, a hipĂłtese em estudo ĂŠ chamada HipĂłtese Nula e ĂŠ denotada por H0 . HĂĄ ainda uma outra hipĂłtese relacionada a H0 , verdadeira quando esta ĂŠ falsa, que ĂŠ denominada HipĂłtese Alternativa, cuja representação ĂŠ H1 (Triola, 1999). Quando se formula uma conclusĂŁo com respeito Ă condição do sistema baseado nas definiçþes de H0 e H1 , dois tipos de erro sĂŁo possĂ­veis: • Erro Tipo I: este erro ocorre quando H0 ĂŠ rejeitada quando ela ĂŠ verdadeira. A probabilidade de cometer um erro tipo I ĂŠ denotada pelo chamado nĂ­vel de significância, Îą, cujo valor ĂŠ definido pelo investigador tendo em conta as conseqßências de tal erro. Ou seja, tenta-se fazer o nĂ­vel de significância o mais baixo possĂ­vel, de forma a proteger a hipĂłtese nula e prevenir-se, tanto quanto ĂŠ possĂ­vel, que o investigador cometa falsas intervençþes. O erro tipo I ĂŠ tambĂŠm conhecido como Alarme Falso, Detecção Falsa ou ainda Falso Positivo. 3


• Erro Tipo II: este erro ocorre quando H0 não é rejeitada quando deveria ser. A probabilidade de cometer esse erro é denotada por β (de valor geralmente desconhecido). O erro tipo II é também conhecido como Ausência de Alarme ou Falso Negativo. Estes erros são sensíveis ao tamanho N da amostra, (α, β) ∝

1 N.

A seguir discute-se como estes testes podem ser feitos usando as redes neurais artificiais.

3.1

Métodos de Limiar Simples

Nesta seção, descrevem-se as técnicas que usam um único limiar de decisão para avaliar o grau de novidade do vetor da entrada em relação ao modelo previamente construído para os dados de treinamento. Esta é a abordagem mais usual em detecção de novidades, seja quando se usa técnicas estatísticas clássicas, seja quando se lança mão de técnicas baseadas em redes neurais (Hodge e Austin, 2004). O teste de limiar simples mais conhecido é o teste do valorp. Por definição, o valor-p (também referido como p-valor) é a probabilidade de se observar o valor da estatística de teste tão ou mais extremo do que o valor observado, assumindo que a hipótese nula é verdadeira. Em outras palavras, o valor-p é a probabilidade de cometer o erro de Tipo I com os dados de uma amostra específica. Compara-se o valor-p com o nível de significância escolhido e tomamos a decisão. Se o valor-p for menor que o nível de significância escolhido rejeita-se H0 , caso contrário, aceita-se H0 (Triola, 1999). Um exemplo de sua utilização está em (Höglund et al., 2000), no qual uma rede SOM é treinada com dados representando atividade normal em uma rede de computadores. O limiar de decisão foi determinado pelo cálculo estatístico do valor-p (p-value) associado à distribuição dos erros de quantização referentes a cada vetor do conjunto de treinamento. Esse procedimento é implementado da seguinte forma: • Passo 1 – Após a conclusão do treinamento, os erros de quantização associados aos vetores de treinamento são N calculados, gerando o conjunto eµq µ=1 .

• Passo 2 – O erro de quantização associado a um novo vetor de entrada é calculado, e(xnovo ) = enovo . q

• Passo 3 – Definir H0 como: “o vetor xnovo é normal”. Fazer ρ+ = α, em que 0 < α ≤ 1 é o nível de significância estatística do teste. • Passo 4 – O valor-p para qualquer novo vetor de entrada, denotado por P novo , é calculado da seguinte maneira. Seja N B o número de elementos do conjunto eµq µ=1 que são maiores que enovo . Então, q ρnovo = P novo =

B . N

(11)

• Passo 5 – Se ρnovo > ρ+ , então H0 é aceita; caso contrário ela é rejeitada. Um nível de significância α = 0,05 é usual. • Passo 6 – Repetir Passos 2-5 para cada novo vetor de entrada. VII SBAI / II IEEE LARS. São Luís, setembro de 2005

Um outro método de limiar simples baseado na rede SOM é proposto em (Tanaka et al., 1995) para detecção de falhas em máquinas elétricas. Este método segue os mesmos passos descritos previamente, exceto que, neste caso, o limiar de novidade é calculado com base na distância do vencedor i ∗ até seus vizinhos mais próximos Di∗ j = kwi∗ − wj k. O limiar de decisão é escolhido como o valor máximo dentre estas distâncias: ρ+ = max {Di∗ j } (12) ∀j∈V1

na qual V1 é o conjunto de neurônios na vizinhança imediata do vencedor, ou seja |i∗ − j| = 1. Assim, se enovo > ρ+ , então q o vetor de entrada carrega informação nova ou anômala, i.e., a hipótese nula deve ser rejeitada.

3.2

Métodos de Limiar Duplo

Nestes métodos, calcula-se um intervalo de decisão delimitado por dois limiares: ρ− e ρ+ . Este intervalo pode ser, então, usado para julgar um novo vetor de entrada como normal se ρ− < ρnovo < ρ+ e anormal caso contrário. Em (Barreto et al., 2004) foi proposto um método de detecção de novidades de limiar duplo. A técnica foi aplicada na detecção de falhas em sistemas celulares através do cálculo de Intervalos de Decisão (ID), inspirados nos intervalos de confiança estatísticos, para o erro de quantização gerado por redes neurais competitivas. Para implementar este método, uma amostra dos erros de quantização é tomada ao final do treinamento de uma rede competitiva (e.g., SOM) com dados normais, como no Passo 1 dos métodos de limiar simples. Para um dado nível de significância α, está-se interessado num intervalo no qual se possa certamente encontrar uma percentagem 100(1 − α), por exemplo α = 0,05, de valores normais para o erro de quantização. Portanto, calcula-se os limites superior e inferior usando percentis2 (Triola, 1999): • ρ− = 100 α2 percentil • ρ+ = 100 1 − α2 percentil. Outro método de limiar duplo bastante utilizado para detectar e visualizar outliers é conhecido como boxplot3 (Muñoz e Muruzábal, 1998). Esse método também será avaliado neste artigo

4

CÁLCULO DE LIMIARES REAMOSTRAGEM BOOTSTRAP

VIA

Bootstrap é uma técnica de reamostragem de dados introduzida por Efron (Efron e Tibshirani, 1993). Uma amostra bootstrap 2 Um percentil é uma medida da posição relativa de uma unidade amostral em relação a todas as outras. O percentil de uma distribuição de valores é um número Nθ tal que a percentagem 100(1 − θ) de valores da população são menores ou iguais a Nθ . Por exemplo, o 75 percentil é um valor tal que 75% dos valores da variável estão abaixo dele. 3 Boxplot é um modo gráfico de se expor outliers presentes numa dada distribuição de valores ou de características. Uma observação x é declarada um outlier extremo se está fora intervalo [Q1 − 3IQR, Q3 + 3IQR], ou um outlier suave se x está fora intervalo [Q1 − 1, 5IQR, Q3 + 1, 5IQR]. Em que IQR = Q3 − Q1 é chamado intervalo interquartis (interquartile range – IQR). Os valores 1,5 e 3 são escolhidos através da comparação com uma distribuição normal.

4


é obtida aleatoriamente por M reamostragens, com reposição, em que os elementos da amostra são escolhidos com a mesma probabilidade

• Passo 3: Gerar uma amostra bootstrap Z b tomada com reposição da amostra original (z1 , z2 , . . . , zN ), na qual cada valor zi tem igual probabilidade de ser reamostrado.

Neste artigo, os limiares de decisão serão calculados usando amostras geradas via reamostragem de bootstrap. O objetivo é melhorar a confiabilidade dos testes, uma vez que se pode reduzir as probabilidades de erro Tipo I (decidir como novo um evento na verdade já conhecido) e erro Tipo II (decidir como já conhecido um evento que na verdade é novo) a partir do aumento do tamanho da amostra utilizada (Triola, 1999). Certamente a confiabilidade estatística dos limiares de decisão também seria melhorada com o aumento do tamanho N da amostra, ou seja, com um maior número de exemplos de treinamento, entretanto obter grandes quantidades de dados pode nem sempre ser possível, ou nem sempre interessante em termos econômicos.

• Passo 4: Calcular o limiar de decisão para o testes de detecção de novidades usando o conjunto de amostras b bootstrap (Z1b , Z2b , . . . , ZM ). Neste caso, há duas possibilidades:

Por exemplo, para calcular os limites do intervalo de predição proposto em (Barreto et al., 2004), usando bootstrap, gera-se um conjunto de M amostras bootstrap com reposição a partir da amostra original de N | (N M ) erros de quantização (e1q , e2q , . . . , eN q ), em que cada elemento da amostra original tem igual probabilidade de ser escolhido durante a reamostragem. Em seguida, os limites inferior e superior do intervalo são computados como anteriormente, via percentis, dando origem ao Intervalo de Decisão via bootstrap (ID-b).

– T ESTES DE LIMIAR SIMPLES: como o método do valor-p, descrito na Eq. (11) ou o método de Tanaka, descrito na Equação (12). – T ESTES DE LIMIAR DUPLO como o método ID (Barreto et al., 2004) ou via boxplot. Algumas características favoráveis da metodologia proposta são listadas abaixo: • Confiabilidade: é uma abordagem bem fundamentada estatisticamente e o uso de reamostragem bootstrap permite a geração de um grande número amostras, melhorando as estimativas dos limiares de decisão. Além disso, se é adotado o método ID, os limiares calculados corresponderão exatamente aos limites dos intervalos de confiança para a variável de saída zt .

Intervalos de decisão podem ser calculados via amostras bootstrap sem que seja necessário fazer qualquer suposição sobre a distribuição original dos dados, sendo necessário apenas que o número M de amostras de bootstrap seja suficientemente grande, ou seja M > 1000 (Efron e Tibshirani, 1993).

5

METODOLOGIA COMPARAÇÃO

GERAL

• Generalidade: permite a comparação de sistemas de detecção de novidades baseados em redes supervisionadas e não-supervisionadas sob uma base comum.

DE

Propõe-se nesta seção uma abordagem unificada para comparar, sob base comum, os diferentes sistemas de detecção de novidades usando redes neurais. Esta abordagem pode ser descrita pelas seguintes etapas: • Passo 1: Definir uma variável de saída da rede neural, zt , a ser avaliada nos testes de novidade. É importante enfatizar que zt deve refletir a variabilidade estatística do conjunto de dados de treinamento. Para as redes discutidas neste artigo, as possibilidades são as seguintes: – SOM: o erro de quantização, zt = eq definido na Eq. (3), é a escolha usual. (t)

– MLP/RBF: neste caso, há duas possibilidades. ∗ R EDES COM UM NEURÔNIO DE SAÍDA: pode-se usar a própria saída da rede, i.e., zt = y(t). ∗ R EDES COM MAIS DE UM NEURÔNIO DE SAÍDA : pode-se usar a norma euclidiana da diferença entre a saída desejada, d(t), e a saída real da rede, y(t). Então, tem-se zt = kd(t) − y(t)k. Para o AAMLP, pode-se tomar o erro de reconstrução, zt = er ( t) definido na Eq. (10). • Passo 2: Depois do treinamento da rede neural, calcular os valores de zt correspondentes a cada vetor do conjunto de treinamento, Z = (z1 , z2 , . . . , zN ). VII SBAI / II IEEE LARS. São Luís, setembro de 2005

• Não-paramétrico: nenhuma suposição sobre as propriedades estatísticas da variável zt é feita em qualquer estágio do procedimento.

• Simplicidade: o método é intuitivo e fácil de se aplicar.

6

APLICAÇÃO EM BIOMÉDICA

Nesta seção, o desempenho dos métodos neurais de detecção de novidades é avaliado através de simulação computacional usando um banco de dados de câncer de mama (Wolberg e Mangasarian, 1990) disponibilizado para fins de pesquisa no UCI – Machine Learning Repository (Blake e Merz, 1998), um repositório de dados para aplicações em aprendizagem de máquinas. A escolha dessa simulação se deve ao fato de as aplicações biomédicas demandarem alta precisão, devido aos fatores humanos envolvidos. Falsos positivos e falsos negativos em diagnósticos médicos têm implicações diferentes para o indivíduo que está sendo analisado, embora ambos devam ser reduzidos. Considere um teste de detecção de câncer executado sob a hipótese de que a pessoa é saudável (i.e. comportamento normal ou esperado). Se um câncer real não é detectado (falso negativo), o mais provável é que o indivíduo volte a sua casa e esqueça a saúde por um tempo, pelo menos até a visita médica seguinte. Este é um problema sério, uma vez que a detecção de um tumor maligno nos estágios iniciais de seu desenvolvimento é fator crucial para o sucesso do tratamento. Se um falso câncer é detectado (falso positivo), o indivíduo provavelmente fará investigações adicionais sobre a doença e descobrirá finalmente que o diagnóstico precedente estava errado. Nesta caso, além 5


70 ID Valor−p Boxplot Tanaka

90

Taxas de Erro Falso Positivo (%)

Taxas de Erro Falso Negativo (%)

100

80 70 60 50 40 30

ID Valor−p Boxplot Tanaka

60

50

40

30

20

20 10 10 0 2

[]

5

10

15

20

25

30

35

40

0 1

45

Número de Neurônios

20

50

[]

100

150

200

250

300

Número de Épocas

Figure 3: (a) Taxas médias de erro falso negativo (%) em função do aumento do número de neurônios da rede SOM. (b) Taxas médias de erro falso positivo (%) em função do aumento do número de épocas de treinamento da rede SOM.

dos custos adicionais para os novos exames, a pessoa é exposta a um estresse psicológico indesejável enquanto espera pelos resultados finais, muito embora ele não corra risco de vida pelo erro de diagnóstico. Assim, é importante avaliar os métodos de detecção apresentados nas seções anteriores quanto às taxas de falsos positivos e falsos negativos.

6.1

Dados Experimentais

A amostra de dados utilizada consiste em 699 vetores de dimensão 9, cujos atributos xi , (i = 1, 2, . . . , 9) são os seguintes: espessura do nódulo, uniformidade do tamanho da célula, uniformidade da forma da célula, adesão marginal, tamanho da célula epitelial simples, núcleos descobertos, nível de cromatina nuclear, núcleos normais e mitoses. Todos os atributos têm valores dentro do intervalo [1 − 10] (Wolberg e Mangasarian, 1990). Um método de escalonamento linear foi usado para por os dados no intervalo [0 − 1]. Foram eliminados 16 exemplos que continham atributos desconhecidos (NOT A NUMBER – NaN). Dos 683 vetores restantes, 444 correspondem a tumores benignos e 239 a malignos. Dos 444 vetores “normais”, 355 deles (aproximadamente 80%) foram selecionados para o treinamento das redes neurais. Dos 89 vetores normais restantes usados para os testes de validação, 30 foram substituídos por vetores anormais, escolhidos aleatoriamente do conjunto de 239 vetores anormais.

portanto, zt = y(t), a própria saída da rede. Para o AAMLP utiliza-se o erro de reconstrução. Para todos os algoritmos neurais os limiares de decisão foram determinados a partir da amostra de bootstrap para zt usando os seguintes métodos: valor-p, boxplot e ID. Adicionalmente, para detectores SOM, analisa-se também o método de Tanaka usado para calcular limiares de decisão. Todos os testes foram executados usando uma rede SOM unidimensional. As redes MLP e GMLP consistiram em uma única camada escondida de neurônios treinados com o algoritmo padrão de retropropagação do erro (error backpropagation) com fator de momento para acelerar a convergência. Uma função de ativação do tipo logística foi adotada para todos os neurônios da rede MLP e uma função de ativação do tipo gaussiana foi adotada para os neurônios intermediários da rede GMLP.

6.3

Resultados

Rede SOM. O primeiro conjunto de simulações compara a habilidade da detecção de novidades dos diferentes métodos que usam a rede SOM. As taxas de erro falso negativo obtidas para os detectores SOM em função do número dos neurônios são mostradas na Fig. 3(a). Cada modelo neural foi treinado por 100 épocas.

Configurações das Redes Neurais

Com testes de limiar-duplo pode-se detectar outliers tanto nas regiões de elevado erro de quantização (EQ) quanto em regiões de EQ baixo. Este tipo de outlier (outliers desconhecidos) pode ser resultado de erros na fase de rotulação dos dados. Se outliers desconhecidos estiverem presentes no conjunto de treinamento, alguns neurônios podem ser atraídos para esses padrões espúrios, de modo que, no futuro, alguns outliers ativarão estes neurônios e o valor para o EQ provavelmente será baixo. Somente métodos de detecção de novidades baseados em limiar duplo, tais como boxplot ou ID, podem detectar outliers deste tipo.

Para detectores de novidades baseados na rede SOM, a variável de saída zt é o erro da quantização. Para detectores baseados nas redes MLP e RBF utiliza-se um neurônio na camada de saída e,

O segundo conjunto de simulações avalia a variação das taxas de erro falso positivo dos detectores SOM com o número de épocas de treinamento, como mostrado na Fig. 3(b). Os parâmetros de

A inclusão de vetores anormais no conjunto de testes é necessária para se avaliar as taxas de erro falso negativo (erro Tipo II). Se apenas exemplos de vetores normais compusessem o conjunto de teste, poderia-se somente estimar as taxas de erro falso positivo (erro Tipo I). Este procedimento foi repetido em 100 rodadas de simulação, e as taxas médias de erro foram calculadas no final.

6.2

VII SBAI / II IEEE LARS. São Luís, setembro de 2005

6


100

100

MLP GMLP AA RBF

90

Taxas de Erro Falso Negativo (%)

Taxas de Erro Falso Negativo (%)

90 80 70 60 50 40 30 20 10

[]

0 2

80 70 60 50 40 30

(SOM , boxplot) (MLP , valor−p) (MLP , regra WTA)

20 10

5

10

20

30

40

50

Número de Neurônios Escondidos

[]

0 0

5

10

15

20

25

30

35

40

45

50

Porcentagem de Outliers nos Dados de Treinamento

Figure 4: (a) Taxas médias de erro falso negativo (%) em função do número de neurônios na camada escondida (redes supervisionadas), usando limiares de decisão calculados pelo método de boxplot. (b) Taxas médias de erro falso negativo (%) em função do número de outliers presentes nos dados de treinamento.

treinamento usados foram os mesmos usados para o primeiro conjunto de simulações, exceto pelo número dos neurônios, que foi fixado em 40. O desempenho geral mostra melhor desempenho do método do ID, o que é concordante com os resultados obtidos em (Barreto et al., 2004).

usando os rótulos verdadeiros dos vetores de dados, i.e., nesse caso não houve falsificação de rótulos. O resultado é mostrado na Fig. 4(b), que mostra como as taxas de erro falso negativo variam com o número de outliers presentes no conjunto de treinamento.

É interessante notar que o desempenho do par (SOM, Tanaka) é o pior em ambos os tipos de erro. Os pares (SOM, boxplot) e (SOM, valor-p) também apresentam desempenhos aceitáveis, com taxas de falsos alarmes abaixo de 5%. Avaliando ambos os tipos de erro, recomenda-se adotar o par (SOM, boxplot). Numa eventual situação na qual baixas taxas de alarmes falsos sejam imperativas, recomenda-se o uso do par (SOM, ID).

Como esperado, o desempenho dos classificadores binários, (SOM, boxplot) e (MLP, valor-p), deteriora-se com a presença dos outliers, enquanto que o desempenho dos classificadores multi-classe melhora. Isto ocorre porque os classificadores binários aprendem erroneamente a considerar outliers como vetores de dados normais, diminuindo sua sensibilidade aos verdadeiros outliers, ou seja, às novidades. Para o classificador multi-classe, a sensibilidade à novidade aumenta, visto que o classificador aprende a melhor separar o que é normal do que é anormal. Vale destacar que o desempenho do classificador MLP para duas classes melhora somente quando mais de 30% dos padrões de treinamento são anormais. Entretanto, geralmente não é possível (ou não é economicamente viável) obter um número tão elevado de vetores anormais.

Redes supervisionadas. Os mesmos testes descritos acima para detectores SOM foram repetidos para os métodos supervisionados (MLP, AAMLP, GMLP e RBF). O primeiro conjunto de simulações avalia a taxa de erro falso negativo em função do número de neurônios escondidos. Para estes testes, cada rede MLP foi treinada por 1000 épocas somente com vetores de dados normais (classificação binária). A taxa de aprendizagem e o fator de momento foram ajustados respectivamente em 0,35 e 0,5. Para maior clareza, os resultados são mostrados na Fig. 4(a), somente para o método de determinação de limiares de decisão via boxplot usando a rede RBF, pois eles apresentaram melhor desempenho. A figura ilustra também que alguns métodos para cálculo de limiares de decisão são inviáveis para determinadas redes neurais supervisionadas, por exemplo, o par (MLP, boxplot). Para ilustrar a influência de outliers presentes nos dados de treinamento no desempenho dos detectores de novidades supervisionados e não-supervisionados, são simulados os pares (SOM, boxplot) e (MLP, valor-p) usando no treinamento dados que contém um determinado número outliers falsificados (fake outliers), i.e. vetores de dados originalmente anormais que foram rotulados intencionalmente como sendo normais. Para fins de comparação, simula-se também um classificador MLP padrão para um problema de 2 classes (normal/anormal), usando para decisão a regra WTA. O par (MLP, regra WTA) foi treinado

VII SBAI / II IEEE LARS. São Luís, setembro de 2005

Ainda em relação à Fig. 4(b) nota-se que o desempenho dos métodos binários, (SOM, boxplot) e (MLP, valor-p), é melhor do que o do classificador multi-classe, (MLP, regra WTA), quando a porcentagem de outliers é inferior a 10% do conjunto total de dados de treinamento. Finalmente, a Tabela 1 apresenta os melhores resultados obtidos para o conjunto de dados utilizado neste artigo. Em termos de erro falso negativo, o melhor desempenho global foi obtido pelo par (RBF, boxplot). Convém advertir que o resultado mostrado para o par (MLP, regra WTA) é para um conjunto de treinamento equilibrado, que contém 50% de vetores anormais e 50% de vetores normais, sendo mais propriamente um classificador que um detector de novidades.

7

CONCLUSÕES

Neste artigo propôs-se uma metodologia não-paramétrica para a comparação do desempenho de diferentes redes neurais

7


Table 1: Melhores desempenhos para a tarefa de detecção de novidades. Falsos Negativos Falsos Positivos MODELO Média Variância Média Variância (RBF binária, boxplot) 0,1 0,1 9,9 11,8 (MLP binária, valor-p) 0,6 0,5 3,4 3,5 (MLP, regra WTA) 0,9 0,9 3,5 3,2 (SOM, boxplot) 2,0 1,0 3,7 2,9 artificiais aplicadas à tarefa de detecção de novidades. Essa metodologia permitiu avaliar as propriedades computacionais de ambos os tipos de rede, supervisionadas e não-supervisionadas. A metodologia proposta também permitiu testar a efetividade de diferentes técnicas de cálculo de limiares de decisão quando usadas em conjunção com diferentes algoritmos de redes neurais, tais como SOM, MLP e RBF. Uma das principais conclusões foi que, na falta de uma boa quantidade de exemplos negativos, deve-se optar por métodos de detecção de novidades do tipo classificação binária, que usam exemplos de uma única classe (exemplos positivos ou normais).

AGRADECIMENTOS Os autores agradecem à FUNCAP (Processo 3403/05) e ao CNPq (Processo DCR:305275/2002-0) pelo apoio financeiro.

REFERÊNCIAS Barreto, G. A., Mota, J. C. M., Souza, L. G. M., Frota, R. A., Aguayo, L., Yamamoto, J. S. e Macedo, P. E. O. (2004). Competitive neural networks for fault detection and diagnosis in 3G cellular systems, Lecture Notes in Computer Science 3124: 207–313. Blake, C. L. e Merz, C. J. (1998). UCI repository of machine learning databases. University of California, Irvine, Dept. of Information and Computer Sciences, http://www.ics.uci.edu/∼mlearn/MLRepository.html. Dawson, M. R. W. e Schopflocher, D. P. (1992). Modifying the generalized delta rule to train networks of nonmonotonic processors for pattern classification, Connection Science 4(1): 19– 31. Efron, B. e Tibshirani, R. J. (1993). An Introduction to the Bootstrap, Chapman & Hall.

Marsland, S., Shapiro, J. e Nehmzow, U. (2002). A self-organising network that grows when required, Neural Networks 15(8– 9): 1041–1058. Muñoz, A. e Muruzábal, J. (1998). Self-organising maps for outlier detection, Neurocomputing 18: 33–60. Petsche, T., Marcantonio, A., Darken, C., Hanson, S. J., Kuhn, G. M. e Santoso, I. (1996). A neural network autoassociator for induction motor failure prediction, in D. Touretzky, M. Mozer e M. Hasselmo (eds), Advances in Neural Information Processing Systems, Vol. 8, MIT Press, pp. 924–930. Scholkopf, B., Williamson, R. C., Smola, A. J., Shawe-Taylor, J. e Platt, J. C. (2000). Support vector method for novelty detection, in S. A. Solla, T. K. Leen e K.-R. Müller (eds), Advances in Neural Information Processing Systems, Vol. 12, MIT Press, Cambridge, MA, pp. 582–588. Singh, S. e Markou, M. (2004). An approach to novelty detection applied to the classification of image regions, IEEE Transactions on Knowledge and Data Engineering 16(4): 396–407. Tanaka, M., Sakawa, M., Shiromaru, I. e Matsumoto, T. (1995). Application of Kohonen’s self-organizing network to the diagnosis system for rotating machinery, Proceedings of the IEEE International Conference on Systems, Man and Cybernetics (SMC’95), Vol. 5, pp. 4039–4044. Triola, M. F. (1999). Introdução à Estatística, 7a edn, Editora LTC. Vasconcelos, G. C., Fairhurst, M. C. e Bisset, D. L. (1995). Investigating feedforward neural networks with respect to the rejection of spurious patterns, Pattern Recognition Letters 16: 207–212. Wolberg, W. H. e Mangasarian, O. L. (1990). Multisurface method of pattern separation for medical diagnosis applied to breast cytology, Proceedings of the National Academy of Sciences, U.S.A. 87: 9193–9196.

Haykin, S. (1999). Neural Networks: A Comprehensive Foundation, 2nd edn, Prentice-Hall. Hodge, V. J. e Austin, J. (2004). A survey of outlier detection methodologies, Artificial Intelligence Review 22(2): 85–126. Höglund, A. J., Hätönen, K. e Sorvari, A. S. (2000). A computer hostbased user anomaly detection system using the self-organizing map, Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks (IJCNN’00), Vol. 5, Como, Italy, pp. 411–416. Kohonen, T. (1990). The self-organizing map, Proceedings of the IEEE 78(9): 1464–1480. Kohonen, T. (2001). Self-Organizing Maps, 3rd edn, Springer-Verlag. Li, Y., Pont, M. J. e Jones, N. B. (2002). Improving the performance of radial basis function classifiers in condition monitoring and fault diagnosis applications where ‘unknown’ faults may occur, Pattern Recognition Letters 23(5): 569–577. Marsland, S. (2003). Novelty detection in learning systems, Neural Computing Surveys 3: 157–195. VII SBAI / II IEEE LARS. São Luís, setembro de 2005

8


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.