Proposta di un nuovo modello di rete neuronale: RMDCP o (MLPDCN) Rete Multistrato a Divergenza Convergenza Progressiva
By Ing. Giovanni Del Papa http://www.ing-‐gdp.com
1
INDICE Proposta di un nuovo modello di rete neuronale: RMDCP o (MLPDCN) ..... 1 Rete Multistrato a Divergenza Convergenza Progressiva ..................................... 1 1.1 Introduzione ............................................................................................................................................ 3 1.2 Descrizione della rete: MLPDCN ........................................................................................ 4 1.3 Le equazioni del modello MLPDCN ..................................................................................... 8 Strato1:(In) ................................................................................................................................................... 8 Strato2:(Norm) ............................................................................................................................................. 8 Strato 3:(Kohonen-SPR) ...................................................................................................................... 9 Strato 5: (Kohonen2) ......................................................................................................................... 13 Strato 6: (Grossberg-Outstar) ............................................................................................... 14 1.4 Descrizione dei dati utilizzati per addestrare la rete. ............ 16 1.5 Interpretazione della simulazione: MLPDCN ..................................................... 16 1.5.1 Descrizione della Fase di Learning ................................................................... 16 1.5.2 Descrizione della fase di recall ......................................................................... 17 1.6 Illustrazione dei risultati delle simulazioni con MLPDCN ......... 24 1.6.1 Conclusioni e osservazioni finali sul modello proposto ......... 29 Bibliografia. .................................................................................................................................................................... 31
2
Â
1.1 Introduzione Quello che intendiamo proporre ora e' un nuovo modello
di
rete
che
abbiamo
denominato
"rete
multistrato a divergenza-convergenza progressiva" "RMDCP"
o
in
Inglese
"Multi
Layer
Progressive
Divergence-Convergence Network" in sigla "MLPDCN". Tale
rete
costruita
e'
derivata
perche'
dalla
avesse
CPN
la
ed
e'
stata
caratteristica
di
riprodurre, nel modo migliore possibile, a livello architetturale, il modello proposto da Schild per il sistema olfattivo (vedasi teoria capitolo 1). In
particolare,
schema
di
si
e'
cercato
di
convergenze-divergenze
replicare
tra
i
lo
livelli
recettoriale-glomerulare e glomerulare-mitrale che costituiscono
una
cascata
di
filtri
di
cui
ipotizziamo che il primo non sia adattivo, ma solo trasmissivo
con
la
caratteristica
di
espandere
pero' lo spazio delle attivita' degli ingressi. Oltre a
cio', il requisito di base del nostro
modello
e'
quello
di
essere
capace
di
discriminare, nel 100% dei casi, i dati Inglesi e del C. Piaggio simultaneamente applicati. Inoltre il
suddetto
particolare
modello, meccanismo
apprendimento, garantire rete,
ispirato
nuove
mettendola
di alle
capacita' in
3 Â
l'uso
di
competizione, reti
SPR,
di
un
senza
dovrebbe
interpolative
condizione
miscele di odori. Â
mediante
alla
discriminare
1.2 Descrizione della rete: MLPDCN Da un punto di vista teorico, l'ispirazione per costruire tale rete ci e' venuta direttamente dal modello del sistema olfattivo proposto da Schild e illustrato
all'inizio
della
presente
tesi.
Per
comprendere cio' che segue, si rimanda quindi a tale
parte
osservare
ed la
in fig.6
particolare che
si
consiglia
rappresenta,
in
di
forma
grafica, la struttura a cui ci siamo ispirati. La rete si compone di 6 strati: uno strato in ingresso, costituito da 9 PE, dove 9 e'
il numero
massimo dei segnali dei sensori (L=9 ove L=numero delle classi di cellule recettrici nel modello di Schild)
;
uno
normalizzazione,
strato
composto
da
successivo 10
PE
che
di
pone
i
vettori su di una sfera di raggio fisso =9 (numero di ingressi); il terzo strato e' uno strato che chiameremo "strato di prima divergenza", o degli pseudoglomeruli,
composto
da
20
PE,
che
ha
lo
scopo di rappresentare il primo strato elaborativo ( e' un filtro aggiustabile dall'utente ) e che corrisponde alla manifestazione della "convergenza recettori-glomeruli" (N=20=numero
di
del
glomeruli
modello nel
di
tentacolo
Schild della
chiocciola). Le connessioni inibitorie, realizzate dalle
cellule
implementate,
periglomerulari, inserendo
delle
sono
state
connessioni
inibitorie tra ogni singolo neurone e tutti gli Â
4 Â
altri
nel
suo
stesso
strato.
I
valori
di
tali
connessioni sono pari a -0.99/20 = -0.0495 ( il valore -0.99 viene equamente distribuito su tutti i PE dello strato). Ciascun PE poi si autoeccita con
un
valore
di
+1,
per
non
venire
soffocato
dalle connessioni inibitorie afferenti. A livello di questo terzo strato si manifesta una sorta di competizione, apprendere.
per Si
stabilire
osservi
che
chi
nessuna
dovra'
unita'
in
questo strato vince, in quanto il meccanismo di competizione SPR, da noi PE
di
tale
strato,
usato
impone
sulle uscite dei
che
siano
molte
le
unita' ad attivarsi, poiche' ciascuna emette in uscita
il
valore
dato
degli (Xj) dello strato
dalla
sommatoria
pesata
di normalizzazione, dopo
aver applicato una funzione di trasferimento di tipo della
sigmoidale
(
frequenza
tipica
di
della
emissione
rappresentazione degli
spike
nel
sistema biologico). A tale somma si aggiunge poi l'effetto delle connessioni inibitorie intrastrato che, realizzando una sorta di inibizione laterale, tendono a migliorare la discriminazione. Infatti ciascun PE attivato tende a spegnere moderatamente gli altri, quindi quello che si attiva di piu' tende
a
ridurre
contribuendo
alla
le
attivazioni
competizione.
Il
degli
altri,
risultato
di
questo complesso sistema e' che molti neuroni si attivano, ma nessuno apprende a questo livello un codice stabile. Cio' che quindi si realizza e' una Â
5 Â
sorta di del
proiezione o rimappatura dallo spazio
primo
Schild)
strato
a
quello
cambiamento
nella
(recettori del
nel
terzo,
modello
ottenendo
dimensione
della
di un base
vettoriale, che dovra' essere usata per codificare gli odori. In sostanza con 9 sensori in ingresso la
dimensione
dello
spazio
dei
sensori
e'
R9,
mentre con questa divergenza ci trasportiamo su di uno spazio di dimensione superiore R20 nel nostro caso.
Questo
fatto
puo'
risolvere
il
problema
della scarsa capacita' di discriminazione ( nel senso di scarsa selettivita') dei sensori tra i vari odori. Si noti che nel modello di Schild non si diceva se fosse L>N o L=N o L<N, cioe' non si diceva
se
convergenza
a o
livello divergenza.
glomerulare Noi
abbiamo
vi
fosse percio'
supposto L<N, ossia divergenza con L=9 e N=20. Lo strato 4 di normalizzazione con 21 PE rappresenta lo
strato
biologico.
plessiforme Lo
strato
5,
esterno in
cui
del si
modello manifesta
l'ultima divergenza, e' quello di Kohonen classico con PE aventi funzione di trasferimento lineare, schema di competizione "one highest" e meccanismo di apprendimento di Kohonen, per i quali vince e apprende il PE con il valore piu' alto in uscita dalla funzione di trasferimento. Questi modifica i propri pesi secondo la regola:
wij'=wij+c1*(xij-wij), ove c1 e' un coefficiente di learning, xij e' l'ingresso al PE j-esimo e wij Â
6 Â
sono
i
pesi
che
connettono
all'unita'
i-esima
dalla j-esima. Tale strato e' lo strato dove si forma realmente il codice olfattivo e corrisponde nel modello di Schild allo strato delle cellule mitrali
che
e'
il
piu'
vasto
(
nel
modello
J=25N=500. Noi abbiamo supposto J=2.7N=54, perche' avevamo 50 pattern con cui addestrare la rete ed ogni
pattern
distinto
viene
codificato
dall'
attivazione di un singolo PE in tale strato.). Infine lo strato 6 composto con 6 PE, tanti quanti sono le classi alcoliche impiegate per le prove, realizza la convergenza finale in forma di strato di
"Grossberg
Outstar",
riproducendo
lo
strato
olfattivo mediale dove si realizza l'uscita nel modello biologico di fig.6. L'azione dello strato dei
granuli
e'
simulato
mediante
connessioni
inibitorie tra i neuroni dello strato di uscita di valore pari a -0.99/6=-0.165
(
equidistribuzione
valore
scelto
dell'azione
per
inibitoria)
avere ed
autoeccitazione con peso +1. Alla rete sono stati poi aggiunti, in corrispondenza dei PE dei vari strati, degli strumenti che ci hanno consentito di esaminare l'andamento delle simulazioni. Partendo dall'alto
e
procedendo
verso
il
basso
fig.68), si puo' osservare lo strumento
(vedi
"err-rms"
che mostra l'andamento della funzione errore RMS tra uscita reale ed uscita desiderata, stampando un Â
pixel
ogni
20
iterazioni. 7 Â
Lo
strumento
"Kohonen2" grafico
consente
a
barre,
competizione Kohonen
(
mitrali).
a
quali
livello
quello Lo
di
vedere, neuroni
dell'
forma
vincono
ultimo
corrispondente
strumento
in
strato
alle
"pesi
di la di
cellule
kohonen2-Grosb"
consente di esaminare l'istogramma dei pesi tra lo strato di Kohonen2 e quello finale di Grossberg ed e' assai utile in fase di learning, per seguire i momenti
della
decodifica
finale.
Lo
strumento
"Kohonen-spr", osservato congiuntamente a "norm1", ci consente di individuare i gruppi di neuroni che si attivano e di valutare quanto si attivano e poter
cosi'
seguire
dell'informazione
la
ridistruibuzione
che si manifesta tra lo strato
di normalizzazione e quello Kohonen-spr.
1.3 Le equazioni del modello MLPDCN Â Strato1:(In) E' uno strato di Fanin occupa
solo
trasmetterli
di
prelevare
cosi'
come
normalizzazione. Sia
x il
composto di 9 PE. Si gli sono
ingressi allo
e
di
strato
di
vettore corrispondente
al generico ingresso in un determinato istante:
x = (x1 , x2 ,..., xn ) con n = 9 nel nostro caso Strato2:(Norm) E' uno strato di normalizzazione composto di 10 PE, che mappa i vettori
Â
8 Â
x sulla sfera di raggio 9
(tanti
quanti
sono
gli
ingressi)
seguendo
la
seguente procedura. Sia
x = (x1 , x2 ,..., xn ) il vettore in ingresso a questo
strato. Chiamiamo x ' = (x0 , x ) = (x0 , x1 , x 2 ,..., x n ) il vettore aumentato. x0 e' tale che la norma di x ' e' pari ad n2=(numero di elementi dello strato precedente di ingresso)2. Nel nostro caso n2=81. in simboli :
x ' = n 2 Vogliamo
x0
scegliere
in
modo
da
soddisfare
la
condizione di sopra.
x come:
Definiamo la norma di
x = (x1 • x1 + x2 • x2 + ...xn • xn ) ricaviamo x0 in mdo che sia:
n 2 = x ' = (x0 • x0 + x1 • x1 + x2 • x2 + ...xn • xn )
con semplici passaggi matematici ricaviamo
:
x0 • x0 = n 2 − (x1 • x1 + x2 • x2 + ...xn • xn ) = n 2 − x da cui segue, supponendo che sia : x < n2
x0 = n 2 − x Da
cui
deriva
sicuramente
che
sulla
il
sfera
vettore di
raggio
x'
si
trova
r = n2 =9.
In
questo modo tutti i vettori in ingresso verranno ad avere la medesima lunghezza. Infine si applichera' a tale vettore una funzione di trasferimento lineare ottenendo in uscita il vettore :
y = ( y1 , y 2 ,..., y n −1 , y n ) = x ' = (x0 , x1 , x 2 ,..., x n −1 ) che verra' applicato in ingresso strato 3 Strato 3:(Kohonen-SPR)
9
al successivo
Poiche' la regola di apprendimento e' KohonenN, i vettori dei pesi dopo la randomizzazione vengono normalizzati al valore di Normscale, in modo da farli trovare sulla sfera di raggio Normscale=1 (parametro fissato da noi). Tale strato si compone di N=20 PE. M=10 e' il numero di PE dello strato precedente. La prima operazione che viene effettuata e' il calcolo della sommatoria pesata degli ingressi per ogni PE per i=1...20 e j=1...10: : M N −1 − 0.99 I i = ∑ wij ⋅ y j + ∑ ( ) ⋅ Tk + z i ⋅ 1 N j =1, j ≠i k =1, k ≠ j poi
si
applichera'
una
soglia, per stabilire
funzione
non
lineare
a
quali PE potranno emettere
una risposta diversa da zero: ⎧ I (se I i ≥ c 2 ⋅ N ) Ti ' = ⎨ i altrimenti ⎩0 Ove C2 e' un valore che viene stabilito a livello del L/R Schedule e insieme ad N ci consente di stabilire la soglia di attivazione dei PE. Dopo di cio' ricaviamo
l'uscita, applicando la
funzione sigmoide. Si ricorda che la sigmoide e' una
funzione
continua,
n-derivabile
che
mappa
l'ingresso su di un valore tra 0 e 1: 1 z i = Ti = − I i *Gain 1+ e
(
Infine
)
sui valori zi applichiamo la competizione
per stabilire chi apprendera'. Si e' scelta la competizione SPR per avere l'effetto di un filtro spaziale. Normalmente la SPR opera nel seguente
10
modo: il PE, connesso con una uscita avente il valore
desiderato
pari
a
1,
con
il
piu'
alto
valore di
zi dovrebbe vincere e apprendere (ossia
modificare
i
propri
pesi
secondo
una
opportuna
Ora
nel
nostro
caso
non
vi
regola).
sono
collegamenti di questo strato con l'uscita, quindi la
SPR
opera
diversamente
(
sebbene
lo
strato
abbia la capacita' di apprendere secondo la regola di
Kohonen)
e
si
limita
a
far
liberamente
competere i PE tra di loro, senza che si abbia un solo vincitore, cosi' si ottiene sullo strato una uscita
multipla
(molti
PE
emettono
il
proprio
valore, ma nessuno apprende). In conclusione tale strato
si
comporta
come
un
filtro
che
sfrutta
l'inibizione laterale ed i cui coefficienti sono scelti
in
modo
randomizzazione
casuale
iniziale.
all'atto
Poiche'
la
della
regola
di
apprendimento e' KohonenN, i vettori dei pesi dopo la randomizzazione vengono normalizzati in modo da farli
trovare
sulla
sfera
di
raggio
Normscale
(parametro fissato da noi a 1). In questo modo l'effetto
del
filtro
risulta
modificato.
Tale
filtro riproietta da R9 a R20. L'uscita dello strato e' quindi il vettore :
z = (z1 , z 2 ,..., z N ) Â Strato 4:(Norm2) Tale strato si compone di 21 PE ed e' un puro strato
di
normalizzazione
che
pero'
pone
i
vettori in uscita dallo strato precedente sulla Â
11 Â
sfera di raggio unitario, prima di applicarli al successivo
strato,
dove
si
verifica
l'apprendimento con la formazione, a livello dello strato
dei
pesi,
del
codice
olfattivo
vero
e
proprio. Il
procedimento
utilizzato
per
ottenere
la
normalizzazione e' lo stesso gia' descritto per lo strato 2 con la sola differenza che ora il valore della norma e' fissato ad 1. In
conclusione,
in
uscita
da
tale
strato
si
ottiene un vettore di 21 componenti, ma avente modulo unitario:
z ' = (z, z 0 ) = (z 0 , z1 , z 2 ,..., z N ) con la condizione di :
z' = 1
Â
12 Â
Strato 5: (Kohonen2) Lo strato si compone di N=54 PE, M=21. Sia ηi la sommatoria pesata in ingresso ad ogni PE
ηi =
M
∑u
ij
⋅ z 'j
j =1, j ≠ i
A tale sommatoria viene applicata una funzione a soglia, per stabilire se un dato PE puo' emettere una propria uscita:
(se η i ≥ c 2 ⋅ N ) ⎧η Ti '' = ⎨ i altrimenti ⎩ 0
Quindi si applica sull' uscita un meccanismo a competizione del tipo one-highest che serve per far si' che un solo PE emetta uscita a +1 e quindi apprenda modificando i propri pesi: ξ j = max Tk'' k
{ }
⎧ 1 (se i = j) ⎩0 altrimenti
ξ i' = ⎨
Una
volta
stabilito
il
vincitore,
si
fa
l'aggiustamento dei suoi pesi, usando la regola di apprendimento KohonenN, la quale prevede in primo luogo, subito dopo la iniziale randomizzazione dei pesi, la normalizzazione dei vettori dei pesi, in modo che si trovino sulla sfera di raggio: +/- n (n=valore di normscale=1). Supponendo che il PE
vincente
sia
l'i-esimo,
la
apprendimento risulta:
(
uij' = uij + c1 ⋅ z 'j − uij
13
)
regola
di
Tale regola fa si che il vettore dei pesi ruoti ( vedi teoria sulle mappe di Kohonen e sulla CPN nella
parte
seconda)
verso
il
vettore
degli
ingressi allo strato.
L'uscita da tale strato e' il vettore :
ξ ' = (ξ1' , ξ 2' ,..., ξ n' )
Strato 6: (Grossberg-Outstar) Lo strato 6 si compone di N=6 PE, M=54 ingressi. Sia µ i la sommatoria pesata in ingresso ad ogni PE:
µi =
−0. 99 ) ⋅ Tk''' + outi ⋅ 1. N j =1, j ≠i k =1, k ≠ j (se µ i ≥ c 2 ⋅ N ) ⎧µ Ti ''' = ⎨ i altrimenti ⎩ 0 M
∑ vij ⋅ ξ 'j +
N −1
∑
(
outi = Ti ''' Per
ogni
PE
viene
poi
eseguito
l'apprendimento
secondo la regola di Widrow-Hoff:
vij' = vij + c1 ⋅ ei ⋅ ξ 'j + c2 ⋅ mij mij = vij' − vij Ove vij sono i pesi relativi verso l'unita' i-esima dalla unita' j-esima dello strato di sotto mentre gli ξ 'j sono gli ingressi allo strato dallo strato precedente.
Gli
mij
rappresentano
il
termine
momento e sono la memoria dell'ultimo cambiamento dei pesi.
ei = di − outi
14
e'
l'errore per il generico PE in uscita . Il
termine
outi
e'
l'uscita
effettiva
mentre
di
e'
l'uscita desiderata. In conclusione il vettore di uscita e':
out = (out1 , out 2 ,..., out N ). Con questo si conclude l'analisi delle equazioni usate nella rete. Andremo
adesso ad analizzare i
dati con cui la rete e' stata provata e vedremo i risultati delle simulazioni.
Â
15 Â
1.4 Descrizione dei addestrare la rete. I
dati
utilizzati
per
dati
utilizzati
addestrare
la
per
rete
sono
ricavati unendo i dati del C. Piaggio con i dati Inglesi
e
sono
ALCCPF.NNI
)
gia' quando
stati si
riportati sono
(file
descritte
le
simulazioni cpnmist1 e cpnmist2.
1.5 Interpretazione MLPDCN
della
simulazione:
1.5.1 Descrizione della Fase di Learning Per apprendere l'intero set di 50 patterns, sono state necessarie 1780 iterazioni, utilizzando la procedura di seguito descritta. Dapprima i pesi sono
stati
randomizzati
tra
-0.1
e
0.1.
Nelle
prime 1000 iterazioni
e' stato posto c1=0.2
analogamente
(valore
c2=0.2
della
e
soglia
=c2*numero PE dello strato) poi si e' posto c1=0.1 e
si
e'
accelerare quando
ridotto la
Con
ponendo
convergenza
Kohonen2
patterns.
c 2,
aveva
tutti
gli
c2=0.05
nella gia'
fase
per
finale,
riconosciuto
strumenti
attivi
(
i un
totale di 5) sono stati necessari 4'11", mentre con 3 strumenti attivi ( come per le altre reti CPN) sono stati necessari 3'30", per raggiungere la convergenza fissata ad una soglia di errore di Â
16 Â
0.001. Dall'andamento dell'errore si vede come la rete
proceda
convergenza,
abbastanza grazie
anche
rapidamente alla
verso
opportuna
la
scelta
del L/R schedule.
1.5.2 Descrizione della fase di recall  Nelle
figure
69,70,71,72,73,74
e'
mostrata
la
risposta della rete a un set completo realizzato usando dati misti Italiani e Inglesi. I quadrati colorati dimensioni
rappresentano sono
le
risposte
proporzionali
alle
e
le
loro
rispettive
attivita' dei PE. Per il significato dei colori si veda la legenda
Â
sotto riportata (display Style).
17 Â
Fig. 67 Rete MLPDCN cosi' come appare dopo aver disattivato gli strumenti. Si notino le 6 classi alcoliche in uscita per le quali la rete e' stata addestrata
Â
18 Â
Fig. 68 Rete MLPDCN come appare al termine della fase di learning dopo 6560 iterazioni.
Fig. 69 Rete MLPDCN in fase di recall di fronte alla presentazione di un pattern relativo al metanolo. Â
19 Â
Fig. 70 Rete MLPDCN in fase di recall di fronte alla presentazione di un pattern relativo al propanolo.
Fig. 71 Rete MLPDCN in fase di recall di fronte alla presentazione di un pattern relativo all'alcool amilico. Â
20 Â
Fig. 72 Rete MLPDCN in fase di recall di fronte alla presentazione di un pattern relativo all'etanolo.
Â
21 Â
Fig. 73 Rete MLPDCN in fase di recall di fronte alla presentazione di un pattern relativo al butanolo.
Â
22 Â
Fig. 74 Rete MLPDCN in fase di recall di fronte alla presentazione di un pattern relativo al metoxietanolo.
Â
23 Â
1.6 Illustrazione dei simulazioni con MLPDCN
risultati
delle
Le prestazioni di tale rete sono paragonabili a quelle
delle
rumore
che
reti
per
convergenza.
il
Sotto
CPN
sia
numero
per
di
viene
l'immunita'
iterazioni
riportata
al
per
una
la
tabella
riassuntiva dei risultati ottenuti, pargonandoli con
quelli
MLPDCN1
delle
usano
(descritto
CPN.
lo
sopra
Si
noti
stesso
L/R
a
proposito
che
cpnmist1
schedule di
e
lento
cpnmist1).
Cpnmist2 e MLPDCN2 usano il L/R veloce con c1 che viene
via
questo
via
nuovo
incrementato. schedule
la
Si
noti
come
nuova
rete
sia
con piu'
veloce ( anche se di poco ) con lo stesso numero di iterazioni di cpnmist2. Infine si deve citare una rete
record di velocita', ottenuta con il
nuovo modello, che e' stata capace di convergere in
appena
220
iterazioni
in
un
tempo
di
28".
Questo risultato e' stato ottenuto con un c1 di 0.9.
Si
osservi
che
lo
schedule, applicato alle
stesso
valore
del
L/R
reti CPN vecchie, in
nessun caso ha mai consentito di ottenere un tale risultato con 50 pattern, perche' con un valore di C1=0.9 nessuna rete riusciva a convergere. Questo fatto e' dovuto alla particolare architettura del nuovo modello che consente maggiori variazioni nei pesi, senza originare false convergenze come puo' invece avvenire nelle reti CPN, se si provoca una
Â
24 Â
forte
variazione
dei
valore di c1.
Â
25 Â
pesi,
indotta
da
un
alto
Fig. 75 Rete MLPDCN superveloce dopo la convergenza con i 50 pattern composti dalla fusione di dati Inglesi con quelli del C. Piaggio che si ha dopo appena 220 iterazioni ed un tempo di 28".
Fig. 76 Contatore di learning della rete superveloce al termine della convergenza
Â
26 Â
Fig. 77 L/R Schedule impiegato dalla rete superveloce. Si noti che la velocizzazione e' dell'ordine di 30 volte rispetto alla CPN standard con un set di 50 pattern
Fig. 78 Legenda dei colori impiegati nelle reti mlpdcn.
Â
27 Â
Tabella 21 Tabella riassuntiva, comparativa, dei risultati delle simulazioni tra le varie reti CPN e con il nuovo modello. num. tempo rete num. num. num. num. % di PE patter per la PE in PE in n da iter. riconos rumor nasco conver ingress s. Uscita appren per senza e in . o d conver. errore recall 54 tesicpna 9 5 5 (E) 3432 6' 100% T=10 54 tesicpna 9 5 25 (E) 3564 6'20" 100% T=10 54 tespcpnp 9 5 5 (I) 4990 8' 100% T=0 54 tespcpnp 9 5 25 (I) 5016 8'40" 100% T=0 54 cpnmist1 9 6 50 3894 7'12" 100% T=0 misti 20+54 mlpdcn1 9 6 50 6560 12'55" 100% T=0 misti 54 cpnsup0a 9 5 5 (E) 192 25" 100% T=10 54 cpnsup0a 9 5 25 (E) 712 1'30" 100% T=10 54 cpnsup0p 9 5 5 (I) 192 25" 100% T=0 54 cpnsup0p 9 5 25 (I) 712 1'28" 100% T=0 54 cpnmist2 9 6 50 1780 3'42" 100% T=0 misti 54+20 mlpdcn2 9, 6 50 1780 3'42" 100% T=0 c1=0.1 misti 54+20 mlpdcn2 9, 6 50 670 1'40" 100% T=0 c1=0.3 misti 54+20 mlpdcn2 9, 6 50 560 1'09" 100% T=0 c1=0.4 misti 54+20 mlpdcn2 9, 6 50 320 40" 100% T=0 c1=0.6 misti 54+20 mlpdcn2 9, 6 50 220 28" 100% T=0 c1=0.9 misti
28
Â
1.6.1 Conclusioni e osservazioni finali sul modello proposto  Si
noti
come
con
50
pattern,
incrementando
progressivamente il valore di C1, si migliorano le prestazioni del sistema fino al valore massimo di C1=0.9.
Dopo,
raggiunge
incrementando
delle
false
ancora
C1,
convergenze.
la Il
rete nuovo
modello differisce rispetto a 2 reti CPN, messe in cascata, per l'aggiunta di uno strato Kohonen-SPR. L'aggiunta di tale strato migliora le prestazioni, in quanto subito dopo il primo strato la rete ha gia'
operato
successivo
un
primo
strato
di
filtraggio Kohonen2,
e
che
quindi
si
il
comporta
come un filtro adattivo ( vedi teoria di Schild), puo'
subito
essere
autoadattarsi,
senza
stabilizzazione autoappreso schedule
nella
bisogno
di
condizione attese
di
per
la
e quindi la formazione del codice
e'
dello
intervenire
messo
piu'
rapida.
strato
subito,
di
Quindi
Grossberg
perche'
nel si
L/R puo'
Kohonen2
si
stabilizza, dopo poche passate, mentre nelle CPN standard
occorrono
molte
passate,
per
essere
sicuri della buona stabilizzazione dello strato di Kohonen che era direttamente in contatto con gli ingressi
(
separato
normalizzazione)
e
solo
quindi
era
da
uno
piu'
strato
di
soggetto
ad
eventuali variazioni rumorose. Si noti inoltre che il
filtro
iniziale
(strato
Kohonen-SPR)
puo'
venire aggiustato liberamente dall'utente e questo Â
29 Â
fatto
puo'
rivelarsi
assai
utile
per
fare
dei
confronti con il modello neurofisiologico. Infatti i coefficienti dei pesi di tale strato potrebbero essere scelti in modo da simulare gli effetti, per esempio,
delle
matrici
di
soppressione
(vedi
modello di Schild), oppure si potrebbero scegliere in modo da realizzare dei filtraggi passa basso che
riducano
conclusione, variato
gli il
secondo
effetti
filtro le
del
iniziale
esigenze
ed
i
rumore.
In
puo'
essere
suoi
effetti
potrebbero, in un secondo tempo, venire verificati sulla base di esperimenti neurofisiologici. Â Â
Â
30 Â
Bibliografia. [1] Murray L. Barr. Il sistema nervoso umano. Piccin 1993. pp. 9-26 [2] Sir John Eccles 1965. La sinapsi. Le Scienze Marzo 1965. pp 59-68 [3] P. Strata, Fisiologia del neurone E. M. S. I. Roma 1983 pp. 10-20 [4] J. Singh. Linguaggio e cibernetica. EST Mondadori. 1976. pp152-153 [5] Tarun Khanna "fondamenti di reti neurali. Addison Wesley 1991. pp 144c-156 [6] A. R. cerebrale.
Luria. L'organizzazione funzionale Le Scienze giugno 1970
[7] Luigi Cattaneo. Anatomia del sistema nervoso centrale e periferico dell'uomo. Monduzzi editore 1984. [8] Olton David S. La memoria spaziale . Le scienze 110 , ottobre 1977 [9] Amoore, J. . E. , Johnson, W. , Jr, and Rubin, M. 1964. The stereochemical theory of odor. Sci. Am. 210(2): 42-49 [10] Shepherd, 1972, Synaptic organization of mammalian olfactory bulb. Physiol. Rev. 52-864917 [11] Kandel, E. R. & Schwartz, J. H. (1982) Principles of Neural Science. New York: Elsevier/North Holland Capitolo 32 I sensi chimici: gusto e olfatto. [12] Evor L. Hines, Claire C. Gianna and J. W Gardner. Neural network based electronic nose using constructive algorithms. Techniques and application of neural networks. 1993 Ellis Horwod Workshop. pp. 135-154 [13] S. G. Shirley and Krishna C. Persaud. The biochemistry of vertebrate olfaction and taste. The neurosciences. Vol II 1990: pp 59-68
31
[14] Eleonora P. Giorgi. Il senso dell'olfatto. Le Scienze num. 101. Gennaio 1977 [15] Getchell, T. V. , and Sheperd, G. M. 1978. Responses of olfactory receptor cells to step pulses of odour at different concentrations in the salamander. J. Physiol. (Lond. ) 282: 521-540. [16] Stewart, W. B. , Kauer, J. S. , and Shepherd, G, M 1979 Functional organization of rat olfactory bulb analysed by the 2-deoxyglucose method. J. Comp. Neurol. 185: 715-734 [17] Kandel, E. R. & Schwartz, J. H. (1982) Principles of Neural Science. New York: Elsevier/North Holland Capitolo 32 I sensi chimici: gusto e olfatto. [18] Detlev Schild. 1988. Principles of odor coding and a neural network for odor discrimination . Biophysical Society. Vol 54 DEc 1988 : 1001-1011 [19] Chase, R. 1986. Lessons from snails tentacles. Chem. Sens. 11: 411-426 [20] Revial, M. F. G. Sicard, A. Duchamp, and A. Holey. 1982. New Studies on odour discrimination in the frog's olfactory receptor cells. I. Experimental results. Chem. Sens 7: 175-190. [21] Lancet, D. , C. A. Greer, J. S. Kauer, and G. M. Shepherd. 1982 Mapping of odor-related neuronal activity in the olfactory bulb by 2-DOG autoradiography. Proc. Natl. Acad. Sci. USA. 79: 670-166 [22] Schild, DS. 1986. System analysis of the goldfish olfactory bulb: spatio-temporal transfer properties of the mitral cell granule cell complex. Biol. Cybern. 54:9-19. [23] J. Kauer. Contributions of topography and parallel processing to odor coding in the vertebrate olfactory pathway . Trends in neuroscience, Vol 14, No. 2, 1991. pp 79-85 [24] Kohonen, T. 1987 Self-Ogranization and Associative Memory. Springer-Verlag, Berlin. [25] G. M. Sheperd. I microcircuiti del sistema nervoso Le Scienze Aprile 1978 No. 116 pp. 71-78 Â
32 Â
[26] J. W. Gardner & P. N. Bartlett .Pattern Recognition in odour sensing.Academic Press.1992. pp. 161-179 [27] Richard P. Lippmann IEEE ASSP magazine. Vol 4 No. 2 aprile 1987 [28] T. Kohonen . "Self organized formation of topologically correct feature maps" Biological Cybernetics 43: 59-69 1982 Springer-Verlag. [29] James M. Bower. Relations between the dynamical properties of single cells and their networks in piriform (olfactory) cortex [30] E. I. Knudsen, S. du Lac, and S. D. Esterly (1987) "Computational maps in the brain", Annual Review of Neuroscience, 1987 10: 41-65. [31] Yves Burnod. An Adaptive neural network: cerebral cortex 1990, Prentice Hall London
the
[32] Mountcastle, 1957 Modality and topographic properties of single neurons of cat's somatic sensory cortex. J. Neurophys. 20, 408-434; [33] Towe, A. Notes on the Hypothesis of columnar organization in somatosensory cerebral cortex. Brain Behav. Evol. 11, 16-47 , 1975. [34] Hebb, D. : Organization of behavior. New York: Wiley 1949. [35] Singer , W. Rauschecker, J. , Werth, R. : The effect of monocular exposure to temporal contrast on ocular dominance in kittens. Brain Res. 134, 568-572 . 1977. [36] R. R Llinas. La corteccia del cervelletto. Le Scienze No. 81 Maggio 1975 [37] Robert Hecht-Nielsen, No. 23 / Applied Optics p.
1 Dec 1987 /Vol. 4979-4984
26,
[38] Carpenter, G.A. e Grossberg, S., Neural dynamics of category learning and recognition:Attention, memory consolidatio, and amnesia. J.Davis, (Eds) AAAS Symposium series, in press, 1987
Â
33 Â
[39] Robert Hcht-Nielsen Hecht. Nielsen Neurocomputer Corporation Dec. 1987 Applications of Counterpropagation Networks Neural Networks Vol I pp. 131-139, 1988. [40] Sklansky ,J., .Pattern recognition: introduction and foundations, Electrical engineering and computer science, Dowden, Hutchinson & Ross, Inc. [41] Gail A. Carpenter and Stephen Grossberg. A massively parallel architecture for a selforganizing neural pattern recognition machine. Computer Vision, Graphics and image processing, 1987,37, 54-115 [42] S. Grossberg. How does a brain build a cognitive code? Psychological Review 87: 1-51 [43] Freeman W. J. Mass action in the nervous system New York : Academic Press 1975 [44] Grossberg, S. Adaptive Pattern Classification and universal recording II Feedback expectation, olfaction and illusions.Biological Cybernetics 1976, 23,121-134 [45] S.Grossberg Communication, memory, and development .In Rosen & F. Snell, Progress in theretical biology (vol.5).New York:Academic Press, 1978 [46] Stent, G.S., A Physiological mechanism for hebbs postulate of learning, Procedings of the National Academy of Sciences, U.S.A., 70, 997-1001 (1973) [47] Bart Kosko. Contructing an Associative Memory Byte September 1987 pp. 137-144. [48] Grossberg, S The Adaptive Brain, Amsterdam: North-Holland, 1987.
I & II.
[49] Kosko, B. "Bidirectional Associative Memories" IEEE Transactions on System, Man, Cybernetics, Fall 1987.
and
[50] J. W. Gardner and P.N. Bartlett. A brief history of electronic noses. Sensors and Actuators B, 18-19 (1994) 211-220.
Â
34 Â
[51] Kuniko Fukushima, "A neural network for visual pattern recognition" Computer, March 1988,pp. 65-74 [52] Robert Hecht -Nielsen. "Neurocomputing:picking the Human brain", IEEE Spectrum, March 1988, pp. 36-41 [53] R. Walker, F. Favata. "Neuroinformatica", Informatica Oggi, n.45, 1988, pp. 66-83 [54] T. Kohonen , " The neural phonetic typewriter",Computer , March 1988, pp. 11-25. [55] Gail. A. Carpenter and Stephen Grossberg, "The art of adaptive pattern recognition by a selforganizing neural network" Computer March 1988, pp. 77-91 [56] B. Widrow, R. Winter. Neural Network for adaptive filtering and adaptive pattern recognition, Computer March 1988. pp. 25-39 [57] R. Linsker, Self-organization in a perceptual network, Computer, March 1988, pp. 105-117 [58] D. A. Turner. Conductance transient onto dendritic Spines in a segmental cable model of hippocampal neurons, Biophys J. Biophysical society, Vol. 46, July 1984, pp. 85-96 [59] S. T. Welstead "Neural network and Fuzzy logic application in c/c++, Wiley and sons , 1994, pp. 344-391 [60] C. C. Casey Klimasauskas, An introduction to neural computing, Manuale del programma neuralworks professional II, 1988 [61] D. W. Tank, "Circuiti elettronici basati su modelli biologici, Le Scienze n. 234 , Febbraio 1988 [62] D. L. Alkon. " I meccanismi molecolari della memoria", Le scienze n. 253, Settembre 1989 [64] G. E. Hinton, D. C. Plaut e Tim Shallice " La simulazione dei danni cerebrali" Le scienze n. 304, Dicembre 1993 [65] W. S. McCulloch, " Embodiments of MInd" Press,Cambridge Massachusetts, 1965,1989. Â
35 Â
MIT
[66] F. Crick " Function of Thalamic reticular comlplex: the serchlight hypothesys", Procedings of national academy of sciences 81:4586-4590.
[67] A. G. Knapp and James Anderson, "Theory of categorization based on distributed memory storage, " Journal of experimental psychology:learning, memory and cognition, 10:616-637.
36