com mineração de dados e outras técnicas
Introduçã
prever por quĂŞ?
futebol ĂŠ
popular...
muito popular!
e se pode ganhar dinheiro com...
Aposta$
mas...
mas... como
prever?
Opção A métodos matemáticos e estatísticos
Opção B
mineração de dados
opiniões subjetivas Opção C
TĂŠcnicas Utilizadas
mineração vs estatísticas
mineração o 0-R o Ridor o PART o REPTree o Bagging com REPTree o Multilayer Perceptron (MLP) o Naïve Bayes o K* o Bayes Net - K2 o Logistic
o Sem Influência – Mandante (SI[m]) o Sem Influência – Visitante (SI[v]) o Com Influência – Mandante (CI[m]) o Com Influência – Visitante (CI[v]) o Confrontos Diretos – Sem Influência (CD-SI) o Confrontos Diretos – Com Influência (CD-CI)
outras o Mandante Sempre Ganha o Visitante Sempre Ganha o Sempre Empate o Rand么mica o Subjetiva
Fixas
Metodologia
Meta: prever brasileirĂŁo sĂŠries A e B de 2005 a 2008
Teste: 34%
SQL Ruby WEKA C++
Resultados e Anรกlise
Taxas o Taxas de acerto específicas › Vitória do mandante › Empate › Derrota do mandante o Taxa de acerto específica média o Taxa de acerto global
Resultados
Tabela de classificação: taxa de acerto de derrotas Posição
Método
100,0000
11
Naïve Bayes
20,0765
SI[v]
52,9107
12
K*
18,7838
3
SI[m]
46,6611
13
PART
16,9059
4
Logistic
36,1092
14
Bagging
12,7529
5
Randômica
34,7940
15
CI[m]
8,5680
6
CD-SI
28,5863
16
CI[v]
5,9615
7
MLP
27,1320
17
REPTree
5,7001
8
Subjetiva
26,3006
18
CD-CI
1,8750
9
Ridor
24,8099
19
0-R
0,0000
10
Bayes Net
20,7830
20
SE
0,0000
21
MSG
0,0000
Posição
Método
1
VSG
2
% der
% der
Tabela de classificação: taxa de acerto de empates Posição
Método
100,0000
11
Naïve Bayes
22,8294
CD-SI
68,5896
12
Ridor
17,2242
3
Randômica
37,1153
13
REPTree
9,4338
4
Subjetiva
30,8684
14
CI[v]
8,8273
5
Logistic
29,6014
15
CI[m]
5,4819
6
MLP
25,6998
16
SI[m]
4,7817
7
PART
24,0744
17
SI[v]
4,7542
8
Bayes Net
23,3502
18
0-R
0,0000
9
Bagging
23,2628
19
CD-CI
0,0000
10
K*
23,0026
20
MSG
0,0000
21
VSG
0,0000
Posição
Método
1
SE
2
% emp
% emp
Tabela de classificação: taxa de acerto de vitórias Posição
Método
100,0000
11
Ridor
58,0790
100,0000
12
SI[m]
55,6988
CD-CI
99,3535
13
MLP
54,4160
4
CI[m]
89,5361
14
PART
54,3088
5
CI[v]
89,1539
15
SI[v]
53,0162
6
REPTree
86,1997
16
Logistic
49,9697
7
Bagging
71,7765
17
Subjetiva
45,8904
8
K*
61,0418
18
Randômica
33,4841
9
Naïve Bayes
60,9424
19
CD-SI
12,0457
10
Bayes Net
60,6676
20
SE
0,0000
21
VSG
0,0000
Posição
Método
1
MSG
2
0-R
3
% vit
% vit
Tabela de classificação: taxa de acerto específica média Posição
Método
38,5601
11
CI[m]
34,5287
SI[v]
36,8937
12
Subjetiva
34,3531
3
CD-SI
36,4072
13
K*
34,2760
4
Bagging
35,9307
14
REPTree
33,7778
5
MLP
35,7493
15
CD-CI
33,7428
6
SI[m]
35,7139
16
Ridor
33,3710
7
Randômica
35,1311
17
SE
33,3333
8
Bayes Net
34,9336
18
MSG
33,3333
9
CI[v]
34,6476
19
VSG
33,3333
10
Naïve Bayes
34,6161
20
0-R
33,3333
21
PART
31,7630
Posição
Método
1
Logistic
2
% méd esp
% méd esp
Tabela de classificação: taxa de acerto global Posição
Método
55,6020
11
SI[m]
42,4390
CD-CI
54,5870
12
SI[v]
42,2210
3
MDG
54,5870
13
Ridor
41,8402
4
CI[m]
52,4098
14
MLP
41,5489
5
CI[v]
52,0069
15
PART
41,2297
6
REPTree
50,7515
16
Logistic
40,7511
7
Bagging
47,5099
17
Subjetiva
38,1909
8
Bayes Net
43,0885
18
Randômica
34,7942
9
K*
42,9843
19
CD-SI
28,1370
10
SI[m]
42,9016
20
VSG
22,8341
21
SE
22,5790
Posição
Método
1
0-R
2
% geral
% geral
Anรกlise
Taxas específicas: derrota o Técnicas Estatísticas (SI[v] e SI[m]) com melhores resultados o Só uma de mineração (Logistic) melhor que “Randômico” o Técnica “Subjetiva” em 8ª posição com 26,30%
Taxas específicas: empate o Técnica Estatística (CD-SI) com melhor resultado com 68,59% o Melhor técnica de mineração (Logistic) em 5ª posição o Técnica “Rândomico” em 3º e abordagem “Subjetiva” em 4º
Taxas específicas: vitória o Técnica de mineração de dados (0R) com melhor resultado o A melhor de mineração nos anteriores (Logistic) em 16º o “Subjetiva” (17º) e “Randômica” (18º) com seus piores postos
Taxa específica média
oTécnica de mineração (Logistic) com melhor resultado oTécnicas estatísticas em 2º (SI[v]) e 3º (CD-SI) oTécnica “Randômica” em 7ª posição com 35,13% oAbordagens “Fixas” em 16º lugar com 33,33%
Taxa global o Técnicas de mineração (0R) com melhor resultado de 55,60% o Técnica estatística (CD-CI) em 2ª posição com 54,59% o “Subjetiva” em 16º (38,19% ), “Randômico” em 17º (34,79%) o A “Sempre Empate” se mostra a pior com 22,58%
% de previsão por ano e por série Série A
Série B
60 55 50 45 40 35 30 2005
2006
2007
2008
Conclus達o
oÉ possível prever com mineração dados oResultados com mineração apresentam melhor distribuição acertos das taxas específicas oAbordagens estatísticas tem bom desempenho nas previsões de derrota e de vitória do mandante
oA tĂŠcnica de conhecimento comum de mandante semp ganhar tem bom desenho geral oA abordagem nĂŁo usada como padrĂŁo de sempre ser empate de fato teve o pior desempenho no geral
oA técnica subjetiva tem bom desempenho prevendo empate oO resultado de vitória do mandante é ma acertado (“previsível”) oO resultado de empate é o menos acerta
oA série B e mais prevísivel que a A oAs técnicas apresentam no geral o mesmo comportame ao longos dos anos para cada série
OBRIGADO!