Mineração de Dados Cálculo do PMPF com base nos dados de itens da NFC-e Reconhecimento de item de NF-e para aferição do imposto Rodrigo Figueiredo de Albuquerque Diretor DETIN – SEFAZ/AM albuquerque@sefaz.am.gov.br Marcel Gomes de Carvalho, BSc, OCP Diretor Lustrabits marcel.carvalho@lustrabits.com.br
Objetivo •Criar lista de produtos com respectivo PMPF para o item "Cerveja", com base nos dados de itens da NFC-e;
Critérios •Considerar período dos últimos 3 meses de emissões de NFC-e; •PMPF
deve ser calculado de forma a retratar a realidade do mercado varejista local; •As
técnicas e métodos usados no cálculo devem poder ser demonstrados em caso de qualquer questionamento; ®
Alguns Fatos e Conceitos Envolvidos •Volume de dados em crescimento exponencial; •Em muitos casos a qualidade dos dados é baixa; •
BIG DATA versus Formas de Armazenamento de Dados Convencionais;
•
Arquitetura Tradicional versus Arquitetura Orientada a Dados;
•Mineração de Dados;
®
IDC’s Digital Universe Study
IDC’s Digital Universe Study Total Dados Dados tratados Dados Criados 0 202
ZB 35
2015 7.90 ZB
ZB 28
7.9 ZB 6.32 ZB 6.32 ZB
04
0 201
®
20 05
0.79 ZB
ZB
0.23 7 ZB 2.3ZB
5 10.
1.20 ZB 0.96 ZB 0.36 ZB
Dados Estruturados
Visão Arquitetura Tradicional Sistemas SEFAZ Administração
•
Sistemica
• •
Transacional Aprisionamento do Dado
®
Receita
?
Tesouro
7
Visão Arquitetura Tradicional SUSAM
?
SEFAZ Administração
Receita SEPLAN
DETRAN
Tesouro SEINF
®
8
Visão Arquitetura Tradicional RJ
? RR
SP
AM Administração
Receita
Tesouro MG
®
9
Arquitetura Orientada à
Dados
®
Arquitetura Orientada à Dados
SUSAM
NFC-e
Data Lake
Outra Fonte
DETRAN
Internet
SEDUC
Data Sets
SSP
I.E.
®
11
Laboratório de Dados NFC-e
Data Lake
Outra Fonte
Internet
Data Lab
Construir Hipóteses Explorar Dados Entender os Dados Preparar Dados
®
12
Laboratório de Dados Data Lab
Construir Hipóteses Explorar Dados Entender os Dados Preparar Dados
®
13
Construção Modelo de Aprendizagem • NCM • GTIN • Descrição • Marca • Complemento • Volume • Embalagem • Unidade • Qtde • Valor Unitário • Valor Total ®
Data Lab
Construir Hipóteses Explorar Dados Entender os Dados Preparar Dados
14
Desafios 1 •Grande volume de dados: •
Mais de 70 milhões de NFC-es no período;
•
Aproximadamente 350 milhões de itens de NFC-e;
•Baixa
qualidade das informações. Muitas NFC-es preenchidas sem muito critério pelos emitentes; •Ferramenta
desenvolvida deve ser genérica o suficiente para aplicação em outros segmentos da economia sem a necessidade de retrabalho; ®
Desafios 2 •NCM
e GTIN devem ser usados como parâmetros “fortes” na mineração de dados? Deve-se descartá-los e usar somente as descrições dos itens? •PMPF
pressupõe preço unitário. Como efetuar as conversões unidades entre as diferentes apresentações do item “Cerveja”?
de
Unidade; Embalagem com 12; Caixa com 24;
•Como
evitar que operações pontuais realizadas em grande volume contaminem o valor do PMPF? Preços muito baixos ou demasiadamente altos devem ser descartados; ®
A solução •Aplicação
de NFC-e;
de algoritmos de clusterização sobre os dados de itens
A clusterização é uma sub-área da Mineração de Dados; Consiste, basicamente, em montar grupos com base nas similaridades de um conjunto de objetos;
•Objetivo
primário: agrupar dados dos itens de NFC-e por segmentos. Inicialmente apenas dois segmentos:
Cervejas; Itens que não possuem características de Cerveja; ®
Construção Modelo de Aprendizagem • NCM • GTIN • Descrição • Marca • Complemento • Volume • Embalagem • Unidade • Qtde • Valor Unitário • Valor Total ®
MODELOS Classificação
Categorias
Regressão
Valores
Clustering
Similaridades
Associação
Regras
Graph
Conexões
Construção Modelo de Aprendizagem • NCM • GTIN • Descrição • Marca • Complemento • Volume • Embalagem • Unidade • Qtde • Valor Unitário • Valor Total ®
MODELOS
Clustering
Similaridades
K-Means Expectation Maximization
Construção Modelo de Aprendizagem • NCM • GTIN • Descrição • Marca • Complemento • Volume • Embalagem • Unidade • Qtde • Valor Unitário • Valor Total ®
MODELOS Classificação
Categorias
Decision Tree Naive Bayes Suport Vector Machine
A solução •Clusterização – ilustração:
®
A solução •Clusterização – ilustração:
Cluster 1 – “Cerveja”
®
Cluster 2 – “Não Cerveja”
A solução •Após a primeira fase – identificação dos itens de “Cerveja” – foi
necessária a criação de diversos clusters menores, segregando o conjunto original por: Marca; Embalagem; Tipo; Assim como na fase inicial, foi necessária a criação de listas de palavras chaves que pudessem ser usadas na criação dos clusters. Chamamos esta lista de palavras chaves Objetos Categóricos. A definição adequada dos Objetos Categóricos é determinante para o sucesso da mineração de dados/clusterização.
•
•
®
A solução •Clusterização – segunda fase:
Cluster 1 – “Cerveja”
®
A solução •Clusterização – segunda fase:
®
Divisão do cluster resultante da fase 1 em clusters menores, com base em regras mais detalhadas.
Exemplos dos dados – fonte NF-e (mod. 55) NCM
DESCRIÇÃO
UNIDADE
QUANT
22030000
Cerveja Skol (LTA)
UN
1
22030000
CERVEJAS ( SKOLBOHEMIA)
UN
7
22030000
CERVEJA SKOL/BRAHMA LATA
UN
5
22030000
CERVEJA SKOL LATA
UN
1
22030000
Cerveja Skol 350ml LA
UN
1
22030000
CERVEJA SKOL LAT 350 ML
LAT
1
22030000
CERVEJA SKOL LT 12X350ML - 9068
CX
20
22030000
CERVEJA SKOL
UN
1
22030000
CERVEJA SKOL LATA 350 ML
LT
1
22030000
CERVEJA SKOL LAT
CX12
2
96162000
CERVEJA SKOL LATA
UN
4
22030000
CERVEJA SKOL 350 ML
UND
9
22030000
CERVEJAS ( SKOLBOHEMIA)
UN
1
22030000
CERVEJA SKOL/BRAHMA LATA
UN
10
22030000
Cerveja Skol 350ml LA
UN
3
®
Exemplos dos dados – fonte: NF-e (mod. 55) NCM
DESCRIÇÃO
UNIDADE
QUANT
22030000
Cerveja Skol (LTA)
UN
1
22030000
CERVEJAS ( SKOLBOHEMIA)
UN
7
22030000
CERVEJA SKOL/BRAHMA LATA
22030000
UN Bom índice de acerto do CERVEJA SKOL LATA UN NF-e código NCM na Cerveja Skol 350ml LA UN permitiu que o usássemos CERVEJA SKOL LAT 350 ML LAT como uma boa referência CERVEJA SKOL LT 12X350ML - 9068 para seleção deCXdados a CERVEJA SKOL UN serem usados na fase de CERVEJA SKOL LATA 350 ML LT aprendizado CERVEJA SKOL LAT CX12
96162000
CERVEJA SKOL LATA
UN
4
22030000
CERVEJA SKOL 350 ML
UND
9
22030000
CERVEJAS ( SKOLBOHEMIA)
UN
1
22030000
CERVEJA SKOL/BRAHMA LATA
UN
10
22030000
Cerveja Skol 350ml LA
UN
3
22030000 22030000 22030000 22030000 22030000 22030000
®
5 1 1 1 20 1 1 2
A solução •Itens que não tiveram a definição de cluster em função de suas
características foram descartados (Rejeito). Cálculo do PMPF não exige a integralidade de dados do conjunto original; •Ferramenta utilizada no desenvolvimento da solução foi o Oracle Advanced Analytics sendo executada no equipamento Oracle Exadata de que a SEFAZ-AM dispõe; •Os algoritmos utilizados foram: K-Means Expectation Maximization Algoritmo de Monte Carlo via Cadeia de Markov (Cálculo PMPF) ®
A solução – passo a passo
Passo 1: com base nas informações de NF-e, de maior qualidade que a NFC-e, foi criado conjunto de dados inicial para o aprendizado de máquina. Aqui foi feita a coleta de termos chaves para a mineração de dados; Passo 2: usando o aprendizado de máquina do passo 1, foi feita mineração de dados sobre as descrições dos itens de NFC-e para identificar cada produto distinto entre os itens de “Cerveja”. Nesta etapa novos parâmetros, para ajustes do aprendizado do passo 1, foram definidos; Passo 3: após ajustes realizados no passo 2, foi realizada nova rodada de mineração sobre os itens de NFC-e para separação de cada item em clusters. Somente itens com elevado índice de segurança na identificação foram considerados; ®
A solução – passo a passo
Passo 4: uma vez definidos os clusters, foi realizado cálculo do PMPF – Preço médio ponderado ao consumidor final – para cada um dos itens; Passo 5: de posse da lista de preços médios, foi executada mineração sobre a base de itens de NF-e, modelo 55, de entrada no Estado do Amazonas. Objetivo desta fase é alimentar a base de dados usada na cobrança do ICMS antecipado com os valores de PMPF de cada item O passo 5 envolve grande complexidade por dois motivos principais: I. Nesta etapa precisa haver a definição de um “fator de conversão” que será usado para determinar a base de cálculo do item; II. O retorno do PMPF calculado com base nos itens de NFC-e para a base das notas de entrada deve cobrir a integralidade dos itens; ®
A solução A plataforma denominada “IAX” é uma solução baseada em tecnologias como BigData, Analytics e Machine Learning que tem o objetivo de operacionalizar o processamento em larga escala dos dados de produtos provenientes da emissão eletrônica de notas e cupons fiscais. Proporciona desde a criação de áreas específicas de estudos dentro dos dados, a construção de seus modelos de aprendizagem até a aplicação desses modelos na extração de padrões complexos, detecção de não conformidades fiscais ou até na detecção de fraudes. A aprendizagem é baseada no reconhecimento de padrões complexos, através de análises estatísticas, como regressão e clusterização, a solução permite a customização de modelos de aprendizagem para objetos de estudo amplos ou específicos conforme a necessidade. Os dados dos produtos das notas e cupons fiscais são agrupados a partir de diversas variáveis como NCM, descrição, unidade, valor, entre outras.
®
®
32
A solução – Objeto de Estudo
®
A solução – Objeto de Estudo
®
A solução – Objeto Categórico
®
A solução – Objeto Categórico
®
A solução – A Descoberta BDD
®
®
A solução – Modelo Analítico
®
A solução
®
A solução
®
Outras Aplicações • • • • • • •
Detecção automática de não conformidade Cálculo automático preço médio produtos Utilização do preço médio para compras Governo Utilização do Preço médio cálculo inflação Planejamento Estratégico Fomento Estadual Estoque Virtual Desonerações Governamentais na Prática
®
Próximos Passos do Grupo de Mineração de Dados • Visita técnica à SEFAZ-MS – conhecer solução IBM; • Visita técnica à SEFAZ-GO – conhecer solução FIS-ICMS; • Visita técnica à SEFAZ-MA – conhecer trabalhos desenvolvidos até o momento; • Elaborar parecer sobre vantagens, desvantagens, custos e aplicações de cada solução; • Retomar agenda de reuniões do grupo de mineração de dados
®
43
®
Sefaz Amazonas
Obrigado! ®