Mineração de dados (ENCAT-DF) by FazendaDF

Mineração de Dados Cálculo do PMPF com base nos dados de itens da NFC-e Reconhecimento de item de NF-e para aferição do imposto Rodrigo Figueiredo de Albuquerque Diretor DETIN – SEFAZ/AM albuquerque@sefaz.am.gov.br Marcel Gomes de Carvalho, BSc, OCP Diretor Lustrabits marcel.carvalho@lustrabits.com.br

Objetivo •Criar lista de produtos com respectivo PMPF para o item "Cerveja", com base nos dados de itens da NFC-e;

Critérios •Considerar período dos últimos 3 meses de emissões de NFC-e; •PMPF

deve ser calculado de forma a retratar a realidade do mercado varejista local; •As

técnicas e métodos usados no cálculo devem poder ser demonstrados em caso de qualquer questionamento; ®

Alguns Fatos e Conceitos Envolvidos •Volume de dados em crescimento exponencial; •Em muitos casos a qualidade dos dados é baixa; •

BIG DATA versus Formas de Armazenamento de Dados Convencionais;

•

Arquitetura Tradicional versus Arquitetura Orientada a Dados;

•Mineração de Dados;

IDCâ&#x20AC;&#x2122;s Digital Universe Study

IDC’s Digital Universe Study Total Dados Dados tratados Dados Criados 0 202

ZB 35

2015 7.90 ZB

ZB 28

7.9 ZB 6.32 ZB 6.32 ZB

0 201

20 05

0.79 ZB

0.23 7 ZB 2.3ZB

5 10.

1.20 ZB 0.96 ZB 0.36 ZB

Dados Estruturados

Visão Arquitetura Tradicional Sistemas SEFAZ Administração

•

Sistemica

• •

Transacional Aprisionamento do Dado

Receita

Tesouro

Visão Arquitetura Tradicional SUSAM

SEFAZ Administração

Receita SEPLAN

DETRAN

Tesouro SEINF

Visão Arquitetura Tradicional RJ

? RR

AM Administração

Receita

Tesouro MG

Arquitetura Orientada à

Dados

Arquitetura Orientada à Dados

SUSAM

NFC-e

Data Lake

Outra Fonte

DETRAN

Internet

Facebook

SEDUC

Data Sets

SSP

I.E.

Laboratório de Dados NFC-e

Data Lake

Outra Fonte

Internet

Data Lab

Construir Hipóteses Explorar Dados Entender os Dados Preparar Dados

Laboratório de Dados Data Lab

Construir Hipóteses Explorar Dados Entender os Dados Preparar Dados

Construção Modelo de Aprendizagem • NCM • GTIN • Descrição • Marca • Complemento • Volume • Embalagem • Unidade • Qtde • Valor Unitário • Valor Total ®

Data Lab

Construir Hipóteses Explorar Dados Entender os Dados Preparar Dados

Desafios 1 •Grande volume de dados: •

Mais de 70 milhões de NFC-es no período;

•

Aproximadamente 350 milhões de itens de NFC-e;

•Baixa

qualidade das informações. Muitas NFC-es preenchidas sem muito critério pelos emitentes; •Ferramenta

desenvolvida deve ser genérica o suficiente para aplicação em outros segmentos da economia sem a necessidade de retrabalho; ®

Desafios 2 •NCM

e GTIN devem ser usados como parâmetros “fortes” na mineração de dados? Deve-se descartá-los e usar somente as descrições dos itens? •PMPF

pressupõe preço unitário. Como efetuar as conversões unidades entre as diferentes apresentações do item “Cerveja”?   

Unidade; Embalagem com 12; Caixa com 24;

•Como

evitar que operações pontuais realizadas em grande volume contaminem o valor do PMPF? Preços muito baixos ou demasiadamente altos devem ser descartados; ®

A solução •Aplicação

de NFC-e;  

de algoritmos de clusterização sobre os dados de itens

A clusterização é uma sub-área da Mineração de Dados; Consiste, basicamente, em montar grupos com base nas similaridades de um conjunto de objetos;

•Objetivo

primário: agrupar dados dos itens de NFC-e por segmentos. Inicialmente apenas dois segmentos:  

Cervejas; Itens que não possuem características de Cerveja; ®

Construção Modelo de Aprendizagem • NCM • GTIN • Descrição • Marca • Complemento • Volume • Embalagem • Unidade • Qtde • Valor Unitário • Valor Total ®

MODELOS Classificação

Categorias

Regressão

Valores

Clustering

Similaridades

Associação

Regras

Graph

Conexões

Construção Modelo de Aprendizagem • NCM • GTIN • Descrição • Marca • Complemento • Volume • Embalagem • Unidade • Qtde • Valor Unitário • Valor Total ®

MODELOS

Clustering

Similaridades

K-Means Expectation Maximization

Construção Modelo de Aprendizagem • NCM • GTIN • Descrição • Marca • Complemento • Volume • Embalagem • Unidade • Qtde • Valor Unitário • Valor Total ®

MODELOS Classificação

Categorias

Decision Tree Naive Bayes Suport Vector Machine

A solução •Clusterização – ilustração:

Cluster 1 – “Cerveja”

Cluster 2 – “Não Cerveja”

A solução •Após a primeira fase – identificação dos itens de “Cerveja” – foi

necessária a criação de diversos clusters menores, segregando o conjunto original por: Marca;  Embalagem;  Tipo; Assim como na fase inicial, foi necessária a criação de listas de palavras chaves que pudessem ser usadas na criação dos clusters. Chamamos esta lista de palavras chaves Objetos Categóricos. A definição adequada dos Objetos Categóricos é determinante para o sucesso da mineração de dados/clusterização. 

•

A solução •Clusterização – segunda fase:

Cluster 1 – “Cerveja”

A solução •Clusterização – segunda fase:

Divisão do cluster resultante da fase 1 em clusters menores, com base em regras mais detalhadas.

Exemplos dos dados – fonte NF-e (mod. 55) NCM

DESCRIÇÃO

UNIDADE

QUANT

22030000

Cerveja Skol (LTA)

22030000

CERVEJAS ( SKOLBOHEMIA)

22030000

CERVEJA SKOL/BRAHMA LATA

22030000

CERVEJA SKOL LATA

22030000

Cerveja Skol 350ml LA

22030000

CERVEJA SKOL LAT 350 ML

LAT

22030000

CERVEJA SKOL LT 12X350ML - 9068

22030000

CERVEJA SKOL

22030000

CERVEJA SKOL LATA 350 ML

22030000

CERVEJA SKOL LAT

CX12

96162000

CERVEJA SKOL LATA

22030000

CERVEJA SKOL 350 ML

UND

22030000

CERVEJAS ( SKOLBOHEMIA)

22030000

CERVEJA SKOL/BRAHMA LATA

22030000

Cerveja Skol 350ml LA

Exemplos dos dados – fonte: NF-e (mod. 55) NCM

DESCRIÇÃO

UNIDADE

QUANT

22030000

Cerveja Skol (LTA)

22030000

CERVEJAS ( SKOLBOHEMIA)

22030000

CERVEJA SKOL/BRAHMA LATA

22030000

UN Bom índice de acerto do CERVEJA SKOL LATA UN NF-e código NCM na Cerveja Skol 350ml LA UN permitiu que o usássemos CERVEJA SKOL LAT 350 ML LAT como uma boa referência CERVEJA SKOL LT 12X350ML - 9068 para seleção deCXdados a CERVEJA SKOL UN serem usados na fase de CERVEJA SKOL LATA 350 ML LT aprendizado CERVEJA SKOL LAT CX12

96162000

CERVEJA SKOL LATA

22030000

CERVEJA SKOL 350 ML

UND

22030000

CERVEJAS ( SKOLBOHEMIA)

22030000

CERVEJA SKOL/BRAHMA LATA

22030000

Cerveja Skol 350ml LA

22030000 22030000 22030000 22030000 22030000 22030000

5 1 1 1 20 1 1 2

A solução •Itens que não tiveram a definição de cluster em função de suas

características foram descartados (Rejeito). Cálculo do PMPF não exige a integralidade de dados do conjunto original; •Ferramenta utilizada no desenvolvimento da solução foi o Oracle Advanced Analytics sendo executada no equipamento Oracle Exadata de que a SEFAZ-AM dispõe; •Os algoritmos utilizados foram:  K-Means  Expectation Maximization  Algoritmo de Monte Carlo via Cadeia de Markov (Cálculo PMPF) ®

A solução – passo a passo 



Passo 1: com base nas informações de NF-e, de maior qualidade que a NFC-e, foi criado conjunto de dados inicial para o aprendizado de máquina. Aqui foi feita a coleta de termos chaves para a mineração de dados; Passo 2: usando o aprendizado de máquina do passo 1, foi feita mineração de dados sobre as descrições dos itens de NFC-e para identificar cada produto distinto entre os itens de “Cerveja”. Nesta etapa novos parâmetros, para ajustes do aprendizado do passo 1, foram definidos; Passo 3: após ajustes realizados no passo 2, foi realizada nova rodada de mineração sobre os itens de NFC-e para separação de cada item em clusters. Somente itens com elevado índice de segurança na identificação foram considerados; ®

A solução – passo a passo  

Passo 4: uma vez definidos os clusters, foi realizado cálculo do PMPF – Preço médio ponderado ao consumidor final – para cada um dos itens; Passo 5: de posse da lista de preços médios, foi executada mineração sobre a base de itens de NF-e, modelo 55, de entrada no Estado do Amazonas. Objetivo desta fase é alimentar a base de dados usada na cobrança do ICMS antecipado com os valores de PMPF de cada item  O passo 5 envolve grande complexidade por dois motivos principais: I. Nesta etapa precisa haver a definição de um “fator de conversão” que será usado para determinar a base de cálculo do item; II. O retorno do PMPF calculado com base nos itens de NFC-e para a base das notas de entrada deve cobrir a integralidade dos itens; ®

A solução A plataforma denominada “IAX” é uma solução baseada em tecnologias como BigData, Analytics e Machine Learning que tem o objetivo de operacionalizar o processamento em larga escala dos dados de produtos provenientes da emissão eletrônica de notas e cupons fiscais. Proporciona desde a criação de áreas específicas de estudos dentro dos dados, a construção de seus modelos de aprendizagem até a aplicação desses modelos na extração de padrões complexos, detecção de não conformidades fiscais ou até na detecção de fraudes. A aprendizagem é baseada no reconhecimento de padrões complexos, através de análises estatísticas, como regressão e clusterização, a solução permite a customização de modelos de aprendizagem para objetos de estudo amplos ou específicos conforme a necessidade. Os dados dos produtos das notas e cupons fiscais são agrupados a partir de diversas variáveis como NCM, descrição, unidade, valor, entre outras.

Â®

A solução – Objeto de Estudo

A solução – Objeto Categórico

A solução – A Descoberta BDD

Â®

A solução – Modelo Analítico

A solução

Outras Aplicações • • • • • • •

Detecção automática de não conformidade Cálculo automático preço médio produtos Utilização do preço médio para compras Governo Utilização do Preço médio cálculo inflação Planejamento Estratégico Fomento Estadual Estoque Virtual Desonerações Governamentais na Prática

Próximos Passos do Grupo de Mineração de Dados • Visita técnica à SEFAZ-MS – conhecer solução IBM; • Visita técnica à SEFAZ-GO – conhecer solução FIS-ICMS; • Visita técnica à SEFAZ-MA – conhecer trabalhos desenvolvidos até o momento; • Elaborar parecer sobre vantagens, desvantagens, custos e aplicações de cada solução; • Retomar agenda de reuniões do grupo de mineração de dados

Sefaz Amazonas

Obrigado! ®