Mineração de dados (ENCAT-DF)

Page 1

Mineração de Dados Cálculo do PMPF com base nos dados de itens da NFC-e Reconhecimento de item de NF-e para aferição do imposto Rodrigo Figueiredo de Albuquerque Diretor DETIN – SEFAZ/AM albuquerque@sefaz.am.gov.br Marcel Gomes de Carvalho, BSc, OCP Diretor Lustrabits marcel.carvalho@lustrabits.com.br


Objetivo •Criar lista de produtos com respectivo PMPF para o item "Cerveja", com base nos dados de itens da NFC-e;

Critérios •Considerar período dos últimos 3 meses de emissões de NFC-e; •PMPF

deve ser calculado de forma a retratar a realidade do mercado varejista local; •As

técnicas e métodos usados no cálculo devem poder ser demonstrados em caso de qualquer questionamento; ®


Alguns Fatos e Conceitos Envolvidos •Volume de dados em crescimento exponencial; •Em muitos casos a qualidade dos dados é baixa; •

BIG DATA versus Formas de Armazenamento de Dados Convencionais;

Arquitetura Tradicional versus Arquitetura Orientada a Dados;

•Mineração de Dados;

®


IDC’s Digital Universe Study


IDC’s Digital Universe Study Total Dados Dados tratados Dados Criados 0 202

ZB 35

2015 7.90 ZB

ZB 28

7.9 ZB 6.32 ZB 6.32 ZB

04

0 201

®

20 05

0.79 ZB

ZB

0.23 7 ZB 2.3ZB

5 10.

1.20 ZB 0.96 ZB 0.36 ZB


Dados Estruturados


Visão Arquitetura Tradicional Sistemas SEFAZ Administração

Sistemica

• •

Transacional Aprisionamento do Dado

®

Receita

?

Tesouro

7


Visão Arquitetura Tradicional SUSAM

?

SEFAZ Administração

Receita SEPLAN

DETRAN

Tesouro SEINF

®

8


Visão Arquitetura Tradicional RJ

? RR

SP

AM Administração

Receita

Tesouro MG

®

9


Arquitetura Orientada à

Dados

®


Arquitetura Orientada à Dados

SUSAM

NFC-e

Data Lake

Outra Fonte

DETRAN

Internet

Facebook

SEDUC

Data Sets

SSP

I.E.

®

11


Laboratório de Dados NFC-e

Data Lake

Outra Fonte

Internet

Data Lab

Construir Hipóteses Explorar Dados Entender os Dados Preparar Dados

®

12


Laboratório de Dados Data Lab

Construir Hipóteses Explorar Dados Entender os Dados Preparar Dados

®

13


Construção Modelo de Aprendizagem • NCM • GTIN • Descrição • Marca • Complemento • Volume • Embalagem • Unidade • Qtde • Valor Unitário • Valor Total ®

Data Lab

Construir Hipóteses Explorar Dados Entender os Dados Preparar Dados

14


Desafios 1 •Grande volume de dados: •

Mais de 70 milhões de NFC-es no período;

Aproximadamente 350 milhões de itens de NFC-e;

•Baixa

qualidade das informações. Muitas NFC-es preenchidas sem muito critério pelos emitentes; •Ferramenta

desenvolvida deve ser genérica o suficiente para aplicação em outros segmentos da economia sem a necessidade de retrabalho; ®


Desafios 2 •NCM

e GTIN devem ser usados como parâmetros “fortes” na mineração de dados? Deve-se descartá-los e usar somente as descrições dos itens? •PMPF

pressupõe preço unitário. Como efetuar as conversões unidades entre as diferentes apresentações do item “Cerveja”?   

de

Unidade; Embalagem com 12; Caixa com 24;

•Como

evitar que operações pontuais realizadas em grande volume contaminem o valor do PMPF? Preços muito baixos ou demasiadamente altos devem ser descartados; ®


A solução •Aplicação

de NFC-e;  

de algoritmos de clusterização sobre os dados de itens

A clusterização é uma sub-área da Mineração de Dados; Consiste, basicamente, em montar grupos com base nas similaridades de um conjunto de objetos;

•Objetivo

primário: agrupar dados dos itens de NFC-e por segmentos. Inicialmente apenas dois segmentos:  

Cervejas; Itens que não possuem características de Cerveja; ®


Construção Modelo de Aprendizagem • NCM • GTIN • Descrição • Marca • Complemento • Volume • Embalagem • Unidade • Qtde • Valor Unitário • Valor Total ®

MODELOS Classificação

Categorias

Regressão

Valores

Clustering

Similaridades

Associação

Regras

Graph

Conexões


Construção Modelo de Aprendizagem • NCM • GTIN • Descrição • Marca • Complemento • Volume • Embalagem • Unidade • Qtde • Valor Unitário • Valor Total ®

MODELOS

Clustering

Similaridades

K-Means Expectation Maximization


Construção Modelo de Aprendizagem • NCM • GTIN • Descrição • Marca • Complemento • Volume • Embalagem • Unidade • Qtde • Valor Unitário • Valor Total ®

MODELOS Classificação

Categorias

Decision Tree Naive Bayes Suport Vector Machine


A solução •Clusterização – ilustração:

®


A solução •Clusterização – ilustração:

Cluster 1 – “Cerveja”

®

Cluster 2 – “Não Cerveja”


A solução •Após a primeira fase – identificação dos itens de “Cerveja” – foi

necessária a criação de diversos clusters menores, segregando o conjunto original por: Marca;  Embalagem;  Tipo; Assim como na fase inicial, foi necessária a criação de listas de palavras chaves que pudessem ser usadas na criação dos clusters. Chamamos esta lista de palavras chaves Objetos Categóricos. A definição adequada dos Objetos Categóricos é determinante para o sucesso da mineração de dados/clusterização. 

®


A solução •Clusterização – segunda fase:

Cluster 1 – “Cerveja”

®


A solução •Clusterização – segunda fase:

®

Divisão do cluster resultante da fase 1 em clusters menores, com base em regras mais detalhadas.


Exemplos dos dados – fonte NF-e (mod. 55) NCM

DESCRIÇÃO

UNIDADE

QUANT

22030000

Cerveja Skol (LTA)

UN

1

22030000

CERVEJAS ( SKOLBOHEMIA)

UN

7

22030000

CERVEJA SKOL/BRAHMA LATA

UN

5

22030000

CERVEJA SKOL LATA

UN

1

22030000

Cerveja Skol 350ml LA

UN

1

22030000

CERVEJA SKOL LAT 350 ML

LAT

1

22030000

CERVEJA SKOL LT 12X350ML - 9068

CX

20

22030000

CERVEJA SKOL

UN

1

22030000

CERVEJA SKOL LATA 350 ML

LT

1

22030000

CERVEJA SKOL LAT

CX12

2

96162000

CERVEJA SKOL LATA

UN

4

22030000

CERVEJA SKOL 350 ML

UND

9

22030000

CERVEJAS ( SKOLBOHEMIA)

UN

1

22030000

CERVEJA SKOL/BRAHMA LATA

UN

10

22030000

Cerveja Skol 350ml LA

UN

3

®


Exemplos dos dados – fonte: NF-e (mod. 55) NCM

DESCRIÇÃO

UNIDADE

QUANT

22030000

Cerveja Skol (LTA)

UN

1

22030000

CERVEJAS ( SKOLBOHEMIA)

UN

7

22030000

CERVEJA SKOL/BRAHMA LATA

22030000

UN Bom índice de acerto do CERVEJA SKOL LATA UN NF-e código NCM na Cerveja Skol 350ml LA UN permitiu que o usássemos CERVEJA SKOL LAT 350 ML LAT como uma boa referência CERVEJA SKOL LT 12X350ML - 9068 para seleção deCXdados a CERVEJA SKOL UN serem usados na fase de CERVEJA SKOL LATA 350 ML LT aprendizado CERVEJA SKOL LAT CX12

96162000

CERVEJA SKOL LATA

UN

4

22030000

CERVEJA SKOL 350 ML

UND

9

22030000

CERVEJAS ( SKOLBOHEMIA)

UN

1

22030000

CERVEJA SKOL/BRAHMA LATA

UN

10

22030000

Cerveja Skol 350ml LA

UN

3

22030000 22030000 22030000 22030000 22030000 22030000

®

5 1 1 1 20 1 1 2


A solução •Itens que não tiveram a definição de cluster em função de suas

características foram descartados (Rejeito). Cálculo do PMPF não exige a integralidade de dados do conjunto original; •Ferramenta utilizada no desenvolvimento da solução foi o Oracle Advanced Analytics sendo executada no equipamento Oracle Exadata de que a SEFAZ-AM dispõe; •Os algoritmos utilizados foram:  K-Means  Expectation Maximization  Algoritmo de Monte Carlo via Cadeia de Markov (Cálculo PMPF) ®


A solução – passo a passo 

Passo 1: com base nas informações de NF-e, de maior qualidade que a NFC-e, foi criado conjunto de dados inicial para o aprendizado de máquina. Aqui foi feita a coleta de termos chaves para a mineração de dados; Passo 2: usando o aprendizado de máquina do passo 1, foi feita mineração de dados sobre as descrições dos itens de NFC-e para identificar cada produto distinto entre os itens de “Cerveja”. Nesta etapa novos parâmetros, para ajustes do aprendizado do passo 1, foram definidos; Passo 3: após ajustes realizados no passo 2, foi realizada nova rodada de mineração sobre os itens de NFC-e para separação de cada item em clusters. Somente itens com elevado índice de segurança na identificação foram considerados; ®


A solução – passo a passo  

Passo 4: uma vez definidos os clusters, foi realizado cálculo do PMPF – Preço médio ponderado ao consumidor final – para cada um dos itens; Passo 5: de posse da lista de preços médios, foi executada mineração sobre a base de itens de NF-e, modelo 55, de entrada no Estado do Amazonas. Objetivo desta fase é alimentar a base de dados usada na cobrança do ICMS antecipado com os valores de PMPF de cada item  O passo 5 envolve grande complexidade por dois motivos principais: I. Nesta etapa precisa haver a definição de um “fator de conversão” que será usado para determinar a base de cálculo do item; II. O retorno do PMPF calculado com base nos itens de NFC-e para a base das notas de entrada deve cobrir a integralidade dos itens; ®


A solução A plataforma denominada “IAX” é uma solução baseada em tecnologias como BigData, Analytics e Machine Learning que tem o objetivo de operacionalizar o processamento em larga escala dos dados de produtos provenientes da emissão eletrônica de notas e cupons fiscais. Proporciona desde a criação de áreas específicas de estudos dentro dos dados, a construção de seus modelos de aprendizagem até a aplicação desses modelos na extração de padrões complexos, detecção de não conformidades fiscais ou até na detecção de fraudes. A aprendizagem é baseada no reconhecimento de padrões complexos, através de análises estatísticas, como regressão e clusterização, a solução permite a customização de modelos de aprendizagem para objetos de estudo amplos ou específicos conforme a necessidade. Os dados dos produtos das notas e cupons fiscais são agrupados a partir de diversas variáveis como NCM, descrição, unidade, valor, entre outras.

®


®

32


A solução – Objeto de Estudo

®


A solução – Objeto de Estudo

®


A solução – Objeto Categórico

®


A solução – Objeto Categórico

®


A solução – A Descoberta BDD

®


®


A solução – Modelo Analítico

®


A solução

®


A solução

®


Outras Aplicações • • • • • • •

Detecção automática de não conformidade Cálculo automático preço médio produtos Utilização do preço médio para compras Governo Utilização do Preço médio cálculo inflação Planejamento Estratégico Fomento Estadual Estoque Virtual Desonerações Governamentais na Prática

®


Próximos Passos do Grupo de Mineração de Dados • Visita técnica à SEFAZ-MS – conhecer solução IBM; • Visita técnica à SEFAZ-GO – conhecer solução FIS-ICMS; • Visita técnica à SEFAZ-MA – conhecer trabalhos desenvolvidos até o momento; • Elaborar parecer sobre vantagens, desvantagens, custos e aplicações de cada solução; • Retomar agenda de reuniões do grupo de mineração de dados

®

43


®

Sefaz Amazonas

Obrigado! ®


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.