Quimiometria
Conceitos, Métodos e Aplicações
00-Iniciais.indd 1
28/04/2015 11:33:06
universidade estadual de campinas Reitor José Tadeu Jorge Coordenador Geral da Universidade Alvaro Penteado Crósta
Conselho Editorial Presidente Eduardo Guimarães Esdras Rodrigues Silva – Guita Grin Debert João Luiz de Carvalho Pinto e Silva – Luiz Carlos Dias Luiz Francisco Dias – Marco Aurélio Cremasco Ricardo Antunes – Sedi Hirano
Quimiometria.indb 2
27/04/2015 10:37:57
Márcia Miguel Castro Ferreira
Quimiometria Conceitos, Métodos e Aplicações
Quimiometria.indb 3
27/04/2015 10:37:57
Grafia atualizada segundo o Acordo Ortográfico da Língua Portuguesa de 1990. Em vigor no Brasil a partir de 2009.
ficha catalográfica elaborada pelo sistema de bibliotecas da unicamp diretoria de tratamento da informação F413q
Ferreira, Márcia Miguel Castro, 1951Quimiometria – Conceitos, Métodos e Aplicações / Márcia Miguel Castro Ferreira – Campinas, sp: Editora da Unicamp, 2015. 1. Quimiometria. 2. Química analítica. 3. Química – Métodos estatísticos. 4. Calibração. 5. Sistemas de reconhecimento de padrões. I. Título.
cdd 543.0072 543 536.5 978-85-268-1319-9 e-isbn 001.534 Índices para catálogo sistemático:
1. Quimiometria 2. Química analítica 3. Química – Métodos estatísticos Calibração 4.
5. Sistemas de reconhecimento de padrões Copyright © by Márcia Miguel Castro Ferreira Copyright © 2015 by Editora da Unicamp
Direitos reservados e protegidos pela Lei 9.610 de 19.2.1998. É proibida a reprodução total ou parcial sem autorização, por escrito, dos detentores dos direitos. Printed in Brazil. Foi feito o depósito legal.
Direitos reservados à Editora da Unicamp Rua Caio Graco prado, 50 – Campus Unicamp cep 13083-892 – Campinas – sp – Brasil Tel./Fax: (19) 3521-7718/7728 www.editora.unicamp.br – vendas@editora.unicamp.br
543.0072 543 543.0072 536.5 001.534
Aos meus pais: Danyra de Oliveira e Souza Miguel e Fuad Miguel
Quimiometria.indb 5
27/04/2015 10:37:58
Quimiometria.indb 6
27/04/2015 10:37:58
Agradecimentos
É um dever que neste caso se reveste de satisfação agradecer à University of Washington (Seattle, USA), que me recebeu generosamente para um pós-doutoramento em quimiometria em 1993 e manteve abertas suas bibliotecas onde este livro foi em grande parte escrito durante os períodos de licença sabática, licença-prêmio e férias. Um agradecimento póstumo especial é devido ao professor Bruce Kowalski (1942-2012), um dos fundadores da quimiometria, em cujo laboratório, CPAC, estão as raízes mais antigas deste trabalho. Agradeço também a todos os meus alunos, colegas, orientandos, pós-docs e visitantes que ao longo de 18 anos mantiveram um ambiente entusiasmado na busca de novos rumos da quimiometria no LQTA, cujo financiamento devo à Unicamp, Fapesp e CNPq. Finalmente, e de uma maneira muito especial, eu agradeço ao meu esposo Wilson, que me acompanhou e apoiou incondicionalmente durante todo esse percurso.
Quimiometria.indb 7
27/04/2015 10:37:58
Quimiometria.indb 8
27/04/2015 10:37:58
SUMÁRIO
pREFÁCIO .. .............................................................................................................................. 13 1 – INTRODUÇ ÃO .......................................................................................................... 15 1.1 Considerações históricas................................................................................ 15 1.2 Organização do livro.......................................................................................... 27
2 – PREPARAÇ ÃO DOS DADOS PARA ANÁLISE .............................. 29 2.1 Introdução.................................................................................................................... 29 2.2 Organização dos dados.................................................................................... 30 2.3 Visualização dos dados.................................................................................... 37 2.4 Pré-tratamento dos dados ............................................................................. 43 2.4.1 Transformação dos dados................................................................ 46 2.4.1.1 Técnicas de alisamento.................................................. 46 2.4.1.2 Técnicas de correção da linha de base............. 61 2.4.1.3 Outras Transformações Importantes.................. 68 2.4.2 Pré-Processamento dos dados..................................................... 90
3 – ANÁLISE EXPLORATÓRIA DOS DADOS .......................................... 107 3.1 Introdução.................................................................................................................... 107 3.2 Análise de Componentes Principais – PCA................................. 110 3.2.1 Introdução...................................................................................................... 110 3.2.2 Fundamentos matemáticos............................................................. 116 3.2.3 Rotações.......................................................................................................... 145 3.2.4 Rotação varimax, ................................................................................... 146
Quimiometria.indb 9
27/04/2015 10:37:58
3.3 Análise de Agrupamentos por Métodos Hierárquicos – HCA ................................................................................................... 153 3.3.1 Introdução...................................................................................................... 153 3.3.2 Fundamentos matemáticos............................................................. 155 3.3.3 Exemplo........................................................................................................... 175 3.4 Distância de Mahalanobis............................................................................. 184 3.5 Exemplos ..................................................................................................................... 202 3.5.1 Análise exploratória de amostras de água mineral ........................................................................................................................... 202 3.5.2 Atividade antiviral de inibidores da protease HIV-1......................................................................................................... 215 3.5.3 Determinação dos teores de minerais em sucos de frutas.......................................................................................................................... 222 3.5.4 Efeito de diferentes nucleófilos e solventes na reatividade de α-acil-enaminocetonas................................................ 231 3.5.5 Prazo de validade de produtos à base de tomate............................................................................................................................... 238
4 – C ALIBRAÇ ÃO – MÉTODOS DE REGRESSÃO .. ............................ 251 4.1 Introdução.................................................................................................................... 251 4.1.1 Considerações gerais........................................................................... 255 4.2 Calibração univariada. Regressão linear......................................... 261 4.2.1 Figuras de mérito.................................................................................... 278 4.3 Por que usar calibração multivariada?.............................................. 306 4.4 Métodos de regressão multivariada (Calibração)................... 312 4.4.1 Regressão pelo Método dos Quadrados Mínimos Clássico – CLS ....................................................................................................... 314 4.4.2 Regressão pelo Método dos Quadrados Mínimos Inverso – ILS ........................................................................................................... 328 4.4.3 Regressão pelo método das Componentes Principais – PCR.................................................................................................... 339 4.4.4- Regressão pelo Método dos Quadrados Mínimos Parciais – PLS.................................................................................. 346 4.4.5 Conclusões.................................................................................................... 356 4.5 Validação dos modelos de regressão multivariada................ 359 4.5.1 Detecção de amostras anômalas............................................... 360
Quimiometria.indb 10
27/04/2015 10:37:58
4.5.2 Escolha do número de fatores no modelo........................ 370 4.6 Previsão ........................................................................................................................ 378 4.7 Figuras de mérito.................................................................................................. 380 4.8 Seleção de variáveis........................................................................................... 399
5 – MÉTODOS DE CLASSIFICAÇ ÃO ou MÉTODOS SUPERVISIONADOS DE RECONHECIMENTO DE PADRÕES ............................................................................................................ 405 5.1 Introdução.................................................................................................................... 405 5.2 Métodos de classificação............................................................................... 407 5.3 Análise Discriminante Linear – LDA................................................ 409 5.4 Método dos k-ésimos Vizinhos mais Próximos – k-NN............................................................................................................ 411 5.4.1 Exemplo – Atividade biológica do lapachol e derivados contra o carcinossarcoma W-256............................ 415 5.5 Figuras de mérito.................................................................................................. 424 5.6 Método Soft Independent Modeling of Class Analogy – SIMCA.......................................................................................................... 428 5.6.1 Figuras de mérito.................................................................................... 451 5.7 Análise discriminante pelo método de quadrados mínimos parciais – PLS-DA................................................................................. 460 5.7.1 Exemplo – Classificação de extratos de tumores cerebrais usando a espectroscopia de ressonância magnética nuclear de próton de alta resolução e o método PLS-DA..................................................................................................... 464
Índice ....................................................................................................................................... 487
Quimiometria.indb 11
27/04/2015 10:37:58
Quimiometria.indb 12
27/04/2015 10:37:58
pREFÁCIO
A quimiometria é a área que emergiu da necessidade de extrair informação química que de outra forma estaria soterrada na avalanche de dados produzidos pela moderna instrumentação. Este livro é o resultado da experiência adquirida durante mais de uma década lecionando a disciplina de quimiometria, não somente no IQ–Unicamp, mas também em outras Universidades do Estado de São Paulo, do Brasil e do exterior. Nele serão apresentados os métodos mais utilizados e que considero mais importantes e úteis da quimiometria. A experiência adquirida em trabalhos relacionados a questões provenientes diretamente da indústria de alimentos, cosméticos, indústria pesada de alumínio e química medicinal também foi motivadora deste trabalho. A escolha dos tópicos, métodos e exemplos apresentados foi ditada por diretrizes acadêmicas, mas também e fundamentalmente pela utilização prática da quimiometria em todas as áreas de interação de que participei. Diversas abordagens da quimiometria que se sobrepõem em vários aspectos, mas que são distintas em outras situações, surgiram na década de 1970. Dentre estas, talvez a mais bem-sucedida e que exerceu grande influência no seu desenvolvimento foi liderada pelo Center for Process Analytical Chemistry (CPAC), da University of Washington, sob a direção de Bruce Kowalski. Este texto, de certa forma, alinha-se a essa escola, com a qual iniciei na área com um pós-doutoramento no início dos anos 1990.
Quimiometria.indb 13
27/04/2015 10:37:58
14
Quimiometria — Conceitos, Métodos e Aplicações
Quanto a seu aspecto acadêmico, o texto é fruto dos trabalhos de pesquisa realizados no Laboratório de Quimiometria Teórica e Aplicada (LQTA)–IQ–Unicamp, por alunos de mestrado, doutorado e pós-doutorado, desenvolvidos sob minha orientação nos últimos 16 anos. O texto se dirige, portanto, àqueles que pretendem adquirir conhecimento teórico fundamental e desenvoltura técnica para aplicar a quimiometria a diversos campos do conhecimento e da indústria, bem como desenvolver e/ou aperfeiçoar técnicas que se fizerem necessárias para a abordagem de novas questões. Vários métodos serão apresentados em detalhes junto com seus respectivos algoritmos e uma série de exemplos será discutida para que o(a) leitor(a) possa acompanhar passo a passo todas as etapas de uma análise multivariada de dados. Uma novidade introduzida e ampla mente discutida neste texto que ainda não se encontra disponível em livros desta área é a validação dos modelos com figuras de mérito. Em particular, as figuras de mérito dos métodos de regressão e de classificação serão introduzidas e exemplificadas. Ao final, o leitor que estudar este texto estará capacitado para efetuar a análise exploratória dos dados e para construir modelos de regressão e de reconhecimento supervisionado de padrões.
Quimiometria.indb 14
27/04/2015 10:37:58
CAPÍTULO 1
INTRODUÇÃO
1.1 Considerações históricas Ao ouvir a palavra “química”, imediatamente vem à nossa mente um laboratório equipado com reagentes e vidraria específica, e um profissional de avental e óculos de segurança realizando experimentos. Isso porque a química é uma ciência experimental. Acontece que essa era a realidade até algumas décadas atrás quando a grande maioria dos problemas químicos era resolvida pelos métodos tradicionais de via úmida (titulações, pesagens, precipitações e uso de reagentes especí ficos), como exemplificado na Figura 1. O tratamento dos dados obtidos
(a)
(b)
Figura 1 – Procedimento de rotina em laboratório, por via úmida. (a) Reação de cloreto de Fe II com NaOH, formando um precipitado de hidróxido de Fe II de cor verde; (b) Oxidação do hidróxido de Fe II produzindo óxido de Fe III e vapor d’água.
Quimiometria.indb 15
27/04/2015 10:37:58
16
Quimiometria — Conceitos, Métodos e Aplicações
experimentalmente era relativamente simples, e os métodos matemá tic os elementares de análise univariada se mostravam adequados e suficientes. Graças ao desenvolvimento da química teórica (química quântica) e, mais tarde, dos instrumentos eletrônicos e óticos, a química sofreu mudanças drásticas e hoje é muito mais abrangente, englobando a química computacional. Com o desenvolvimento da informática, no que diz respeito tanto à área de hardware quanto à de software, e com a facilidade de acesso aos computadores, hoje é possível determinar, com simulações de dinâmica molecular, se o caminho de uma dada reação química é favorável ou não do ponto de vista termodinâmico. Também é possível em estudos de QSAR (Quantitative Structure-Activity Relationships) relacionar propriedades moleculares e estruturais, calculadas por métodos quânticos, à atividade biológica de um conjunto de compostos, com o objetivo de estimar a atividade biológica de novos compostos antes de sintetizá-los no laboratório. O grande avanço tecnológico na área instrumental ocorrido nos últimos 50 anos atingiu todas as áreas da ciência e especialmente a química. Espectrômetros e cromatógrafos foram introduzidos como instrumentos de análises de rotina nos laboratórios analíticos, ocasionando um enorme crescimento na quantidade e na variedade de dados experimentais produzidos. Para ter uma ideia da ordem de grandeza da quantidade de dados que podem ser gerados em um único experimento moderno, basta observar que um espectro digitalizado contém em média cerca de 2.000 comprimentos de onda, e os resultados de uma única corrida num cromatógrafo com um detector com arranjo de diodos facilmente atingem 500.000 dados (4,0 Mbytes de informação digital). Todavia, esses instrumentos não produzem diretamente informações com significado químico para a interpretação imediata, mas sim uma enorme profusão de sinais, números ou curvas, como exemplificado na Figura 2. “O que fazer com esta avalanche de dados?”. Para que esses dados tenham alguma utilidade para o conhecimento químico da matéria, ou do procedimento, é necessário que eles sejam transformados e interpretados adequadamente, o que não é uma tarefa nem simples, sob o ponto de vista conceitual, nem fácil, sob o ponto de vista compu
Quimiometria.indb 16
27/04/2015 10:37:58
Introdução
17
tacional. Na linguagem da química da década de 1960, tinha-se uma enorme quantidade de matéria bruta (numérica) e faltavam os meios para extrair dela as pepitas preciosas de informação, uma comparação não de todo improcedente, se adiantarmos que uma das técnicas mais modernas para esse fim se denomina muito apropriadamente de “mineração de dados”1.
Figura 2 – Procedimento de rotina em laboratórios modernos de análise.
Parafraseando uma conhecida citação da análise de dados, o químico de meio século atrás estava se afogando em um oceano de dados e sedento de informação e, possivelmente, deveria se perguntar: “Que tipo de informação se pode extrair de tais resultados utilizando a tradicional análise univariada que até então era adequada e suficiente?”. O que estava por vir mostraria que os instrumentos de laboratório teriam que ser necessariamente interfaciados aos computadores, e os laboratórios, rapidamente modificados para incluir, explícita ou implicitamente, os métodos e meios computacionais. A busca por ferramentas matemáticas e estatísticas capazes de converter grandes conjuntos de dados no máximo de informação útil foi a causa principal do surgimento e rápido desenvolvimento da quimiometria. Pode-se dizer que uma mudança radical nesse cenário se deu com Jurs, Kowalski, Isenhour e Reilly. Esse grupo de pesquisadores publicou
1 Do inglês: data mining.
Quimiometria.indb 17
27/04/2015 10:37:59
18
Quimiometria — Conceitos, Métodos e Aplicações
uma sequência de artigos na revista Analytical Chemistry em 19692,3,4,5, dando um enfoque totalmente inovador ao tratamento dos dados químicos, a partir dos quais os químicos vislumbraram o grande potencial dos métodos multivariados. A designação “quimiometria” foi usada pela primeira vez em 1971 pelo químico orgânico Svante Wold. No editorial do primeiro exemplar do Journal of Chemometrics, Kowalski, Brown e Vandeginste relatam a origem dessa palavra: Depois da minha dissertação em janeiro de 1971, eu estava escrevendo um projeto de pesquisa para nossa Agência de Fomento à Pesquisa, quando meu amigo Ingebert Taljedal sugeriu que se eu tivesse um BOM nome para o que pretendia fazer, então eu teria o dinheiro, caso contrário, provavelmente, não. Achei o comentário estranho, mas segui o conselho do amigo mais experiente e que eu admirava. Ele me disse para pensar em três alternativas durante o final da semana, que ele selecionaria a melhor delas na segunda-feira. Depois de muito pensar, eu tinha as três sugestões: “Análise de Dados Químicos”, “Computadores na Química” e, com alguma hesitação, “Quimiometria”. Ingebert imediatamente disse “Kimiometri”, e assim foi. Batizei nosso pequeno grupo de pesquisa (eu e meu estudante de pós-graduação, M. Sjostrom) como “Grupo de Quimiometria”, em sueco Kemometri-gruppen. Começamos, então, a colocar esse nome nos nossos artigos e, a partir daí, correu tudo bem, exatamente como Ingebert havia predito. No outono de 1973 encontrei Bruce Kowaski em uma conferência em Tucson, no Arizona, e disse a
2 Jurs, P. C.; Kowalski, B. R. e Isenhour, T. L. ‘Computerized Learning Machines applied to Chemical Problems. Molecular Formula Determination from Low Resolution Mass Spectrometry’, Anal. Chem. 41 (1969) 21-27. 3 Jurs, P. C.; Kowalski, B. R.; Isenhour, T. L. e Reilly, C. N. ‘Computerized Learning Machines applied to Chemical Problems. An Investigation of Convergence Rate and Predictive Ability of Adaptive Binary Pattern Classifiers’, Anal. Chem. 41 (1969) 690-695. 4 Kowalski, B. R.; Jurs, P. C.; Isenhour, T. L. e Reilly, C. N. ‘Computerized Learning Machines applied to Chemical Problems. Multicategory Pattern Classification by Least Squares’, Anal. Chem. 41 (1969) 695-700. 5 Jurs, P. C.; Kowalski, B. R.; Isenhour, T. L. e Reilly, C. N. ‘Computerized Learning Machines applied to Chemical Problems. An Investigation of Combined Patterns from Diverse Analytical Data Using computerized Learning Machine’, Anal. Chem. 41 (1969) 1949-1953.
Quimiometria.indb 18
27/04/2015 10:37:59
Introdução
19
ele que eu estava fazendo quimiometria. Fiquei muito orgulhoso q uando ele gostou do nome e, depois disso, iniciamos juntos a Sociedade de Quimiometria em 10 de Junho de 1974, quando eu estava visitando Bruce Kowalski por algumas semanas6.
O próprio Wold foi o autor do primeiro trabalho que menciona a palavra “quimiometria”, publicado na revista sueca Kemisk Tidskrift em 1972. Dois anos mais tarde ele publicou um segundo artigo7 explicando seu ponto de vista sobre a abrangência da área que ele denominou de Kimiometri, e que em português viria a ser mais tarde, “quimiometria”. As primeiras páginas desses dois artigos originais estão reproduzidas no primeiro exemplar do Journal of Chemometrics8. Em junho desse mesmo ano, durante a sua visita ao grupo de B. Kowalski nos Estados Unidos, ambos fundaram a International Chemometric Society, cuja função principal seria viabilizar a comunicação e fortificar o elo entre a matemática aplicada, a estatística e as aplicações na área de química. No ano seguinte apareceu pela primeira vez o termo Chemome trics na literatura de língua inglesa com a publicação do artigo baseado na palestra feita por Kowalski9 na conferência Chemical Applications of Pattern Recognition10, na qual ele se referiu à quimiometria como um conjunto de métodos apropriados para a obtenção de informações significativas, sob o ponto de vista químico, a partir de um conjunto de dados. Nesse mesmo artigo ele apresenta uma visão geral do estado atual dessa nova área (1975) e das futuras aplicações de métodos quimiométricos à química em geral, e também lança oficialmente o primeiro pacote computacional de quimiometria chamado Arthur. Esse pacote continha uma coleção de programas de reconhecimento de padrões, escritos na
6 Traduzido do editorial de Kowalski, B. R.; Brown, S. e Vandeginste, B. J. Chemom. 1 (1987) 1-2. 7 Wold, S. ‘Kemometri - kemi och tillampad matematik’, Svensk Naturventenskap 201, (1974). 8 Shepherd, P. T. ‘Retrospective’, J. Chemom. 1 (1987) 3-6. 9 Kowalski, B. R. ‘Chemometrics: Views and Propositions’, J. Chem. Inf. Comp. Sci. 15 (1975) 201-203. 10 Workshop promovido pela National Science Foundation, Washington, D.C., Maio 1-2, 1975.
Quimiometria.indb 19
27/04/2015 10:37:59
20
Quimiometria — Conceitos, Métodos e Aplicações
linguagem Fortran, disponibilizado para ser executado em computadores VAX II/780. Deve-se chamar a atenção para o fato de que esse artigo foi publicado no periódico Journal of Chemical Information and Computer Sciences, e não em alguma revista tradicional de química analítica. Esta é uma evidência da resistência inicial por parte dos químicos analíticos em aceitar a incorporação dos novos métodos de análise de dados, não apenas pela sua novidade, mas também porque eram bem mais complexos que os usuais. Uma introdução histórica não poderia deixar de citar dois trabalhos que tiveram um grande impacto na quimiometria: o de Kowalski e Bender11, que é considerado oficialmente como o primeiro trabalho na área de quimiometria, e o de Lawton e Sylvestre12, publicado em 1971. Este último precedeu por um ano o de Kowalski e Bender, e desempenhou um papel importante na fundamentação da metodologia da quimiometria, sendo amplamente citado até hoje, embora nem sempre reconhecido por sua importância histórica. Vários artigos na literatura podem ainda ser citados como fontes de informações valiosas para a história da Quimiometria; dentre eles, citaremos dois que contêm entrevistas muito interessantes com os fundadores da área13,14. Em 1976 foi organizado o Simpósio Chemometrics: Theory and Application, patrocinado pela Divisão Computers in Chemistry, da American Chemical Society, do qual resultou o primeiro livro dedicado especificamente à quimiometria15. Esse livro contém várias contribuições significativas com respeito ao desenvolvimento de metodologia e apli-
11 Kowalski, B. R. e Bender, C. ‘Pattern Recognition. A powerful Approach to Interpreting Chemical Data’, J. Am. Chem. Soc. 94 (1972) 5632-5639. 12 Lawton, W. e Sylvestre, E. ‘Self Modeling Curve Resolution’, Technometrics 13 (1971) 617-633. 13 Geladi, P. e Esbensen, K. ‘The Start and the Early History of Chemometrics: Selected Interviews, Part 1’, J. Chemom. 4 (1990) 337-354. 14 Geladi, P. e Esbensen, K. ‘The Start and the Early History of Chemometrics: Selected Interviews, Part 2’, J. Chemom. 4 (1990) 389-412. 15 Kowalski, B. R. ed. Chemometrics: Theory and Application. ACS Symp. Ser., 52, American Chemical Society, Washington, D.C., 1977.
Quimiometria.indb 20
27/04/2015 10:37:59