Probabilidade estatistica 1

Page 1

Renato Nogueirol Lobo

Probabilidade e EstatĂ­stica



Sumário CAPÍTULO 1 – Como Planejar uma Pesquisa Estatística e Quais são Tipos de Amostragens?...05 Introdução.....................................................................................................................05 1.1 Introdução a Estatística..............................................................................................05 1.1.1 Desenvolvimento da Estatística...........................................................................06 1.1.2 Fundamentos básicos da estatística....................................................................08 1.2 Técnicas de Levantamento de dados............................................................................12 1.2.1 Os principais métodos......................................................................................12 1.3 Amostragem aleatória simples e aleatória estratificada..................................................15 1.3.1 Amostragem Aleatória Simples...........................................................................15 1.3.2 Amostragem aleatória estratificada.....................................................................16 1.4 Amostragem por conglomerado e amostragem não-probabilística .................................17 1.4.1 Amostragem por conglomerado.........................................................................17 1.4.2 Amostragem não-probabilística..........................................................................17 Síntese...........................................................................................................................20 Referências Bibliográficas.................................................................................................21

03



Capítulo 1 Como Planejar uma Pesquisa Estatística e Quais são Tipos de Amostragens?

Introdução Você já parou para pensar em como é feita uma pesquisa eleitoral, na qual o resultado corresponde ao percentual de votos de cada candidato? Quantos de nós já fomos entrevistados na rua por conta de uma eleição ou de uma pesquisa de satisfação? Saiba que os entrevistados passam a representar toda uma população, e para que o resultado seja representativo, existem técnicas específicas de levantamento de dados. Outra questão: você saberia dizer qual a proporção do número de mulheres em relação ao número de homens no planeta? Para conseguirmos esta informação, utilizaremos a estatística, pois ninguém vai sair contando homens e mulheres por aí, não é verdade? Tal empreitada nunca teria fim. Já no âmbito empresarial, referem-se à atividade de inspeção de produtos como controle de qualidade, pois trata-se de uma garantia única de qualidade. Saiba que o controle de qualidade abrange não só a fiscalização, mas também o planejamento da qualidade, controles de processos, controle de material de entrada, análise e ação de correção dos defeitos e relatórios de qualidade. Mas qual seria a definição mais apropriada para controle de qualidade? Bem, podemos dizer que se trata de um sistema para a verificação e manutenção de um nível desejado de qualidade em um produto ou processo. Nesse sistema, deve haver um planejamento cuidadoso, utilização do equipamento adequado, inspeção contínua e ações corretivas quando necessário. Neste capítulo, você irá conhecer o desenvolvimento da estatística no decorrer do tempo e seus fundamentos básicos, bem como as técnicas de levantamento de dados e os conceitos estatísticos de amostragem. Você perceberá como a estatística está presente em nosso cotidiano. Vamos lá? Temos muita coisa para aprender!

1.1 Introdução a Estatística A estatística é usada para extrair o significado de dados selecionados de uma população, sendo considerada uma ferramenta indispensável para a gestão da produção. Saiba que engenheiros de produção utilizam a estatística no intuito de controlar seus processos e produtos. A estatística envolve a coleta e interpretação de dados, o resumo de grandes quantidades de informações e a execução de uma análise sofisticada. Entenda que a análise estatística dos dados é importante para todo tipo de ciências: Biologia; Medicina; Agricultura; Economia; Administração; Meteorologia; Engenharia Produção etc. As quantidades medidas em um estudo estatístico são chamadas de variáveis aleatórias e um resultado particular é chamado de observação. Observações coletivas nos levam aos dados. Já a coleção de todos os resultados possíveis é chamada de população.

05


Diagnóstico e Consultoria Empresarial

1.1.1 Desenvolvimento da Estatística Saiba que a história da estatística moderna começou volta de 1749. Neste período, seu significado era restrito a informações sobre os Estados, por estudos de cálculos de impostos e censos demográficos. Com o passar do tempo, o conceito de estatística passou a abarcar todos os conjuntos de informações para a análise e interpretação desses dados. No século XVIII, o termo “estatística” ainda era designado como o recolhimento sistemático de dados demográficos e econômicos feito pelos Estados. Esses dados, em sua maioria, eram tabulações de recursos humanos e materiais que podiam ser tributados ou alocados para uso militar. Já no início do século XIX, o significado de “estatística” foi ampliado para incluir a disciplina, a coleta, o resumo e a análise de dados. Hoje os dados estatísticos são recolhidos, calculados e amplamente utilizados por governos, organizações, na ciência e nos esportes, em passatempos e, como falado acima, também pela área de produção para controle de processos e produtos. Você já deve saber que computadores têm acelerado o desenvolvimento estatístico pela coleta e agregação de dados, certo? Um analista de dados pode ter disponível um conjunto de dados com milhões de registros, cada um com dezenas ou centenas de medições separadas, recolhidas ao longo do tempo, a partir da bolsa de valores ou de sensores computadorizados, como os registros no ponto de venda, por exemplo. Computadores também podem produzir resumos simples e precisos, permitindo uma análise mais criteriosa e confiável dos dados, o que seria quase impossível de executar a mão. A tecnologia nos permite desenvolver métodos estatísticos para uso intensivo de informações com todas as permutações ou randomizações possíveis, no intuito de estimar respostas difíceis de quantificar pela teoria. Saiba que o termo “estatística matemática” designa as teorias matemáticas de probabilidade e inferência estatística que são utilizadas na prática. A relação entre estatística e teoria da probabilidade foi desenvolvida no final do século XVI. No século XVIII, a teoria da probabilidade já era utilizada com frequência pela estatística, especialmente na análise de jogos de azar. No século XIX, a astronomia também utilizava modelos de probabilidade e teorias estatísticas, particularmente o método dos mínimos quadrados.

VOCÊ SABIA? Você já ouviu falar no método dos mínimos quadrados? Saiba que se trata de um conjunto de equações no qual existem mais do que equações incógnitas. “Mínimos quadrados” significa que a solução global minimiza a soma dos quadrados dos erros nos resultados de cada equação única. Essa técnica estatística serve para determinar a linha de melhor ajuste para um modelo. Este método é amplamente utilizado na análise de regressão e de estimação.

O desenvolvimento do raciocínio estatístico estava intimamente associado ao desenvolvimento da lógica indutiva e ao método científico, preocupações estas que movem os estatísticos até os dias de hoje. Na década de 1970, Johnson e Kotz elaboraram um compêndio de quatro volumes sobre estatística (primeira edição 1969-1972), que ainda é um recurso inestimável. Entenda que Estatística Aplicada pode ser considerada como uma ciência matemática autônoma, a exemplo de Ciências da Computação e Pesquisa Operacional. Com sua ênfase na aprendizagem a partir de dados, para fazer melhores previsões, a estatística também foi moldada para a pesquisa acadêmica, em áreas que incluem testes psicológicos, medicinais, epidemiológicos, entre outros. 06 Laureate- International Universities


Ano

Evento

1532

Os primeiros dados semanais sobre as mortes em Londres

1539

Começo da recolha de dados sobre batismos, casamentos e mortes na França

1608

Registro paroquial na Suécia

1662

Primeiro estudo demográfico publicado com base em listas de moradores de Londres

1693

Publicação de uma estimativa da mortalidade da cidade de Breslaw

1713

Publicação de J. Bernoulli

1714

Publicação do Libellus de Ratiocinus in Ludo Aleae

1714

Publicação da doutrina de Moivre

1735

Início da coleta de dados demográficos na Noruega

1763

Publicação do ensaio sobre resolver um problema na Doutrina das Chances

1809

Publicação da Theoria Motus Corporum Coelestium por Gauss

1812

Publicação da Théorie des analytique probabilitéss por Laplace

1834

Estabelecimento da Statiscal Society of London

1839

Estabelecimento da Associação Americana de Estatística em Boston

1889

Publicação da Herança Natural

1900

Desenvolvimento do teste de Pearson

1901

Publicação da primeira emissão de Biométrica

1903

Desenvolvimento da análise de dados coletados de forma aleatória

1908

Publicação da Probabilidade de erro de média (t de Student)

1910

Publicação da introdução à teoria da estatística

1933

Publicação da determinação empírica de uma distribuição de uma população

1935

Publicação do The Design of Experiments

1936

Publicação da relação entre dois conjuntos de variáveis

1972

Publicação dos modelos de regressão

1972

Publicação dos modelos lineares generalizados

1979

Publicação do método Bootstrap

Quadro 1 - Cronologia da Estatística. A Estatística teve início na Europa e foi fortemente motivada pela necessidade de dar sentido à grande quantidade de dados coletados pelo Estado. Fonte: Elaborado pelo autor com base em Devore (1995), 2015.

Enquanto isso, no Brasil, segundo o Instituto Brasileiro de Geografia e Estatística - IBGE (2006):

• No

ano de 1872, houve o primeiro censo geral da população brasileira feito por José Maria da Silva Paranhos, conhecido como Visconde do Rio Branco (1819-1880).

• Em 1936 temos a Criação do Instituto Brasileiro de Geografia e Estatística (IBGE). 07


Diagnóstico e Consultoria Empresarial

• Em 1953 duas escolas iniciaram o Ensino de Estatística no Brasil: uma no Rio de Janeiro, a Escola Nacional de Ciências Estatística (ENCE), e a outra conhecida como Escola de Estatística da Bahia.

• Somente em 1972 o computador é usado no Brasil para fins estatísticos, o que ajudou a dar um grande salto na estatística.

• A inclusão da Estatística no Ensino Fundamental e Médio apareceu a partir da determinação dos Parâmetros Curriculares Nacionais (PCN’s) em 1997.

Hoje a estatística vem se mostrando cada vez mais próxima de nós com o avanço da tecnologia, seus métodos cada vez mais utilizados. Na Engenharia de Produção, deve haver uma sequência de tarefas de administração no fluxo do processo e criação do produto. Para que isso ocorra de maneira eficaz, são utilizados métodos estatísticos, promovendo assim um trabalho construtivista de solução de problemas.

VOCÊ QUER LER? Quer saber mais sobre a cronologia da Estatística? No portal da estatística, os matemáticos Gauss M. Cordeiro e Gleici C. Perdoná elaboraram a evolução histórica da estatística até os dias atuais. Você terá acesso a informações sobre a origem da palavra “estatística” e também sobre o aparecimento das primeiras tabelas para medir a mortalidade e a quantidade de bens da população. Disponível em: <http://pgleici.fmrp.usp.br/>.

1.1.2 Fundamentos básicos da estatística Saiba que a estatística é um tipo de análise matemática que envolve o uso de representações, modelos e resumos quantificados para um determinado conjunto de dados empíricos ou observações do mundo real. A análise estatística envolve o processo de coleta e análise de dados e, em seguida, resumo desses dados pela forma numérica. Entenda “estatística” como um termo geral usado para resumir um processo que um analista, matemático ou um estatístico usa para caracterizar um conjunto de dados. Se o conjunto de dados baseia-se em uma amostra de uma população maior, o analista pode inferir hipóteses sobre ela com base nos resultados obtidos.

Figura 1 - Qualquer atividade pode ser analisada pela estatística. Fonte: Shutterstock, 2015.

08 Laureate- International Universities


A estatística é importante para o campo da engenharia porque fornece ferramentas para que o engenheiro possa analisar os dados coletados, permitindo a tomada de decisões de forma acertiva. Por exemplo, um engenheiro químico pode utilizar a estatística para analisar as medições de temperatura a partir de um tanque de mistura. Métodos estatísticos podem ser usados para determinar como as medições de temperatura variam dentro do conjunto de dados operacionais, permitindo que futuras temperaturas no tanque possam ser previstas antecipadamente. Na mente de um estatístico, o mundo é composto por populações e amostras. Um exemplo de população é o conjunto dos alunos do ensino médio no Brasil, já um exemplo relacionado a uma amostra seria um grupo desses alunos. Imagine que um administrador da área da educação gostaria de saber a nota média em matemática dos alunos do ensino médio para compará-la com a média de outros países. Sabemos que seria muito caro aferir as notas de matemática de todos os alunos do ensino médio, então metodologias estatísticas podem ser usadas para estimar a média usando apenas uma amostra (ou várias amostras). Você saberia dizer o que é parâmetro? Trata-se de uma característica compartilhada por uma população. Como ilustrado no exemplo acima, é impraticável medir certos parâmetros diretamente de toda a população. Podemos utilizar, portanto, uma amostra a partir da qual a estatística é calculada, permitindo estimar o parâmetro da população. As possíveis inferências que podem ser feitas a respeito de uma população exigem amostras aleatórias e que sejam reunidas de forma independente, no intuito de evitar falhas devido à grande variação de valores, polarização, inconsistência e outros erros de amostragem. Isso nos obriga a ter um olhar mais crítico e analítico. Saiba que as variáveis podem ​​ ser classificadas como qualitativa ou categórica e quantitativa ou numérica. As variáveis qualitativas ​​ assumem valores que são nomes ou rótulos. A cor de uma bola (vermelho, verde, azul) ou a raça de um cão (collie, pastor, terrier) seriam exemplos de variáveis qualitativas ​​ ou categóricas. Já as variáveis quantitativas ​​ são numéricas. Elas representam uma quantidade mensurável. Quando falamos da população de uma cidade, por exemplo, nós estamos falando sobre o número de pessoas na cidade, portanto, um atributo mensurável, certo? As variáveis quantitativas ​​ podem ser ainda classificadas como discretas ou contínuas. Se uma variável assumir qualquer valor entre o seu valor mínimo e seu valor máximo, ela é chamada de contínua, caso contrário, é chamada de discreta. Exemplos: imagine que todos os bombeiros pesam entre 70 e 90kg. Este peso seria um exemplo de variável contínua, já que o peso de um bombeiro poderia assumir qualquer valor entre 70 e 90kg. Agora pense em jogar uma moeda e contar o número de caras. O número de caras pode ser qualquer valor inteiro entre 0 e mais infinito, no entanto, não poderia ser qualquer número entre 0 e mais infinito. Você nunca obteria, por exemplo, 2,3 caras. O número de caras, portanto, é uma variável discreta. Os dados estatísticos são muitas vezes classificados de acordo com o número de variáveis ​​em estudo. Quando conduzimos um estudo que utiliza apenas uma variável, podemos dizer que estamos trabalhando com dados univariados. Ao realizarmos uma pesquisa para estimar o peso médio dos estudantes do ensino médio, estamos trabalhando apenas com uma variável, o peso, então temos dados univariados. Ao conduzirmos um estudo que analisa a relação entre duas variáveis, temos então dados bivariados. Imagine um estudo para descobrir a relação entre a altura e o peso de estudantes do ensino médio. Como estamos trabalhando com duas variáveis, ​​a altura e o peso, temos dados bivariados.

09


Diagnóstico e Consultoria Empresarial

VOCÊ SABIA? Será que todas as variáveis podem ​​ ser classificadas como variáveis quantitativas ​​ ou categóricas? Sim, todas as variáveis ​​podem ser classificadas como variáveis ​​quantitativas ou categóricas. Variáveis ​​discretas são, de fato, uma categoria de variáveis ​​quantitativas. As variáveis ​​categóricas, no entanto, não são numéricas. Por isso, eles não podem ser classificados como variáveis contínuas. ​​

Existem duas maneiras de classificar e analisar as amostras: a tendência central e a dispersão. A tendência central refere-se à idéia de que existe um número que melhor resume todo o conjunto de medidas, um número que é central para o conjunto de amostras. Já “dispersão” refere-se à idéia de que há um segundo número que nos diz como os valores estão posicionados em relação à medição do número central. Ao realizar a análise estatística sobre um conjunto de dados devemos calcular os valores básicos iniciais: média, mediana, moda e desvio-padrão. A média, mediana e moda são todas as estimativas de onde o “meio” de um conjunto de dados está, sendo esses valores úteis quando da criação de grupos de amostras, pois nos permitem organizar conjuntos maiores de dados. Já o desvio padrão é a distância entre os dados reais e a média calculada. Podemos obter a média dividindo a soma dos valores observados pelo número de observações. A média é uma boa estimativa para prever os pontos dos dados subsequentes, e sua fórmula está representada a seguir (Equação 1).

Equação 1

No entanto, esta equação só poderá ser utilizada quando o erro associado com cada medição é o mesmo ou desconhecido. Caso contrário, a média ponderada, que incorpora o desvio-padrão, deve ser calculada usando a equação descrita a seguir (Equação 2). Xwav =

wixi wi

Equação 2

Em que: Xi é o valor dos dados Quando a quantidade de valores da amostra for ímpar, a mediana será o valor médio do conjunto de dados organizados de forma crescente. Exemplo: para os valores 2, 4, 6, 8 e 10 a mediana será o valor 6. Ficou claro? Já quando a quantidade de valores da amostra for par, a mediana será a média dos dois valores médios do conjunto de dados. Exemplo: para os valores 2, 4, 6, 8, 10 e 12 a mediana será 7, pois é a metade da soma de 6 e 8, os valores do meio. A mediana é especialmente útil quando se deseja separar os dados em dois grupos de tamanhos iguais. A moda de um conjunto de dados, por sua vez, é o valor que ocorre com mais frequência.

10 Laureate- International Universities


Figura 2 - A estatística é apoiada nos seus conceitos primários. Fonte: Shutterstock, 2015.

O desvio-padrão dá uma idéia do quão próximo todo o conjunto de dados está do valor médio. Quando temos um conjunto de dados com um pequeno desvio-padrão significa que os valores estão próximos um dos outros. Se o conjunto de dados tiver um desvio-padrão grande, os dados estarão espalhados por uma vasta gama de valores. Normalmente, estamos interessados ​​no desvio padrão de uma população, mas como muitas vezes trabalhamos com dados de apenas uma amostra, podemos estimar o desvio-padrão da população a partir do desvio-padrão da amostra. Saiba que estes dois desvios-padrão, da amostra e da população, são calculados de forma diferente. Em estatística, normalmente calculamos os desvios padrão da amostra, cuja fórmula é dada a seguir (Equação 3). σ=

1 i=n (Xi - X)2 n-1 i=1

Equação 3

Em que: n é o numero de amostras Xi é o valor da amostra X é a média das amostras

VOCÊ QUER VER? Você já parou para pensar nas estatísticas de gênero da população brasileira? Em média, quem ganha mais, o homem ou a mulher? Quem morre mais cedo? O vídeo do IBGE explica todas essas questões com dados recentes, de maio de 2015. Disponível em: <https://www.youtube.com/watch?v=xMIiMNI6iGU>.

O desvio-padrão ou a raiz quadrada da variância de uma amostra pode ser utilizado para estimar a verdadeira variância de uma população. A equação que vimos anteriormente (Equação 3), nos dá 11


Diagnóstico e Consultoria Empresarial

uma estimativa da variância da população. A equação exposta a seguir (Equação 3.1) é outro método comum para calcular o desvio padrão da amostra, embora seja uma estimativa que possui polarização. σn =

1 i=n (Xi - X)2 n i=1

Equação 3.1

Imagine um gestor que deseja estimar o peso médio de um conjunto de peças produzidas em um grande lote. O engenheiro mede o peso de n peças e calcula a média. Então, toma outra amostra com n peças do lote e calcula a média, continuando assim até alcançar um número de pesos amostrais médios. Nesse momento, o engenheiro gerou uma distribuição da amostra. Uma distribuição da amostra é simplesmente uma distribuição de uma determinada estatística, isto é, a média de n peças para uma determinada população. Neste exemplo, a estatística é o peso médio das peças e o tamanho da amostra é n. Se o engenheiro fosse traçar um histograma dos pesos médios, ele veria uma distribuição em forma de sino, pois, como o tamanho da amostra tende ao infinito, as distribuições de amostragem estatística se distribuem na forma de uma curva normal. O desvio-padrão da amostra (σ), em que pegamos várias peças de um lote e calculamos seu desvio, e o desvio-padrão da distribuição de amostragem, em que trabalhamos com a média dos desvios-padrão de várias amostras retiradas do lote, têm a relação que é exposta na equação a seguir (Equação 4):

σ X=

σX N

Equação 4

1.2 Técnicas de Levantamento de dados Você já foi abordado na rua por algum indivíduo para responder a um questionário sobre determinadas questões? Bem, saiba que esta é uma das técnicas de coleta de dados e gestão da informação. Neste tópico, abordaremos os principais métodos de levantamento de dados e suas características.

1.2.1 Os principais métodos A escolha do método é influenciada pela estratégia de coleta de dados, o tipo de variável, a precisão exigida, o ponto de coleta e a habilidade do coletor. Os principais métodos de coleta de dados são:

• Registro: registros e licenças são particularmente valiosos para a enumeração completa, mas estão limitados a variáveis ​​que mudam lentamente, como números de navios de pesca e suas características.

• Questionários: formulários são preenchidos e devolvidos pelos entrevistados. Um método de baixo custo que é útil quando as taxas de alfabetização são elevadas e os entrevistados são colaborativos.

• Entrevistas: formulários que são preenchidos através de uma entrevista com os indivíduos selecionados. É um método mais caro do que os questionários, porém melhor para questões mais complexas, quando há baixa escolaridade ou entrevistados menos colaborativos.

12 Laureate- International Universities


• Observações

diretas: fazer medições diretas. É o método mais preciso para muitas variáveis, tais como a captura de informações, mas geralmente é um processo caro.

• Relatórios: alternativa para fazer medições diretas é pedir que os entrevistados

relatem as suas atividades. Os relatórios requerem alfabetização e colaboração, e podem ser apoiados por uma exigência legal e medições diretas.

As fontes das informações também são um fator importante para a escolha e concepção de métodos. Além disso, a coleta de dados deve ser realizada em intervalos suficientemente frequentes para garantirmos uma boa gestão das informações, contando com o auxilio dos entrevistados que estão dispostos a fornecerem dados. Para dados menos frequentes, podemos usar recenseadores (como censo Brasil ou censo IBGE, por exemplo) uma vez que os custos de recolha são muito mais baixos. Muitas variáveis podem ​​ ser recolhidas por mais de um método e em diferentes pontos de pesquisa. Sempre que possível, os dados devem ser coletados de várias fontes para cruzar possiveis erros e, em muitos casos, variáveis diferentes ​​ podem ser coletadas simultaneamente causando a redução dos custos. O programa de coleta de dados, portanto, deverá ser planejado antes de ser executado. Existem fortes ligações entre tipos de dados que podem ser obtidos e os métodos disponíveis para a coleta.

Figura 3 - Todo levantamento de dados é baseado em pesquisa. Fonte: Shutterstock, 2015.

VOCÊ QUER LER? Você gostaria de conhecer um pouco mais sobre a técnica de entrevista para o levantamento de dados? Então leia o artigo Aprendendo a entrevistar: como fazer entrevistas em Ciências Sociais. Nele, você conhecerá a importância da entrevista como uma técnica de coleta de dados utilizada no campo da Sociologia, para a captação de dados subjetivos. Há também algumas sugestões escritas por Bourdieu de como fazer uma entrevista utilizando o método científico. Disponível em: <https://periodicos.ufsc.br/ index.php/emtese/article/view/18027>.

Se os participantes de um estudo são selecionados aleatoriamente em uma população grande, podemos generalizar os resultados do estudo para uma população ainda maior. Mas grave bem: isso só ocorre se a seleção for aleatória. A relação de causa e efeito pode ser provocada quando as amostras são designadas aleatoriamente para os grupos de testes, portanto, controlar 13


Diagnóstico e Consultoria Empresarial

alocação das amostras nos grupos permite investigar com mais precisão as relações causais. A qualidade de uma amostra estatística, ou seja, sua exatidão, precisão e representatividade é fortemente afetada pela maneira que as amostras são escolhidas.

VOCÊ SABIA? Como pode ser feita uma pesquisa eleitoral? Bem, fique atento ao passo a passo exposto a seguir: 1. Criar a pesquisa: crie uma pesquisa com uma questão Múltipla Escolha com o nome dos candidatos, onde apenas uma única opção de resposta é permitida. 2. Coletar as informações: uma boa forma de coleta é o uso do email, uma vez que esta ferramenta assegura que cada entrevistado vote apenas uma vez. Além disso, você pode manter o controle de quem respondeu ou não, mantendo os votos anônimos. Se você estiver usando outro tipo de coletor, tome cuidado para ter apenas uma resposta por eleitor e fazer uma pesquisa anônima. 3. Analisar os resultados: a partir de um percentual de respostas, você será capaz de ver qual candidato tem a maioria dos votos, podendo criar um gráfico personalizado com a exibição dos resultados.

Existem duas categorias de métodos de amostragem:

• amostras probabilísticas, em que cada elemento da população tem a mesma chance de ser escolhido para a amostra.

• amostras não-probabilísticas, em que

não sabemos a probabilidade que cada elemento da população tem de ser escolhido. Não podemos ter certeza de que cada elemento de uma população terá a mesma chance de ser escolhido.

Saiba que os métodos de amostragem não-probabilística oferecem duas vantagens potenciais: conveniência e custo. Porém, há também desvantagens! A principal delas é que esses métodos não permitem estimar a extensão em que a estatística das amostras difere dos parâmetros populacionais. Dois dos principais métodos de amostragem não-probabilística são amostras de voluntários e amostras de conveniência:

• a

amostra voluntária é composta de pessoas que se auto-selecionam para análise e que, muitas vezes, têm um forte interesse no tema principal da pesquisa;

• a amostra de conveniência é composta de pessoas que são fáceis de encontrar.

VOCÊ QUER VER? Você gostaria de saber o papel da pesquisa quantitativa nos dias de hoje? Neste vídeo, João Paulo Cavalcanti, da agência Box 1824, discute a pesquisa quantitativa e a aponta como uma poderosa ferramenta, especialmente quando utilizada em conjunto com as pesquisas qualitativas. Segundo ele, essa é a tendência do mercado hoje. Veja no link: <https://www.youtube.com/watch?v=iAlERXy9ElI>.

14 Laureate- International Universities


1.3 Amostragem aleatória simples e aleatória estratificada Veremos, neste tópico, os principais métodos de amostragem. Dentre eles, podemos citar: a amostragem aleatória simples, a amostragem estratificada, a amostragem por conglomerados, a amostragem de múltiplos estágios e a amostragem aleatória sistemática. Saiba que o principal benefício destes métodos de amostragem é que eles garantem que a amostra escolhida é representativa da população, o que assegura a validade das conclusões estatísticas. Vamos lá?

1.3.1 Amostragem Aleatória Simples Grave bem: uma amostra aleatória simples é produzida por um sistema que assegura que cada um dos elementos da população de tamanho “n” tem uma probabilidade igual de ser escolhido como amostra.

VOCÊ QUER LER? No artigo O método de pesquisa survey, os autores abordam este método de pesquisa, com foco nas suas características gerais e em alguns aspectos relacionados à amostragem, elaboração do instrumento de pesquisa, estratégia de aplicação, verificação da validade e da confiabilidade, discutindo também algumas referências gerais sobre a análise dos dados. Disponível em: <http://www.rausp.usp.br/busca/artigo.asp?num_artigo=269>.

Figura 4 - Existem várias técnicas de separação de amostras. Fonte: Shutterstock, 2015.

Como você já deve saber, na amostra aleatória simples todos os valores envolvidos têm uma chance igual de serem escolhidos de forma aleatória, mas não mais de uma vez para evitar repetição de valores que afetariam negativamente a validade do resultado. Entenda que a amostragem aleatória simples é o tipo de amostragem probabilística mais utilizada. O processo consiste em selecionar um a amostra “n” a partir de uma população “N”. 15


Diagnóstico e Consultoria Empresarial

Um benefício importante da amostragem aleatória simples é que ela permite que os pesquisadores utilizem métodos estatísticos para analisar os resultados das amostras. Por exemplo, é possível utilizar os métodos estatísticos para definir um intervalo de confiança em torno de uma média da amostra. Saiba que há muitas maneiras de se obter uma amostra aleatória simples; uma delas seria o método de loteria, em que para cada um dos membros da população “N” é atribuído um número único. Os números são colocados numa vasilha e completamente misturados. O pesquisador seleciona “n” números e separa suas respectivas amostras. Vamos imaginar que uma universidade tem dez mil alunos. Estes indivíduos formam a população (N), isto é, cada um desses dez mil é interpretado como uma unidade. A fim de selecionar uma amostra (n) desta população, poderíamos optar por usar uma amostra aleatória simples, na qual haveria uma chance igual de cada um dos dez mil estudantes serem selecionados. O objetivo da amostra aleatória simples é reduzir o potencial de polarização na seleção dos casos, fornecendo uma amostra que é altamente representativa da população a ser estudada e permitindo fazer relações estatísticas confiáveis. Tenha em mente, porém, que uma amostra aleatória simples só pode ser realizada se a lista da população for acessível e completa. A obtenção de uma lista completa da população, entretanto, em alguns casos pode ser difícil, cara e demorada.

1.3.2 Amostragem aleatória estratificada Uma amostra aleatória estratificada divide a população em grupos, podendo haver diferentes quantidades de amostras em cada grupo. Imagine a seguinte situação: em uma igreja há 600 mulheres e 400 homens assistindo a celebração. Uma maneira de obter uma amostra aleatória estratificada de tamanho 30 é tomar uma amostra aleatória simples de 18 mulheres (de um total de 600) e outra de 12 homens (de um total de 400). A amostragem aleatória estratificada dá informações mais precisas do que a amostragem aleatória simples, para uma determinada dimensão de amostra. Assim, se a informação sobre todos os membros da população estiver disponível, a amostragem estratificada geralmente será utilizada. A amostragem aleatória estratificada é um método de amostragem que envolve a divisão de uma população em grupos menores conhecidos como estratos. Neste tipo de amostragem, os estratos são formados com base em atributos ou características compartilhadas dos membros. Depois, uma amostra aleatória é recolhida num número proporcional ao tamanho do estrato comparado à população. Amostragem estratificada aleatória refere-se a um método de amostragem que tem as seguintes propriedades: a população consiste de N elementos e é dividida em H grupos, chamados estratos. Cada elemento da população pode ser atribuído a um estrato. O número de elementos de cada estrato será proporcional à porcentagem de elementos com determinada característica. A amostra estratificada pode proporcionar maior precisão do que uma amostra aleatória simples do mesmo tamanho, pois requer uma amostra menor, econimizando recursos. A principal desvantagem de uma amostra estratificada é que ela pode exigir mais esforço de obtenção e análise do que uma amostra aleatória simples.

VOCÊ QUER VER? Você gostaria de saber um pouco mais sobre amostras aleatórias? Então veja o vídeo da Universidade Virtual do Estado de São Paulo. Em vinte e sete minutos você irá aprender o conceito de amostragem, amostra e as técnicas de amostragem. Disponível em: <https://www.youtube.com/watch?v=sWJlocN-bpc>.

16 Laureate- International Universities


1.4 Amostragem por conglomerado e amostragem não-probabilística Existem várias formas alternativas de recolha de uma amostra, as quais podem ser agrupadas em técnicas probabilisticas e técnicas não-probabilísticas. Na técnica probabilistica, um elemento da população tem uma probabilidade não nula de seleção. A amostra aleatória simples é o melhor exemplo de técnica probabilistica conhecida, em que os membros da população têm uma probabilidade igual de serem selecionados. Os projetos amostragem probabilística são usados ​​quando a representatividade da amostra é importante para uma generalização mais ampla. Na amostragem não-probabilística, a probabilidade de qualquer elemento específico da população ser escolhido é desconhecida. A seleção das unidades na amostragem não-probabilística é bastante arbitrária e não existem técnicas estatísticas apropriadas de medição de uma amostra aleatória se essa for não-probabilística. Existem, no entanto, ocasiões em que as amostras não-probabilísticas são as mais adequadas para a pesquisa. Veremos tais casos neste tópico!

1.4.1 Amostragem por conglomerado Em situações em que a amostragem aleatória simples ou amostragem aleatória estratificada não são possíveis, um dos métodos mais comuns de amostragem é a amostragem por conglomerados. A amostragem por conglomerados consiste na divisão de uma população em grupos (conglomerados) segundo algumas características da população em estudo. A divisão ocorre de modo que os elementos dentro de cada conglomerado sejam diferentes entre si, ou seja, cada conglomerado deve ser uma representação da população como um todo. A amostragem por conglomerados é apenas uma maneira de escolher aleatoriamente áreas geográficas cada vez menores até chegar a uma área pequena o suficiente que permita encontrar ou criar uma lista das amostras agregadas, a fim de fazer a amostragem aleatória simples ou estratificada. Pense no seguinte exemplo: você precisa analisar o status de uma população quanto à escolaridade dos eleitores. Você pode selecionar algumas cidades, porém as autoridades não têm listas de todas as famílias e há muitas pessoas em cada cidade para qeu uma lista seja criada. Neste caso, dentro das cidades selecionadas, você escolhe unidades geográficas menores, como bairros, por exemplo, nas quais é possível ter acesso a listas prontas de pessoas ou familias ou você pode elaborar uma nova lista.

VOCÊ O CONHECE? Edmar Bacha é um estatístico renomado no Brasil. Nessa entrevista, ele fala de sua carreira e da história do IBGE (Instituto Brasileiro de Geografia e Estatística). Vale a pena assistir! Disponível: <https://www.youtube.com/watch?v=cCyff2dMOBE>.

1.4.2 Amostragem não-probabilística Amostragem não-probabilística é uma técnica de amostragem em que os indivíduos na população não têm chances iguais de serem selecionados. Em contraste com amostragem probabilística, esta modalidade não é o produto de um processo de seleção randomizado, pois os elementos geralmente são selecionados com base na facilidade de acesso ou pelo julgamento pessoal do pesquisador. 17


Diagnóstico e Consultoria Empresarial

A desvantagem do método de amostragem não probabilistico é que uma proporção desconhecida de toda a população não foi amostrada. Isto implica na possibilidade de não representatividade da totalidade da população com precisão. Os resultados da pesquisa não podem ser utilizados em generalizações relativas à totalidade da população. Os tipos de amostragem não-probabilística são: amostragem por conveniência, amostragem consecutiva, amostragem por quota, amostragem por julgamento e amostragem “bola de neve”. A seguir, descreveremos cada uma das técnicas. Amostragem de conveniência é provavelmente a mais comum de todas as técnicas de amostragem, na qual as amostras são selecionadas porque são mais acessíveis ao pesquisador. Esta técnica é considerada a mais fácil, mais barata e a que demanda menos tempo. Já a amostragem consecutiva é muito semelhante à amostragem de conveniência, exceto que pelo fato de que procura não incluir os assuntos acessíveis como parte da amostra. Esta técnica de amostragem não-probabilística pode ser considerada como a melhor, pois dá à amostragem uma melhor representatividade. Amostragem por quotas é uma técnica de amostragem não-probabilística em que o pesquisador garante a igualdade de representação de proporção ou de indivíduos, dependendo de qual característica é considerada como base de estudo. Amostragem por julgamento, por outro lado, é mais comumente conhecida como amostragem intencional. Nesta modalidade, os indivíduos são escolhidos para fazer parte da amostra com um propósito específico em mente. Com a amostragem de julgamento, o pesquisador acredita que alguns indivíduos são mais aptos à pesquisa em comparação com outros. Amostragem “bola de neve” é normalmente feita quando a dimensão da população é muito pequena. Nesse tipo de amostragem, o pesquisador pede a um sujeito inicial para identificar outro indivíduo em potencial que também atende aos critérios da pesquisa. A desvantagem de usar uma amostra de bola de neve é sua baixa representatividade. A amostragem não-probabilistica pode ser utilizada quando existe uma característica em particular na população ou quando o investigador pretende fazer uma determinação qualitativa do estudo. Também ocorre quando é impossível randomizar ou quando a pesquisa não tem como objetivo criar generalizações referentes a toda população.

Figura 5 - A amostragem não probabilística é usada em casos especiais. Fonte: Shutterstock, 2015.

18 Laureate- International Universities


CASO

Reclamações de bagagem: qualquer pessoa que viaja de avião sabe que problemas ocasionais são inevitáveis. Os voos podem ser atrasados ​​ou cancelados devido às condições meteorológicas, problemas mecânicos ou greves trabalhistas, e a bagagem pode ser perdida, retardada, danificada ou roubada. Problemas com bagagens são particularmente irritantes e podem ter um sério impacto sobre a lealdade do cliente, o que pode custar caro para as companhias aéreas. As transportadoras aéreas relatam atrasos de voos, cancelamentos, sobrelotação, chegadas tardias, reclamações de bagagem, e outras informações operacionais para o que governo possa compilar os dados e informar ao público. Mas será que algumas companhias aéreas fazem um trabalho de melhor manuseio de bagagem? Para obter esta informação, você pode fazer uma comparação das reclamações nas três principais companhias aéreas: Gol, Tam e Azul. Qual a companhia aérea tem o melhor registro? E o pior? As queixas estão melhorando ou piorando ao longo do tempo? Existem outros fatores, tais como destinos, sazonalidade ou volume de viajantes, que afetam o desempenho do manuseio da bagagem? As variáveis ​​do conjunto de dados incluem:

• Bagagem:

o número total de reclamações dos passageiros por roubo de conteúdo da bagagem, bagagem perdida, danificada ou misturada para cada companhia aérea.

• Programação: o número total de voos previstos por essa companhia durante um período pré-determinado.

• Cancelado: o número total de voos cancelados por essa companhia durante um período pré-determinado.

• Embarcados:

o número total de passageiros embarcados em um avião da companhia aérea durante um período pré-determinado.

Para cada uma das variáveis, você deve escolher a técnica através a qual selecionaria as amostras. Os resultados da pesquisa são geralmente sujeitos a algum tipo de erro. Os erros podem ser classificados em: erros amostrais e erros não amostrais. O termo “erro”, aqui, inclui desvios sistemáticos, bem como enganos aleatórios. Saiba que os erros de amostragem e preconceitos são induzidos pelo desenho da amostra. Eles incluem o viés de seleção, quando as verdadeiras probabilidades de seleção diferem daquelas assumidas no cálculo dos resultados, e a variação aleatória nos resultados devido à seleção aleatória da amostra. Os erros não amostrais também podem afetar as estimativas da pesquisa final, sendo causados​​ por problemas na seleção dos dados, no processamento, ou pelo tipo da amostra. Eles incluem: a inclusão de dados a partir do exterior da população, a não inclusão de elementos da população, a erros na comunicação entre o entrevistador e o entrevistado, a erros nos dados de codificação e na obtenção de dados incompletos dos indivíduos selecionados.

19


Síntese Síntese

Concluímos este capítulo em que tivemos a oportunidade de conceituar Probabilidade e Estatística. Agora, você já conhece as regras básicas para o desenvolvimento desta área e sabe da importância do levantamento de amostragem. Neste capítulo, você teve a oportunidade de:

• conceituar estatística e conhecer sua importância no cotidiano de milhares de pessoas; • discutir a evolução histórica da estatística; • diferenciar as técnicas de levantamento de dados estatísticos; • identificar quais técnicas são adequadas a determinados tipos de situação; • conhecer os tipos de erros aos quais o resultado da pesquisa pode estar sujeito.

20 Laureate- International Universities


Referências Bibliográficas

ABRAMOWITZ, M.; STEGUN, I. A (eds). Handbook of Mathematical Functions, with Formulas, Graphs, and Mathematical Tables. Washington, D.C.: U.S. Government Printing Office, 1972. BOX, G. E.P.; HUNTER, W. G.; HUNTER, J. S. Statistics for Experimenters: An Introduction to Design, Data Analysis, and Model Building. New York: John Wiley and Sons, 1978. DEVORE, J. L. Probability and Statistics for Engineering and the Sciences. 4. ed. Wadsworth Publishing, 1995. INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA (IBGE). Estatística do século XX. Rio de Janeiro, 2006. Elaboração do arquivo PDF. Disponível em: <http://seculoxx.ibge.gov.br/images/ seculoxx/seculoxx.pdf>. Acesso em: 14 dez. 2015. MCCALL, R. B. Fundamental Statistics for the Behavioral Sciences. 5. ed. New York: Harcourt Brace Jovanovich, 1990. PRESS, W. H.; TEUKOLSKY, S. A.; VETTERLING, W. T.; FLANNERY, B. P. Numerical Recipes in C: The Art of Scientific Computing. 2. ed. New York: Cambridge University Press, 1992. SOKAL, R. R.; ROHLF, F. J. Biometry: The Principles and Practice of Statistics in Biological Research. 2. ed. New York: W. H. Freeman, 1995.

21



Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.