Como analisar grandes dados com o Excel
Como analisar grandes dados com o Excel
Hoje, discutimos como lidar com grandes conjuntos de dados (grandes dados) com o MS Excel. Este artigo ĂŠ para comerciantes, como construtores de marcas, agentes de marketing, analistas de negĂłcios e similares, que querem ser prĂĄticos com dados, mesmo quando ĂŠ uma grande quantidade de dados.
Por que se preocupar em lidar com grandes dados?
Se vocĂŞ nĂŁo ĂŠ o martelo, vocĂŞ ĂŠ o prego. NĂłs, os comerciantes, devemos defender o nosso papel de decisores estratĂŠgicos ao manter o controle da função de anĂĄlise de dados que estamos perdendo para a nova geração de codificadores de software e gerentes de dados. Isso nos obriga a melhorar nossa capacidade de lidar com grandes conjuntos de dados, que podem ter vĂĄrios benefĂcios. Talvez o mais atraente do ponto de vista da carreira seja reafirmar nosso valor no novo mundo dos sistemas de TI altamente desenvolvidos, implacavelmente crescentes e muitas vezes inflexĂveis, cheios de muitos dados que alguĂŠm pensa que poderiam ser muito Ăşteis, se apenas fossem analisados ââadequadamente.
Nesta medida, muitos departamentos de TI estĂŁo empregando Data Architects, Big Data Managers, Data Visualizers e Data Squeezers. Esses programadores, especializados em diferentes tipos de software, sĂŁo, em alguns casos, jĂĄ ignorando a colaboração com os comerciantes e indo diretamente no desenvolvimento de aplicativos usados ââpara fins de anĂĄlise de negĂłcios. Esses caras sĂŁo os novos concorrentes para o papel do lĂder empresarial, e eu me pergunto quanto tempo demorarĂĄ atĂŠ começar a tomar decisĂľes estratĂŠgicas tambĂŠm. NĂŁo devemos deixar isso acontecer, a menos que nĂłs gostemos de ser o prego!
Grandes dados prĂĄticos
O MS Excel ĂŠ um aplicativo muito amado, diz alguĂŠm por cerca de 750 milhĂľes de usuĂĄrios. Mas nĂŁo parece ser o aplicativo apropriado para a anĂĄlise de grandes conjuntos de dados. Na verdade, o Excel limita o nĂşmero de linhas em uma planilha a cerca de um milhĂŁo; Isso pode parecer muito, mas as fileiras de grandes dados vĂŞm em milhĂľes, bilhĂľes e atĂŠ mais. Neste ponto, o Excel parece ser de pouca ajuda com a grande anĂĄlise de dados, mas isso nĂŁo ĂŠ verdade. Leia.
Considere que vocĂŞ tem um grande conjunto de dados, como 20 milhĂľes de linhas de visitantes do seu site, ou 200 milhĂľes de linhas de tweets, ou 2 bilhĂľes de linhas de preços diĂĄrios de opçþes. Suponha tambĂŠm que vocĂŞ queira investigar esses dados para procurar associaçþes, clusters, tendĂŞncias, diferenças ou qualquer outra coisa que possa ser de seu interesse. Como vocĂŞ pode analisar esta enorme massa de dados sem usar software crĂptico e caro gerenciado apenas por usuĂĄrios experientes?
Bem, vocĂŞ nĂŁo precisa necessariamente - vocĂŞ pode usar amostras de dados em vez disso. Ă o mesmo conceito por trĂĄs da pesquisa populacional comum :. para investigar as preferĂŞncias dos homens adultos que vivem nos EUA, vocĂŞ nĂŁo pede 120 milhĂľes de pessoas; uma amostra aleatĂłria pode fazĂŞ-lo. O mesmo conceito se aplica aos registros de dados tambĂŠm, e em ambos os casos hĂĄ pelo menos trĂŞs perguntas legĂtimas a serem feitas:
- Quantos registros precisamos para ter uma amostra com a qual podemos fazer estimativas precisas?
- Como extraĂmos registros aleatĂłrios do conjunto de dados principal?
- As amostras de grandes conjuntos de dados sĂŁo confiĂĄveis?
QuĂŁo grande ĂŠ uma amostra confiĂĄvel de registros?
Para o nosso exemplo, usaremos um banco de dados com 200.184.345 registros contendo dados das ordens de compra de uma linha de produtos de uma determinada empresa durante 12 meses.
Existem vĂĄrias tĂŠcnicas de amostragem diferentes. Em termos gerais, eles dividem-se em dois tipos: amostragem aleatĂłria e nĂŁo aleatĂłria. TĂŠcnicas nĂŁo aleatĂłrias sĂŁo usadas somente quando nĂŁo ĂŠ possĂvel obter uma amostra aleatĂłria. E a tĂŠcnica de amostragem aleatĂłria simples ĂŠ apropriada para aproximar a probabilidade de algo acontecer na população maior, como em nosso exemplo.
Uma amostra de 66.327 registros selecionados aleatoriamente pode aproximar as caracterĂsticas subjacentes do conjunto de dados de que ele provĂŠm no intervalo de confiança de 99% e nĂvel de erro de 0,5%. Esse tamanho de amostra ĂŠ definitivamente gerenciĂĄvel no Excel.

Imagem 1: tamanhos aleatĂłrios de amostra produzidos com a fĂłrmula bernoulliana de acordo com o tamanho da população, o intervalo de confiança e o nĂvel de erro. Tabela produzida com a ferramenta Sample Manager do software MM4XL .
O nĂvel de confiança nos diz que se extraĂmos 100 amostras aleatĂłrias de 66.327 registros cada uma da mesma população, 99 amostras podem assumir que reproduzem as caracterĂsticas subjacentes do conjunto de dados de que elas vieram. O nĂvel de erro de 0,5% diz que os valores que obtemos devem ser lidos no intervalo de mais ou menos 0,5%, por exemplo, depois de transformar os registros em tabelas de contingĂŞncia.
Como extrair amostras aleatĂłrias de registros
As estatĂsticas de amostragem sĂŁo a solução. Utilizamos a ferramenta Sample Manager do software MM4XL para quantificar e extrair as amostras utilizadas para este documento. Se vocĂŞ nĂŁo possui MM4XL, vocĂŞ pode gerar nĂşmeros de registro aleatĂłrios da seguinte maneira:
- Digite no Excel 66.327 vezes a fĂłrmula = RAND () * [Tamanho do conjunto de dados]
- Transforme as fĂłrmulas em valores
- Redonde os nĂşmeros para nĂŁo decimais
- Verifique se nĂŁo existem duplicatas [2]
- Classifique o intervalo e vocĂŞ obtĂŠm uma lista de nĂşmeros como mostrado na seguinte imagem

Extraia esses nĂşmeros de registro do conjunto de dados principal: Esta ĂŠ a sua amostra de registros aleatĂłrios. O nĂşmero 3.076 na cĂŠlula A22 mostrado acima significa que o nĂşmero de registro 3.076 do conjunto de dados principal estĂĄ incluĂdo na amostra. Para reduzir o risco de extrair registros tendenciosos pela falta de aleatoriedade, antes de extrair os registros da amostra, ĂŠ um bom hĂĄbito classificar a lista principal, por exemplo, alfabeticamente pelo primeiro nome da pessoa ou por qualquer outra variĂĄvel que nĂŁo seja diretamente relacionado aos valores do (s) objeto (s) da (s) variĂĄvel (s) do estudo.
Se estivermos prontos para aceitar a aproximação imposta por uma amostra, podemos desfrutar da liberdade de sermos pråticos com nossos dados novamente. De fato, embora 66.327 registros possam ser gerenciados bastante bem no Excel, ainda temos uma amostra grande o suficiente para descobrir pequenas åreas de interesse.
Os grandes tamanhos de amostra nos permitem gerenciar conjuntos de dados muito grandes no Excel, um ambiente que a maioria de nĂłs estĂĄ familiarizado. Mas qual ĂŠ a confiabilidade de tais amostras na vida real?
As amostras de grandes conjuntos de dados sĂŁo confiĂĄveis?
A questĂŁo-chave ĂŠ: uma amostra aleatĂłria pode reproduzir com precisĂŁo as caracterĂsticas subjacentes da população de que ĂŠ extraĂdo? Para encontrar alguma evidĂŞncia, nĂłs:
- Mediu vĂĄrias caracterĂsticas de todo o nosso conjunto de dados, a população subjacente.
- Em seguida, extraĂmos amostras aleatĂłrias do conjunto de dados principal e medimos as mesmas caracterĂsticas que para todo o conjunto de dados.
- Finalmente, realizamos vårios testes de confirmação, comparando as medidas realizadas nas amostras e no conjunto de dados principal.
A imagem abaixo mostra os campos de nossos registros. Eles podem ser lidos da seguinte forma: O registro número 1 (linha 2) Ê uma ordem de compra da AmÊrica do Norte, recebida em setembro de 2007, referente a um único item com preço de USD 13.159 e vendido por US $ 11.800.

A prĂłxima imagem mostra as medidas calculadas nas variĂĄveis ââindividuais. O valor MĂŠdia e MĂŠdia foi calculado para os campos "Volume", "Vendas" e "Vendas com desconto" (veja o intervalo D1: G3). Contagem e Contagem FrequĂŞncias foram encontradas para as variĂĄveis ââ"Continente" (ver intervalo I1: K4) e "MĂŞs" (ver alcance M1: O13). Por exemplo, 1.865 na cĂŠlula E2 representa o nĂşmero mĂŠdio de itens em uma ordem de compra. USD 5,841 em G2 significa o preço mĂŠdio de venda de um item vendido. Em K2, 20.815% ĂŠ a parcela de itens (produtos) vendidos para a Ăsia e, em O2, 8.556% ĂŠ a parcela de itens vendidos em janeiro de 2008. Vamos testar se as amostras aleatĂłrias podem se aproximar dos valores mĂŠdios e das freqßências percentuais mostradas em a seguinte imagem.

De acordo com o manual ASTM [1], desenhamos 20 amostras selecionadas aleatoriamente de 66.327 registros cada uma da população de 200.184.345 registros. Para cada amostra, calculamos os mesmos valores mostrados na imagem acima e para cada valor aplicamos uma prova Z para identificar quaisquer valores anĂ´malos nas amostras. Os testes Z foram executados para variĂĄveis ââcontĂnuas e discretas.
All-in-one, mĂŠtricas contĂnuas
A tabela seguinte mostra os resultados do teste para as variĂĄveis ââ"Volume", "Vendas" e "Vendas com desconto". A cĂŠlula B1, por exemplo, nos informa, em mĂŠdia, uma ordem de compra (um registro) das principais contas de conjuntos de dados para um volume de vendas igual a 1.865 itens com um valor "Vendas mĂŠdias" de US $ 10'418 e uma "Vendas com desconto mĂŠdio "Valor de USD 5'841. Para os valores de amostra que partem severamente dos valores de controle na linha 2, a probabilidade ĂŠ alta de que um teste Z no nĂvel de probabilidade de 99% capture a anomalia.

De acordo com as colunas "Z-Test" da imagem acima, nenhuma amostra mostra valores mĂŠdios diferentes das mĂŠdias do conjunto de dados principal. Por exemplo, o "Volume MĂŠdio" da Amostra 3 e o do conjunto de dados principal diferem apenas de 0,001 unidades por ordem de compra ou uma diferença de cerca de 0,5%. As outras duas variĂĄveis ââmostram um cenĂĄrio semelhante. Isso significa que a Amostra 3 produziu valores bastante precisos no nĂvel global (todos os registros contados em uma Ăşnica mĂŠtrica).
MĂŠtricas categĂłricas
We tested the variable âContinentâ, which splits into three categories: Asia, Europe and North America. Columns B:D of the following table show the share of orders coming from each continent. The data in row 15 refer to the main dataset. In this case too, the difference between main dataset and samples is quite small, and the Z-Test (columns E:G) shows no evidence of bias, with the exception of slight deviations in Europe for sample 5, 8, 9, and 18-20.

Os valores de "Probabilidade" na coluna H: J medem a probabilidade de um valor de amostra ser diferente do mesmo valor do conjunto de dados principal. Por exemplo, 21,1% em B36 ĂŠ menor do que 20,8% em B35. No entanto, como o primeiro vem de uma amostra, precisamos verificar, de um ponto de vista estatĂstico, a probabilidade de que a diferença entre os dois valores seja causada por um viĂŠs no mĂŠtodo de amostragem. Os 95% sĂŁo um nĂvel comum de aceitação ao lidar com esse tipo de problema. Com pequenos tamanhos de amostra (30), o limite de probabilidade de 90% ainda pode ser usado, embora isso implique maior risco de considerar erroneamente dois valores iguais, quando na verdade eles sĂŁo diferentes. Por razĂľes de confiabilidade de teste, trabalhamos com o limite de probabilidade de 99%. Em H36, lemos a probabilidade B36 ĂŠ diferente de B35 ĂŠ igual a 81%, o inĂcio da ĂĄrea onde podem ser encontradas diferenças anĂ´malas. Apenas a parcela da amostra 5 e 19 para a Europa ĂŠ superior a 90%. Todos os outros valores estĂŁo bem longe de uma posição preocupante.
Isso tambÊm significa que a parcela das ordens de compra recebidas dos três continentes reproduzidos com amostras aleatórias não mostra evidências de diferenças dramåticas fora dos limites esperados. Isso tambÊm pode ser confirmado intuitivamente simplesmente observando os valores mÊdios da amostra na faixa B36: D55 da imagem acima; eles não diferem dramaticamente dos valores populacionais na faixa B35: D35.
Finalmente, testĂĄmos a variĂĄvel "MĂŞs", que se divide em 12 categorias e, portanto, pode gerar resultados mais baixos do Z-Test devido ao tamanho reduzido da amostra por categoria. As colunas B: M na tabela a seguir mostram a probabilidade de que o nĂşmero amostrado de ordens de compra por mĂŞs difira do mesmo valor do conjunto de dados principal. Nenhum valor amostrado ĂŠ diferente do valor correspondente do conjunto de dados principal com uma probabilidade maior do que 75% e apenas um pequeno nĂşmero de valores tem uma probabilidade maior do que 70%.

Os resultados dos testes realizados em todas as amostras não encontraram anomalias graves que desencorajariam a aplicação do mÊtodo descrito neste artigo. A anålise de conjuntos de dados grandes por meio de amostras aleatórias produz resultados confiåveis.
Pode provar a confiabilidade deste Experimento por acaso?
AtĂŠ agora, as amostras aleatĂłrias tiveram um bom desempenho na reprodução das caracterĂsticas subjacentes do conjunto de dados de que elas vieram. Para verificar se isso poderia ter acontecido por acaso, repetimos o teste usando duas amostras nĂŁo aleatĂłrias: a primeira vez que tomamos os primeiros 66,327 registros do conjunto de dados principal e a segunda vez levando os Ăşltimos 66,327 registros.
Os resultados em breve: de 42 testes realizados com variĂĄveis ââdiscretas e categĂłricas das duas amostras nĂŁo aleatĂłrias, apenas trĂŞs apresentaram valores de Z-Test verdes. Ou seja, esses trĂŞs valores de amostra nĂŁo foram julgados diferentes do mesmo valor do conjunto de dados principal. Os restantes 39 valores, no entanto, situam-se em uma regiĂŁo vermelha profunda, o que significa que eles produziram uma representação nĂŁo confiĂĄvel dos principais dados.
Estes resultados tambĂŠm suportam a validade da abordagem por meio de amostras aleatĂłrias e confirmam que os resultados do nosso experimento nĂŁo sĂŁo por acaso. Portanto, a anĂĄlise de grandes conjuntos de dados por meio de amostras aleatĂłrias ĂŠ uma opção legĂtima e viĂĄvel.
Fechamento
Este ĂŠ um Ăłtimo momento para os comerciantes orientados a dados e dados: hĂĄ uma grande e crescente demanda por anĂĄlises, mas nĂŁo hĂĄ cientistas de dados suficientes disponĂveis para atender ainda. As estatĂsticas e a codificação de software sĂŁo as duas ĂĄreas pelas quais devemos aprofundar nosso conhecimento. Nessa fase, uma nova geração de comerciantes nascerĂĄ e esperamos sua contribuição para o implacĂĄvel mundo em evolução da construção de marca. Ferramentas de software como o MM4XL podem nos ajudar ao longo do caminho porque sĂŁo escritas para pessoas de negĂłcios e nĂŁo como estatĂsticas. Tais ferramentas devem se tornar um componente chave da nossa caixa de ferramentas para gerar percepçþes de dados e tomar melhores decisĂľes de negĂłcios.
Aproveite a anĂĄlise de dados importantes com o Excel e leia meus futuros artigos para os tomadores de decisĂŁo empresariais baseados em fatos e dados.
Obrigado por ler o meu post. Se você gostou desta publicação, então clique no botão " Curtir ". TambÊm sinta-se livre para se conectar comigo via LinkedIn .
[1] Manual sobre a Apresentação de Anålise de Dados e Anålise de Controle , 7ª edição. ASTM International, E11.10 Subcomitê de Amostragem e Anålise de Dados.
[2] Meus sinceros agradecimentos a Darwin Hanson, que capturou alguns problemas: (1) RND Ê uma função VBA, e eu entendi, claro, a função de planilha RAND; e (2) você deve verificar novamente os números aleatórios e livrar-se de duplicatas.
ComentĂĄrios
Postar um comentĂĄrio