Introdução à Estatística para Ciência de Dados Da exploração dos dados à experimentação contínua com exemplos de código em Python e R
Tatiana Escovedo, Marcos Kalinowski, Thiago Marques
Sobre o livro
Por que escrevemos este livro?
Quando eu, Tatiana, iniciei meus estudos em Ciência de Dados, há muitos anos, sentia que a maioria dos livros existentes na literatura era muito complexa, recheada de demonstrações matemáticas e detalhes técnicos muitas vezes assustadores para um iniciante na área, especialmente para aqueles cuja base matemática não era tão profunda. Cada pessoa tem um estilo preferido de aprendizagem e, apesar de muitos preferirem conteúdos detalhados e profundos, o estilo que sempre funcionou para mim foi o que eu chamo de "aprendizado cebola", pois é feito em camadas: gosto de ter primeiro uma visão geral de todos os assuntos e, depois, ir me aprofundando em determinados tópicos de acordo com a minha necessidade. Meus alunos adaptaram o conceito de "aprendizado cebola" para: quanto mais você aprende e se aprofunda, mais lágrimas você derrama. Acredito que estas lágrimas se refiram às lágrimas de alegria de estudar Ciência de Dados!
Pensando também que a maioria dos livros técnicos é escrita em inglês e muitos estudantes têm dificuldades de compreensão do idioma (ou mesmo preferem ler em português) surgiu a ideia de escrever um livro introdutório de Ciência de Dados em português, que pudesse guiar os aprendizes iniciantes nesta área fascinante, e estimulá-los a se desenvolverem em tópicos mais avançados. Esse livro foi lançado em 2020 pela Editora Casa do Código e você pode conferir em https://www.casadocodigo.com.br/products/livro-data-science.
Nesta linha, tive a ideia de convidar alguns profissionais incríveis para juntos escrevermos um livro utilizando a mesma abordagem, mas agora focado em conceitos básicos de Estatística necessários para uma pessoa cientista de dados. Além dos conceitos, apresentamos exemplos práticos nas linguagens R e Python. Esperamos que a leitura seja agradável e que este livro possa ser útil na sua caminhada! Bons estudos.
Para quem é este livro?
Este livro destina-se a profissionais e estudantes da área de Ciência de Dados, que estejam interessados em aprender conceitos básicos de Estatística que serão úteis para um cientista de dados para trabalhar, por exemplo, com análise exploratória de dados e Machine Learning. Assim, o livro não se destina a trazer um conteúdo completo sobre Ciência de Dados. Para um estudo mais completo (porém, não exaustivo, devido à complexidade da área), recomendamos as seguintes referências:
* "Introdução a Data Science: Algoritmos de Machine Learning e métodos de análise", de Tatiana Escovedo e Adriano Koshiyama
* "Engenharia de Software para Ciência de Dados: Um guia de boas práticas com ênfase na construção de sistemas de Machine Learning em Python", de Marcos Kalinowski, Tatiana Escovedo, Hugo Villamizar e Hélio Lopes
* "Introduction to Data Science: A Python Approach to Concepts, Techniques and Applications", de Laura Igual e Santi Seguí
* "An Introduction to Statistical Learning", de Gareth James, Daniela Witten, Trevor Hastie e Robert Tibshirani
Além disso, você pode encontrar uma lista (em constante construção) de indicações de materiais de estudo na área de Ciência de Dados (e áreas relacionadas) no link https://www.linkedin.com/pulse/material-de-estudo-ci%C3%AAncia-dados-tatiana-escovedo-phd/.
Este livro também assume que você conhece os conceitos básicos de lógica de programação e entende o básico de programação em Python e R e de suas principais bibliotecas, uma vez que os exemplos serão apresentados nestas linguagens. Para uma rápida introdução a estas linguagens, recomendamos os links https://learnxinyminutes.com/docs/python/ e https://learnxinyminutes.com/docs/r/. Para aprofundar-se e praticar, a W3Schools tem excelentes tutoriais de Python e R online, disponíveis, respectivamente, em https://www.w3schools.com/python/ e https://www.w3schools.com/r/. Se você quiser aprofundar seus estudos nestas linguagens, há na literatura diversos livros disponíveis recomendados, tais como "Python Fluente: Programação Clara, Concisa e Eficaz", "Python para Análise de Dados: Tratamento de dados com Pandas, NumPy e IPython" e "R para Data Science: Importe, arrume, transforme, visualize e modele dados". Além disso, a Editora Casa do Código oferece diversos livros que abordam Python, disponíveis em https://www.casadocodigo.com.br/collections/programacao-python. Se você julgar que precisa de um reforço em lógica de programação, veja os livros disponíveis em https://www.casadocodigo.com.br/collections/programacao-logica. Também recomendamos os excelentes livros da série "Use a Cabeça": "Use a Cabeça! Aprenda a Programar" e "Use a Cabeça! Programação".
O principal objetivo deste livro é apresentar alguns dos principais conceitos da Estatística aplicados a Ciência de Dados de forma introdutória, a fim de capacitar os cientistas de dados nesta área de conhecimento. Portanto, é importante ressaltar que este livro não tem o objetivo de ser uma literatura exaustiva ou completa sobre Estatística geral, nem um livro texto para cursos de Estatística, uma vez que já existem diversos livros consolidados e recomendados sobre o assunto. Para aqueles que tiverem interesse em outros tópicos da Estatística não abordados neste livro, recomendamos as seguintes referências:
* "Introdução à Estatística", de Mario Triola
* "Estatística Básica", de Pedro Morettin e Wilton Bussab
* "Estatística Aplicada e Probabilidade para Engenheiros", de Douglas Montgomery e George Runger
Como este livro está organizado?
Este livro aborda os principais conceitos de Estatística Descritiva, Probabilidade e Inferência Estatística relacionados a Ciência de Dados, e está organizado em oito capítulos, a saber:
* Capítulo 1: faz uma introdução ao tema, abordando a motivação de se estudar Estatística para Ciência de Dados e alguns conceitos básicos fundamentais;
* Capítulo 2: focado na Estatística Descritiva, apresenta conceitos básicos, tipos de variáveis e gráficos;
* Capítulo 3: ainda focado na Estatística Descritiva, aborda medidas de tendência central e de dispersão;
* Capítulo 4: focado em Probabilidade, apresenta conceitos e fundamentos;
* Capítulo 5: ainda focado no cálculo das Probabilidades, aborda distribuições de probabilidade discretas e contínuas;
* Capítulo 6: focado na Inferência Estatística, apresenta noções de amostragem e reamostragem;
* Capítulo 7: ainda focado na Inferência Estatística, em especial na Modelagem Estatística, introduz conceitos sobre algoritmos de Machine Learning e comparação de modelos;
* Capítulo 8: focado em Experimentação Contínua, aborda conceitos de teste de hipótese para subsidiar decisões referentes à implantação de modelos de Machine Learning.
Recursos
Os exemplos deste livro encontram-se nas linguagens Python e/ou R, as linguagens atualmente mais utilizadas pelos cientistas de dados, e têm o objetivo de ilustrar, de forma prática, os pontos teóricos abordados em cada capítulo. Recomendamos que você leia este livro sequencialmente e execute cada exemplo à medida que fizer a leitura dos capítulos. É possível utilizar diversos ambientes e IDEs para codificar nestas linguagens, tais como o PyCharm para Python e o RStudio para o R.
Para fins de simplificação, especialmente para o(a) cientista de dados iniciante, recomendamos a utilização do *"Colab" (https://colab.research.google.com/), uma ferramenta da Google que permite escrever e executar código em Python usando o próprio navegador, sem necessidade de realizar nenhuma instalação adicional. O Colab também oferece acesso gratuito a GPUs e permite compartilhar facilmente os seus códigos com terceiros. O Colab possibilita mesclar blocos de texto e código, gerando um notebook com código documentado. Também é possível codificar em R usando o Colab, bastando executar o comando "%load_ext rpy2.ipython" e, em seguida, iniciar os blocos de código em R com a instrução "%%R".
Os exemplos de código deste livro podem ser encontrados no seu repositório do GitHub, https://github.com/tatianaesc/estatisticadatascience.
Sumário
- 1 Introdução
- 1.1 Por que estudar Estatística para Ciência de Dados?
- 1.2 Conceitos fundamentais
- 1.3 Estatística e Ciência de Dados
- 2 Estatística Descritiva: Conceitos básicos, tipos de variáveis e gráficos
- 2.1 Conceitos básicos
- 2.2 Variáveis e tipos de variáveis
- 2.3 Gráficos adequados a cada tipo de variável
- 2.4 Correlação
- 3 Estatística Descritiva: Medidas de tendência central e de dispersão
- 3.1 Medidas de tendência central
- 3.2 Medidas de dispersão
- 3.3 Boxplot, ou diagrama de caixas
- 3.4 Resumo
- 4 Cálculo das Probabilidades: Conceitos e fundamentos
- 4.1 Conceitos fundamentais em probabilidade
- 4.2 Axiomas de probabilidade de Kolmogorov
- 4.3 Atribuição das probabilidades
- 5 Cálculo das Probabilidades: Distribuições de probabilidade discretas e contínuas
- 5.1 Distribuições de probabilidade discretas
- 5.2 Distribuições de probabilidade contínuas
- 6 Inferência Estatística: Noções de amostragem e reamostragem
- 6.1 Teorema central do limite
- 6.2 Tipos de amostragem casuais/probabilísticas
- 6.3 Tipos de amostragem não casuais/não probabilísticas
- 6.4 Reamostragem
- 6.5 Intervalos de confiança
- 7 Inferência Estatística: Modelagem Estatística - Introdução aos algoritmos de Machine Learning e comparação de modelos
- 7.1 Problemas de Machine Learning
- 7.2 Algoritmos de Machine Learning
- 7.3 Exemplo prático
- 8 Experimentação Contínua
- 8.1 Experimentação Contínua na Ciência de Dados
- 8.2 Hipótese
- 8.3 Teste de hipótese
- 8.4 Teste de normalidade
- 8.5 Homocedasticidade
- 8.6 Testes de hipótese paramétricos
- 8.7 Testes de hipótese não paramétricos
- 8.8 Tamanho do efeito (effect size)
- 8.9 Considerações finais
Dados do produto
- Número de páginas:
- 205
- ISBN:
- 978-85-5519-380-4
- Data publicação:
- 06/2024