Introdução a Data Science Algoritmos de Machine Learning e métodos de análise
Tatiana Escovedo, Adriano KoshiyamaSobre os autores
Tatiana Escovedo é Doutora em Engenharia Elétrica pela Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio, 2015) na área de Métodos de Apoio a Decisão (Machine Learning e Redes Neurais), Mestre em Informática (PUC-Rio, 2007) na área de Engenharia de Software e Bacharel em Informática (PUC-Rio, 2005). Tem experiência na área de Ciência da Computação, com ênfase em Engenharia de Software e Ciência de Dados, atuando principalmente nos seguintes temas: Desenvolvimento de Sistemas, Machine Learning, Business Intelligence e Sistemas Colaborativos. Desde 2006, é Analista de Sistemas da Petrobras e, desde 2009, é Professora e Coordenadora de cursos de pós-graduação Lato Sensu da PUC-Rio: Especialização em Análise e Projeto de Sistemas e Especialização em Ciência de Dados. Com múltiplos interesses, é apaixonada por ensinar, aprender e resolver problemas com soluções criativas. Nas horas vagas, é bailarina e pensa em maneiras de mudar o mundo. Mais informações podem ser encontradas em seu perfil no LinkedIn e no seu currículo Lattes.
Adriano Koshiyama é Doutorando em Ciência da Computação desde 2016 pela University College London (UCL), Mestre em Engenharia Elétrica pela Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio, 2014) na área de Métodos de Apoio a Decisão (Machine Learning, Estatística e Otimização) e Bacharel em Economia Pela UFRRJ (2011). Entre 2014 e 2015, foi Assistente de Pesquisa em projetos de P&D e Professor Assistente da PUC-Rio. Trabalhou como Consultor da NanoBusiness Information and Innovation na área de tecnologia e como Cientista de Dados na Sieve Price Intelligence, posteriormente adquirida pela B2W Digital SA, sendo responsável principalmente pelas estratégias de precificação automática. Entre 2016 e 2018, atuou na Nomura International PLC em seu Quant Strategies Desk (Renda Fixa) e na MindX como um cientista de dados, desenvolvendo produtos de aprendizado de máquina para avaliação psicométrica. Recentemente, ele foi estagiário no AI Labs no Goldman Sachs, trabalhando como estrategista em Machine Learning, assim como estudante associado no Alan Turing Institute. Seus principais tópicos de pesquisa estão relacionados a Ciência de Dados, Machine Learning, métodos estatísticos, otimização e finanças. Mais informações podem ser encontradas em seu perfil no LinkedIn e no seu currículo Lattes.
Prefácio
Quando iniciei meus estudos em Data Science (ou Ciência de Dados, em português), há muitos anos, sentia que a maioria dos livros existentes na literatura era muito complexa, recheada de demonstrações matemáticas e detalhes técnicos muitas vezes assustadores para um iniciante na área, especialmente aqueles cuja base matemática não era tão profunda.
Cada pessoa tem um estilo preferido de aprendizagem e, apesar de muitos preferirem conteúdos detalhados e profundos, o estilo que sempre funcionou para mim foi o que eu chamo de "aprendizado cebola", pois é feito em camadas: gosto de ter primeiro uma visão geral de todos os assuntos e, depois, ir me aprofundando em determinados tópicos de acordo com a minha necessidade.
Além disso, a maioria dos livros técnicos é escrita em inglês e muitos estudantes têm dificuldades de compreensão do idioma, ou mesmo preferem ler em português. Desta forma, surgiu a ideia de escrever um livro introdutório de Ciência de Dados em português, que pudesse guiar os aprendizes iniciantes nesta área fascinante, e estimulá-los a se desenvolverem em tópicos mais avançados.
Esperamos que a leitura seja agradável e que este livro possa ser útil na sua caminhada! Bons estudos.
Público-alvo e organização do livro
Este livro é indicado para profissionais, estudantes e professores que desejem iniciar seus estudos em Data Science e algoritmos de Machine Learning e que tenham noções de conceitos matemáticos e de lógica de programação.
O objetivo principal deste livro é mostrar como utilizar Data Science para resolver problemas e gerar produtos que agreguem valor ao negócio, aprendendo com os dados. Assim, o foco deste livro é no processo e nas técnicas relacionadas aos algoritmos preditivos mais comumente utilizados em Ciência de Dados, mas mostrando também a importância da etapa de preparação dos dados brutos, limpeza e análise exploratória.
Passaremos pelas etapas necessárias para resolução de problemas de Data Science do início ao fim, contemplando teoria e prática. Para tal, todos os conceitos teóricos apresentados serão complementados com exemplos práticos na linguagem R. O capítulo 2 explica como instalar os requisitos necessários para trabalhar com R em seu computador e traz uma introdução aos principais comandos da linguagem.
O capítulo 3 traz uma introdução a conceitos de Estatística e Álgebra Linear para que seja possível compreender melhor o funcionamento dos algoritmos apresentados no livro. Serão apresentados exemplos práticos com a linguagem R para melhor entendimento dos conceitos.
O capítulo 4 aborda o tema Pré-processamento de dados, uma etapa importantíssima para o entendimento do problema e preparação dos dados para a aplicação dos algoritmos de Machine Learning, a seguir.
Os capítulos 5 e 6 abordam problemas de Classificação, e os capítulos 7 e 8, por sua vez, problemas de Regressão. Os capítulos 9 e 10 abordam os problemas de Associação e Agrupamento, finalizando os algoritmos de Machine Learning apresentados neste livro.
Finalmente, o capítulo 11 conclui o livro, trazendo um projeto completo de Data Science do início ao fim e sugestões de aprofundamento dos estudos.
Sumário
- 1 Introdução a Data Science
- 1.1 Banco de dados ou bando de dados?
- 1.2 Aplicações de Data Science
- 1.3 Dados x informação x conhecimento
- 1.4 Esquema básico de um projeto de Data Science
- 2 Introdução a R
- 2.1 Comandos básicos
- 2.2 Criando estruturas de dados dentro do R
- 2.3 Trabalhando com data frames
- 3 Conceitos básicos de estatística e álgebra linear
- 3.1 A matemática do Data Science
- 3.2 Conceitos básicos de Estatística
- 3.3 Conceitos básicos de Álgebra Linear
- 4 Pré-processamento de dados
- 4.1 Importação de dados
- 4.2 Análise exploratória
- 4.3 Preparação e limpeza
- 5 Modelos de Classificação
- 5.1 Problemas de Classificação
- 5.2 Algoritmos
- 6 Práticas de Classificação
- 6.1 Árvores de Classificação
- 6.2 KNN
- 6.3 Naïve Bayes (Bayes Ingênuo)
- 6.4 Support Vector Machine (SVM)
- 7 Modelos de Regressão
- 7.1 Problemas de Regressão
- 7.2 Algoritmos
- 8 Práticas de Regressão
- 8.1 Regressão Linear, Árvore de Regressão e KNN para Regressão
- 8.2 Regressão Logística
- 9 Modelos de Associação e Agrupamento
- 9.1 Problemas de Associação
- 9.2 Problemas de Agrupamento
- 10 Práticas de Associação e Agrupamento
- 10.1 Apriori
- 10.2 K-means
- 11 Conclusão
- 11.1 Sugestão de template básico para projeto de Ciência de Dados
- 11.2 Exemplo de um projeto completo usando o template
- 11.3 E agora?
Dados do produto
- Número de páginas:
- 272
- ISBN:
- 978-85-7254-054-4
- Data publicação:
- 02/2020