Machine Learning Introdução à classificação
Guilherme Silveira, Bennett BullockIntrodução
O caminho com machine learning
Em 1993, eu tinha doze anos quando meu pai dizia que um computador ajudaria muito se fosse capaz de aprender e ensinar, como um adulto faz. Neste livro, abordaremos o aprendizado de máquina, machine learning.
Existe uma ilusão de que matemática é teórica e há uma aura mágica ao redor de quem a estuda, como se fosse algo meramente nato. Como qualquer bom jogador de futebol, estudei e pratiquei dia e noite, fazendo chuva ou sol.
Mas não precisava tanto para chegar a pequenas conclusões matemáticas. Quando um apartamento de 2 dormitórios tem um preço médio de R$ 2.000 reais, e um de 3 dormitórios custa R$ 3.000 reais, não é necessário um doutorado para aprender que o preço do apartamento é R$ 1.000 reais vezes o número de dormitórios.
Claro que, no mundo real, o preço de um apartamento é afetado por diversas outras variáveis; influenciam no preço desde o tamanho em metros quadrados, o número de banheiros, a localização geográfica, até as condições de manutenção de um edifício. Quanto cada uma influencia? Aí precisamos de contas mais complexas para aprender suas influências.
No fim, são contas. Contagens como soma, multiplicação e potência formam a base da estatística e matemática computacional, que está por trás dos processos complexos capazes de modelar o que acontece no mundo real. Esses processos aprendem com os dados que existem aí fora, mostrando para nós uma simplificação que nos permite adivinhar o preço justo de novos apartamentos.
Neste livro, usaremos diversos exemplos de aprendizado de máquina. Veremos, como seres humanos, como distinguimos porcos e cães, e treinaremos um modelo matemático computacional em Python para distinguir um do outro.
Aplicando esse conhecimento básico, veremos como categorizar outras informações importantes do mundo real de negócios. Sabendo qual o comportamento de usuários do meu site e quais compraram meu produto, serei capaz de adivinhar antecipadamente quais abandonarão o site sem comprar nada?
Veremos como trabalhar com variáveis numéricas e categóricas, como testar e validar nossos algoritmos e decisões. Trabalharemos com textos longos, aprendendo a transformá-los em vetores que conseguimos trabalhar, além de passar por todo um processo de padronização e limpeza do texto antes de sua normalização.
Acima de tudo, veremos os cuidados que temos de tomar ao tentar encontrar modelos. Não queremos viciar nossas decisões e acreditar encontrar relações que não existem — algo que é muito fácil de errar.
O curioso em você
Este livro foca em mostrar algoritmos e processos que podemos usar para responder perguntas do dia a dia baseadas em dados. Quanto mais dados, melhor.
Não estamos preocupados aqui com buzz words, como data scientist ou big data. Nosso foco é conhecer alguns algoritmos, entender como eles podem funcionar por trás, que tipo de perguntas podemos fazer aos dados e como cuidar para que essas perguntas não nos entreguem uma mentira.
Depois do livro, sinta-se à vontade para explorar bibliotecas em outras linguagens (como R), variações de análises de dados (data analysis) como séries temporais, classificações de longos textos ou sentimentos etc. Para alguém curioso(a), não existem limites para as perguntas. Ao término do livro, você terá algumas ferramentas novas para respondê-las.
A experiência de ensino também me colocou em contato com pessoas da área que me lembraram de que a inteligência artificial e o machine learning são ferramentas para responder perguntas. Saber quais e quantas perguntas fazer e como interpretar as respostas são habilidades importantíssimas.
Matemática ou programação?
Na prática, raramente um desenvolvedor implementa esses algoritmos a partir das contas matemáticas envolvidas neles. Mas veremos como funciona a base de um dos algoritmos, para entender que machine learning não é mágica, mas sim uma grande sacada. Assim como o fogo, a roda ou a caneta quatro cores, não existe mágica impossível de entender. Se estudarmos, aprenderemos a usar; e se desejarmos, aprenderemos como tudo funciona por trás dos panos.
O que você verá
Este livro é para quem já conhece programação e gostaria de entender e ser introduzido ao mundo de machine learning. Apesar de usarmos Python 3 no livro, quem vem de qualquer outra linguagem de programação não deve ter dificuldades em entender o código escrito aqui. Tentei ser o mais delicado possível ao introduzir conceitos e funções, mesmo quando eles são da própria API da linguagem.
Para quem está começando com programação e não conhece Python, será um pouco mais puxado. Dê uma folheada e veja se a maneira como a linguagem é mostrada o deixa confortável em seus estudos.
Confira qual a versão do Python instalada em sua máquina com python --version . Lembre-se de instalar a versão 3 e utilizar o comando python3 e pip3 , como no livro.
Professores que ensinam machine learning através de programação ou matemática poderão utilizar este livro como apoio para mostrar aplicações práticas e realistas desses algoritmos.
Sumário
- 1 Classificando e-mails, animais e muito mais
- 1.1 Resumindo
- 2 Importando, classificando e validando um modelo
- 2.1 E no mundo real, como classificar dados da web?
- 2.2 Importando, classificando e validando um modelo
- 2.3 Importando os dados
- 2.4 Analisando os valores adicionados
- 2.5 Melhorando a leitura do código
- 2.6 Acertando demasiadamente?
- 2.7 Resumindo
- 3 Classificação de variáveis categóricas
- 3.1 Instalando o Pandas
- 3.2 Resumindo
- 4 O problema do sucesso e o algoritmo burro
- 4.1 Implementando o algoritmo base
- 4.2 Calculando a quantidade de zeros e uns com o data frame
- 4.3 Lidando com sim e não
- 4.4 Utilizando collections do Python
- 4.5 Resumindo
- 5 Naive bayes e maximum a posteriori por trás dos panos
- 5.1 Resumindo
- 6 Testando diferentes modelos e validando o vencedor
- 6.1 Algoritmo AdaBoost
- 6.2 Resumindo
- 7 Novos conceitos de classificação
- 7.1 Classificando um elemento com três categorias
- 7.2 Resumindo
- 8 Utilizando o k-fold
- 8.1 Implementando o k-fold
- 8.2 Implementando o novo fit_and_predict
- 8.3 Resumindo
- 9 Criando um dicionário
- 9.1 Resumindo
- 10 Classificando os textos e ganhando produtividade na empresa
- 10.1 Resumindo
- 11 Quebrando na pontuação adequada
- 12 Conclusão
- 12.1 O caminho
- 12.2 Como continuar os estudos
Dados do produto
- Número de páginas:
- 407
- ISBN:
- 978-85-94188-18-2
- Data publicação:
- 10/2017