Skip to content

TeoMeWhy/ranked-ml

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Ranked ML

Projeto-de-Data-Science

Repositório destinado à criação de um modelo de Machine Learning com os dados da GC. A finalidade deste projeto é levar o conhecimento de Data Science e Analytics para o maior número de pessoas possível.

As lives são realizadas na Twitch no canal Téo Me Why às Terças e Quintas - 9:00AM.

Sumário

Motivação

Em primeiro lugar, a comunidade. Queremos alcançar o maior número de vidas utilizando o ensino. Dentro de minhas capacidades, posso ajudar com estatística, dados e uma pitada de programação. Então vamos utilizar os dados da Gamers Club para atacar um problema de negócio em um projeto de Data Science de começo ao fim!

Acreditamos que exemplos são a maneira mais didática para cativar e incentivar os estudantes. Então se prepare pois aqui a parada é bem mão na massa!

Vale ressaltar que o mercado na área de Tecnlogia e Dados está extremamente aquecido! Muitas vagas são abertas diariamente no Linkedin e outras plataformas de recrutamento. O pessoal de dados é cada vez mais demandado.

Sobre o curso

Algumas oportunidades que teremos de soluções para a GC:

  1. Predição de jogadores que jogarão na próxima semana/mês
  2. Predição de churn
  3. Predição de assinatura
  4. Predição churn de assinatura

Mas antes de debruçar no algoritmo, precisamos preparar os dados. Assim, passaremos pela criação de um book de variáveis (feature store) e posteriormente criar a nossa variável resposta (target), i.e. aquilo que queremos prever.

Pretendemos realizar este curso para apresentar como um algoritmo por ajudar a resolver problemas reais de negócio. Bem como, passar pelas dificuldades e preparação de dados para desenvolver uma solução end-to-end.

Sobre o professor

Téo é Bacharel em Estatística e tem Pós Graduação em Data Science & Big Data.É bastante curioso em aprender novas tecnologias e aprimorar seus projetos voltados à Análise de Dados e Modelagem Preditiva.

Tem atuado desde 2014 em grandes empresas, sempre utilizando técnicas Estatísticas e Computacionais para empregar Aprendizado de Máquina em diferentes cenários. Com isso, entende que a principal etapa no ciclo analítico consiste em consultas de dados em em diferentes fontes. Além de realizar suas lives na Twitch desde 08.2019.

Hoje, como Head of Data na Gamers Club, gostaria de contribuir ainda mais para a comunidade trazendo dados reais e aplicações com SQL, Python e Machine Learning.

Você pode conhecer mais sobre o professor no LinkedIn.

Sobre os dados

Para este curso utilizaremos dados de partidas que ocorreram nos servidores da Gamers Club. São partidas referentes à 2.500 jogadores, havendo mais de 30 estatísticas de seus partidas. Tais como Abates, Assistências, Mortes, Flash Assist, Head Shot, etc.

Alem disso, temos informações de medalhas destes players, como:

  • Assinatura Premium, Plus
  • Medalhas da Comunidade

Para ter uma melhor descrição destes dados, confira na página oficial do Kaggle onde os dados foram disponibilizados.

Abaixo temos o schema (relacionamentos) dos nossos dados.

Setup e requisitos

1. Python / Anaconda

Você pode fazer o download do Python no site oficial: www.python.org/

Como utilizaremos bibliotecas voltadas à análise de dados e modelagem, sera necessário realizar as instalações destas libs. Assim, por amor a simplicidade, eu recomendo fazer uso do Anaconda.

A instalação do Anaconda é bem simples, só deve ficar atento em adicionar seu endereço à variável PATH.

2. Visual Studio Code

Esta ferramenta é uma interface de desenvolvimento. Não é necessária pois e apenas mais um sabor dentre tantos. Porém, como gosto bastante bastante, o curso será conduzido a partir da mesma.

Para instalar o Visual Studio Code basta realizar o download na página oficial da ferramenta e seguir os passos de instalação.

2. Dados

Como vamos utilizar os dados da GC, você precisa baixar estes dados de nossa pasta no google drive.

3. Conhecimentos técnicos

Temos como objetivo ajudar pessoas que estão descobrindo o mundo de dados agora. Como é um curso de Data Science end-to-end, é recomendado que se saiba os conceitos de SQL e familiaridade com Python. Para facilitar o acompanhamento, preparamos um curso de SQL aqui.

Faremos uso das seguintes bibliotecas:

  • SQLalchemy
  • Pandas
  • Numpy
  • Scikit-learn
  • Feature-engine
  • XGBoost
  • Scikit-plot
  • Yellowbrick

Calendário

Descrição Data VOD
1. Introdução Machine Learning e Definição do problema 07.04.22 🔗
2. Criação do book de Variáveis - Parte I 12.04.22 🔗
3. Criação do book de Variáveis - Parte II 14.04.22 🔗
4. Criação da ABT (Analytical Base Table) 19.04.22 🔗
5. SEMMA e primeiro pipeline 21.04.22 🔗
6. Tunning do melhor modelo 26.04.22 🔗
7. Deploy 28.04.22 🔗

FAQ

  1. É grátis?

Sim, as lives serão abertas e sem a necessidade de pagamento.

  1. Precisa se cadastrar?

Não, é só abrir a live no horário da transmissão.

  1. Vai ficar gravado?

Sim! Os inscritos no canal da Twitch terão acesso à todos os VODs gerados a parti das lives. Para ser inscrito, basta ter Amazon Prime e assinar nosso canal de forma gratuita ou realizando o pagamento na própria plataforma.

  1. Vai para o YouTube?

Não! Queremos prestigiar nossos apoiadores do projeto. Assim, apenas os assinantes da Twitch terão acesso ao conteúdo gravado.

  1. Como posso apoiar?

Sua inscrição no canal da Twitch já apoia muito o nosso trabalho. Esta seria uma ótima forma de contribuir. Alem da ajuda financeira, sinta-se a vontade para abrir issues no nosso repositório para melhorias no projeto.

  1. Posso usar este material em um curso?

Este material é aberto e pode ser utilizado por outras iniciativas gratuitas na comunidade. É importante que se faça as devidas referências ao utilizar este projeto. Não se deve utilizar este conteúdo para fins comerciais.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Sponsor this project

 

Packages

No packages published

Languages