Skip to content

AlexeyDegterev/DataScience_SkillFactory

Repository files navigation

DataScience_SkillFactory

Репозиторий содержит проекты, выполняемые в рамках прохождения специализации Data Science в Skill Factory. Описание проектов приведено в порядке убывания сложности, актуальности. То есть сначала - самые свежие проекты.

Project_5 Car Price Prediction

Проект посвящен задаче определения рыночной цены автомобиля по его доступной конфигурации. Проект состоит из двух основных частей:

  • парсер сайта auto.ru по имеющимся автомобилям, составление базы для обучения моделей
  • обучение предсказательных моделей, были использованы: градиентный бустинг (CatBoost), случайный лес (RandomForestRegressor) Также были проведены следующие работы:
  • очистка данных
  • feature generation
  • подбор параметров моделей
  • кросс-валидация моделей

Project_4 Credit Scoring

Имеются данные о клиентах банка. Задача состоит в том, чтобы построить модель предсказания дефолта клиента по кредиту. В качестве предсказательной модели использована модель логистической регрессии.

Project_3 Trip Advisor restaurant rating

По имеющемуся датасету о ресторанах сайта TripAdvisor. Тренировка в очистке данных, предобработке, генерации новых признаков. Предсказательная модель - RandomForestRegressor

Project_2 Exploratory data analysis

Разведывательный анализ данных. Для исследования предоставлена база с данными об учениках, которая содержит достаточно широкие сведения о молодых людях, их семейном положении, занятости и успеваемости по математике. Суть проекта — отследить влияние условий жизни учащихся в возрасте от 15 до 22 лет на их успеваемость по математике, чтобы на ранней стадии выявлять студентов, находящихся в группе риска. Цель: В данном проекте целью является произвести предобработку набора данных и провести разведывательный анализ. Необходимо произвести их первичную оценку, подготовить данные для дальнейшего построения модели, которая предсказала бы результаты экзамена по математике для каждого ученика.

Project_1 IMDB movies

Проект посвящен анализу данных фильмов IMDB. Тренировка в применении библиотек pandas, numpy

project_0 GitHub start

Задача состоит в следующем: генерируется случайное число от 0 до 100. Необходимо написать алгоритм, позволяющий определить это число за минимальное количество шагов. Решение: реализован алгоритм бинарного поиска, позволяющий находить неизвестное число из дипазона в среднем за 4 шага.

About

Учебные проекты, выполненные на курсе "Специализация Data Science" школы SkillFactory

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published