Репозиторий содержит проекты, выполняемые в рамках прохождения специализации Data Science в Skill Factory. Описание проектов приведено в порядке убывания сложности, актуальности. То есть сначала - самые свежие проекты.
Проект посвящен задаче определения рыночной цены автомобиля по его доступной конфигурации. Проект состоит из двух основных частей:
- парсер сайта auto.ru по имеющимся автомобилям, составление базы для обучения моделей
- обучение предсказательных моделей, были использованы: градиентный бустинг (CatBoost), случайный лес (RandomForestRegressor) Также были проведены следующие работы:
- очистка данных
- feature generation
- подбор параметров моделей
- кросс-валидация моделей
Имеются данные о клиентах банка. Задача состоит в том, чтобы построить модель предсказания дефолта клиента по кредиту. В качестве предсказательной модели использована модель логистической регрессии.
По имеющемуся датасету о ресторанах сайта TripAdvisor. Тренировка в очистке данных, предобработке, генерации новых признаков. Предсказательная модель - RandomForestRegressor
Разведывательный анализ данных. Для исследования предоставлена база с данными об учениках, которая содержит достаточно широкие сведения о молодых людях, их семейном положении, занятости и успеваемости по математике. Суть проекта — отследить влияние условий жизни учащихся в возрасте от 15 до 22 лет на их успеваемость по математике, чтобы на ранней стадии выявлять студентов, находящихся в группе риска. Цель: В данном проекте целью является произвести предобработку набора данных и провести разведывательный анализ. Необходимо произвести их первичную оценку, подготовить данные для дальнейшего построения модели, которая предсказала бы результаты экзамена по математике для каждого ученика.
Проект посвящен анализу данных фильмов IMDB. Тренировка в применении библиотек pandas, numpy
Задача состоит в следующем: генерируется случайное число от 0 до 100. Необходимо написать алгоритм, позволяющий определить это число за минимальное количество шагов. Решение: реализован алгоритм бинарного поиска, позволяющий находить неизвестное число из дипазона в среднем за 4 шага.