Мой первый опыт с ML-моделями на примере Titanic

Привет всем! В начале третьего семестра я присоединился к проекту в университете, связанному с нейронными сетями. После изучения основ Pytorch я приступил к задачам проекта и одновременно начал осваивать классическое машинное обучение. Первым шагом стало знакомство с известным датасетом Titanic, где цель заключалась в предсказании выживаемости пассажиров. Я открыл конкурс на Kaggle и сразу же погрузился в работу, используя Jupyter-ноутбук.

Я импортировал необходимые библиотеки и начал анализировать данные. В ходе разведочного анализа выявил, что женщины выживали чаще, поскольку их сажали в шлюпки первыми. Также я заметил, что пассажиры первого класса имели больше шансов на выживание. После обработки пропусков в данных и преобразования категориальных признаков, я разделил выборку на обучающую и валидационную.

Используя RandomForestClassifier, я обучил модель и оценил её точность, полноту и другие метрики. Затем повторил процесс с LogisticRegression. Сравнение показало, что Random Forest более консервативен, но Logistic Regression лучше справляется с нахождением выживших. В итоге, создал CSV-файл для отправки результатов на Kaggle. Это был мой первый опыт, и я рад буду услышать ваши мнения и критику!

Помогите проекту, поделитесь с друзьями ;)

Добавить комментарий