Наука о данных

Пишем нейронную сеть, предсказывающую рак груди, за пять минут

30.06.2019

Минута первая: вступление

Этот высокоуровневый урок рассчитан на новичков в машинном обучении и искусственном интеллекте. Для того, чтобы успешно создать нейронную сеть, необходимы:

Установленный Python второй или третьей версии.
Как минимум начальный уровень программирования.
Пять минут свободного времени.

Мы пропустим огромное количество деталей работы нейронной сети, не будем углубляться в теоретическую часть и сфокусируемся на предсказании рака всего лишь за 5 минут!

Для построения предсказаний будем использовать имплементацию нейронной сети из библиотеки scikit-learn. Сами же предсказания будут основаны на данных из датасета Калифорнийского университета в Ирвайн “Breast Cancer Wisconsin” (рак груди, Висконсин). На вход нейронной сети подаются свойства клеточных ядер новообразования (например, строение), а на выходе мы получаем предсказание: злокачественное или доброкачественное новообразование.

Минута вторая: начало работы

Если у вас не установлена библиотека scikit-learn, то запустите команду pip install scikit-learn в терминале, которая установит библиотеку и все её зависимости.

Откройте среду разработки и создайте новый файл под названием, например, neuralnet.py. Теперь мы загрузим имплементацию нейронной сети, обучающие данные и функцию для разделения наших данных на тренировочный и тестовый наборы для нейронной сети.

# Имплементация нейронной сети
from sklearn.neural_network import MLPClassifier
# Функция для загрузки датасета
from sklearn.datasets import load_breast_cancer
# Функция для разделения датасета
from sklearn.model_selection import train_test_split

Ссылки на документации используемых методов и датасетов scikit-learn (на английском):

Минута третья: предварительная обработка

Прежде чем приступить к обучению нейронной сети на датасете, необходимо обработать данные. Для начала загрузим данные и выделим в attributes свойства новообразований (двумерный список, содержащий численные значения), а в labels — целевые переменные, метки злокачественности или доброкачественности новообразования (список из нулей и единиц). Содержимое каждого из списков соответствует содержимому другого списка под тем же индексом, то есть, к примеру, labels[0] определяет значение целевой переменной для признаков, хранящихся в attributes[0].

data = load_breast_cancer() # Загружаем и сохраняем датасет
attributes = data.data # Свойства клеточных ядер 
labels = data.target # Метки злокачественности

Теперь мы разделяем данные на тренировочные (для обучения нейронной сети) и тестовые (для проверки корректности ее работы). Тренировочный набор данных состоит из attributes_train и labels_train, тестовый — изattributes_test и labels_test. Треть наших данных будет составлять тестовый сет, оставшиеся две трети — обучающий.

attributes_train, attributes_test, labels_train, labels_test = train_test_split(attributes, labels, test_size=0.33)

Минута четвёртая: нейронная сеть

Теперь, когда наши данные разделены на обучающий и тестовый сеты, мы можем обучить нашу нейронную сеть! Для начала нужно создать нейронную сеть с многослойным перцептроном. Затем обучаем её на наших данных при помощи функции fit, измеряем её точность при помощи функции score и выводим эту точность.

neuralnet = MLPClassifier() # Инициализация нейронной сети
neuralnet.fit(attributes_train, labels_train) # Обучение сети
accuracy = neuralnet.score(attributes_test, labels_test) # Измерение точности работы сети
print(str(accuracy * 100) + "% accuracy") # Вывод значения точности в процентах

Попробуйте запустить нейронную сеть через терминал командой python neuralnet.py примерно десять раз (можете заменить neuralnet.py на название вашего скрипта) и сравните результаты.

Минута пятая: оптимизация результата

Есть вероятность, что разница в измерениях точности нейронной сети будет большой. Когда мы разделяли данные на обучающий и тестовый сеты, данные были перемешаны случайно, что и объясняет изменения результатов. В нашем датасете всего лишь 569 объектов, и модель обучается на 379 его объектах-представителях, что приводит к переобучению, так как данных слишком мало.

К тому же мы создавали нейронную сеть при помощи конструктора neuralnet = MLPClassifier(), которому не передали ни одного аргумента. Это значит, что сеть была построена с использованием параметров по умолчанию, то есть, она не оптимизирована.

Мы можем исправить ситуацию либо обучая сеть на большем наборе данных, либо настраивая параметры датасета.

Я выбрал второй вариант и переключил solver с adam (по умолчанию) наlbfgs. В документации было сказано, что этот параметр позволяет оптимизировать сеть на маленьких наборах данных. Также я изменил активационную функцию с relu на logistic и экспериментальным путём установил, что значения alpha от 0.0001 до 10.0 предотвращают переобучение.

# Замените предыдущую строку инициализации нейронной сети на эту
neuralnet = MLPClassifier(solver='lbfgs', activation='logistic', alpha=10.0)

Теперь это выглядит гораздо лучше! Точность до сих пор не так высока, как хотелось бы, однако разница между показателями значительно уменьшилась. И это не все изменения, которые можно было бы сделать. Вы можете разобраться в документации и продолжить процесс оптимизации.

Заключение

То, чему мы научились, применимо к любому датасету и к любому алгоритму машинного обучения, реализованному в scikit-learn. Я выбрал нейронную сеть для предсказания рака груди, потому что эти две темы сейчас являются одними из самых обсуждаемых в сфере точных наук.

Для того, чтобы применить другой алгоритм, нужно просто изменить импортируемый алгоритм и вызвать его конструктор, например:

# Имплементация случайного леса
from sklearn.ensemble import RandomForestClassifier

# Предобработка данных

# Инициализация случайного леса
randomforest = RandomForestClassifier()

# Обучение и тестирование модели

Если вы заинтересовались машинным обучением, то в интернете имеется множество курсов на эту тему, например, на Coursera, которые помогут разобраться в работе алгоритмов.

Перевод статьи Andrew Li: How to program a neural network to predict breast cancer in only 5 minutes

Читайте также:

Пишем нейронную сеть, предсказывающую рак груди, за пять минут

Минута первая: вступление

Минута вторая: начало работы

Минута третья: предварительная обработка

Минута четвёртая: нейронная сеть

Минута пятая: оптимизация результата

Заключение

Читайте также

6 лайфхаков для улучшения кода JavaScript

Пакетная обработка 22 ГБ данных о транзакциях с помощью Pandas

Wasp — DSL-язык для современных веб-приложений

Тесты

Насколько хорошо вы разбираетесь в Node.js?

Насколько хорошо вы понимаете принципы работы ОС?

Насколько хорошо вы разбираетесь в алгоритмах и структурах данных