Соревнования по дата-сайенс — отличный способ отточить свои навыки и пополнить багаж знаний в этой постоянно расширяющейся сфере. Я сам принимаю участие в некоторых таких мероприятиях. Объект моего интереса — сравнение традиционных и популярных платформ с платформами, построенными на базе Web3.
Обычные платформы
Одна из традиционных платформ, на которой проводятся подобные соревнования, — Kaggle. Большая пользовательская база соревнующихся специалистов по данным позволяет компании запускать свои задачи на этой платформе и вознаграждать победителей по достоинству. Без сомнения, благодаря этой платформе дата-сайентисты могут узнать много нового, но есть некоторые моменты, которые омрачают общую картину:
- Возможные трудности для непосвященных. Здесь решаются самые разнообразные задачи в нишевых областях. Если вы не работали в этих специализированных сферах, вам будет очень трудно понять общий контекст и приступить к работе.
- Быстрая смена декораций. Конкурсы размещаются на короткий период времени (около 3 месяцев). Это мешает пользователям глубже понять суть задачи и требуемые для нее данные.
- “Десерт” здесь только для элиты. Призы и медали получают топовые участники, которых может быть 3,5 или 10. Они отбираются из тех, кто показал лучшие результаты на скрытом тестовом наборе. Остальные участники и их методики не представляют никакой ценности для компаний.
- Элите иногда просто везет. Результативность работы измеряется на статическом скрытом тестовом наборе. Обобщение модели с течением времени по мере накопления данных в расчет не принимается.
- Продолжение банкета затруднительно. В конечном итоге происходит передача IP-адреса. За несколько тысяч долларов компания получает материалы от лучших специалистов по обработке данных и больше в их помощи не будет нуждаться.
- Постоянные сюрпризы. Победа в одном конкурсе еще не гарантирует участие в следующем. Конечно, речь идет прежде всего о дата-сайенс и ее незыблемых аспектах, но все, что касается данных, формата, подсчета баллов, меняется. Так что если вы потратили уйму времени на понимание природы данных и предметной области, готовясь к одному конкурсу, то перед следующим вам в любом случае придется начинать все сначала.
Платформы Web3
Numerai
Компания Numerai управляет хедж-фондом, зарегистрированным SEC в США. Эта организация с большим отрывом опережает своих коллег, несмотря на то, что в компании не занят ни один специалист по анализу данных или квантовый аналитик, которому был бы поручен подбор акций.
Как же им удается достигать таких результатов? Очень просто: они выкладывают все свои данные в свободный доступ. Таким образом, любой желающий может строить модели на основе их данных и передавать результаты своих наработок компании.
Структура этой модели похожа на еженедельное соревнование по Data Science, где пользователи оцениваются на основе данных биржевого рынка в режиме live, а само мероприятие длится более 300 недель.
У вас уже, вероятно, накопилось множество вопросов. Как компания поощряет людей участвовать в конкурсе? Что если участники будут представлять рандомные прогнозы? Рассмотрим их по порядку.
- Какова система вознаграждения? Авторы точных прогнозов награждаются собственными криптовалютными токенами Numerai.
- Как Numerai торгует с помощью этих прогнозов? Создается взвешенная группа прогнозов (ставка) или так называемая мета-модель, которая используется для занятия длинных или коротких позиций на рынке.
- Что такое ставка? С помощью ставки пользователи демонстрируют уверенность в своих наработках. Ненадежные участники с большими ставками будут вынуждены их урезать при условии предоставления плохих прогнозов, поэтому у них нет стимула слишком завышать их.
- Как компания стимулирует хороших пользователей? С помощью того же механизма ставок. Доходность пропорциональна ставке. Она также будет зависеть от того, какие результаты пользователь показал в live-раунде.
- Можно ли самостоятельно торговать акциями? Нет. Numerai умнее вас. Компания предоставляет анонимизированные данные: тикеры акций заменяются на идентификационные номера, а названия функций также не имеют никакого смысла. Так что единственная организация, которая получает выгоду, — это Numerai, поскольку только они знают, как деанонимизировать данные.
- И это все? Нет. Участники также заинтересованы в том, чтобы проявить оригинальность (согласитесь, в наше время этого не хватает). Процесс создания мета-модели будет более многогранным, если отдельные прогнозы будут в некоторой степени некоррелированными.
Подробную информацию о компании можно узнать из документации.
DataCrunch
DataCrunch (или CrunchDao) — относительно новая компания, которая пытается создать примерно такую же систему, что и Numerai. Организация базируется во Франции и торгует акциями.
Есть 6 наборов данных (основанных на различных рыночных стратегиях и режимах), которые пользователи должны предсказать по принципу алгоритма Round-robin. Общий рейтинг основывается на среднем значении результатов по всем наборам данных в режиме live. Авторы хороших прогнозов вознаграждаются собственными криптовалютными токенами компании.
Более подробную информацию см. в документации.
RocketCapital
RocketCapital — это хедж-фонд, базирующийся в Сингапуре, который организует аналогичные соревнования по дата-сайенс. Разница только в том, что их данные не полностью анонимизированы: здесь тикеры отображаются как есть, а не в виде идентификаторов. Кроме того, в данном конкретном случае, тикеры данных — это тикеры криптовалютных токенов, поэтому компания торгует криптовалютами, а не акциями.
RocketCapital стремится выделиться на фоне двух вышеупомянутых хедж-фондов проведением более прозрачной политики в плане скоринга в режиме live, поскольку наличие реальных тикеров является обязательным условием для валидации. Подробнее об этом читайте в их технической документации. Взгляните также на страницу компании на Kaggle.
Заключительные мысли
Что ж, а теперь давайте посмотрим, как платформы Web3 могут потенциально решить некоторые проблемы, упомянутые в первом разделе.
- Сосредоточение на конкретной задаче. На платформах Web3 проводятся длительное соревнования, во время которых основное внимание фокусируется на постановке одной задачи. Также поощряется разнообразие методов решения этой задачи.
- Постоянная работа над поставленными проблемами. Поскольку структура данных остается неизменной в течение длительного времени, пользователи могут оценивать свою стратегию в долгосрочной перспективе и снова возвращаться к ней даже после продолжительного перерыва.
- Поощрения для каждого. Практика ставок позволяет всем участникам претендовать на получение вознаграждений (при условии участия в создании хорошей мета-модели).
- Все зависит не только от удачи. Поскольку пользователи еженедельно оцениваются на основе live-данных, их шансы на то, чтобы оставаться в плюсе только из-за везения, минимальны.
- Сохранение IP-адреса. Пользователи отправляют только прогнозы. Они не представляют ни моделей, ни стратегий, которые они использовали для построения итоговой модели. Такой подход поддерживает конкуренцию, поскольку платформы всегда зависят от предоставляемых пользователями материалов.
Надеюсь, что смог дать вам некоторое представление о том, как платформы Web3 используются для создания хороших моделей-прогнозов и поощрения стратегического разнообразия в решении поставленных задач.
До новых встреч!
Читайте также:
- Факты о веб-сайтах в 2018 году (и почему токенизация стала отличной идеей для этой отрасли)
- 17 кодовых блоков, которые нужно знать каждому специалисту по обработке данных
- 7 критериев выбора подходящего фреймворка для глубокого обучения
Читайте нас в Telegram, VK и Яндекс.Дзен
Перевод статьи Udit Gupta, Data Science in the Web3 realm