Data

Происходит смена парадигмы, которая коренным образом изменит способы хранения, обработки и передачи данных внутри компаний. Эта смена породит изобилие новых возможностей, в том числе и решения назойливых проблем, преследующих как большие технологические корпорации, так и обычных пользователей. Статья исследует возможности создания и введения в оборот первой полностью децентрализованной графовой базы данных. Эта технология не только безопасна, адаптируема и рентабельна, но и даёт пользователям разрешение на свободное получение информации и её регулирование.

Расцвет и упадок данных

Рост использования компьютеров сопровождается экспоненциальным ростом появления персональных данных. Каждое наше действие, даже самое обыденное, как, например, разговор с Сири, порождает огромное количество информации.

Вопрос, который мы незаслуженно редко задаём: “Что происходит с нашими данными после их создания?”. Ответ зависит от компании, получившей наши данные, но в большинстве случаев они хранятся у компании или же воруются злобными сторонними приложениями. Facebook— классический пример: платформа не только сама пострадала от утечки данных, повлиявшей на миллионы людей, но и продавала информацию партнёрам без разрешения пользователей.

Очевидно, это огромная проблема и для пользователей, и для компаний, ответственных за сохранность данных. Но, тем не менее, люди не перестают пользоваться этим продуктом, и компании не вносят значительных изменений. Почему?

Пользователи: иллюзия контроля и владения

Существует большое количество альтернатив Facebook. Но почему же после скандала большинство пользователей осталось ему верно?

Я, как и многие другие, считаю, что причиной этому “золотая клетка”: за последние несколько лет на *вставьте название крупной компании*, пользователи загрузили огромное количество данных, таких как друзья, фотографии, воспоминания, которые непросто перенести на другую платформу. Удаление аккаунта означает потерю доступа ко всему, что принадлежало им. Даже если пользователь, удаливший аккаунт, и был владельцем поста, он больше не владеет “отношениями”, которые он создаёт на платформе.

К тому же, немалое количество пользователей не заинтересовано в приватности данных настолько, чтобы принимать серьёзные меры. Это взаимовыгодная сделка; недостаток приватности компенсируется бесплатными сервисами, персонализированными продуктами и рекламой. Люди не чувствуют, что у них есть что-то важное, что нужно прятать, поэтому они охотно делятся информацией, питая иллюзию контроля.

Компании, создающие продукты, которые извлекают нашу информацию, используют метод “кнута и пряника”. Чем больше предоставишь информации о себе, тем больше получишь бесплатных функций. Если же не примешь пятидесятистраничное соглашение, то для тебя сервис или даже девайс будет полностью бесполезным. Если мир двадцать первого века и научил нас чему-то, так это тому, что впечатления пользователя правят балом.

В конце концов, давайте признаем, нет никакой гарантии, что новые маленькие альтернативные стартапы со схожим функционалом будут иметь меньшую утечку данных, чем компании, которые тратят на безопасность миллионы долларов каждый год.

Пришествие облачных вычислений

Вы подумаете: конечно, компании предприняли меры по обеспечению безопасности данных после последних случаев утечки. Но вот, мы до сих пор слышим о новых взломах чуть ли не каждую неделю.

Пришествие эры облачных вычислений привело к тому, что данные компаний хранятся в высокоцентрализованных дата-центрах. Однако, экономия достигается ценой появления уязвимой точки. Это означает, что хакеры теперь точно знают, где можно найти данные пользователей. Но, будучи уверенными в том, что пользователи не покинут платформу, компании легко принимают решение в пользу принесения в жертву приватности ради экономии.

Информационно-технологические компании также взяли в привычку продажу данных пользователей их партнёрам без согласия на то пользователей. Может ли пользователь каким-либо образом обойти эту проблему? Люди платят компаниям за бесплатно предоставляемые сервисы их вниманием и временем, затраченными на просмотр рекламы, и информацией. Многие крупные проекты, как Solid, распространяемый создателем всемирной сети, Тимом Бёрнерсом-Ли, ищут решение проблемы и выступают за контроль над информацией.

Amazon, Google, Facebook и Apple — “большая технологическая четвёрка” — монополисты нашей информации, не намереваются отказываться от такого контроля. Крупные корпорации лишают пользователей полного контроля над своей информацией, тем самым сохраняя “золотую клетку”, и один из важных, если не главный, источник дохода: возможность продавать информацию без дополнительных затрат.

В конце концов, все принятые решения уходят корнями глубоко в экономические причины.

Смена парадигмы: скорость, безопасность и цена

Сейчас в мире технологий происходит сдвиг парадигмы, который коренным образом изменит способ хранения данных. Google и другие компании начинают увеличивать пропускную способность собственных дата-центров. Другими словами, когда речь идёт об обработке и передаче информации, они достигают максимальных мощностей.

С другой стороны, каждый год персональные компьютеры становятся всё мощнее; множество этих устройств не используется в полную силу. Если же их правильно связать, они могут и будут превосходить любой современный дата-центр в скорости, безопасности, а, главное, в стоимости.

Эффективное использование вычислительных возможностей девайсов не станет концом эпохи облачных вычислений, наоборот, дополнит её, особенно в тех сферах, где важна скорость. Однако, оно положит начало эпохи “туманных вычислений” (придумано Cisco в январе 2014).

К счастью, благодаря тому, что туманные вычисления основываются на децентрализованных сетях, в теории они должны быть менее уязвимыми, что решает проблему недостаточной безопасности.

Туманные вычисления против облачных

С точки зрения высоких уровней абстракции туманные вычисления работают так же, как и облачные: пользователи создают, читают, обновляют и удаляют их данные посредством отправления запроса компании, которая, в свою очередь, перенаправит их к децентрализованной сети устройств. Всё происходило так, когда балом правили облачные вычисления, и нет никаких причин менять алгоритм.

Несмотря на это, как мы увидели ранее, одна из причин, по которой люди остаются на уже используемой платформе  —  ни одна из существующих альтернатив не может гарантировать лучший исход. Однако с появлением и распространением туманных вычислений — ситуация изменится. Ваши данные теперь хранятся на тысячах устройств по всему миру, поэтому, вместо того, чтобы взаимодействовать с данными через компанию-посредника, вы можете сразу отправить запрос сети устройств. Неограниченный, доступный способ управления своей информацией.

Это также означает, что при обращении напрямую к децентрализованной сети вы можете установить ограничения на пользование вашей информацией с большей детализацией: Святой Грааль владения данными.

С чего бы большим информационно-технологическим компаниям хотеть дать вам возможность взаимодействовать с сетью? Вкратце: они не хотят. Несмотря на это, данная технология разрабатывается и будет доступна публике. Однажды дата-центры корпораций не смогут конкурировать с децентрализованной сетью, поэтому вся бизнес-модель будет под угрозой краха.

Они будут вынуждены предоставить пользователям детализированный контроль над своими данными для того, чтобы оставаться на рынке. Это означает позволить пользователям делать выбор между монетизацией информации, предоставление её в бесплатное пользование или полный отказ от её предоставления и использования в целях, не совпадающими с теми, что предполагает основной сервис. Эта жертва ничтожна, по сравнению с полной потерей пользователей из-за их перехода к конкуренту.

Возвращение к блокчейну

Недавно блокчейн оказался в свете софитов в качестве первой технологии, использующей децентрализованные сети устройств. Обещая пользователям монетизацию предоставляемой информации, блокчейн-технологии становятся лучшими альтернативами сторонним дата-фермам. Почему же мы до сих пор не используем эту технологию? Просто потому что мы неправильно понимаем назначение блокчейна.

Блокчейн позиционируется как безопасная, неизменяемая и прозрачная база данных. Однако, без использования руководящего устройства, то есть будучи по-настоящему децентрализованной сетью, блокчейн может содержать небольшое количество информации. К тому же, к блокчейну довольно сложно обращаться. Отчасти, потому что информация хранится в блоках без временных пометок. К тому же делать это мешает отсутствие понятных пользователям языков для запросов. Вкратце, использование блокчейна в целях хранения информации неэффективно и труднореализуемо.

Представьте медицинскую компанию, которая хочет получить доступ к данным как можно быстрее. Вероятнее всего, она вначале переведёт информацию в стороннюю быструю базу данных, а потом будет выполнять запросы, таким образом полностью разрушая концепцию децентрализации. Блокчейн больше всего подходит для платёжных систем или систем, основанных на транзакциях.

К тому же это то, для чего технология была изначально создана: Bitcoin, платёжная система с относительно коротким цифровым следом. Хоть блокчейн и использует возрастающие мощности устройств, он имеет узкий круг функционала и не эксплуатирует полностью свой потенциал.

Это всё не для того, чтобы сказать, что блокчейн бесполезен для хранения информации. Например, с созданием Ethereum появился гораздо больший ассортимент возможностей использования.

Как вы можете увидеть слева, цены на хранение информации до сих пор до ужаса огромные. Однако, это представило миру совершенно новый концепт: маленькие контракты, которые, как мы увидим позже, крайне полезны в использовании вместе с децентрализованными хранилищами.

Децентрализованная графовая база данных

С целью ускорения внедрения децентрализованных систем хранения информации, нам нужна децентрализованная сеть устройств, с которой пользователи могут взаимодействовать напрямую. Она должна быть приватной (там, где это необходимо) и гибкой, а также не требовать от вас доверия (как в случае с централизованным хранением информации).

Я думал над решением этой серьёзной проблемы, и во время работы на Graphen, я создал проектный документ (с помощью студентов-магистров Колумбийского Университета Пейкуи Джин и Янг Янга) для децентрализованной базы данных.

Децентрализованная база данных функционирует точно так же, как и облачная, с точки зрения разработчика. В то же время, она развёрнута на одноуровневой сети. Это не блокчейн, но в неё внедрены те же самые криптографические алгоритмы, например, деревья Патриции-Меркля. Я не буду вдаваться в технические подробности, об этом можно прочесть в документации. Вкратце, база состоит из трёх частей:

  • Работники, которые арендуют наше хранилище и вычислительные мощности для поддержки фрагментов базы и обработки запросов. Они называются мастернодами и получают зарплату в долларах или криптовалюте в обмен на железо-часы. Также они периодически проверяют результаты работы друг друга, для гарантии правильности функционирования системы в целом.
  • Пользователи, которые в большинстве своём разработчики или учёные, создающие базы данных. Это те, кто платит мастернодам.
  • Пользователи, которые вносят информацию в базы, через приложение или же напрямую, отсылая запросы мастернодам. Они могут быть теми же пользователями, что и предыдущие. Они получат персональный ключ, который позволит им владеть своей информацией (возможность запрашивать, удалять и обновлять свои данные без разрешения третьих лиц).

Я верю в то, что графовые базы данных — это будущее. С каждым новым днём наш мир становится всё более взаимосвязанным, как и информация. Специализация графовых баз данных — размещение этих связей. К тому же, все остальные типы данных могут быть включены внутрь графовой базы: структурированная и неструктурированная информация, управляемая более эффективно в реляционной и нереляционной БД, соответственно, тоже могут храниться как часть графовой базы. Заметим, что обратное не верно, то есть, граф не может храниться в нереляционной базе.

Применение графовых баз данных значительно увеличилось за последние несколько лет. Например, их использует Facebook для её соцсети, Stripe — для вредоносных транзакций, а Amazon для рекомендаций товаров.

Графовые базы быстрые, гибкие и могут делать удивительные выводы на основе информации, которую они хранят. Это и является причиной, по которой я решил их использовать, как основу для имплементации децентрализованной распределённой БД.

Такая база данных полностью соответствует всем обязательным условиям, которые мы задали выше: гибкость, недоверительность и приватность (использование гомоморфного шифрования).

Вот так выглядит поток информации на высоком уровне абстракции:


Полностью децентрализованный интернет

Если мы посмотрим на современные приложения Web 2.0, то увидим, что они состоят из фронтенда, бэкенда и БД. Децентрализация фронтенда не несёт в себе никакого смысла, в то время как децентрализация логики бэкенда может и должна быть децентрализована. Здесь в дело вступают смарт-контракты. Полные по Тьюрингу (в теории позволяющие решить любую вычислительную задачу) смарт-контракты, как, например, Ethereum, EOS или Cardano могут поддерживать эту логику на нативном языке. Они могут также взаимодействовать с графовой БД, для получения информации полностью децентрализованно.

В конце концов, если эта технология будет развиваться так, как было задумано, она может стать основной для нового, семантически структурированного интернета. Тим Бёрнерс-Ли, создатель интернета, в своём выступлении на Ted Talk говорит: 

“Связанных данных огромное количество. Я рассказал вам лишь малую часть. Информация содержится во всех аспектах нашей жизни, от работы до развлечений, и все трудности не столько из-за количества ее источников, но из-за построения связей. Когда вы связываете данные, вы получаете “мощь”, которую не получите больше нигде.”


Спасибо большое за потраченное на прочтение время! Техническую документацию можно посмотреть здесь

Перевод статьи Matthieu Gavaudan: The Future of Data: A Decentralized Graph Database

Предыдущая статьяКак создать Meetup+Slack приложение с помощью Standard Library и Node.js
Следующая статьяС Kotlin приведение стало еще удобнее