Реализация base64 на Rust
Практически каждый разработчик так или иначе использует base64. Но каков механизм работы этого алгоритма? Я считаю, что самый простой способ по-настоящему понять, как работает...
RUID - уникальные 64-битные идентификаторы для распределенных баз данных
RUID (Rodrigo’s Unique Identifiers) — это 64-битные идентификаторы с математически гарантированной уникальностью при генерировании в одном и том же RUID root. Ознакомьтесь с ними...
Как сгенерировать настоящие случайные числа в Solidity с блокчейном
Если бы вы погуглили фразу “случайные числа в Solidity” (речь идёт об англоязычном поиске), то в самых популярных результатах выдачи было бы:
Solidity не может...
Переживут ли творческие профессии революцию искусственного интеллекта?
Людьми нас делает наш разум, а искусственный разум — продолжение нашего.
Ян Лекун
Люди великолепно развили свои способности. Из куска мрамора мы изваяли прекрасные статуи, написали живущие в...
Создание модели машинного обучения с помощью Google Colab без дополнительных настроек
Машинное обучение позволяет разрабатывать модели, способные выдавать точные прогнозы. Сегодня рассмотрим, как можно создать модель МО, используя такой инструмент, как Google Colab.
Deepnote - новая IDE для специалистов по данным
Дисклеймер: автор никак не связан с Deepnote или его участниками.
Deepnote — это бесплатный онлайн-блокнот для специалистов по данным, фокусирующийся в основном на совместном использовании в реальном...
Пошаговое руководство по NLP: конструирование признаков текстовых данных
Конструирование признаков текстовых данных - важнейший этап МО, который может повлиять на производительность, сложность и способность модели обобщать новые данные. Предлагаем пошаговое руководство по извлечению более 10 признаков текстовых данных в Python.
Ускорение GPU в машинном обучении и больших данных
Введение
Вычисления на графических процессорах становятся всё более и более важными.
Количество данных во всём мире удваивается каждый год.Приходит квантовая реальность. Закон Мура перестаёт работать.
Кроме того,...
Алгоритмы машинного обучения простым языком. Часть 2
Предыдущие части: Часть 1
Ридж- и лассо- регрессия
Моя бабушка до сих пор не очень напугана, поэтому продолжаем!
Линейная регрессия не такая уж и пугающая, правда? Это...
Пишем нейронную сеть, предсказывающую рак груди, за пять минут
Минута первая: вступление
Этот высокоуровневый урок рассчитан на новичков в машинном обучении и искусственном интеллекте. Для того, чтобы успешно создать нейронную сеть, необходимы:
Установленный Python второй...
String и string в С#: больше, чем просто стиль?
Обзор
Во-первых, давайте рассмотрим оба типа:
String— это обычный идентификатор, который относится к типу данных .NET System.String. Также необходимо, чтобы был импортирован класс System.
string— это зарезервированный дескриптор в...
Пусть говорят… расходящиеся гистограммы!
Термин “divergere” происходит от латинского языка и означает расхождение. Среди его синонимов: разделение, разногласие, различие, пересечение и столкновение мнений. Он отражает разнообразие точек зрения...
4 способа обработки ошибок для стеков
Обработка ошибок — это часть рабочих будней каждого программиста. Всегда были и будут ситуации, когда по какой-либо причине код не заработает, и наша задача — следить за тем,...
MongoDB: запрос, обновление и удаление документа
В прошлой части руководства по MongoDB мы разобрали, как вставить документ. Теперь рассмотрим три остальных действия с документом.
Как получить данные в нужном формате с помощью Pandas
Дата-сайентистам приходится работать с данными разных форматов. Разбираемся, в чем заключается разница между длинным и широким форматами данных, а также в том, как перейти от одного формата к другому в Pandas.
Как создать хранилище данных за 5 шагов
В проекте по созданию хранилища данных не обойтись без четкого плана действий. Познакомьтесь с ключевыми этапами его реализации - от четкой постановки бизнес-целей до запуска готового к использованию проекта.
8 показателей эффективности классификации
Оценка эффективности классификатора - непростая задача. Чтобы справиться с ней, понадобится несколько показателей. Предлагаем доступное описание 8 главных метрик.
10 лайфхаков для работы с библиотекой Pandas
Pandas — широко распространённая Python-библиотека для работы со структурированными данными. По её использованию уже составлено большое количество уроков, однако, я хотел бы рассказать о нескольких небольших...
5 уникальных подходов Google к инженерии данных
Когда я пришел в Google в качестве поставщика в 2019 году, у меня уже был опыт работы в области здравоохранении и технологическом секторе. Тем...
Как организовать свою систему обработки данных: кейс mondayDB
Приглашаем в увлекательное путешествие в мир mondayDB - нового механизма обработки данных. Разработчики этой системы рассказывают о ее основных концепциях: столбцовом хранении данных, лямбда-архитектуре и отделении хранения от вычислений.
Почему логарифмы так важны в машинном обучении
Если бы вы жили на 10-м этаже, вы бы поднимались по лестнице или пользовались лифтом? Цель в обоих случаях одна: вы хотите вернуться домой...
Руководство к использованию деревьев решений в машинном обучении и науке о данных
Деревья решений являются классом очень эффективной модели машинного обучения, позволяющей получить высокую точность в решении многих задач, сохраняя при этом высокий уровень интерпретации. Четкость...
К подготовке и публикации первого пакета Python готовы!
Python стал одним из самых широко используемых языков программирования. Главным образом объясняется это тем, что мы, его обычные пользователи, можем поделиться своим кодом, обеспечивая...
Как ИИ меняет сферу финансов
Миллионы клиентов, миллиарды транзакций, триллионы активов. Финансовая сфера, как мы знаем, является движущей силой мировой экономики и мира, в котором мы живём. Вместе с...
Инновационный алгоритм глубокого обучения в Google Translate
Современный Google Translate просто потрясает своими возможностями. Для реализации способности выполнять перевод между любой парой из десятков поддерживаемых языков создатели этого инструмента очень находчиво...
Как распознавать объекты 600 классов, используя 9 миллионов изображений из Open Images
Если вы собираетесь создать классификатор изображений и вам нужна база для обучения, то вам понадобится лишь Google Open Images.
Этот датасет состоит более чем из...
Как стать специалистом по обработке данных: 5 советов
Специалист по данным - одна из самых востребованных профессий на сегодняшний день. Узнайте, какие навыки вам пригодятся для того, чтобы стать востребованным дата-сайентистом.
Простое развёртывание графовой базы данных: JanusGraph
Недавно мне потребовалось постоянно где-то хранить большие графовые данные, и я занялся поисками распределённой графовой базы данных с открытым исходным кодом. Главным требованием было...
25 наборов аудиоданных для исследований
Наборы музыкальных данных
Free Music Archive
FMA предназначен для анализа музыки и состоит из полноразмерного HQ-аудио, предварительно вычисленных характеристик, а также метаданных трека и пользовательского уровня....
Работа с панелью индикаторов. Руководство программиста Python.Часть 2
Часть 1, Часть 2
Это вторая статья из нашей серии об использовании Python-фреймворка Dash от Plotly в качестве основной платформы для работы с панелью индикаторов....
Интуитивная основа обучения с подкреплением
В этом видео от автора показан обученный агент, который пытается избежать встречного движения, перестраиваясь в другой ряд и меняя скорость. Обучение проводилось с помощью...
Структуры данных: «жадные» алгоритмы
Алгоритм предназначен для достижения оптимального решения задачи. В подходе с жадным алгоритмом оно выбирается из заданной предметной области решений. Причём берутся ближайшие, кажущиеся оптимальными решения - отсюда и название «жадный».
Почему за способностью объяснения модели стоит будущее Data Science
Техники объяснения модели показывают, что изучает модель, а знание о том, что происходит внутри модели имеет большое значение.
На протяжении последних десяти лет я общался...
Раскрываем возможности контейнеризации. Зачем дата-сайентистам Docker и Kubernetes?
Разберем отличия и преимущества Docker и Kubernetes, применяемые инструменты и терминологию. Какова роль контейнеризации и оркестрации в эффективной работе дата-сайентиста?
Создайте приложение для резюмирования новостных статей с Hugging Face и Gradio
У вас накопилась масса закладок со статьями для последующего чтения, но вы так и не добрались до них? Нет времени читать длинные статьи?
Хотите узнать...
7 критериев выбора подходящего фреймворка для глубокого обучения
Обработка данных эффективна в тандеме с адекватным фреймворком для глубокого обучения. Возможно, вы тоже находитесь в поисках идеальной для себя библиотеки? В любом случае не пропустите сравнительный анализ самых популярных платформ - Pytorch, Keras и Tensorflow.
Автоматизация Doom с глубоким Q-обучением: реализация в Tensorflow
Введение
Методы онлайнового обучения машин (ОО) — это семейство динамических алгоритмов обучения с подкреплением, которое стоит за кулисами многих достижений во всей области ИИ за последние десять...
Почему искусственный интеллект никогда не захватит мир?
Я не присваиваю себе идею о том, что ИИ (в самом расцвете сил) сделает из людей второсортных рабочих и создаст грубый дисбаланс на рынке...
SQL для Data Science: альтернатива обмену через Google Disk и Slack
Как аналитику данных показать SQL-запросы коллегам? Доступный обмен наработками через Jupyter Notebook, Tidyverse или Superset.
MongoDB: создание и удаление коллекции
Рассмотрим создание и удаление коллекции с помощью команд createCollection() и drop().
Как вино может быть слегка острым и резким?
Как можно о вине сказать, что оно острое, резкое, яркое или плотное? Описания вин (особенно те, которые делают сомелье) часто состоят из как будто...
Когда ИИ или машинное обучение неуместны
Вообразите, что вам только что удалось заполучить набор данных клинических испытаний. Превосходно! Чтобы помочь вам войти в роль, я подготовила следующие данные:
Представьте, что эти...
Как использовать MSE в науке о данных
Среднеквадратичная ошибка (MSE) - одна из полезных метрик, помогающих определить эффективность модели. Рассказываем, как использовать MSE для оценки и оптимизации производительности в науке о данных.
Как учатся машины
С каждым днём машины становятся умнее. Когда вы заходите на YouTube, Amazon, или Facebook, то для вас автоматически подбираются рекомендованные видео, товары и посты....
Условная независимость - основа байесовской сети
1. Восприятие условной независимости
Скажем, A — рост ребенка, а B — количество слов, которые он знает. Кажется, что если A высокий, то B, соответственно, тоже.
Однако существует информация, которая...
6 упущений в курсе науки о данных
Узнайте о важных аспектах, которые часто упускаются из виду при составлении образовательных программ по науке о данных. Возможно, это не сделает вас исключительным знатоком во всех областях Data Science, но поможет приобрести необходимые профессиональные навыки.
5 инструментов для специалистов по обработке данных
Рассказываем о пяти инструментах, которые позволят сэкономить время вам и вашей команде при работе над проектом. Они помогут не только с очисткой и анализом данных, но и с построением, обучением и тестированием моделей машинного обучения.
Как установить несколько версий Python в WSL2 и управлять ими
Открываем PowerShell
PowerShell — это командная оболочка и объектно-ориентированный язык сценариев, который используется для настройки системных параметров и автоматизации задач администрирования. В операционной системе практически...
Руководство для начинающих исследователей данных
Как новичку влиться в сферу науки о данных? Наличие продуманного плана может дать значительное преимущество начинающему специалисту. Предлагаем взять на вооружение план действий, основанный на личном опыте человека, добившегося успехов в этой области.
8 лучших платформ и библиотек JavaScript для машинного обучения
Невероятный рост новых технологий, таких как машинное обучение, облегчил жизнь разработчикам: создавать приложения на базе искусственного интеллекта стало намного проще. И теперь к активному...
Создание архитектур кода с помощью функциональных операторов
Говоря о функциональном программировании, мы сразу вспоминаем о функциях. Однако есть и другие концепции, которые отлично работают в науке о данных. Одной из таких концепций являются функциональные операторы, позволяющие создавать сложные архитектуры для выразительного кода.
Лучший способ эффективно управлять неструктурированными данными
Узнайте о передовых методах работы с неструктурированными данными с помощью хранилищ объектов и озер данных. Это позволит более эффективно хранить, собирать и использовать данные.
Наш первый миллиард строк в DuckDB
Как одной машиной заменяется целый кластер? Расскажем об особенностях DuckDB, решаемых задачах и приобретенном с ее помощью опыте в реальном проекте обработки 450 Гб.
Как отточить ваши “инстинкты данных”
Ввиду недавних успехов в области машинного обучения и исследований в области искусственного интеллекта, немного удивительно, что наука о данных стала сферой главного интереса.
Нет сомнений...
ЕС ужесточает регулирование в сфере использования искусственного интеллекта
21 апреля Еврокомиссия опубликовала свод строгих правил, по-новому регулирующих использование искусственного интеллекта. Это первый документ подобного рода. В нем ИИ определяется как технология, являющаяся...
Наука о данных простым языком
Что такое наука о данных? Попробуем объяснить ее значение доступным языком.
MongoDB: индексация
Индексы поддерживают эффективное выполнение запросов. Без них MongoDB сканировала бы каждый документ коллекции, отбирая нужные в соответствии с инструкцией запроса. Такое сканирование малоэффективно и предполагает обработку больших объемов данных.
DetectoRS - новейшее средство обнаружения объектов от Google Research
В области компьютерного зрения не прекращается поиск новых техник, алгоритмов и сквозных обучаемых конвейеров для задач по обнаружению объектов и сегментации изображений. Каждый год...
Как составить Data Science портфолио? Часть 4
Предыдущие части: Часть 1, Часть 2, Часть 3
Medium и/или другие платформы для блоггинга.
Блог — это способ показать, что вы что-то умеете. Когда вы пишите о проекте...
Обнаружение фейковых новостей с помощью машинного обучения
Что общего у фейковых новостей? Как создать чат-бота, который отличает такие новости от реальных? Почему BERT не является универсальным решением в машинном обучении? Узнайте ответы на эти и сопутствующие вопросы прямо сейчас.
4 важных навыка, которые специалисты по обработке данных часто недооценивают
Наука о данных — это не только данные
Если посмотреть на список того, что необходимо развивать будущему специалисту по обработке данных, то скорее всего он будет состоять из...
Выборки. Джентльменский набор
Простая случайная выборка
Вы хотите выбрать подмножество, в котором каждый член имеет равную вероятность быть выбранным. Ниже мы случайно выбираем 100 значений из набора данных:
sample_df...
Двоичные деревья: управляемый подход к поиску значений
Зачем
Разработчик нанимается небольшим городом населением в сто тысяч. Задача состоит в том, чтобы преобразовать бумажную телефонную книгу в цифровой вариант. У мэра города есть...
Машинное обучение без данных
Создание продуктов и услуг с помощью моделей МО требует обучающих данных, которые обычно получают от клиентов. При этом часто нарушается цикл инноваций: разработка качественного продукта невозможна без построения достойной модели, которая, в свою очередь, нуждается в большом количестве данных, поступающих от клиентов, ожидающих качественного продукта.
Доходчиво об обучении на основе многообразий с алгоритмами IsoMap, t-SNE и LLE
Метод главных компонент (PCA) весьма производителен, но зачастую дает сбой, так как предполагает возможность линейного моделирования данных. Он выражает новые признаки в виде линейных...
Добыча данных: анализ рыночной корзины с помощью алгоритма Apriori
Вы когда-нибудь задумывались над тем, почему хлеб всегда лежит рядом с маслом в бакалейном магазине? Сегодня мы раскроем этот секрет.
Наука о данных — что она изучает на самом деле?
Данные окружают нас повсюду. Это незаменимый инструмент в руках современного человека. “Данные действительно помогают нам во всем”, — когда-то признал Джефф Вейнер, гендиректор LinkedIn. Что же собой представляет наука о данных и каковы были предпосылки ее стремительного развития?
Моделирование логистического роста
Часть 1, Часть 2
В прошлой статье мы рассмотрели пример моделирования первой вспышки коронавируса с помощью экспоненциального роста. Следующая ступень анализа — логистический рост. Воспользуйтесь Python notebook...
3 признака того, что ваш ИИ-проект обречен
Я провела консультации по сотням проектов машинного обучения и научилась замечать ранние признаки того, что клиент собственными руками пилит сук, на котором сидит.
Вот тройка...
Будущее практического применения чат-ботов
В последние несколько лет мы стали свидетелями гонки между компаниями за создание самой большой, самой мощной и самой интересной модели под названием NLP (Обработка...
Машинное забывание: почему забывание важно для ИИ
Посмотрим правде в глаза: никому не нравится забывать. Все мы расстраиваемся, когда не можем вспомнить, где оставили ключи или как зовут коллегу, с которым...
3 случая, когда линейная модель может ошибаться
Введение
В этой статье я покажу три случая, когда линейные модели могут привести к неверным результатам. Основное внимание будет уделено сравнению линейных моделей с моделируемыми...
ИИ: постижение законов сверхразума
Термин “искусственный интеллект” похож на чемодан: каждый набивает его своим содержанием. Ученые тоже не могут достичь консенсуса в определении машинного разума. От этого в...
Безградиентный подход к оптимизации нейронной сети
Градиентный спуск — это одна из важнейших идей в области машинного обучения, в котором алгоритм с учетом функции затрат итеративно выполняет шаги с наибольшим...
Как создать платформу обработки и анализа данных за неделю
Хотите создать полнофункциональную платформу данных с ежедневно обновляемыми аналитическими таблицами/дэшбордами? Простое пошаговое руководство (со ссылкой на код в репозитории GitHub) позволит реализовать такой проект всего за неделю.
Создание интерфейсов, удобных для алгоритмов
Дизайнер должен досконально знать материалы, с которыми работает. В прошлом это было понимание особых свойств древесины, металлов, печатных станков и, наконец, пикселей. Современным дизайнерам...
Создание анимации Gapminder двумя строчками кода с помощью Plotly Express
«Дисклеймер: мною использовался новый модульplotly_express, сама анимация Gapminder не создавалась с нуля всего двумя строчками.»
Один из значимых моментов в истории визуализации данных — презентация...
5 причин смещения в машинном обучении и что с этим делать
Смещение в машинном обучении означает, что алгоритм дает ошибочные результаты из-за неточных предположений, сделанных на одном из этапов процесса.
Чтобы разработать любой процесс машинного обучения,...
Структуры данных: подход «разделяй и властвуй»
При подходе «разделяй и властвуй» задача делится на мелкие подзадачи, каждая из которых решается независимо. При их делении на еще более мелкие подзадачи в конце концов настает момент, когда дальнейшее деление невозможно.
Парадокс надежности ИИ
Представьте, что вы босс и у вас в штате два работника (человека):
Кирилл Небрежный — это сплошное разочарование. Лишь в 70% случаев он справляется с...
MongoDB: агрегирование
Операции агрегирования обрабатывают данные и возвращают вычисленные результаты. Они группируют значения из нескольких документов, выполняют с ними разные действия и возвращают один-единственный результат. В SQL аналогами операций агрегирования MongoDB являются функция count(*) и оператор group by.
Привет, новый мир «Искусственного интеллекта»
Почему каждый должен подготовиться к «революционной автоматизации»
Нам нужно начать лучше разбираться в новых технологиях, таких как искусственный интеллект, роботы и блокчейн.Навело на эту мысль...
Обработка естественного языка для анализа отзывов онлайн-покупателей
Цель использования обработки естественного языка в описываемом проекте — анализ обзоров на товары, оставленных онлайн-покупателями.
Я начал работу над этим проектом для достижения трех бизнес-целей:
Найти основные компоненты...
Самые полезные продвинутые техники SQL
Освойте три продвинутые техники SQL - оконные функции, подзапросы и общие табличные выражения - с помощью примеров использования и экспертных советов. Эти техники значительно расширят ваши возможности по работе с данными.
Создание локального озера данных с нуля
Настроим все необходимые службы и компоненты, в том числе оркестратор конвейера данных и SQL-движок, инициируем сеанс Spark для Apache-форматов Iceberg и Delta и выполним простой ETL-процесс. Заложим основу для более сложных конвейеров.
4 принципа успешной поисковой системы и не только
Поиск повсюду и сталкиваемся мы с ним ежедневно. Эта функция реализована на каждом сайте и является частью любого IT-продукта. Вызов меню поиска простой комбинацией...
3 новых настораживающих примера ИИ-систем
Не пора ли внедрять элементы управления в эту мощную форму технологии, называемую ИИ? Это не то, в чем мы можем позволить себе ошибаться.
Уникальный пример использования SocketCluster для распределенных вычислений
Команда HarperDB построила первую и единственную написанную на Node.js БД, которая уникальным образом применяет SocketCluster для распределенных вычислений. Кайл Бернарди, технический директор и сооснователь...
Почему мы создали платформу для инженерии машинного обучения, а не науки о данных
Около года назад некоторые из нас начали работать над платформой машинного обучения с открытым исходным кодом Cortex. Наша мотивация была проста: создание приложения из...
SMOTE: метод увеличения числа примеров миноритарного класса
SMOTE - одна из распространенных стратегий сэмплинга, позволяющая решить проблему дисбаланса классов. Это пошаговое руководство по использованию алгоритма SMOTE в Python позволит избежать просчетов в МО.
ТОП-4 официальных сайта МО-библиотек и способы их использования
Ознакомьтесь с обзором 4 лучших сайтов машинного обучения: Scikit-learn, TensorFlow, Keras и PyTorch. Предлагаем также освоить эффективные способы применения каждого из этих ресурсов.
Структуры данных: массивы
Предыдущая часть: "Структуры данных: основные понятия"
Массив — это контейнер, содержащий фиксированное количество элементов одного типа. В большинстве структур данных массивы используются для реализации алгоритмов.
Вот термины, необходимые...
MongoDB : проекция (Projection)
В MongoDB проекция означает выбор не всех данных документа, а только нужных. Например, эта операция позволяет из 5-ти полей, содержащихся в документе, отобразить только 3.
8 способов “настроить” Data-команду на успех. Часть первая
Мы живем в золотой век Data-ориентированных организаций. Алгоритмы! Большие Данные! У вас вероятно, даже есть Data Scientist в штате или два! Но …
Если ваши Data-специалисты тратят...
Инкременты и декременты
В данной статье активно используется термин «операнд».
Так что такое операнд?
Операнд — это величина, над которой операторы могут выполнять определенные действия.
О! А что такое оператор?
Оператор — это специальный символ, выполняющий...
За гранью HCD: нужен ли новый подход в дизайне для ИИ?
Сетевая технология имеет сетевые эффекты. Зачастую они являются неосязаемыми и усиливаются через систему во время использования машинного обучения. Но есть ли смысл создавать ориентированный...
Как X оптимизировал обработку 400 миллиардов событий
Хотите знать, как Twitter, ныне X, справляется с таким фантастическим объемом работы, достигая при этом низкой задержки, высокой точности, стабильности и снижения эксплуатационных расходов? Оказывается, все дело в архитектуре платформы. Узнайте о том, с какими проблемами столкнулся X и как решил их с помощью новой архитектуры.
Почему компании терпят неудачи, применяя искусственный интеллект?
Я бы хотела поделиться с вами секретом: когда люди говорят о «машинном обучении», зачастую, они имеют ввиду всегда одно — как правильно применить ИИ и извлечь...
Как предварительно обработать данные и текстовые сообщения из социальных сетей
Одна из самых непростых задач при использовании данных из социальных сетей и текстовых сообщений для NLP (Natural Language Processing — обработки естественного языка) заключается...
Как оптимизировать код на Python
Как я сократил время выполнения приложения на 1/10
Данные советы просты в реализации и могут пригодиться вам в обозримом будущем.
Считается, что первоочередной задачей программиста является написание...
Битва 4 инструментов визуализации данных на языке Python
Предлагаем сравнить потенциал Pyecharts, Plotly, Matplotlib и Seaborn, а также возможности использования каждого инструмента (на примерах визуализации данных фондового рынка).
8 эффективных способов построения доверительных отношений с коллегами
Доверие - основа здоровых деловых отношений. Без него не удастся наладить эффективные рабочие процессы. Узнайте, как с помощью 8 принципов выстроить доверительные отношения с коллективом.
4 принципа успешной поисковой системы и не только
Поиск повсюду и сталкиваемся мы с ним ежедневно. Эта функция реализована на каждом сайте и является частью любого IT-продукта. Вызов меню поиска простой комбинацией...
Компоненты высшего порядка в React Virtualized
Компоненты высшего порядка (HOC) предлагают полезные функции, способные существенно поднять уровень пользовательского опыта. Познакомимся с ними поближе и узнаем, когда и какой компонент лучше использовать, чтобы получить от него максимум преимуществ.







































































































