Наука о данных

Всё что касается науки о данных: алгоритмы и структуры данных, Искусственный Интеллект, анализ данных и многое другое!

Statistics

Статистика - это грамматика науки о данных. Часть 3

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Меры расположения Процентили Процентили делят упорядоченные данные...
Что такое большие данные: комплексный обзор

Что такое большие данные: комплексный обзор

Большие данные появились в конце 2000-х годов и стали настоящим технологическим прорывом. Предлагаем поразмышлять над тем, в чем суть этого феномена, как он позволяет оптимизировать бизнес-процессы и как им можно управлять.
4 альтернативы Pandas: ускоренное выполнение анализа данных

4 альтернативы Pandas: ускоренное выполнение анализа данных

Бенчмарк производительности популярных инструментов анализа данных заставит вас иногда отказываться от Pandas. Каждый из этих инструментов  -  Polars, DuckDB, Vaex и Modin - при анализе данных на кластере машин работает гораздо быстрее, чем Pandas.
Computer Science

Продвинутый взгляд на рекурсию

Рекурсия является одним из наиболее мощных подходов в программировании. С ее помощью можно решать чрезвычайно сложные задачи, печатая при этом невероятно малый объем кода....
Введение в Pulumi

Введение в Pulumi

Pulumi  —  это многоязычная мультиоблачная платформа разработки с открытым исходным кодом, позволяющая посредством кода управлять всей облачной инфраструктурой, а именно виртуальными машинами, сетевым взаимодействием,...
Data Science

4 способа обработки ошибок для стеков

Обработка ошибок — это часть рабочих будней каждого программиста. Всегда были и будут ситуации, когда по какой-либо причине код не заработает, и наша задача — следить за тем,...
Теория вероятностей, или Не стоит полагаться на случай

Теория вероятностей, или Не стоит полагаться на случай

Понятия вероятности и случайности затрагивают практически все аспекты нашей жизни. Большинство своих решений мы принимаем, исходя из вероятности наиболее благоприятных для нас событий. Поэтому...
Database

Не используйте ID, сгенерированные базой данных для доменных сущностей

Вы, вероятно, позволяли базам данных генерировать ID для сущностей по крайней мере один раз. Но что, если я скажу вам, что при разработке приложений есть...
Data Science

5 видов регрессии и их свойства

Линейная и логистическая регрессии обычно являются первыми видами регрессии, которые изучают в таких областях, как машинное обучение и наука о данных. Оба метода считаются...
Генерируйте реалистичные датасеты с помощью Snowfakery

Генерируйте реалистичные датасеты с помощью Snowfakery

Когда вы разрабатываете новый продукт, приложение или функцию, то тестировать ее необходимо на реалистичных данных. Сначала данные создаются вручную, но если нужно протестировать аналитические...
Наука о данных в "царстве" Web3

Наука о данных в “царстве” Web3

Что лучше - традиционные платформы или платформы Web3? Попробуем разобраться.
Как вычислить миллионное число Фибоначчи на Python

Как вычислить миллионное число Фибоначчи на Python

Как-то раз я захотел найти оптимальное решение для вычисления чисел Фибоначчи и решил попробовать вычислить стотысячное число в последовательности, а потом подумал: если бы...
Machine Learning

Почему логарифмы так важны в машинном обучении

Если бы вы жили на 10-м этаже, вы бы поднимались по лестнице или пользовались лифтом? Цель в обоих случаях одна: вы хотите вернуться домой...
Интуитивная основа обучения с подкреплением

Интуитивная основа обучения с подкреплением

В этом видео от автора показан обученный агент, который пытается избежать встречного движения, перестраиваясь в другой ряд и меняя скорость. Обучение проводилось с помощью...
80 практических вопросов по Python для собеседования

80 практических вопросов по Python для собеседования

Многие начинающие ученые в области данных начали свое путешествие по науке о данных с языка программирования Python. Почему Python? Потому что он легок в...
Разведочный анализ данных в одной строке кода

Разведочный анализ данных в одной строке кода

В программировании важно уметь пользоваться инструментами, которые обеспечивают удобное выполнение сложных функций. Сегодня познакомимся с разведочным анализом данных и полезной библиотекой sweetviz.
Парадокс «Гранд-отель»

Парадокс «Гранд-отель»

ПРОЛОГ «Хочешь поиграть в пазлы?»  —  спросила мама своего 8-летнего ребёнка. «Конечно, мамочка!»  —  ответило дитя. Все мы любим головоломки. И забавно, что эта любовь не...
Инженерия геопространственных данных: пространственное индексирование

Инженерия геопространственных данных: пространственное индексирование

Слышали ли вы о пространственном индексировании? Эта технология обладает мощным потенциалом: она способна оптимизировать производительность запросов, сэкономить время обработки данных и упростить задачи машинного обучения.
Как подключиться к MongoDB с помощью Node.js

Как подключиться к MongoDB с помощью Node.js

Базы данных - полезный инструмент для проекта, и для работы с ними можно воспользоваться MongoDB. Разбираемся, как подключиться к MongoDB при помощи Mongoose.
Четыре метода, которые повысят качество работы с Pandas

Четыре метода, которые повысят качество работы с Pandas

Знакомьтесь с "великолепной четверкой" методов - assign, map, query и explode. Это самые крутые фичи Pandas. Они сделают ваш код более ясным, элегантным и эффективным.
Pandas 2.0.0  -  геймчейнджер в работе дата-сайентистов?

Pandas 2.0.0  —  геймчейнджер в работе дата-сайентистов?

Действительно ли новый релиз pandas 2.0.0. направлен на повышение производительности, гибкости и совместимости операций с данными? Ответить на этот вопрос поможет данный обзор, в котором представлены 5 функциональных возможностей pandas 2.0.
Audio Datasets

25 наборов аудиоданных для исследований

Наборы музыкальных данных Free Music Archive FMA предназначен для анализа музыки и состоит из полноразмерного HQ-аудио, предварительно вычисленных характеристик, а также метаданных трека и пользовательского уровня....
AI

Топ — 9 фреймворков в мире искусственного интеллекта

Сначала были роботы, затем ассистенты Google Now и Siri, а сегодня новый ИИ — Google Duplex. Похоже, искусственный интеллект добился определенных успехов в том чтобы стать...
SQL

Руководство по SQL: Как лучше писать запросы

Язык структурированных запросов – SQL, является незаменимым навыком в области науки о данных и, вообще говоря, приобрести этот навык довольно просто. Однако большинство забывают, что...
4 Продвинутых приема работы с функциями Python, о которых вы могли не знать

4 Продвинутых приема работы с функциями Python, о которых вы могли не знать

Знаете ли вы, как принудительно задавать именованные аргументы, создавать декоратор функций и анонимные функции или распаковывать массив или словарь в аргументы функции? Предлагаем вашему...
Python

Метод опорных векторов: примеры на Python

Метод опорных векторов (далее МОВ)  —  это техника машинного обучения с учителем. Она используется в классификации, может быть применена к регрессионным задачам. Метод определяет границу...
Machine Learning

Топ-10 ошибок анализа данных

Аналитик данных  —  лучший в статистике среди программистов и лучший программист среди статистиков. В этом топе обсудим, как программисту стать лучше в статистике. Примеры, код...
Python

5 секретов наилучшего использования кортежей в Python

Python, являясь языком программирования общего назначения, предоставляет набор встроенных типов данных, включая int, str, tuple, list, dict и set. Четыре последних считаются контейнерами, так...
Pandas

10 лайфхаков для работы с библиотекой Pandas

Pandas — широко распространённая Python-библиотека для работы со структурированными данными. По её использованию уже составлено большое количество уроков, однако, я хотел бы рассказать о нескольких небольших...
Machine Learning

Подробное руководство по свёрточным нейронным сетям

Искусственный интеллект существенно развился на своём пути сокращения разрыва между возможностями людей и машин. Разработчики наравне с энтузиастами работают над великим множеством аспектов в...
MongoDB: ограничение отображаемых документов

MongoDB: ограничение отображаемых документов 

Разберем методы Limit() и Skip() и приведем примеры
Machine Learning Model

Как построить модель машинного обучения, если под рукой нет доступных данных

Перед решением любой задачи науки о данных, такой как исследовательский анализ или построение модели, нужно ответить на следующие вопросы: Что вы хотите узнать или обнаружить...
Автоматический анализ текста с использованием Streamlit

Автоматический анализ текста с использованием Streamlit

Streamlit  —  эффективный и оперативный инструмент для анализа текста. С ним можно провести реферирование текста, частеречную разметку и распознавание именованных объектов. Введение в анализ текста Текстовая аналитика...
7 советов для эффективной визуализации данных

7 советов для эффективной визуализации данных

Одним из важных аспектов работы в области науки о данных является способность эффективно передавать результаты анализа с помощью разных способов визуализаций. Данные  —  это история...
NLP

Обработка естественного языка для анализа отзывов онлайн-покупателей

Цель использования обработки естественного языка в описываемом проекте — анализ обзоров на товары, оставленных онлайн-покупателями.  Я начал работу над этим проектом для достижения трех бизнес-целей:  Найти основные компоненты...
Python

Python 3.9

Что нового ожидает нас в этой версии и в будущих релизах? Вышел полный релиз Python 3.9! Очевидно, что эта версия знаменует собой переломный момент в эволюции Python....
Statistics

Статистика - это грамматика науки о данных. Часть 4

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Введение Предположим, у нас есть диаграмма...

Инкременты и декременты

В данной статье активно используется термин «операнд». Так что такое операнд? Операнд — это величина, над которой операторы могут выполнять определенные действия. О! А что такое оператор? Оператор — это специальный символ, выполняющий...
6 функций Pandas для быстрого эксплораторного анализа данных

6 функций Pandas для быстрого эксплораторного анализа данных

Познакомьтесь с 6 функциями, лежащими в основе любого эксплораторного анализа данных. Они позволят сделать первый шаг в исследовании данных в Pandas.
Управление файлами в Google Colab

Управление файлами в Google Colab

Google Colaboratory  —  бесплатная среда Jupyter Notebook, которая выполняется на облачных серверах Google и позволяет использовать аппаратное оборудование бэкенда, например GPU and TPU. В...
Data Science

Как составить Data Science портфолио? Часть 4

Предыдущие части: Часть 1, Часть 2, Часть 3 Medium и/или другие платформы для блоггинга. Блог — это способ показать, что вы что-то умеете. Когда вы пишите о проекте...
Science

Важные аспекты математики в науке о данных - «что» и «почему»

Введение Математика является фундаментом для любой современной научной дисциплины. И ни для кого не секрет, что почти все методы современной науки о данных (включая машинное...
Основные концепции и структуры Python, которые должен знать каждый серьёзный программист

Основные концепции и структуры Python, которые должен знать каждый серьёзный программист

Генераторы Создание итератора в Python требует большой работы. Класс (в ООП) должен быть построен с применением методов __iter__() и __next__(), внутренние состояния должны быть сохранены...
Алгоритмы

Алгоритмы поиска, которые должен знать каждый специалист по обработке и анализу данных

В последние годы алгоритмы для решения задач автоматического планирования и диспетчеризации стали вновь популярными в области машинного обучения. Понимание принципов их работы поможет увеличить...
Проект инженерии данных с DAG Airflow «от и до». Часть 2

Проект инженерии данных с DAG Airflow «от и до». Часть 2

Проверим корректность данных, отправим письмо и сообщение в Slack с информацией об адресе почты и пароле. Объединим все части проекта, создадим и запустим DAG Airflow со всеми задачами.
Как создать хранилище данных за 5 шагов

Как создать хранилище данных за 5 шагов

В проекте по созданию хранилища данных не обойтись без четкого плана действий. Познакомьтесь с ключевыми этапами его реализации - от четкой постановки бизнес-целей до запуска готового к использованию проекта.
MongoDB: моделирование данных

MongoDB: моделирование данных

Данные в MongoDB обладают гибкой схемой хранения документов в одной коллекции. Документам не обязательно иметь одинаковый набор полей или структуру. Общие поля в них могут содержать разные типы данных.
Anaconda

Как установить Anaconda на Mac

Просто и понятно о том, как установить Anaconda на Mac и исправить страшную ошибку «conda command not found» Необходимость Anaconda Начав работать в области науки о данных,...
Python

Утиная типизация в Python - 3 примера

Утиная типизация Опытным программистам концепция утиной типизации наверняка знакома. Для новичков же это словосочетание может звучать довольно странно: какое отношение имеют утки к программированию?  Эта концепция...
Machine Learning

Выборки. Джентльменский набор

Простая случайная выборка Вы хотите выбрать подмножество, в котором каждый член имеет равную вероятность быть выбранным. Ниже мы случайно выбираем 100 значений из набора данных: sample_df...
MongoDB: создание и удаление коллекции

MongoDB: создание и удаление коллекции

Рассмотрим создание и удаление коллекции с помощью команд createCollection() и drop().
Продвинутые темы SQL для дата-инженеров

Продвинутые темы SQL для дата-инженеров

Рассмотрим важные техники SQL, иллюстрируя их примерами применения набора данных: объединение таблиц, подзапросы и оконные функции, фильтрацию и агрегирование. Освоив их, вы будете лучше справляться с анализом и визуализацией данных и сможете повысить качество принимаемых в организациях решений.
Apache Spark

Apache Spark: гайд для новичков

Что такое Apache Spark? Специалисты компании Databricks, основанной создателями Spark, собрали лучшее о функционале Apache Spark в своей книге Gentle Intro to Apache Spark (очень рекомендую...
5 уникальных подходов Google к инженерии данных

5 уникальных подходов Google к инженерии данных

Когда я пришел в Google в качестве поставщика в 2019 году, у меня уже был опыт работы в области здравоохранении и технологическом секторе. Тем...
Этические проблемы в науке о данных

Этические проблемы в науке о данных 

Затронем вопросы этики в науке о данных. Выявим имеющиеся проблемы и предложим пути решения.
BigQuery теперь поддерживает Query Queues

BigQuery теперь поддерживает Query Queues

Новая функция Google BigQuery под названием Query Queues позволяет автоматически определять количество запросов, выполняемых одновременно. Дополнительные запросы, превышающие заданный уровень параллелизма, ставятся в очередь до тех пор, пока не освободятся ресурсы обработки.
4 важных навыка, которые специалисты по обработке данных часто недооценивают

4 важных навыка, которые специалисты по обработке данных часто недооценивают

Наука о данных — это не только данные Если посмотреть на список того, что необходимо развивать будущему специалисту по обработке данных, то скорее всего он будет состоять из...
Python

5 простых способов визуализации данных на Python. С кодом

Визуализация данных — это большая часть работы специалистов в области data science. На ранних стадиях развития проекта часто необходимо выполнять разведочный анализ данных (РАД, Exploratory data...
Структуры данных: связный список

Структуры данных: связный список

Связный список - последовательность структур данных, связанных ссылками - вторая по частоте использования после массива структура данных. Рассмотрим основные операции и покажем пример на языке С.
Julia

Стоит ли учить Julia?

Julia — это новейший IT-язык, поэтому я решил его попробовать. Вопрос в том, стоит ли добавлять его в арсенал специалиста по данным? Установка Первое, что стоит знать о...
Data Analysis

Анализ автоаварий в Барселоне с использованием Pandas, Matplotlib и Folium

Open Data Barcelona - это сервис, предоставляющий наборы данных Барселоны, который содержит около 400 наборов, охватывающих широкий спектр тем, таких как население, бизнес и...
Топ-5 браузерных расширений для специалистов по анализу данных

Топ-5 браузерных расширений для специалистов по анализу данных

Работа современного исследователя данных неразрывно связана с браузером. Представляем 5 браузерных расширений, упрощающих этот процесс: Diigo, CatalyzeX, Octotree, Open in Colab и BibItNow.
Data Science

Доходчиво об обучении на основе многообразий с алгоритмами IsoMap, t-SNE и LLE

Метод главных компонент (PCA) весьма производителен, но зачастую дает сбой, так как предполагает возможность линейного моделирования данных. Он выражает новые признаки в виде линейных...
Statistics

Статистика - это грамматика науки о данных. Часть 2

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Функции распределения вероятностей Функция распределения вероятностей — это...
10 веских причин изучить Python для занятий наукой о данных

10 веских причин изучить Python для занятий наукой о данных

Не знаете, с чего начать погружение в науку о данных? Начните с изучения Python. Это верный способ быстро, легко и увлекательно освоить основы науки о данных.
5 доказательств силы итерируемых объектов в Python

5 доказательств силы итерируемых объектов в Python

Что такое итерируемые объекты?  Итерируемые (перебираемые) объекты — это коллекция важных структур данных в Python. Например, к ним относятся такие встроенные типы, как строки, списки и словари....
Автоматическое МО (AutoML) с использованием PyCaret: основные принципы

Автоматическое МО (AutoML) с использованием PyCaret: основные принципы

Специалисты по обработке данных тратят около 80% времени на то, чтобы выбрать оптимальную модель, отрегулировать ее параметры и подождать, пока она осуществит необходимые расчеты. На выручку приходит автоматическое МО, в разы ускоряющее подбор адекватной модели.
Топ-5 ошибок при объявлении функций в Python

Топ-5 ошибок при объявлении функций в Python

Функции являются критическим компонентом в любом программном проекте. Написанные должным образом, они представляют собой практичный способ написания читаемого и поддерживаемого кода. Однако, если функции...
Проект инженерии данных «от и до» с Apache Airflow, Postgres и GCP

Проект инженерии данных «от и до» с Apache Airflow, Postgres и GCP

Подробно расскажем о контейнерах Docker, оркестрации ETL-конвейеров, работе с облачными технологиями, настройке рабочей среды для ETL-проектов с Apache Airflow. А в конце поделимся нужными командами.
Что нужно знать, чтобы начать заниматься квантовыми вычислениями

Что нужно знать, чтобы начать заниматься квантовыми вычислениями

Несмотря на относительно старую технологию, только в последнее время квантовые вычисления привлекли к себе много внимания как индустрии, так и СМИ. Квантовые вычисления впервые...
Data Science

Экспоненциальное распределение

Мы всегда начинаем с вопроса “почему”, прежде чем переходить к формулам. Если вы понимаете, почему что-то работает, вы с большей вероятностью будете применять это...
Data Science

Шесть рекомендаций для начинающих специалистов по Data Science

Навыки, необходимые для работы Сфера data science пользуется большим спросом, однако для трудоустройства вам потребуется опыт работы. Несмотря на это, у множества лучших специалистов стоит самый...
Data Science

Как составить Data Science портфолио? Часть 1

Как получить работу в области Data Science? Во-первых, нужно знать основы статистики, машинного обучения, программирования и т.д. Во-вторых, вам нужно будет составить портфолио. Да, несомненно,...
Algorithms

Наглядное объяснение алгоритма Беллмана-Форда

Алгоритм Беллмана-Форда находит в ориентированном графе кратчайшие пути от исходной вершины до всех остальных. В отличие от алгоритма Дейкстры, в алгоритме Беллмана-Форда могут быть...
Machine Learning

Не учите машинное обучение

Примечание: следующие рассуждения основаны на моих личных наблюдениях за командами, работающими над машинным обучением, а не академическом обзоре отрасли. Как разработчик, вы, вероятно, хотя бы...
Data Science

Глубокие свёрточные нейросети: руководство для начинающих

Перед прочтением В этой статье предполагается, что у читателя уже есть базовые знания о глубоких нейронных сетях (нейронных сетях прямого распространения). О них подробно рассказывалось...
Machine Learning

Как вино может быть слегка острым и резким?

Как можно о вине сказать, что оно острое, резкое, яркое или плотное? Описания вин (особенно те, которые делают сомелье) часто состоят из как будто...
Будут ли специалисты по обработке данных по-прежнему востребованы в 2022 году?

Будут ли специалисты по обработке данных по-прежнему востребованы в 2022 году?

Насколько востребованы сегодня специалисты по обработке и анализу данных? Способны ли их вытеснить инженеры данных или автоматизированные МО-инструменты? Поиск ответов на эти вопросы поможет не ошибиться в выборе карьерного пути.
Погружение в базы данных

Погружение в базы данных

Базы данных представляют собой упорядоченные наборы данных, хранящиеся в компьютерной системе и доступные в электронном виде. Существует множество типов баз данных, например: облачные;реляционные;объектно-ориентированные;NoSQL. Выбор той или...
Как конвертировать PDF-файлы в PNG с помощью Python

Как конвертировать PDF-файлы в PNG с помощью Python

Пакет pdf2image поможет нам превратить файл PDF в PNG. Чтобы упростить процесс преобразования, мы немного улучшим этот проект. Давайте сделаем это без лишних слов! Требования Первое,...
Как инструменты дизайна интерфейса и визуализации способствуют развитию Machine Teaching?

Алгоритм YOLO простым языком

Что такое YOLO? Эта аббревиатура расшифровывается как “You Only Look Once” (“Стоит только раз взглянуть”). YOLO  —  современный алгоритм глубокого обучения, который широко используется...
Почему точные модели не всегда полезны

Почему точные модели не всегда полезны

Утверждение, которое кажется парадоксальным: точность модели - не главный признак ее эффективности! Важно также разработать продукт, оправданный с денежной точки зрения. Сегодня поговорим о том, как функции экономической полезности помогают связать МО-модели с нуждами клиентов.
DesignPatterns

Под покровом капустного листа: шаблон Декоратор

Я родилась в городке, расположенном на западном берегу реки Амур на Дальнем востоке России. Эта область известна своим влажным континентальным климатом, для которого характерны...
Алгоритм машинного обучения t-SNE - отличный инструмент для снижения размерности в Python

Алгоритм машинного обучения t-SNE - отличный инструмент для снижения размерности в Python

Улучшение качества визуализации - актуальная проблема для многих разработчиков. Узнайте, как использовать алгоритм машинного обучения t-SNE для визуализации данных высокой размерности.
7 полезных операций в Pandas при работе с DataFrame

7 полезных операций в Pandas при работе с DataFrame

Абстракция датафрейма является одной из наиболее полезных концепций в современной экосистеме управления данными. Вращается она главным образом вокруг табличных структур, которые имеют повышенную производительность...
Чем отличаются модели МО в науке и производстве

Чем отличаются модели МО в науке и производстве

Почему модели МО, которые хорошо выглядят "на бумаге", не гарантируют хорошей работы в производстве? Вот что думает специалист в области МО.
Разработка виртуального помощника для удовлетворения основных потребностей пользователей

Разработка виртуального помощника для удовлетворения основных потребностей пользователей

В этой статье мы расскажем о том, как организовать пользовательские потребности в соответствии со сложностью и частотой возникновения, а также расставим приоритеты в поэтапном...
Mathematics

Метод подсчёта количества решений

Линейные алгебраические уравнения — одни из самых простых уравнений, которые мы можем решить. Если в уравнении только одна переменная, решение тривиально, в то время как для...
Statistics

Статистика - это грамматика науки о данных. Часть 1

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 «Статистика — это грамматика науки» Данное высказывание приписывают английскому математику...
Python

Выбор оптимального алгоритма поиска в Python

Когда дело касается обучения, мы, как правило, используем один из двух основных подходов: идём либо вширь и стараемся охватить как можно больший спектр области,...
AI

Почему искусственный интеллект никогда не захватит мир?

Я не присваиваю себе идею о том, что ИИ (в самом расцвете сил) сделает из людей второсортных рабочих и создаст грубый дисбаланс на рынке...
7 Способов вывести свои новые навыки Python на следующий уровень

7 Способов вывести свои новые навыки Python на следующий уровень

Внимание: в этой статье нет партнёрских ссылок. Когда я впервые начинал изучать Python, я не знал, что делать с моими новыми навыками дальше. Поэтому они...
Data Science

Статистические типы данных, используемые в машинном обучении

Введение в статистику Статистика — это наука об изучении данных. Знания в этой области позволяют использовать подходящие методы сбора и анализа данных, а также эффективно представлять результаты...
MongoDB: вставка документа

MongoDB: вставка документа 

Для вставки данных в коллекцию MongoDB используется метод insert() или save(). Разберем его в данной статье.
Как писать идеальные конспекты по науке о данных

Как писать идеальные конспекты по науке о данных

Предлагаем несколько практических советов по написанию конспектов при изучении науки о данных. Следуя им, вы сможете эффективно понимать и усваивать сложнейшие концепции, которые пригодятся в дальнейшей работе.
Computer Science

Графы: основы теории, алгоритмы поиска

Возможно, вы уже знакомы с понятием спортивного программирования и знаете, что оно помогает развить навыки решения проблем и прокачать технические знания о структурах данных...
Artificial Intelligence

Как искусственный интеллект меняет финансовый сектор?

Анализ акций и других ценных бумаг обычно кажется нам крайне трудоёмким процессом. Эффективное управление рисками требует масштабных исследований и анализа моделей, данных и отраслевых...
Ludwig на PyTorch

Ludwig на PyTorch

Простота, модульность и расширяемость - отличительные признаки декларативного фреймворка глубокого обучения Ludwig. Его разработчики представляют новую, переработанную с нуля версию - Ludwig v0.5. И главная его особенность в том, что весь бэкенд переносится на PyTorch.
Machine Learning

Как учатся машины

С каждым днём машины становятся умнее. Когда вы заходите на YouTube, Amazon, или Facebook, то для вас автоматически подбираются рекомендованные видео, товары и посты....
Data science

Изучение нового языка для работы с данными

В постоянно меняющейся экосистеме инструментов для анализа данных вам придется часто изучать все новые и новые языки, чтобы идти в ногу со временем и...
Разделение окон в Vim

Разделение окон в Vim

Рассмотрим возможности редактора Vim в плане организации рабочего пространства: разделение окон, взаиморасположение вкладок и окон, сравнение с другими редакторами.
Python

Взломщик captcha на Python

Когда я разрабатывал набор скриптов для взлома, у меня не было никаких знаний об используемых алгоритмах при обработке изображений. Только спустя какое-то время я...
Топовые пакеты Python для очистки данных

Топовые пакеты Python для очистки данных

Многим кажется, что наука о данных сводится исключительно к разработке моделей машинного обучения и оценке технических показателей. Это не так - круг обязанностей гораздо шире. Специалисты работают над сбором, очисткой, анализом, пониманием данных и т. д. Разберем же наиболее эффективные инструменты Python, предназначенные для очистки данных.
Deadlines

Как перестать переживать по поводу дедлайна

Дедлайн… Один из самых больших кошмаров для разработчика. Признайтесь, вас пугает это слово. Даже сейчас, читая эти строки, ваши волосы встают дыбом. Вам интересно, откуда я это...
Топ-45 библиотек React

Топ-45 библиотек React

Redux, NextJS, Axios, Formik, Styled-components, React-query, Storybook - решение 16-ти задач разработки на React в сторонних пакетах NPM.