Data Science

5 видов регрессии и их свойства

Линейная и логистическая регрессии обычно являются первыми видами регрессии, которые изучают в таких областях, как машинное обучение и наука о данных. Оба метода считаются...
Как добиться от моделей глубокого обучения большей генерализации?

Как добиться от моделей глубокого обучения большей генерализации?

Вы можете использовать IRM практически в любой базовой модельной структуре. Однако эта система наиболее эффективна, когда ее применяют к моделям черного ящика, оперирующим большим...
7 библиотек Python для вашего первого проекта по науке о данных

7 библиотек Python для вашего первого проекта по науке о данных

Pandas Данные играют первостепенную роль в разработке продуктов, задействующих науку о данных и машинное обучение. Однако информация часто нуждается в предварительной очистке и некоторых манипуляциях,...
Data Science

7 способов раскрыть жульничество аналитика данных

Не имеет значения, являетесь ли вы крупным или малым предпринимателем, инвестором, частью менеджерского звена компании, судьёй на марафоне программирования или иным участником технологической индустрии,...
Machine Learning Models

Все модели машинного обучения за 6 минут

Все модели машинного обучения разделяются на обучение с учителем (supervised) и без учителя (unsupervised). В первую категорию входят регрессионная и классификационная модели. Рассмотрим значения...
Python

Python: как заменить циклы For на Map, Filter и Reduce

Вы когда-нибудь смотрели на свой код и видели водопад из циклов for? Вам приходилось щурить глаза и наклоняться к монитору, чтобы рассмотреть его поближе? Я...
Data Science

Настройка Data Science окружения на вашем компьютере

После прохождения различных курсов и обучения на различных образовательных платформах, вроде Datacamp, вашим следующим шагом станет использование полученных знаний о Python, R, Git или...
Четыре метода, которые повысят качество работы с Pandas

Четыре метода, которые повысят качество работы с Pandas

Знакомьтесь с "великолепной четверкой" методов - assign, map, query и explode. Это самые крутые фичи Pandas. Они сделают ваш код более ясным, элегантным и эффективным.
Algorithms

8 базовых алгоритмических задач на собеседованиях

Во время собеседования на должность в IT-сфере часто касаются вопросов применения алгоритмов. Наиболее популярными являются алгоритмы поиска и сортировки (строковые алгоритмы, бинарный поиск, алгоритм...
Data Science

Что такое распределение Пуассона?

Прежде чем вводить параметр λ и подставлять его в формулу, давайте задумаемся: почему Пуассону вообще пришлось изобретать такое распределение? 1. Почему Пуассон изобрел свое распределение? Чтобы...
Machine Learning

Анализ моделей машинного обучения при помощи Imandra

Расскажем о задачах классификации и регрессии. Данные, модели, условия и Imandra с её возможностями помогать прогнозировать рак и вред от лесных пожаров. Введение Проверка параметров изучаемых моделей — сложная...
Автоматический анализ текста с использованием Streamlit

Автоматический анализ текста с использованием Streamlit

Streamlit  —  эффективный и оперативный инструмент для анализа текста. С ним можно провести реферирование текста, частеречную разметку и распознавание именованных объектов. Введение в анализ текста Текстовая аналитика...
Как вычислить миллионное число Фибоначчи на Python

Как вычислить миллионное число Фибоначчи на Python

Как-то раз я захотел найти оптимальное решение для вычисления чисел Фибоначчи и решил попробовать вычислить стотысячное число в последовательности, а потом подумал: если бы...
Межорганизационный обмен данными

Межорганизационный обмен данными

Преимущества объединения хранилищ данных в последнее время привлекают большое внимание организаций всех уровней. В 2018 году корпорация Google разработала проект передачи данных (Data Transfer...
Пять направлений применения исследования операций

Пять направлений применения исследования операций

В последние годы область исследования операций процветала наряду с развитием вычислительной мощности. Сейчас многие организации используют этот подход, чтобы разрабатывать оперативные, тактические и даже...
Классы данных в Python и их ключевые особенности

Классы данных в Python и их ключевые особенности

Значимым компонентом любого проекта в программировании являются данные, с которыми неизбежно взаимодействуют все программы. Например, при разработке веб-сайта вы должны представить тексты и изображения...
Data Science

Как составить Data Science портфолио? Часть 1

Как получить работу в области Data Science? Во-первых, нужно знать основы статистики, машинного обучения, программирования и т.д. Во-вторых, вам нужно будет составить портфолио. Да, несомненно,...
Artificial Intelligence

Рекуррентная нейронная сеть с головы до ног

Нейрон — строительный элемент человеческого мозга. Он анализирует сложные сигналы за микросекунды и отправляет ответы нервной системе, которая решает сложные задачи. У всех нейронов одна и...
Machine Learning

Подробное руководство по свёрточным нейронным сетям

Искусственный интеллект существенно развился на своём пути сокращения разрыва между возможностями людей и машин. Разработчики наравне с энтузиастами работают над великим множеством аспектов в...
Разведочный анализ данных в одной строке кода

Разведочный анализ данных в одной строке кода

В программировании важно уметь пользоваться инструментами, которые обеспечивают удобное выполнение сложных функций. Сегодня познакомимся с разведочным анализом данных и полезной библиотекой sweetviz.
Artificial Intelligence

Инновационный алгоритм глубокого обучения в Google Translate

Современный Google Translate просто потрясает своими возможностями. Для реализации способности выполнять перевод между любой парой из десятков поддерживаемых языков создатели этого инструмента очень находчиво...
Data Science

Как работает случайный лес?

Как и почему работает случайный лес? Разбираемся Важная часть машинного обучения  —  это классификация. Мы хотим знать, к какому классу (или группе) принадлежит значение. Возможность...
Python

Python: 5 ошибок в применении охвата списка

Охват списка, (далее ОС), бесспорно, самая мощная возможность Python, которая может оказаться невероятно эффективным инструментом, но может и сильно снизить читаемость кода. Рассмотрим несколько...
4 Продвинутых приема работы с функциями Python, о которых вы могли не знать

4 Продвинутых приема работы с функциями Python, о которых вы могли не знать

Знаете ли вы, как принудительно задавать именованные аргументы, создавать декоратор функций и анонимные функции или распаковывать массив или словарь в аргументы функции? Предлагаем вашему...
10 актуальных профессий в области науки о данных

10 актуальных профессий в области науки о данных

С одной стороны, поиск работы  —  это суровая игра, в которой нужно выделиться среди сотен, а иногда и тысяч других соискателей. С другой стороны,...
Data Science

Машинное обучение. С чего начать? Часть 1

По мере того, как машинное обучение всё больше внедряют в бизнес-процессы, жизненно важным становится наличие инструмента, который позволяет быстро решать поставленные задачи. Зачастую в...
5 доказательств силы итерируемых объектов в Python

5 доказательств силы итерируемых объектов в Python

Что такое итерируемые объекты?  Итерируемые (перебираемые) объекты — это коллекция важных структур данных в Python. Например, к ним относятся такие встроенные типы, как строки, списки и словари....
Julia

В поисках лучшей среды для Julia: Juno или Jupyter?

Одним из важнейших факторов, влияющих на производительность программирования, является среда разработки. Особенно это относится к науке о данных, так как специалисты, работающие в этой...
Machine Learning

6 концептов книги Эндрю Ына «Жажда машинного обучения»

“Техническая стратегия для инженеров-разработчиков искусственного интеллекта в эпоху глубокого обучения” “Жажда машинного обучения” структурирует разработку проектов, использующих машинное обучение. Книга включает в себя практический опыт,...
Data Science

Введение в теорию информации

Индонезийские пещеры острова Борнео дают представление о самой примитивной зарегистрированной форме коммуникации. Около 40000 лет назад, ещё до развития письменного языка, физические иллюстрации на...
Statistics

Статистика - это грамматика науки о данных. Часть 1

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 «Статистика — это грамматика науки» Данное высказывание приписывают английскому математику...
Основы SQLite на примере практической задачи

Основы SQLite на примере практической задачи

Базы данных  —  это превосходный, безопасный и надежный способ хранения данных. Все основные реляционные базы объединяет SQL, т.е. язык управления данными, их базами и...
Data Science

Сопряженное априорное распределение

Часть 1, Часть 2, Часть 3 1. Что такое априорное распределение?  Априорная вероятность — это вероятность события до того, как мы получили дополнительные данные. В байесовском выводе априорное распределение — это...
Пакетная обработка 22 ГБ данных о транзакциях с помощью Pandas

Пакетная обработка 22 ГБ данных о транзакциях с помощью Pandas

Можно ли работать с большими массивами данных при ограниченных вычислительных ресурсах? Можно и очень даже успешно, если использовать пакетную обработку для создания различных агрегаций этих данных.
Структуры данных: основные понятия

Структуры данных: основные понятия

Предыдущая часть: "Структуры данных: динамическое программирование" Определение данных Это определение конкретных данных со следующими характеристиками: атомарность, то есть определяется единое понятие.отслеживаемость, т. е. определение должно сопоставляться с...
MongoDB: индексация

MongoDB: индексация 

Индексы поддерживают эффективное выполнение запросов. Без них MongoDB сканировала бы каждый документ коллекции, отбирая нужные в соответствии с инструкцией запроса. Такое сканирование малоэффективно и предполагает обработку больших объемов данных.
Как стать специалистом по обработке данных: 5 советов

Как стать специалистом по обработке данных: 5 советов

Специалист по данным - одна из самых востребованных профессий на сегодняшний день. Узнайте, какие навыки вам пригодятся для того, чтобы стать востребованным дата-сайентистом.
Data Science

Исследование операций: что, когда и как

Несколько расплывчатый термин “исследование операций” был придуман в Первую мировую войну. Британские военные собрали группу ученых для распределения недостаточных ресурсов — например, еды, медикаментов, оружия, войск...
MongoDB: создание базы данных

MongoDB: создание базы данных 

Рассмотрим процесс создания базы данных в MongoDB.
Python

Выбор оптимального алгоритма поиска в Python

Когда дело касается обучения, мы, как правило, используем один из двух основных подходов: идём либо вширь и стараемся охватить как можно больший спектр области,...
Statistics

Статистика - это грамматика науки о данных. Часть 4

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Введение Предположим, у нас есть диаграмма...
Продвинутые темы SQL для дата-инженеров

Продвинутые темы SQL для дата-инженеров

Рассмотрим важные техники SQL, иллюстрируя их примерами применения набора данных: объединение таблиц, подзапросы и оконные функции, фильтрацию и агрегирование. Освоив их, вы будете лучше справляться с анализом и визуализацией данных и сможете повысить качество принимаемых в организациях решений.
Почему вам не удастся стать "великим" специалистом по данным?

Почему вам не удастся стать «великим» специалистом по данным?

Быть просто "хорошим" специалистом по обработке данных не проблема. Куда сложнее стать "великим". Позвольте мне, как специалисту по обработке данных, открыть вам глаза на самую прибыльную работу 21-го века.
Как писать код на Python лучше: 6 рекомендаций

Как писать код на Python лучше: 6 рекомендаций

В среде разработчиков Python считается одним из самых популярных языков программирования. Он используется везде  —  от веб-разработки до машинного обучения. Причин такой популярности много. Это...
10 идиоматических приемов для эффективного программирования на Python

10 идиоматических приемов для эффективного программирования на Python

Программирование само по себе очень увлекательное занятие, а программирование на Python увлекательнее вдвойне, поскольку в данном языке существует много разных способов реализации одних и...
Разработка виртуального помощника для удовлетворения основных потребностей пользователей

Разработка виртуального помощника для удовлетворения основных потребностей пользователей

В этой статье мы расскажем о том, как организовать пользовательские потребности в соответствии со сложностью и частотой возникновения, а также расставим приоритеты в поэтапном...
Анализ социальных сетей: от теории графов до приложений на Python

Анализ социальных сетей: от теории графов до приложений на Python

Теория сетей Начнем с краткого введения в базовые компоненты сети: узлы и ребра. Узлы (например, A,B,C,D,E) обычно представляют объекты в сети и содержат собственные и сетевые...
Алгоритмы

Алгоритмы поиска, которые должен знать каждый специалист по обработке и анализу данных

В последние годы алгоритмы для решения задач автоматического планирования и диспетчеризации стали вновь популярными в области машинного обучения. Понимание принципов их работы поможет увеличить...
Сборка и запуск загрузчика

Сборка и запуск загрузчика

Что вас здесь ждёт Если вы так же любопытны, как я, вы наверняка задумывались о том, как работают операционные системы. Здесь я расскажу о некоторых исследованиях...
Computer Science

Продвинутый взгляд на рекурсию

Рекурсия является одним из наиболее мощных подходов в программировании. С ее помощью можно решать чрезвычайно сложные задачи, печатая при этом невероятно малый объем кода.
Будущее практического применения чат-ботов

Будущее практического применения чат-ботов

В последние несколько лет мы стали свидетелями гонки между компаниями за создание самой большой, самой мощной и самой интересной модели под названием NLP (Обработка...
Структуры данных: асимптотический анализ

Структуры данных: асимптотический анализ

Асимптотический анализ алгоритма - это определение математических границ/рамок его производительности во время выполнения, позволяющее очень легко находить время работы алгоритма в лучшем, среднем и худшем случае.
Streamlit

Быстрая сборка и развертывание дашборда со Streamlit

Со Streamlit разработка дашборда для решения машинного обучения становится невероятно простой. Streamlit — это фреймворк с открытым кодом, специально разработанный для инженеров машинного обучения, работающих с Python....
Python

Метод опорных векторов: примеры на Python

Метод опорных векторов (далее МОВ)  —  это техника машинного обучения с учителем. Она используется в классификации, может быть применена к регрессионным задачам. Метод определяет границу...
29 сниппетов Pytorch для ускорения цикла машинного обучения

29 сниппетов Pytorch для ускорения цикла машинного обучения

Мне очень нравится задействовать фрагменты кода для создания более быстрых циклов итераций по сравнению с традиционными конвейерами машинного обучения. Pytorch уже давно стал важной...
7 Способов вывести свои новые навыки Python на следующий уровень

7 Способов вывести свои новые навыки Python на следующий уровень

Внимание: в этой статье нет партнёрских ссылок. Когда я впервые начинал изучать Python, я не знал, что делать с моими новыми навыками дальше. Поэтому они...
5 неочевидных истин науки о данных

5 неочевидных истин науки о данных

Хотите открыть для себя красоту машинного кода, скрывающуюся за нулями и единицами? Для начала узнайте 5 неочевидных истин науки о данных. Они помогут вам ступить на путь постижения этой увлекательной дисциплины со свежим взглядом.
Monads

Монада - программируемая точка с запятой

Монады  —  программируемые точки с запятой. Именно так. Монада предоставляет функции, позволяющие упорядочивать действия. Более того, между каждыми двумя действиями выполняется определённый фрагмент кода....
5 причин смещения в машинном обучении и что с этим делать

5 причин смещения в машинном обучении и что с этим делать

Смещение в машинном обучении означает, что алгоритм дает ошибочные результаты из-за неточных предположений, сделанных на одном из этапов процесса. Чтобы разработать любой процесс машинного обучения,...
Artificial Intelligence

Переживут ли творческие профессии революцию искусственного интеллекта?

Людьми нас делает наш разум, а искусственный разум — продолжение нашего. Ян Лекун Люди великолепно развили свои способности. Из куска мрамора мы изваяли прекрасные статуи, написали живущие в...
Большой недостаток социальных сетей и его устранение

Большой недостаток социальных сетей и его устранение

Чуть более двух десятилетий назад, на заре своего развития Интернет столкнулся с серьезной проблемой: очень сложно было найти «правильную», необходимую информацию. Другими словами, поисковые...
DataScience

Поиск с возвратом в решении типичных задач на собеседовании

Поиск с возвратом  —  это эффективный метод для решения алгоритмических задач, обычно задаваемых на собеседовании. Данный вид поиска ищет решения в глубину и, достигнув...
Как предварительно обработать данные и текстовые сообщения из социальных сетей

Как предварительно обработать данные и текстовые сообщения из социальных сетей

Одна из самых непростых задач при использовании данных из социальных сетей и текстовых сообщений для NLP (Natural Language Processing  —  обработки естественного языка) заключается...
Как конвертировать PDF-файлы в PNG с помощью Python

Как конвертировать PDF-файлы в PNG с помощью Python

Пакет pdf2image поможет нам превратить файл PDF в PNG. Чтобы упростить процесс преобразования, мы немного улучшим этот проект. Давайте сделаем это без лишних слов! Требования Первое,...
10 рекомендаций по Apache Airflow для дата-инженеров

10 рекомендаций по Apache Airflow для дата-инженеров

Раскройте потенциал Airflow, придерживайтесь рекомендаций по повышению надежности и эффективности конвейеров данных, производительности, сопровождаемости и масштабируемости. Дадим примеры, как эти рекомендации реализовать.
MongoDB: ограничение отображаемых документов

MongoDB: ограничение отображаемых документов 

Разберем методы Limit() и Skip() и приведем примеры
Statistics

Статистика - это грамматика науки о данных. Часть 3

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Меры расположения Процентили Процентили делят упорядоченные данные...
Data Science

Почему мы создали платформу для инженерии машинного обучения, а не науки о данных

Около года назад некоторые из нас начали работать над платформой машинного обучения с открытым исходным кодом Cortex. Наша мотивация была проста: создание приложения из...
RUID - уникальные 64-битные идентификаторы для распределенных баз данных

RUID - уникальные 64-битные идентификаторы для распределенных баз данных

RUID (Rodrigo’s Unique Identifiers)  —  это 64-битные идентификаторы с математически гарантированной уникальностью при генерировании в одном и том же RUID root. Ознакомьтесь с ними...
Python

List Comprehensions в Python за 5 минут

Зачем нужен list comprehension в Python? Чтобы сохранить строчки кода. List comprehensions — это один из способов создания Pythonic-однострочников (one-liners) с итерируемыми списками. В качестве примера рассмотрим продуктовую корзину. Вы...
ML-инженер или специалист по обработке данных? (Закат науки о данных?)

ML-инженер или специалист по обработке данных? (Закат науки о данных?)

Привет, меня зовут Джейсон Я специалист по обработке данных (чуть позже в статье это понятие будет определено конкретнее) в Кремниевой долине, и мне очень нравится расширять...
Будут ли специалисты по обработке данных по-прежнему востребованы в 2022 году?

Будут ли специалисты по обработке данных по-прежнему востребованы в 2022 году?

Насколько востребованы сегодня специалисты по обработке и анализу данных? Способны ли их вытеснить инженеры данных или автоматизированные МО-инструменты? Поиск ответов на эти вопросы поможет не ошибиться в выборе карьерного пути.
Типы операций обновления в MongoDB с использованием Spring Boot

Типы операций обновления в MongoDB с использованием Spring Boot

Разбираемся, как обновлять данные в MongoDB, в чем заключаются преимущества и недостатки существующих способов и как выглядят результаты их применения.
Quantum Сomputing

Квантовые вычисления для всех

Квантовые вычисления. Наряду с квантовой запутанностью и квантовой телепортацией это модное учёное словечко широко распространено в научной фантастике и научно-популярных СМИ. Но что оно...
MongoDB: типы данных

MongoDB: типы данных 

MongoDB поддерживает множество типов данных - перечислим их в этой статье.
Data Frame

Как за секунды обрабатывать DataFrame с миллиардами строк

Анализ больших данных в Python переживает свой ренессанс. Всё началось с NumPy, которая тоже в каком-то смысле причастна к инструменту, с которыми я вас...
Data Science

Моделирование экспоненциального роста

Чтобы лучше усвоить материал, рекомендуем вам использовать данные для примера и Python Notebook. Почему именно экспоненциальный рост? Экспоненциальный рост — это математическая функция, которая может использоваться в нескольких...
Управление файлами в Google Colab

Управление файлами в Google Colab

Google Colaboratory  —  бесплатная среда Jupyter Notebook, которая выполняется на облачных серверах Google и позволяет использовать аппаратное оборудование бэкенда, например GPU and TPU. В...
Python

Обзор библиотеки Datatable в Python

Данные, с которыми вы работаете, уже настолько большие, что вы часами ждёте их загрузки? Пора осваивать новый инструмент, который избавит вас от долгого ожидания...
Лассо- и ридж-регрессии: интуитивное сравнение

Лассо- и ридж-регрессии: интуитивное сравнение

Регуляризация размерности данных - важнейший навык в машинном обучении, позволяющий повысить эффективность модели. Чтобы овладеть им, необходимо понять различие между лассо- и ридж-регрессиями. Попробуем разобраться с этими методами статистического обучения.
Основы науки о данных

Основы науки о данных

Наука о данных  —  это быстро развивающаяся область, изначально основанная на статистике. За последние несколько десятилетий она стала намного шире из-за экспоненциального роста объема...
Pandas

Ускоряем работу с pandas при помощи modin

Pandas — библиотека, которая не нуждается в представлении, если речь идёт о работе с данными. Она привносит высокую производительность, структурирование данных и удобную работу с ними....
Machine Learning

Алгоритмы машинного обучения простым языком. Часть 2

Предыдущие части: Часть 1 Ридж- и лассо- регрессия Моя бабушка до сих пор не очень напугана, поэтому продолжаем! Линейная регрессия не такая уж и пугающая, правда? Это...
10 Графовых алгоритмов

10 Графовых алгоритмов

Графы превратились в невероятно сильное средство моделирования и получения данных из соцсетей, веб-страниц и ссылок, а также определения местоположения и маршрутов в GPS. Любой...
Новый модуль временных рядов PyCaret

Новый модуль временных рядов PyCaret

Новый модуль PyCaret отличается простотой и функциональностью. Рассмотрим его в действии.
Поездка в берлинском метро с графовой БД Memgraph

Поездка в берлинском метро с графовой БД Memgraph

Вы научитесь импортировать и визуализировать сложные сети метро, ​​выполнять осмысленные запросы и красиво оформлять ответы базы. Эти навыки открывают возможности анализа и визуализации данных. Авторы рекомендуют продолжать экспериментировать с Memgraph Lab.
redis-hawk: детализированное отслеживание и контроль развертывания Redis

redis-hawk: детализированное отслеживание и контроль развертывания Redis

Redis  —  это хранилище структур данных в памяти с поддержкой масштабируемости, которое работает с самыми разными приложениями. И популярность его только растет. Но с...
R and Python

От ‘R против Python’ к ‘R и Python’

Сосредоточьтесь на навыках, а не на инструментах Для тех, кто разбирается в Data Science, R и Python — это первые два ЯП, которые приходят на ум. Оба...

#04TheNotSoToughML | “Давай, минимизируй ошибки” — Но достаточно ли этого?

Пришло время развеять миф о том, что машинное обучение - это сложно. Интуитивное МО позволяет пользоваться легкодоступными инструментами, не требующими специальных знаний.
MongoDB: удаление базы данных

MongoDB: удаление базы данных 

В прошлой статье о MongoDB мы рассмотрели создание базы данных. В данном разделе рассмотрим процесс ее удаления.
Кодирование категориальных данных: визуальное руководство для начинающих с примерами кода

Кодирование категориальных данных: визуальное руководство для начинающих с примерами кода

Это руководство позволит освоить 6 методов сопоставления категорий и чисел. Вы поймете, почему так важен правильный выбор метода кодирования категориальных данных. В заключение получите полезные советы, которые помогут избежать досадных ошибок в проектах по машинному обучению.
Mathematics

Эйнштейн и самая красивая из всех теорий

Британский физик-теоретик Поль Дирак (1902–1984), один из основоположников квантовой механики, однажды написал: «Было трудно примирить ньютоновскую теорию гравитации, в соответствии с которой гравитационное взаимодействие распространяется...
Структуры данных: кольцевой (циклический, замкнутый) связный список

Структуры данных: кольцевой (циклический, замкнутый) связный список

Кольцевой связный список - это разновидность связного списка, при которой первый элемент указывает на последний, а последний - на первый. Кольцевой связный список можно сделать как из односвязного , так и из двусвязного списка.
Data Science

Гамма-функция - интуиция, определение, примеры

Почему это интересно? Многие распределения вероятностей определяются с использованием гамма-функции, я перечислю лишь некоторые: гамма-распределение, бета-распределение, распределение Дирихле, распределение хи-квадрат, т-распределение Стьюдента и так далее.  Для...
Стилизация фотографий под мультфильмы с помощью Python

Стилизация фотографий под мультфильмы с помощью Python

Чтобы придать фотографиям особый эффект рисованного мультфильма, можно применить на них методы машинного обучения Python Как вы, наверное, знаете, рисование или создание мультфильмов не всегда делается...
Data Science

Вычисление π: моделирование методом Монте-Карло

Каждый год 14 марта любители математики отмечают День числа пи! Есть много способов вычислить это легендарное число π, которое примерно равно 3,14159… Обсудим все эти...
Система инженерии данных «от и до» с Kafka, Spark, Airflow, Postgres и Docker. Часть 1

Система инженерии данных «от и до» с Kafka, Spark, Airflow, Postgres и Docker. Часть 1

Создадим простой, но функциональный конвейер, подробно рассмотрим каждый его компонент: от настройки Kafka для потоковой передачи данных и оркестрации задач с Airflow до обработки данных со Spark и их сохранения в PostgreSQL. Сделаем акцент на практическом применении инструментов с Docker.
Machine Learning Model

Как построить модель машинного обучения, если под рукой нет доступных данных

Перед решением любой задачи науки о данных, такой как исследовательский анализ или построение модели, нужно ответить на следующие вопросы: Что вы хотите узнать или обнаружить...
Jupyter Notebook

Настройте свой Jupyter Notebook правильно

В своей известной презентации “Я не люблю блокноты” (видео и слайды) Джоэль Грус критикует Jupyter Notebook — вероятно, самую популярную среду разработки для машинного обучения. Для...
Эпоха Больших данных

Эпоха Больших данных

Технологии Big Data имеют ощутимые преимущества. Однако все более злободневно звучит вопрос: как использовать потенциал Больших данных без ущерба для конфиденциальности и безопасности граждан?
Генерация API-документации из docstrings на Python

Генерация API-документации из docstrings на Python

pdoc3 - профессиональная документация с LaTeX и markdown, автоматическая генерация HTML и CSS из docstrings
Как вычислить миллионное число Фибоначчи на Python

Как вычислить миллионное число Фибоначчи на Python

Как-то раз я захотел найти оптимальное решение для вычисления чисел Фибоначчи и решил попробовать вычислить стотысячное число в последовательности, а потом подумал: если бы...
OTP-аутентификация c Devise

OTP-аутентификация c Devise

Сделаем простую реализацию OTP-аутентификации с Devise-функционалом Confirmable без сторонних библиотек или обширных конфигураций. Напишем функции для обработки форм валидации OTP и повторной его отправки.
GoFr и Gin: сравнительное исследование

GoFr и Gin: сравнительное исследование

Напишем REST API с базой данных MySQL на своенравном GoFr и платформе для веб-приложений Gin. Сопоставим функционал этих двух фреймворков, его влияние на продуктивность разработчиков и пригодные для продакшена приложения.
9 испытаний, или будни современного инженера данных

9 испытаний, или будни современного инженера данных

Появление современных технологий неминуемо влечет за собой развитие сферы данных, в связи с чем начинающим инженерам приходится решать задачи нового уровня сложности. Какие же...