Наука о данных

Всё что касается науки о данных: алгоритмы и структуры данных, Искусственный Интеллект, анализ данных и многое другое!

Python

Random forest в Python

Практический пример машинного обучения До сих по еще не было более удачного времени для машинного обучения. Благодаря доступным учебным онлайн ресурсам в Интернет, бесплатные инструменты...
5 рекомендаций по оптимизации запросов SQL

5 рекомендаций по оптимизации запросов SQL

Никогда не поздно проанализировать свой стиль программирования запросов SQL, выявить недостатки и исправить. Рассмотрим 5 способ улучшить запросы и повысить свою продуктивность.
Machine Learning

Ускорение GPU в машинном обучении и больших данных

Введение Вычисления на графических процессорах становятся всё более и более важными. Количество данных во всём мире удваивается каждый год.Приходит квантовая реальность. Закон Мура перестаёт работать. Кроме того,...
Создайте приложение для резюмирования новостных статей с Hugging Face и Gradio

Создайте приложение для резюмирования новостных статей с Hugging Face и Gradio

У вас накопилась масса закладок со статьями для последующего чтения, но вы так и не добрались до них? Нет времени читать длинные статьи? Хотите узнать...
Как найти три наибольших числа в JavaScript

Как найти три наибольших числа в JavaScript

Подсказка Создайте функцию, которая при вводе массива, состоящего минимум из трех целых чисел, возвращает отсортированный массив из трех наибольших целых чисел. Примечание: вы не можете отсортировать...
Время управлять версиями проектов МО по-новому

Время управлять версиями проектов МО по-новому

Специалисты по анализу данных и инженеры машинного обучения часто представляют проекты предиктивной аналитики в виде конвейера  —  производственного процесса, который принимает четко определенные вводы...
Будущее практического применения чат-ботов

Будущее практического применения чат-ботов

В последние несколько лет мы стали свидетелями гонки между компаниями за создание самой большой, самой мощной и самой интересной модели под названием NLP (Обработка...
Собеседование в области науки о данных: 7 распространенных ошибок

Собеседование в области науки о данных: 7 распространенных ошибок

Вас преследует неудачи на собеседованиях в области науки о данных и машинного обучения? Рассматриваем распространенные проблемы и размышляем о том, как их избежать.
Data Science

Почему за способностью объяснения модели стоит будущее Data Science

Техники объяснения модели показывают, что изучает модель, а знание о том, что происходит внутри модели имеет большое значение. На протяжении последних десяти лет я общался...
Наш первый миллиард строк в DuckDB

Наш первый миллиард строк в DuckDB

Как одной машиной заменяется целый кластер? Расскажем об особенностях DuckDB, решаемых задачах и приобретенном с ее помощью опыте в реальном проекте обработки 450 Гб.
Наивный байесовский алгоритм

Наивный байесовский алгоритм

Введение Самые простые решения обычно оказываются самыми действенными, и в этом смысле показателен пример наивного байесовского алгоритма. Несмотря на большие успехи машинного обучения в последние...
Data Science

Как составить Data Science портфолио? Часть 4

Предыдущие части: Часть 1, Часть 2, Часть 3 Medium и/или другие платформы для блоггинга. Блог — это способ показать, что вы что-то умеете. Когда вы пишите о проекте...
Как писать идеальные конспекты по науке о данных

Как писать идеальные конспекты по науке о данных

Предлагаем несколько практических советов по написанию конспектов при изучении науки о данных. Следуя им, вы сможете эффективно понимать и усваивать сложнейшие концепции, которые пригодятся в дальнейшей работе.
Python

Как создать бота для автоматизации повседневных задач, с помощью Python и Google BigQuery

У каждого из нас есть однообразные задачи, которые мы выполняем изо дня в день, из недели в неделю. Составление отчетов, в большинстве случаев, является...
Проект инженерии данных «от и до» с Apache Airflow, Postgres и GCP

Проект инженерии данных «от и до» с Apache Airflow, Postgres и GCP

Подробно расскажем о контейнерах Docker, оркестрации ETL-конвейеров, работе с облачными технологиями, настройке рабочей среды для ETL-проектов с Apache Airflow. А в конце поделимся нужными командами.
Структуры данных: основные понятия

Структуры данных: основные понятия

Предыдущая часть: "Структуры данных: динамическое программирование" Определение данных Это определение конкретных данных со следующими характеристиками: атомарность, то есть определяется единое понятие.отслеживаемость, т. е. определение должно сопоставляться с...
Python

7 советов по улучшению анализа данных в Python

#1: Pandas Profiling Преимущества этого инструмента очевидны. Анимация ниже создана с помощью вызова метода df.profile_report(): С помощью этого инструмента можно с легкостью устанавливать и импортировать пакет...
5 подводных камней нереляционных баз данных

5 подводных камней нереляционных баз данных

Когда речь заходит о нереляционных базах данных, не все видят две стороны одной медали: многие упускают из виду то, что у этих баз данных...
Структуры данных: «жадные» алгоритмы

Структуры данных: «жадные» алгоритмы

Алгоритм предназначен для достижения оптимального решения задачи. В подходе с жадным алгоритмом оно выбирается из заданной предметной области решений. Причём берутся ближайшие, кажущиеся оптимальными решения - отсюда и название «жадный».
JavaScript

8 лучших платформ и библиотек JavaScript для машинного обучения

Невероятный рост новых технологий, таких как машинное обучение, облегчил жизнь разработчикам: создавать приложения на базе искусственного интеллекта стало намного проще. И теперь к активному...
Будут ли специалисты по обработке данных по-прежнему востребованы в 2022 году?

Будут ли специалисты по обработке данных по-прежнему востребованы в 2022 году?

Насколько востребованы сегодня специалисты по обработке и анализу данных? Способны ли их вытеснить инженеры данных или автоматизированные МО-инструменты? Поиск ответов на эти вопросы поможет не ошибиться в выборе карьерного пути.
Streamlit

Быстрая сборка и развертывание дашборда со Streamlit

Со Streamlit разработка дашборда для решения машинного обучения становится невероятно простой. Streamlit — это фреймворк с открытым кодом, специально разработанный для инженеров машинного обучения, работающих с Python....
R

В каком возрасте вы получите Нобелевскую премию — визуализация на языке R.

Вы когда-нибудь пробовали решать задачи с помощью визуализации? Предлагаем решить занимательную задачу на языке R. Нобелевские премии (до 1969 года всего их было пять, а...
Что такое компилятор

Что такое компилятор

Если вы программист, то наверняка слышали слово “компилятор”. Но знаете ли вы, что это такое на самом деле? Вы когда-нибудь задумывались, что происходит под...
Data Science

Гениально или глупо? Самая неоднозначная нейросеть

Некоторые считают нейронную сеть экстремального обучения (ELM) одной из самых удачных нейросетей — изучению её архитектуры даже посвящена отдельная конференция. Сторонники ELM утверждают, что для выполнения...
Что нужно знать, чтобы начать заниматься квантовыми вычислениями

Что нужно знать, чтобы начать заниматься квантовыми вычислениями

Несмотря на относительно старую технологию, только в последнее время квантовые вычисления привлекли к себе много внимания как индустрии, так и СМИ. Квантовые вычисления впервые...
6 SQL-запросов, о которых должен знать каждый дата-инженер

6 SQL-запросов, о которых должен знать каждый дата-инженер

SQL уже больше 45 лет, но он по-прежнему в деле и незаменим для быстрого анализа данных с написанием сложных запросов. Попрактикуемся в этом с продвинутым синтаксисом SQL для решения многих бизнес-задач.
Почему точные модели не всегда полезны

Почему точные модели не всегда полезны

Утверждение, которое кажется парадоксальным: точность модели - не главный признак ее эффективности! Важно также разработать продукт, оправданный с денежной точки зрения. Сегодня поговорим о том, как функции экономической полезности помогают связать МО-модели с нуждами клиентов.
Как инструменты дизайна интерфейса и визуализации способствуют развитию Machine Teaching?

Как инструменты дизайна интерфейса и визуализации способствуют развитию Machine Teaching?

Разметка данных для машинного обучениянесет в себе ряд проблем и сложностей. Поэтому нам понадобится лучший подход, который ценит человеческий опыт и управляет расходами, а...
Как дата-аналитику стать дата-сайентистом в 2023 году

Как дата-аналитику стать дата-сайентистом в 2023 году

Какие навыки и ресурсы нужны дата-аналитику, чтобы получить должность дата-сайентиста? Как сократить и облегчить этот карьерный переход? Воспользуйтесь практическими советами старшего дата-сайентиста, который ранее работал дата-аналитиком.
4 альтернативы Pandas: ускоренное выполнение анализа данных

4 альтернативы Pandas: ускоренное выполнение анализа данных

Бенчмарк производительности популярных инструментов анализа данных заставит вас иногда отказываться от Pandas. Каждый из этих инструментов  -  Polars, DuckDB, Vaex и Modin - при анализе данных на кластере машин работает гораздо быстрее, чем Pandas.
Основы науки о данных

Основы науки о данных

Наука о данных  —  это быстро развивающаяся область, изначально основанная на статистике. За последние несколько десятилетий она стала намного шире из-за экспоненциального роста объема...
Почему лучшее - враг хорошего в MLOps?

Почему лучшее - враг хорошего в MLOps?

Вы наверняка слышали об исследовании, которое подтвердило, что ML-проекты чаще терпят фиаско, чем оказываются успешными. Даже если статистика провалов в этой сфере кажется вам...
Data Science

Исследование операций: что, когда и как

Несколько расплывчатый термин “исследование операций” был придуман в Первую мировую войну. Британские военные собрали группу ученых для распределения недостаточных ресурсов — например, еды, медикаментов, оружия, войск...
Mathematics

Почему 0,99999… равно 1

Давайте разберёмся, почему математики говорят, что 0,(9)=1. То есть ноль целых девять в периоде равно одному. Объяснение простое, но красивое. Об изображении: это не просто...
Python

Выбор оптимального алгоритма поиска в Python

Когда дело касается обучения, мы, как правило, используем один из двух основных подходов: идём либо вширь и стараемся охватить как можно больший спектр области,...
MongoDB: cортировка документов

MongoDB: cортировка документов 

Краткая инструкция по применению метода сортировки sort()
Python

List Comprehensions в Python за 5 минут

Зачем нужен list comprehension в Python? Чтобы сохранить строчки кода. List comprehensions — это один из способов создания Pythonic-однострочников (one-liners) с итерируемыми списками. В качестве примера рассмотрим продуктовую корзину. Вы...
Как собрать данные для DS-проекта с помощью Python: 3 шага

Как собрать данные для DS-проекта с помощью Python: 3 шага

Начните свой проект по науке о данных с создания Python-скрипта, используя библиотеку Selenium для извлечения данных. Предлагаем узнать, как это выполнить в 3 шага.
4 важных навыка, которые специалисты по обработке данных часто недооценивают

4 важных навыка, которые специалисты по обработке данных часто недооценивают

Наука о данных — это не только данные Если посмотреть на список того, что необходимо развивать будущему специалисту по обработке данных, то скорее всего он будет состоять из...
Artificial Intelligence

Обратные вызовы Keras за 2 минуты

Что такое обратный вызов Keras? Из документации Keras: Обратный вызов — множество функций, применяемых на данной стадии тренировки. Вы можете использовать их, чтобы посмотреть на внутреннее состояние...
Containers

Контейнеры это просто. Контейнерные технологии для начинающих

Вступление Будь вы студент или уже состоявшийся разработчик, вы наверняка слышали о «контейнерах». Более того, вероятно вы слышали, что контейнеры — это «лёгкие» виртуальные машины....
7 советов для эффективной визуализации данных

7 советов для эффективной визуализации данных

Одним из важных аспектов работы в области науки о данных является способность эффективно передавать результаты анализа с помощью разных способов визуализаций. Данные  —  это история...
Как конвертировать PDF-файлы в PNG с помощью Python

Как конвертировать PDF-файлы в PNG с помощью Python

Пакет pdf2image поможет нам превратить файл PDF в PNG. Чтобы упростить процесс преобразования, мы немного улучшим этот проект. Давайте сделаем это без лишних слов! Требования Первое,...
Python

Связный список в деталях

Определение и пояснение?‍? Когда мы будем говорить “связный список”, то подразумеваться будет однонаправленный связный список. Чтобы получше понять эту структуру данных, давайте рассмотрим ее отличительные...
Neural networks

Заставляем глубокие нейронные сети рисовать, чтобы понять, как они работают

Для нас до сих пор остаётся загадкой то, почему глубокое обучение так хорошо работает. Несмотря на то, что имеется куча догадок, почему глубокие нейронные...
Погружение в графы

Погружение в графы

Графы в большинстве своем представляют собой неупорядоченные деревья. В основном это утверждение касается ненаправленных и невзвешенных графов. Однако оно остается в силе и в...
Artificial Intelligence

Лучшие фреймворки для ИИ и машинного обучения в веб-разработке

Конкуренция на технологическом рынке чрезвычайно высока, и компании стремятся получить преимущество с помощью веб-дизайна и разработки. Чтобы веб-приложение для бизнеса было современным и конкурентоспособным, при...
Инструменты для быстрого овладения наукой о данных

Инструменты для быстрого овладения наукой о данных

Компании типа BlobCity предоставляют множество шаблонов кода ИИ/МО. Этот инструментарий способен как облегчить работу опытных специалистов в области науки о данных, так и ускорить профессиональное становление новичков.
ЕС ужесточает регулирование в сфере использования искусственного интеллекта

ЕС ужесточает регулирование в сфере использования искусственного интеллекта

21 апреля Еврокомиссия опубликовала свод строгих правил, по-новому регулирующих использование искусственного интеллекта. Это первый документ подобного рода. В нем ИИ определяется как технология, являющаяся...
Ludwig на PyTorch

Ludwig на PyTorch

Простота, модульность и расширяемость - отличительные признаки декларативного фреймворка глубокого обучения Ludwig. Его разработчики представляют новую, переработанную с нуля версию - Ludwig v0.5. И главная его особенность в том, что весь бэкенд переносится на PyTorch.
Топ-5 ошибок при объявлении функций в Python

Топ-5 ошибок при объявлении функций в Python

Функции являются критическим компонентом в любом программном проекте. Написанные должным образом, они представляют собой практичный способ написания читаемого и поддерживаемого кода. Однако, если функции...
Новая библиотека превосходит Pandas по производительности

Новая библиотека превосходит Pandas по производительности

Выпуск pandas датируется 2008 годом, и написана она была на Python, Cython и Си. Сегодня мы сравниваем производительность этой всем известной библиотеки с новой...
Работа с панелью индикаторов. Руководство программиста Python.Часть 2

Работа с панелью индикаторов. Руководство программиста Python.Часть 2

Часть 1, Часть 2 Это вторая статья из нашей серии об использовании Python-фреймворка Dash от Plotly в качестве основной платформы для работы с панелью индикаторов....
Data Science

Анализ независимых компонент в Python

Предположим, вы на вечеринке беседуете с милой девушкой. Вас атакует множество звуков: разговоры людей по всему дому, громко играющая на фоне музыка. Тем не...
DataScience

Сумма экспоненциальных случайных величин

Сумма экспоненциальных случайных величин Пусть X1 и X2 — независимые, экспоненциальные и случайные величины со средним значением λ. Пусть Y=X1+X2. Тильда (~) означает “имеет распределение вероятностей”, например,...
В чем преимущество контрактов о передаче данных

В чем преимущество контрактов о передаче данных

Контракты о передаче данных - это возможность избавить дата-саентистов от неприятностей в работе с данными сомнительного качества. Предлагаем познакомиться с конструктивным подходом к таким соглашениям.
Alteryx - достойная платформа обработки данных?

Alteryx - достойная платформа обработки данных?

Alteryx - это больше, чем просто инструмент обработки данных. Он отлично подходит для решения задач интеграции и анализа данных, а также может похвастаться множеством средств связи с системами и базами данных.
Как быстро и легко создавать прототипы датасайенс-проектов

Как быстро и легко создавать прототипы датасайенс-проектов

Преобразовать Jupyter Notebook в интерактивный дашборд - задача из простых. Для этого даже не нужно знать HTML, CSS и JavaScript. Разбираемся, как создать приложение для совместного использования прямо в среде ноутбука с помощью Mercury.
AI

Как распознавать объекты 600 классов, используя 9 миллионов изображений из Open Images

Если вы собираетесь создать классификатор изображений и вам нужна база для обучения, то вам понадобится лишь Google Open Images. Этот датасет состоит более чем из...
Создание простой нейронной сети на Python

Создание простой нейронной сети на Python

В течение последних десятилетий машинное обучение оказало огромное влияние на весь мир, и его популярность только набирает обороты. Все больше людей увлекается подотраслями этой...
Algorithms

Наглядное объяснение алгоритма Беллмана-Форда

Алгоритм Беллмана-Форда находит в ориентированном графе кратчайшие пути от исходной вершины до всех остальных. В отличие от алгоритма Дейкстры, в алгоритме Беллмана-Форда могут быть...
Python

5 секретов наилучшего использования кортежей в Python

Python, являясь языком программирования общего назначения, предоставляет набор встроенных типов данных, включая int, str, tuple, list, dict и set. Четыре последних считаются контейнерами, так...
ArtificialIntelligence

SpineNet: нетрадиционная архитектура backbone-сети от Google Brain

Проблема классификации была весьма эффективно решена при помощи архитектур типа “энкодер-декодер”, в которых энкодерам свойственно постепенное уменьшение масштаба. Однако эта архитектура не способна эффективно...
5 инструментов для специалистов по обработке данных

5 инструментов для специалистов по обработке данных

Рассказываем о пяти инструментах, которые позволят сэкономить время вам и вашей команде при работе над проектом. Они помогут не только с очисткой и анализом данных, но и с построением, обучением и тестированием моделей машинного обучения.
Data Science

Безградиентный подход к оптимизации нейронной сети

Градиентный спуск  —  это одна из важнейших идей в области машинного обучения, в котором алгоритм с учетом функции затрат итеративно выполняет шаги с наибольшим...
NLP

Обработка естественного языка для анализа отзывов онлайн-покупателей

Цель использования обработки естественного языка в описываемом проекте — анализ обзоров на товары, оставленных онлайн-покупателями.  Я начал работу над этим проектом для достижения трех бизнес-целей:  Найти основные компоненты...
Jackknife+: «швейцарский нож» в конформном прогнозировании для регрессии

Jackknife+: «швейцарский нож» в конформном прогнозировании для регрессии

Рассмотрим преимущества Jackknife+ - эффективного метода конформного прогнозирования, который представляет собой усовершенствованную версию jackknife.
Структуры данных: динамическое программирование

Структуры данных: динамическое программирование

Подход динамического программирования схож с подходом «разделяй и властвуй»: тоже разбивает задачи на как можно более мелкие подзадачи. Отличие в том, что здесь подзадачи решаются не независимо.
3 признака того, что ваш ИИ-проект обречен

3 признака того, что ваш ИИ-проект обречен

Я провела консультации по сотням проектов машинного обучения и научилась замечать ранние признаки того, что клиент собственными руками пилит сук, на котором сидит. Вот тройка...
Оптимизация работы баз данных с PostgreSQL 12

Оптимизация работы баз данных с PostgreSQL 12

PostgreSQL претендует на звание самой передовой базы данных с открытым исходным кодом в мире, и вполне заслуженно. Основные технические возможности, производительность и рабочие характеристики...
Три библиотеки R, которые должен знать каждый специалист по данным

Три библиотеки R, которые должен знать каждый специалист по данным

Даже если вы используете Python, включите в свой арсенал инструментов три мощные библиотеки R, созданные крупнейшими технологическими компаниями мира.
Machine Learning

Выборки. Джентльменский набор

Простая случайная выборка Вы хотите выбрать подмножество, в котором каждый член имеет равную вероятность быть выбранным. Ниже мы случайно выбираем 100 значений из набора данных: sample_df...
Data Science

Как составить Data Science портфолио? Часть 1

Как получить работу в области Data Science? Во-первых, нужно знать основы статистики, машинного обучения, программирования и т.д. Во-вторых, вам нужно будет составить портфолио. Да, несомненно,...
Data Science

Доходчиво об обучении на основе многообразий с алгоритмами IsoMap, t-SNE и LLE

Метод главных компонент (PCA) весьма производителен, но зачастую дает сбой, так как предполагает возможность линейного моделирования данных. Он выражает новые признаки в виде линейных...
Data science

8 способов “настроить” Data-команду на успех. Часть первая

Мы живем в золотой век Data-ориентированных организаций. Алгоритмы! Большие Данные! У вас вероятно, даже есть Data Scientist в штате или два! Но … Если ваши Data-специалисты тратят...
9 важных сниппетов Python для оптимизации работы со скриптами

9 важных сниппетов Python для оптимизации работы со скриптами

Ускорение работы на Python Написание скриптов на Python для решения самых разных задач  —  одно из моих любимых занятий. Когда самостоятельно доходишь до ответа, который предлагает...
Как освоить алгоритмы?

Как освоить алгоритмы?

Чтобы что-то было сделано компьютером, нужно указать ему, как это сделать. Нужно написать программу с пошаговым объяснением: какие задачи компьютер должен выполнить и каким...
Data Science

Моделирование экспоненциального роста

Чтобы лучше усвоить материал, рекомендуем вам использовать данные для примера и Python Notebook. Почему именно экспоненциальный рост? Экспоненциальный рост — это математическая функция, которая может использоваться в нескольких...
ТОП-4 официальных сайта МО-библиотек и способы их использования

ТОП-4 официальных сайта МО-библиотек и способы их использования

Ознакомьтесь с обзором 4 лучших сайтов машинного обучения: Scikit-learn, TensorFlow, Keras и PyTorch. Предлагаем также освоить эффективные способы применения каждого из этих ресурсов.
Автоматический анализ текста с использованием Streamlit

Автоматический анализ текста с использованием Streamlit

Streamlit  —  эффективный и оперативный инструмент для анализа текста. С ним можно провести реферирование текста, частеречную разметку и распознавание именованных объектов. Введение в анализ текста Текстовая аналитика...
Data Analysis

Анализ автоаварий в Барселоне с использованием Pandas, Matplotlib и Folium

Open Data Barcelona - это сервис, предоставляющий наборы данных Барселоны, который содержит около 400 наборов, охватывающих широкий спектр тем, таких как население, бизнес и...
Лучший алгоритм решения задач по программированию на Python

Лучший алгоритм решения задач по программированию на Python

По-прежнему актуальны споры о фактической пользе таких веб-сайтов по Python-программированию, как Codewars или Leetcode, и их роли в развитии профессиональных навыков разработчиков. Но несмотря...
К подготовке и публикации первого пакета Python готовы!

К подготовке и публикации первого пакета Python готовы!

Python стал одним из самых широко используемых языков программирования. Главным образом объясняется это тем, что мы, его обычные пользователи, можем поделиться своим кодом, обеспечивая...
Computer Science

Много узлов, одна распределенная система

Говорят, что один (мужчина, женщина — какой-то человек) — в поле не воин. Но в наши дни к этому списку можно добавить и «компьютер». Мы окружены машинами, компьютерами...
7 критериев выбора подходящего фреймворка для глубокого обучения

7 критериев выбора подходящего фреймворка для глубокого обучения

Обработка данных эффективна в тандеме с адекватным фреймворком для глубокого обучения. Возможно, вы тоже находитесь в поисках идеальной для себя библиотеки? В любом случае не пропустите сравнительный анализ самых популярных платформ - Pytorch, Keras и Tensorflow.
Computer Science

Прозрачность: иллюзии единой системы. Часть 2

Предыдущие части: Часть 1 Одной из (множества) причин сложности распределенных систем является то, что они пытаются делать множество вещей одновременно. Распределенная система создает для конечного...
Artificial Intelligence

Рекуррентная нейронная сеть с головы до ног

Нейрон — строительный элемент человеческого мозга. Он анализирует сложные сигналы за микросекунды и отправляет ответы нервной системе, которая решает сложные задачи. У всех нейронов одна и...
Data Science

Моделирование логистического роста

Часть 1, Часть 2 В прошлой статье мы рассмотрели пример моделирования первой вспышки коронавируса с помощью экспоненциального роста. Следующая ступень анализа — логистический рост. Воспользуйтесь Python notebook...
ИИ: постижение законов сверхразума

ИИ: постижение законов сверхразума

Термин “искусственный интеллект” похож на чемодан: каждый набивает его своим содержанием. Ученые тоже не могут достичь консенсуса в определении машинного разума. От этого в...
Audio Data Analysis

Анализ аудиоданных с помощью глубокого обучения и Python (часть 1)

Введение Аудиоанализ - область, включающая автоматическое распознавание речи (ASR), цифровую обработку сигналов, а также классификацию, тегирование и генерацию музыки - представляет собой развивающийся поддомен приложений...
О машинном обучении простым языком

О машинном обучении простым языком

В XXI веке машинное обучение и искусственный интеллект будут “править бал”. Ежедневно мы производим большое количество данных. Сюда также входят данные о покупках клиентов...
Как создать первый проект по инженерии данных: инкрементный подход. Часть 2

Как создать первый проект по инженерии данных: инкрементный подход. Часть 2

Инкрементный подход похож на спринт: он позволяет оперативнее реагировать на любые изменения и быстрее достигать цели. Небольшие, но постепенные шаги (спринты) обеспечат вам заряд адреналина всякий раз, когда вы будете вычеркивать из списка очередную выполненную задачу.

Какие десять книг про науку о данных и искусственный интеллект стоит прочитать в 2020

Чтобы стать экспертом в какой-либо области, нужно взять на себя обязательство учиться и быть последовательным в достижении своих целей. И это справедливо для всех...
Цепь Маркова

Цепь Маркова

Цепь Маркова используют многие современные компании и организации. Она помогает прогнозировать погоду и разрабатывать маркетинговые стратегии, находит применение в различных приложениях для решения реальных...
Data Science

Все что нужно знать о древовидных структурах данных

Когда вы впервые учитесь кодировать, общепринято изучать массивы в качестве «основной структуры данных». В конце концов, вы также изучаете хэш-таблицы. Для получения степени по «Компьютерным...
Redis и Memurai для кэширования SQL-запросов

Redis и Memurai для кэширования SQL-запросов 

Кэширование запросов совсем не такой простой процесс, как кажется на первый взгляд. Рассмотрим разные подходы, признаки хорошего кэша, кэширование с помощью Redis и его альтернативу Memurai для Windows.
Python

5 простых способов визуализации данных на Python. С кодом

Визуализация данных — это большая часть работы специалистов в области data science. На ранних стадиях развития проекта часто необходимо выполнять разведочный анализ данных (РАД, Exploratory data...
Data science

8 способов “настроить” Data-команду на успех. Часть вторая

Предыдущие части: Часть 1 Другие лучшие практики Далее я привожу вымышленные сценарии, рассматривая общие стратегии, которые менеджеры должны использовать, чтобы не навредить своей Data-команде. 2) Ищите «Систематические ошибки...
Database

Моделирование связей графа в DynamoDB

В основе Koan лежат его цели и то, как эти цели взаимосвязывают людей и команды внутри компании. Эти связи зачастую оказываются сложными, потому что...
Лассо- и ридж-регрессии: интуитивное сравнение

Лассо- и ридж-регрессии: интуитивное сравнение

Регуляризация размерности данных - важнейший навык в машинном обучении, позволяющий повысить эффективность модели. Чтобы овладеть им, необходимо понять различие между лассо- и ридж-регрессиями. Попробуем разобраться с этими методами статистического обучения.
Какие типы изображений можно создавать в Midjourney

Какие типы изображений можно создавать в Midjourney

Знакомьтесь с генератором изображений Midjourney. Эта нейросеть была создана в феврале 2022 года и уже пережила несколько апгрейдов. Рассказываем, что умеет Midjourney и как использовать этот инструмент в проектах.
Как найти выход из лабиринта с помощью Python

Как найти выход из лабиринта с помощью Python

Создание лабиринта Наш лабиринт будет в виде матрицы размером n*m с нулями для проходов и единицами для стен. a = [ [1, 1,...
React

Поиск и использование компонентов с bit.dev для создания приложений

Bit упрощает использование компонентов из библиотек и приложений. Bit’s hub (bit.dev) облегчает поиск и взаимодействие с этими компонентами. В этой статье мы узнаем, как найти...
9 плагинов в Figma, которые были популярны в 2024 году

9 плагинов в Figma, которые были популярны в 2024 году

Рассмотрим 9 плагинов в Figma, их особенности и способы интеграции в рабочий процесс.