5 причин смещения в машинном обучении и что с этим делать
Смещение в машинном обучении означает, что алгоритм дает ошибочные результаты из-за неточных предположений, сделанных на одном из этапов процесса.
Чтобы разработать любой процесс машинного обучения,...
Пять направлений применения исследования операций
В последние годы область исследования операций процветала наряду с развитием вычислительной мощности. Сейчас многие организации используют этот подход, чтобы разрабатывать оперативные, тактические и даже...
Реализация архитектуры с сохранением состояния в Streamlit
Streamlit
Streamlit прошел долгий путь становления с момента своего создания в октябре 2019 года. Он не только предоставил разработчикам ПО новые возможности, но и обеспечил...
Межорганизационный обмен данными
Преимущества объединения хранилищ данных в последнее время привлекают большое внимание организаций всех уровней. В 2018 году корпорация Google разработала проект передачи данных (Data Transfer...
Состояние инфраструктуры данных на 2023 год — ключевые тренды ландшафта MAD от Мэтта Терка
Как выглядит ландшафт инструментов по работе с данными глазами инсайдера, который активно общается с конечными пользователями? Рассмотрим, какова ситуаций в целом и какие в ней наблюдаются тенденции.
Суперсила индексов для оптимизации SQL-запросов
Введение
Вы любите SQL и хотите улучшить свои навыки выполнения SQL-запросов? Вы знаете, что индексация — отличный инструмент для оптимизации запросов, но при этом не...
Развёртывание модели машинного обучения в виде REST API
В статье вы узнаете, как разворачивать модели машинного обучения и составлять прогнозы при помощи любого языка программирования, который вам нравится. Конечно, за основу вы...
Статистика - это грамматика науки о данных. Часть 2
Повторение статистики для начала путешествия по науке о данных
Часть 1, Часть 2, Часть 3, Часть 4, Часть 5
Функции распределения вероятностей
Функция распределения вероятностей — это...
4 Продвинутых приема работы с функциями Python, о которых вы могли не знать
Знаете ли вы, как принудительно задавать именованные аргументы, создавать декоратор функций и анонимные функции или распаковывать массив или словарь в аргументы функции? Предлагаем вашему...
Пошаговое руководство по созданию синтетических данных в Python
Предлагаем удобное для начинающих руководство по созданию собственных данных для анализа и тестирования. Использование синтетических наборов данных позволит повысить производительность моделей машинного обучения и снизить затраты на разработку и тестирование приложений.
Pandas 2.0.0 — геймчейнджер в работе дата-сайентистов?
Действительно ли новый релиз pandas 2.0.0. направлен на повышение производительности, гибкости и совместимости операций с данными? Ответить на этот вопрос поможет данный обзор, в котором представлены 5 функциональных возможностей pandas 2.0.
Наука о данных простым языком
Что такое наука о данных? Попробуем объяснить ее значение доступным языком.
Python 3: 3 функции, которые следует помнить
Многие разработчики, особенно новички, уже активно пишут на Python 3. И хотя в этой версии появилось множество новых функций, многие из них неизвестны или...
Как учатся машины
С каждым днём машины становятся умнее. Когда вы заходите на YouTube, Amazon, или Facebook, то для вас автоматически подбираются рекомендованные видео, товары и посты....
Распределенное МО с Dask и Kubernetes на GCP
Интересуетесь вопросами безопасной обработки конфиденциальных данных? Знакомьтесь с новейшей технологией использования конфиденциальных данных для аналитики и приложений ИИ. Узнайте, как всего в 3 шага развернуть кластер dask на kubernetes в общедоступном облаке GCP.
String и string в С#: больше, чем просто стиль?
Обзор
Во-первых, давайте рассмотрим оба типа:
String— это обычный идентификатор, который относится к типу данных .NET System.String. Также необходимо, чтобы был импортирован класс System.
string— это зарезервированный дескриптор в...
Deepnote - новая IDE для специалистов по данным
Дисклеймер: автор никак не связан с Deepnote или его участниками.
Deepnote — это бесплатный онлайн-блокнот для специалистов по данным, фокусирующийся в основном на совместном использовании в реальном...
6 концептов книги Эндрю Ына «Жажда машинного обучения»
“Техническая стратегия для инженеров-разработчиков искусственного интеллекта в эпоху глубокого обучения”
“Жажда машинного обучения” структурирует разработку проектов, использующих машинное обучение. Книга включает в себя практический опыт,...
Как инструменты дизайна интерфейса и визуализации способствуют развитию Machine Teaching?
Разметка данных для машинного обучениянесет в себе ряд проблем и сложностей. Поэтому нам понадобится лучший подход, который ценит человеческий опыт и управляет расходами, а...
MongoDB: моделирование данных
Данные в MongoDB обладают гибкой схемой хранения документов в одной коллекции. Документам не обязательно иметь одинаковый набор полей или структуру. Общие поля в них могут содержать разные типы данных.
5 видов регрессии и их свойства
Линейная и логистическая регрессии обычно являются первыми видами регрессии, которые изучают в таких областях, как машинное обучение и наука о данных. Оба метода считаются...
5 простых способов визуализации данных на Python. С кодом
Визуализация данных — это большая часть работы специалистов в области data science. На ранних стадиях развития проекта часто необходимо выполнять разведочный анализ данных (РАД, Exploratory data...
За гранью HCD: нужен ли новый подход в дизайне для ИИ?
Сетевая технология имеет сетевые эффекты. Зачастую они являются неосязаемыми и усиливаются через систему во время использования машинного обучения. Но есть ли смысл создавать ориентированный...
Условная независимость - основа байесовской сети
1. Восприятие условной независимости
Скажем, A — рост ребенка, а B — количество слов, которые он знает. Кажется, что если A высокий, то B, соответственно, тоже.
Однако существует информация, которая...
Лучшие фреймворки для ИИ и машинного обучения в веб-разработке
Конкуренция на технологическом рынке чрезвычайно высока, и компании стремятся получить преимущество с помощью веб-дизайна и разработки.
Чтобы веб-приложение для бизнеса было современным и конкурентоспособным, при...
ИИ: решение неверно поставленных задач
В 2008 году восходящие звезды Кремниевой долины собрались вокруг стола в конференц-зале. В будущем все они станут титанами технологического мира, однако в то время...
Инженерия данных: руководство для начинающих, вдохновленное Формулой-1
Сложные понятия и процессы лучше всего объяснять на конкретных кейсах. Сегодня покажем, как работать с данными, на примере компании, участвующей в гоночном чемпионате Формула-1.
Инновационный алгоритм глубокого обучения в Google Translate
Современный Google Translate просто потрясает своими возможностями. Для реализации способности выполнять перевод между любой парой из десятков поддерживаемых языков создатели этого инструмента очень находчиво...
BigQuery теперь поддерживает Query Queues
Новая функция Google BigQuery под названием Query Queues позволяет автоматически определять количество запросов, выполняемых одновременно. Дополнительные запросы, превышающие заданный уровень параллелизма, ставятся в очередь до тех пор, пока не освободятся ресурсы обработки.
8 лучших платформ и библиотек JavaScript для машинного обучения
Невероятный рост новых технологий, таких как машинное обучение, облегчил жизнь разработчикам: создавать приложения на базе искусственного интеллекта стало намного проще. И теперь к активному...
12 стратегий настройки готовых к производству RAG-приложений
По мере увеличения прототипов RAG-конвейеров становится насущным обсуждение стратегий оптимизации их производительности. Посмотрим, как можно повысить результативность работы RAG-конвейера с помощью гиперпараметров и различных стратегий настройки.
ML-инженер или специалист по обработке данных? (Закат науки о данных?)
Привет, меня зовут Джейсон
Я специалист по обработке данных (чуть позже в статье это понятие будет определено конкретнее) в Кремниевой долине, и мне очень нравится расширять...
Большой недостаток социальных сетей и его устранение
Чуть более двух десятилетий назад, на заре своего развития Интернет столкнулся с серьезной проблемой: очень сложно было найти «правильную», необходимую информацию. Другими словами, поисковые...
Раскрываем возможности контейнеризации. Зачем дата-сайентистам Docker и Kubernetes?
Разберем отличия и преимущества Docker и Kubernetes, применяемые инструменты и терминологию. Какова роль контейнеризации и оркестрации в эффективной работе дата-сайентиста?
SQL для Data Science: альтернатива обмену через Google Disk и Slack
Как аналитику данных показать SQL-запросы коллегам? Доступный обмен наработками через Jupyter Notebook, Tidyverse или Superset.
Стилизация фотографий под мультфильмы с помощью Python
Чтобы придать фотографиям особый эффект рисованного мультфильма, можно применить на них методы машинного обучения Python
Как вы, наверное, знаете, рисование или создание мультфильмов не всегда делается...
Лёгкое пополнение баз данных в приложениях платформы .NET
Пополнение базы данных может быть довольно сложной задачей. Ниже вашему вниманию предлагаются инструменты, помогающие облегчить эту операцию.
Проблема
Когда мы распределяем проект платформы .NET (Core), часто бывает...
Как вино может быть слегка острым и резким?
Как можно о вине сказать, что оно острое, резкое, яркое или плотное? Описания вин (особенно те, которые делают сомелье) часто состоят из как будто...
Чем отличаются модели МО в науке и производстве
Почему модели МО, которые хорошо выглядят "на бумаге", не гарантируют хорошей работы в производстве? Вот что думает специалист в области МО.
6 лучших JS-библиотек для визуализации данных и создания отчетов
Веб-инструменты для отчетов используются для представления, создания и изменения отчетов с помощью веб-интерфейса — веб-браузера. Эти инструменты могут быть встроены в сторонние приложения или...
Почему искусственный интеллект никогда не захватит мир?
Я не присваиваю себе идею о том, что ИИ (в самом расцвете сил) сделает из людей второсортных рабочих и создаст грубый дисбаланс на рынке...
В каком возрасте вы получите Нобелевскую премию — визуализация на языке R.
Вы когда-нибудь пробовали решать задачи с помощью визуализации? Предлагаем решить занимательную задачу на языке R.
Нобелевские премии (до 1969 года всего их было пять, а...
Галерея лучших модулей Python
Вас никогда не обескураживало огромное число модулей Python? И, скорее всего, вам было непросто выбрать всего один для конкретного проекта. В этой статье вы...
Алгоритм машинного обучения t-SNE - отличный инструмент для снижения размерности в Python
Улучшение качества визуализации - актуальная проблема для многих разработчиков. Узнайте, как использовать алгоритм машинного обучения t-SNE для визуализации данных высокой размерности.
Не используйте ID, сгенерированные базой данных для доменных сущностей
Вы, вероятно, позволяли базам данных генерировать ID для сущностей по крайней мере один раз.
Но что, если я скажу вам, что при разработке приложений есть...
5 рекомендаций по оптимизации запросов SQL
Никогда не поздно проанализировать свой стиль программирования запросов SQL, выявить недостатки и исправить. Рассмотрим 5 способ улучшить запросы и повысить свою продуктивность.
5 подводных камней нереляционных баз данных
Когда речь заходит о нереляционных базах данных, не все видят две стороны одной медали: многие упускают из виду то, что у этих баз данных...
Собеседование в области науки о данных: 7 распространенных ошибок
Вас преследует неудачи на собеседованиях в области науки о данных и машинного обучения? Рассматриваем распространенные проблемы и размышляем о том, как их избежать.
Разведочный анализ данных в одной строке кода
В программировании важно уметь пользоваться инструментами, которые обеспечивают удобное выполнение сложных функций. Сегодня познакомимся с разведочным анализом данных и полезной библиотекой sweetviz.
MongoDB: введение, преимущества и настройка среды
В данной серии руководств объясним ключевые концепции MongoDB, необходимые для создания и развертывания высоко масштабируемой базы данных с акцентом на производительность.
От продвинутой к эффективной аналитике
За последнюю декаду в компаниях произошел фундаментальный сдвиг в философии принятия решений. Лидеры ушли из среды, где был важен личный опыт и интуиция, в...
Статистика - это грамматика науки о данных. Часть 4
Повторение статистики для начала путешествия по науке о данных
Часть 1, Часть 2, Часть 3, Часть 4, Часть 5
Введение
Предположим, у нас есть диаграмма...
Рекурсия и цикл, в чем разница? На примере Python
Цикл — это фундаментальный инструмент в программировании. Существует множество различных типов циклов, но почти все они выполнят одну базовую функцию: повторение определённых действий над данными, для...
Как составить Data Science портфолио? Часть 2
Предыдущие части: Часть 1
Портфолио — итеративно
У Фавио Васкеса есть отличная статья на тему того, как он получил работу в сфере Data Science. Как вы уже поняли, в своей статье он...
Структуры данных: «жадные» алгоритмы
Алгоритм предназначен для достижения оптимального решения задачи. В подходе с жадным алгоритмом оно выбирается из заданной предметной области решений. Причём берутся ближайшие, кажущиеся оптимальными решения - отсюда и название «жадный».
Структуры данных: основы алгоритмов
Как написать алгоритм? Это, скорее, зависит от задачи и ресурсов. Четко определенных стандартов их написания не существует. Рассмотрим же характеристики алгоритмов и их сложности.
Генерируйте реалистичные датасеты с помощью Snowfakery
Когда вы разрабатываете новый продукт, приложение или функцию, то тестировать ее необходимо на реалистичных данных. Сначала данные создаются вручную, но если нужно протестировать аналитические...
MongoDB: удаление базы данных
В прошлой статье о MongoDB мы рассмотрели создание базы данных. В данном разделе рассмотрим процесс ее удаления.
Сможет ли Julia занять место рядом с Python
Julia и Python —языки программирования, которыми я очень дорожу. Использование Julia вместо Python обладает множеством преимуществ, таких как меньшее время написания кода и более...
Статистика - это грамматика науки о данных. Часть 3
Повторение статистики для начала путешествия по науке о данных
Часть 1, Часть 2, Часть 3, Часть 4, Часть 5
Меры расположения
Процентили
Процентили делят упорядоченные данные...
Настоящие беспилотные такси выезжают на улицы города
Компания Waymo официально запускает парк беспилотных автомобилей в городе Финикс
Waymo — компания по производству беспилотных автомобилей, вышедшая из Google в 2016 году, наконец выполнит своё...
Метод SHAP для категориальных признаков
Поговорить о том, как складывать SHAP-значения категориальных признаков, преобразованных путем прямой кодировки, с помощью кода Python.
Как найти выход из лабиринта с помощью Python
Создание лабиринта
Наш лабиринт будет в виде матрицы размером n*m с нулями для проходов и единицами для стен.
a = [
[1, 1,...
5 типов алгоритмов машинного обучения, которые нужно знать
Машинное обучение — один из самых известных и важных подразделов науки о данных. В 1959 году исследователь компании IBM Артур Самюэл впервые ввёл термин...
Что такое распределение Пуассона?
Прежде чем вводить параметр λ и подставлять его в формулу, давайте задумаемся: почему Пуассону вообще пришлось изобретать такое распределение?
1. Почему Пуассон изобрел свое распределение?
Чтобы...
Подробное руководство по свёрточным нейронным сетям
Искусственный интеллект существенно развился на своём пути сокращения разрыва между возможностями людей и машин. Разработчики наравне с энтузиастами работают над великим множеством аспектов в...
10 трюков для мастеров Python
На первый взгляд Python может показаться простым языком, который любой может освоить, и многих удивляет, какого мастерства можно достичь в этом языке. Python один...
Инкременты и декременты
В данной статье активно используется термин «операнд».
Так что такое операнд?
Операнд — это величина, над которой операторы могут выполнять определенные действия.
О! А что такое оператор?
Оператор — это специальный символ, выполняющий...
Почему 0,99999… равно 1
Давайте разберёмся, почему математики говорят, что 0,(9)=1. То есть ноль целых девять в периоде равно одному. Объяснение простое, но красивое.
Об изображении: это не просто...
ClickHouse + Kafka = ❤
Узнаем, как внедрить в проект средство аналитики, на что способен ClickHouse в сочетании с Kafka и для чего нужны здесь материализованные представления. Построим небольшую аналитическую систему.
Как создавать анимированные графы в Python
Matplotlib и Seaborn — вполне приличные Python-библиотеки для создания превосходных графиков. Но такие графики получаются статичными, и крайне трудно подобрать для них красивое представление данных или...
5 доказательств силы итерируемых объектов в Python
Что такое итерируемые объекты?
Итерируемые (перебираемые) объекты — это коллекция важных структур данных в Python. Например, к ним относятся такие встроенные типы, как строки, списки и словари....
29 сниппетов Pytorch для ускорения цикла машинного обучения
Мне очень нравится задействовать фрагменты кода для создания более быстрых циклов итераций по сравнению с традиционными конвейерами машинного обучения. Pytorch уже давно стал важной...
Будет ли ИИ главенствовать в 2021 году? Большой вопрос
Технологии, связанные с искусственным интеллектом, развиваются в стремительном темпе. Узнаем, что ожидает ИИ в будущем.
В 2020 году ИИ претерпел быстрые преобразования, неожиданные разработки и...
4 расширения VS Code, которые пригодятся дата-инженеру
Если вы пользуетесь VS Code, то наверняка успели убедиться в его практичности. Однако работу с этим редактором можно сделать еще удобнее. Предлагаем расширения VS Code, которые сэкономят много времени и сил.
5 инструментов для специалистов по обработке данных
Рассказываем о пяти инструментах, которые позволят сэкономить время вам и вашей команде при работе над проектом. Они помогут не только с очисткой и анализом данных, но и с построением, обучением и тестированием моделей машинного обучения.
Эйнштейн и самая красивая из всех теорий
Британский физик-теоретик Поль Дирак (1902–1984), один из основоположников квантовой механики, однажды написал:
«Было трудно примирить ньютоновскую теорию гравитации, в соответствии с которой гравитационное взаимодействие распространяется...
Цепь Маркова
Цепь Маркова используют многие современные компании и организации. Она помогает прогнозировать погоду и разрабатывать маркетинговые стратегии, находит применение в различных приложениях для решения реальных...
Сетка данных с точки зрения баз данных и на практике
Сетка данных — это набирающая популярность архитектурная парадигма. Но многие из ее основных понятий имеют параллели в традиционном проектировании баз данных, особенно в том, как думать о представлениях и материализации. Автор рассматривает основные понятия сетки данных через призму классических понятий области баз данных, а затем показывает, как они работают на практике в проекте GlareDB.
5 базовых статистических концептов, которые должен знать каждый специалист по обработке данных
В таком искусстве, как наука о данных, статистика может оказаться мощным инструментом. В широком смысле, статистика означает использование математики для технического анализа данных. Базовая...
Исследование данных - основные понятия
Данные многое вам скажут, если вы готовы слушать.
- Джим Бергесон
Данные можно назвать Богом. Все на свете проверяется только благодаря данным. Вы не сможете претендовать...
Теория вероятностей, или Не стоит полагаться на случай
Понятия вероятности и случайности затрагивают практически все аспекты нашей жизни. Большинство своих решений мы принимаем, исходя из вероятности наиболее благоприятных для нас событий. Поэтому...
Как за секунды обрабатывать DataFrame с миллиардами строк
Анализ больших данных в Python переживает свой ренессанс. Всё началось с NumPy, которая тоже в каком-то смысле причастна к инструменту, с которыми я вас...
Мой опыт добавления нереляционной MongoDB в кластер Kubernetes
Установим MongoDB в Kind-кластер Kubernetes и интегрируем в приложение Spring Boot. Поработаем с сущностями и документами нереляционной БД, протестируем, запустимся, сделаем профили, загрузим образ и развернемся.
Как писать идеальные конспекты по науке о данных
Предлагаем несколько практических советов по написанию конспектов при изучении науки о данных. Следуя им, вы сможете эффективно понимать и усваивать сложнейшие концепции, которые пригодятся в дальнейшей работе.
Bamboolib — изучайте и используйте Pandas без написания кода
Установка Bamboolib
Установка достаточно проста:
pip install bamboolib
Чтобы Bamboolib работал с Jupyter и Jupyterlab, нужно установить дополнительные расширения. С помощью следующей команды устанавливаются расширения для Jupyter...
Моделирование логистического роста
Часть 1, Часть 2
В прошлой статье мы рассмотрели пример моделирования первой вспышки коронавируса с помощью экспоненциального роста. Следующая ступень анализа — логистический рост. Воспользуйтесь Python notebook...
Топ — 9 фреймворков в мире искусственного интеллекта
Сначала были роботы, затем ассистенты Google Now и Siri, а сегодня новый ИИ — Google Duplex. Похоже, искусственный интеллект добился определенных успехов в том чтобы стать...
4 пайтонические техники для краткого кода
При создании любого проекта, независимо от его размера, важно обращать внимание на его обслуживаемость. База кода всегда должна быть удобной в этом отношении, чтобы...
Лассо- и ридж-регрессии: интуитивное сравнение
Регуляризация размерности данных - важнейший навык в машинном обучении, позволяющий повысить эффективность модели. Чтобы овладеть им, необходимо понять различие между лассо- и ридж-регрессиями. Попробуем разобраться с этими методами статистического обучения.
Руководство по SQL: Как лучше писать запросы
Язык структурированных запросов – SQL, является незаменимым навыком в области науки о данных и, вообще говоря, приобрести этот навык довольно просто. Однако большинство забывают, что...
Краткое руководство по созданию наборов данных с помощью Python
Хотите собирать и хранить данные своих пользователей? Краткий гайд поможет вам в три шага создать собственный пользовательский датасет. Для этого вам понадобится менее часа и минимальный набор инструментов, включающий API Google Sheets и Streamlit.
Значение Data Science в современном мире
Что же такое data science? Data science — это научная дисциплина, которая занимается поиском истины и использует данные для получения знаний и идей. Data science стремительно...
Структуры данных и алгоритмы: стек
Стек - это абстрактный тип данных, который обычно используется в большинстве языков программирования. Хорошие примеры для объяснения понятия стека - колода карт или стопка тарелок. Разберем основные операции, проводимые со стеком.
Двоичные деревья: управляемый подход к поиску значений
Зачем
Разработчик нанимается небольшим городом населением в сто тысяч. Задача состоит в том, чтобы преобразовать бумажную телефонную книгу в цифровой вариант. У мэра города есть...
8 базовых понятий статистики для науки о данных
Статистика — это разновидность математического анализа, использующая количественные модели и репрезентации для анализа экспериментальных или реальных данных. Главное преимущество статистики — простота представления информации. Недавно я пересматривала материалы...
Как специалисту по обработке данных создать крутое портфолио и подключить к нему чат-бота
Буду честен. Для специалиста по обработке данных найти сейчас работу — настоящая пытка. Это самая притягательная профессия 21 века, огромная конкуренция в ней растёт с каждым...
Кодирование категориальных данных: визуальное руководство для начинающих с примерами кода
Это руководство позволит освоить 6 методов сопоставления категорий и чисел. Вы поймете, почему так важен правильный выбор метода кодирования категориальных данных. В заключение получите полезные советы, которые помогут избежать досадных ошибок в проектах по машинному обучению.
Создаем YouTube видео из кода
Если вы когда-либо задумывались о создании видео, содержащего компьютерную анимацию, эта статья для вас. Я предполагаю, что у вас уже есть код, или вы...
Разработчики, которые постоянно что-то изучают — вот вам совет!
Я видел много людей, среди разработчиков, которые постоянно находились в состоянии разочарованности и неуверенности в себе. Это происходило из-за того, что они постоянно пытались...
Топ-15 лайфхаков для работы с Python
Python, без сомнения, является одним из самых популярных языков программирования. Простой и легкий в освоении, он завоевал признание многочисленного сообщества.
Python — “самый мощный язык,...
10 инструментов ИИ для SaaS-стартапов 2025
Рассмотрим ключевой функционал этих инновационных решений. Разберем учитываемые факторы, поможем определиться с выбором.
Автоматический мониторинг скорости API с помощью динамического тестирования
Готовый вариант тестирования производительности API. Настраиваем и запускаем! Экономит время на прописывание и обслуживание тяжелых тестов.
Микрофронтенды - а почему бы и нет?
Фронтенд-разработка всегда занимала положение младшего ребенка в семействе веб-приложений. И пока фронтенд-разработчики расхаживали в своих модненьких шапочках, с аккуратными усиками, MacBook и дорогим кофе,...








































































































