Наука о данных

Всё что касается науки о данных: алгоритмы и структуры данных, Искусственный Интеллект, анализ данных и многое другое!

Раскрываем возможности контейнеризации. Зачем дата-сайентистам Docker и Kubernetes?

Раскрываем возможности контейнеризации. Зачем дата-сайентистам Docker и Kubernetes?

Разберем отличия и преимущества Docker и Kubernetes, применяемые инструменты и терминологию. Какова роль контейнеризации и оркестрации в эффективной работе дата-сайентиста?
Генерируйте реалистичные датасеты с помощью Snowfakery

Генерируйте реалистичные датасеты с помощью Snowfakery

Когда вы разрабатываете новый продукт, приложение или функцию, то тестировать ее необходимо на реалистичных данных. Сначала данные создаются вручную, но если нужно протестировать аналитические...
Эпоха Больших данных

Эпоха Больших данных

Технологии Big Data имеют ощутимые преимущества. Однако все более злободневно звучит вопрос: как использовать потенциал Больших данных без ущерба для конфиденциальности и безопасности граждан?
ArtificialIntelligence

SpineNet: нетрадиционная архитектура backbone-сети от Google Brain

Проблема классификации была весьма эффективно решена при помощи архитектур типа “энкодер-декодер”, в которых энкодерам свойственно постепенное уменьшение масштаба. Однако эта архитектура не способна эффективно...
Ludwig на PyTorch

Ludwig на PyTorch

Простота, модульность и расширяемость - отличительные признаки декларативного фреймворка глубокого обучения Ludwig. Его разработчики представляют новую, переработанную с нуля версию - Ludwig v0.5. И главная его особенность в том, что весь бэкенд переносится на PyTorch.
Database

Моделирование связей графа в DynamoDB

В основе Koan лежат его цели и то, как эти цели взаимосвязывают людей и команды внутри компании. Эти связи зачастую оказываются сложными, потому что...
Межорганизационный обмен данными

Межорганизационный обмен данными

Преимущества объединения хранилищ данных в последнее время привлекают большое внимание организаций всех уровней. В 2018 году корпорация Google разработала проект передачи данных (Data Transfer...
Machine Learning

Анализ моделей машинного обучения при помощи Imandra

Расскажем о задачах классификации и регрессии. Данные, модели, условия и Imandra с её возможностями помогать прогнозировать рак и вред от лесных пожаров. Введение Проверка параметров изучаемых моделей — сложная...
Проект инженерии данных «от и до» с Apache Airflow, Postgres и GCP

Проект инженерии данных «от и до» с Apache Airflow, Postgres и GCP

Подробно расскажем о контейнерах Docker, оркестрации ETL-конвейеров, работе с облачными технологиями, настройке рабочей среды для ETL-проектов с Apache Airflow. А в конце поделимся нужными командами.
Data Science

От продвинутой к эффективной аналитике

За последнюю декаду в компаниях произошел фундаментальный сдвиг в философии принятия решений. Лидеры ушли из среды, где был важен личный опыт и интуиция, в...
Реализация архитектуры с сохранением состояния в Streamlit

Реализация архитектуры с сохранением состояния в Streamlit

Streamlit Streamlit прошел долгий путь становления с момента своего создания в октябре 2019 года. Он не только предоставил разработчикам ПО новые возможности, но и обеспечил...
Как собрать данные для DS-проекта с помощью Python: 3 шага

Как собрать данные для DS-проекта с помощью Python: 3 шага

Начните свой проект по науке о данных с создания Python-скрипта, используя библиотеку Selenium для извлечения данных. Предлагаем узнать, как это выполнить в 3 шага.
Что думают ученые-компьютерщики о влиянии ИИ на общество

Что думают ученые-компьютерщики о влиянии ИИ на общество

В ученой среде традиционно считают, что нельзя привносить этические или политические ценности в научный процесс. Но что, если исследования порождают проблемы безопасности, вызывают расистские...
Сложные ИИ-модели созданы с помощью некачественных данных

Сложные ИИ-модели созданы с помощью некачественных данных

Те, кто занят в сфере искусственного интеллекта, в том числе и в проекте Deepnews, часто презентуют свои новейшие модели как инновационные и эффективные средства...
MongoDB: вставка документа

MongoDB: вставка документа 

Для вставки данных в коллекцию MongoDB используется метод insert() или save(). Разберем его в данной статье.
Data

Будущее данных: децентрализованная графовая база данных

Происходит смена парадигмы, которая коренным образом изменит способы хранения, обработки и передачи данных внутри компаний. Эта смена породит изобилие новых возможностей, в том числе...
Топ-5 браузерных расширений для специалистов по анализу данных

Топ-5 браузерных расширений для специалистов по анализу данных

Работа современного исследователя данных неразрывно связана с браузером. Представляем 5 браузерных расширений, упрощающих этот процесс: Diigo, CatalyzeX, Octotree, Open in Colab и BibItNow.
RUID - уникальные 64-битные идентификаторы для распределенных баз данных

RUID - уникальные 64-битные идентификаторы для распределенных баз данных

RUID (Rodrigo’s Unique Identifiers)  —  это 64-битные идентификаторы с математически гарантированной уникальностью при генерировании в одном и том же RUID root. Ознакомьтесь с ними...
Как быстро и легко создавать прототипы датасайенс-проектов

Как быстро и легко создавать прототипы датасайенс-проектов

Преобразовать Jupyter Notebook в интерактивный дашборд - задача из простых. Для этого даже не нужно знать HTML, CSS и JavaScript. Разбираемся, как создать приложение для совместного использования прямо в среде ноутбука с помощью Mercury.
Что говорить на поведенческом интервью по науке о данных

Что говорить на поведенческом интервью по науке о данных

Произвести приятное впечатление на потенциального работодателя во время собеседования непросто. Тем не менее с этой задачей можно легко справиться, если следовать этим 3 простым лайфхакам.
Собеседование в области науки о данных: 7 распространенных ошибок

Собеседование в области науки о данных: 7 распространенных ошибок

Вас преследует неудачи на собеседованиях в области науки о данных и машинного обучения? Рассматриваем распространенные проблемы и размышляем о том, как их избежать.
Alteryx - достойная платформа обработки данных?

Alteryx - достойная платформа обработки данных?

Alteryx - это больше, чем просто инструмент обработки данных. Он отлично подходит для решения задач интеграции и анализа данных, а также может похвастаться множеством средств связи с системами и базами данных.
Kotlin

Разностный алгоритм Майерса и наблюдаемые свойства в Kotlin - как их объединить, чтобы облегчить жизнь разработчика

Посмотрите на анимацию ниже. Это группа разноцветных элементов, которые при нажатии кнопки начинают перемещаться. С точки зрения разработчика, эти элементы размещаются внутри RecyclerView с...
Python

Обучение Inception в Google распознаванию пользовательских изображений

Ищете краткое руководство по обучению классификатора пользовательских изображений? С помощью Inception API от Google Brain с этой задачей можно справиться быстрее, чем выпить чашку...
Pandas 2.0.0  -  геймчейнджер в работе дата-сайентистов?

Pandas 2.0.0  —  геймчейнджер в работе дата-сайентистов?

Действительно ли новый релиз pandas 2.0.0. направлен на повышение производительности, гибкости и совместимости операций с данными? Ответить на этот вопрос поможет данный обзор, в котором представлены 5 функциональных возможностей pandas 2.0.
MongoDB: агрегирование

MongoDB: агрегирование 

Операции агрегирования обрабатывают данные и возвращают вычисленные результаты. Они группируют значения из нескольких документов, выполняют с ними разные действия и возвращают один-единственный результат. В SQL аналогами операций агрегирования MongoDB являются функция count(*) и оператор group by.
Будут ли специалисты по обработке данных по-прежнему востребованы в 2022 году?

Будут ли специалисты по обработке данных по-прежнему востребованы в 2022 году?

Насколько востребованы сегодня специалисты по обработке и анализу данных? Способны ли их вытеснить инженеры данных или автоматизированные МО-инструменты? Поиск ответов на эти вопросы поможет не ошибиться в выборе карьерного пути.
Data Science

Качество превыше количества: создание идеального проекта в науке о данных

В стартапе, жаргонизм «метрика тщеславия» означает число, находящееся под контролем компании для того, чтобы убедить мир — а иногда и самих себя — в том, что они успешнее,...
R and Python

От ‘R против Python’ к ‘R и Python’

Сосредоточьтесь на навыках, а не на инструментах Для тех, кто разбирается в Data Science, R и Python — это первые два ЯП, которые приходят на ум. Оба...
Data Science

Слабо контролируемое обнаружение объектов - сквозной цикл обучения

Обнаружение объектов  —  широко известная задача компьютерного зрения, по которой было проведено огромное число исследований. Методы же контролируемого обнаружения объектов стали в этой области...
Computer Science

Много узлов, одна распределенная система

Говорят, что один (мужчина, женщина — какой-то человек) — в поле не воин. Но в наши дни к этому списку можно добавить и «компьютер». Мы окружены машинами, компьютерами...
Машинное обучение с Amazon Aurora

Машинное обучение с Amazon Aurora

Любая современная компания, достигнув определенного момента в своем развитии, сталкивается с непростой задачей: сделать свою продукцию более кастомизируемой для клиентов. Стремление к персонализации товаров...
3 распространенные ошибки при поиске работы в области науки о данных в 2022 году

3 распространенные ошибки при поиске работы в области науки о данных в 2022 году

Мечтаете связать свою жизнь с наукой о данных? Тогда прислушайтесь к рекомендациям эксперта в этой отрасли. Они помогут избежать наиболее распространенных ошибок при поиске работы.
Как инструменты дизайна интерфейса и визуализации способствуют развитию Machine Teaching?

Как инструменты дизайна интерфейса и визуализации способствуют развитию Machine Teaching?

Разметка данных для машинного обучениянесет в себе ряд проблем и сложностей. Поэтому нам понадобится лучший подход, который ценит человеческий опыт и управляет расходами, а...

#04TheNotSoToughML | “Давай, минимизируй ошибки” — Но достаточно ли этого?

Пришло время развеять миф о том, что машинное обучение - это сложно. Интуитивное МО позволяет пользоваться легкодоступными инструментами, не требующими специальных знаний.
В США ограничивают использование технологий распознавания лиц

В США ограничивают использование технологий распознавания лиц

Но надолго ли? Технологию распознавания лиц сегодня начали применять и правоохранительные органы, и военные структуры, и частные компании, при этом они вот уже 40-лет используют базы...
Как автоматизировать сравнение датасетов с Terraform и BigQuery

Как автоматизировать сравнение датасетов с Terraform и BigQuery

Автоматизация проверки датасетов значительно упрощает жизнь. Узнаем, как же это сделать с помощью инструмента для управления облачной инфраструктурой Terraform и сервиса для анализа больших наборов данных BigQuery.
Большие данные и их влияние на постпандемический мир

Большие данные и их влияние на постпандемический мир

“Сокрытые в массивах данных знания могут изменить жизнь пациента или преобразить мир”,  —  Атул Батт, Стэнфордский университет. В борьбе с пандемией COVID-19 большие данные сыграли...
В чем преимущество контрактов о передаче данных

В чем преимущество контрактов о передаче данных

Контракты о передаче данных - это возможность избавить дата-саентистов от неприятностей в работе с данными сомнительного качества. Предлагаем познакомиться с конструктивным подходом к таким соглашениям.
Как подключиться к MongoDB с помощью Node.js

Как подключиться к MongoDB с помощью Node.js

Базы данных - полезный инструмент для проекта, и для работы с ними можно воспользоваться MongoDB. Разбираемся, как подключиться к MongoDB при помощи Mongoose.
ИИ-технологии на службе у инфлюенс-маркетинга

ИИ-технологии на службе у инфлюенс-маркетинга

Нам доступна не вся информация. Мы склонны следовать за лидерами мнений, так как это прямой путь к получению знаний, которых нам недостает. Приобщение к...
Три библиотеки R, которые должен знать каждый специалист по данным

Три библиотеки R, которые должен знать каждый специалист по данным

Даже если вы используете Python, включите в свой арсенал инструментов три мощные библиотеки R, созданные крупнейшими технологическими компаниями мира.
Как за месяц создать систему учета посещаемости на базе распознавания лиц

Как за месяц создать систему учета посещаемости на базе распознавания лиц

Нестандартные решения - верные помощники в разработке инноваций. Представляем инновационный проект управления посещаемостью, созданный двумя инженерами-программистами менее чем за месяц.
Как обучить модель квантового МО, используя данные из CSV?

Как обучить модель квантового МО, используя данные из CSV?

Область квантового машинного обучения не сразу поддается начинающим исследователям данных из CSV. Предлагаем поучиться не на теоретических примерах (которые зачастую не имеют практической пользы), а на реальном опыте специалистов QML.
Machine Learning

6 концептов книги Эндрю Ына «Жажда машинного обучения»

“Техническая стратегия для инженеров-разработчиков искусственного интеллекта в эпоху глубокого обучения” “Жажда машинного обучения” структурирует разработку проектов, использующих машинное обучение. Книга включает в себя практический опыт,...
MongoDB: cортировка документов

MongoDB: cортировка документов 

Краткая инструкция по применению метода сортировки sort()
Время управлять версиями проектов МО по-новому

Время управлять версиями проектов МО по-новому

Специалисты по анализу данных и инженеры машинного обучения часто представляют проекты предиктивной аналитики в виде конвейера  —  производственного процесса, который принимает четко определенные вводы...
Почему лучшее - враг хорошего в MLOps?

Почему лучшее - враг хорошего в MLOps?

Вы наверняка слышали об исследовании, которое подтвердило, что ML-проекты чаще терпят фиаско, чем оказываются успешными. Даже если статистика провалов в этой сфере кажется вам...
Как работает обратное распространение в нейронных сетях

Как работает обратное распространение в нейронных сетях

Обратное распространение используется для эффективного обучения нейронных сетей посредством цепного правила. Рассмотрим особенности этого процесса.
Шардинг как паттерн архитектуры базы данных

Шардинг как паттерн архитектуры базы данных

Представляем полезный инструмент для работы с базами данных  -  шардинг. Узнайте, что это такое, какие типы и стратегии шардинга используются, в чем преимущества и сложности этого архитектурного паттерна.
MongoDB: ограничение отображаемых документов

MongoDB: ограничение отображаемых документов 

Разберем методы Limit() и Skip() и приведем примеры
Настоящие беспилотные такси выезжают на улицы города

Настоящие беспилотные такси выезжают на улицы города

Компания Waymo официально запускает парк беспилотных автомобилей в городе Финикс Waymo  —  компания по производству беспилотных автомобилей, вышедшая из Google в 2016 году, наконец выполнит своё...
Распределенное МО с Dask и Kubernetes на GCP

Распределенное МО с Dask и Kubernetes на GCP

Интересуетесь вопросами безопасной обработки конфиденциальных данных? Знакомьтесь с новейшей технологией использования конфиденциальных данных для аналитики и приложений ИИ. Узнайте, как всего в 3 шага развернуть кластер dask на kubernetes в общедоступном облаке GCP.
Прозрачность

Прозрачность: иллюзия единой системы. Часть 1

Даже если мы только знакомимся с распределенными системами, то уже ясно, что данная система по определению состоит из множества движимых элементов. И эти части...
Dotnet

Лёгкое пополнение баз данных в приложениях платформы .NET

Пополнение базы данных может быть довольно сложной задачей. Ниже вашему вниманию предлагаются инструменты, помогающие облегчить эту операцию. Проблема Когда мы распределяем проект платформы .NET (Core), часто бывает...
Как выжать максимум из предобученных языковых моделей с GroupBERT

Как выжать максимум из предобученных языковых моделей с GroupBERT

Как достичь 2-кратного ускорения обучения на интеллектуальном процессоре Graphcore, обеспечивая более быстрые и эффективные вычисления? Что делает GroupBERT лучше BERT и других моделей с групповыми преобразованиями в Transformer? Отвечаем на эти и сопутствующие вопросы.
Data Science

Персонализация контента с IBM Watson

В своём дипломном проекте я решил продолжить работать с естественным языком, фильмами и IBM Watson. В предыдущем проекте я визуализировал психологические профили персонажей фильмов,...
MongoDB: удаление базы данных

MongoDB: удаление базы данных 

В прошлой статье о MongoDB мы рассмотрели создание базы данных. В данном разделе рассмотрим процесс ее удаления.
11 шагов на пути к работе дата-сайентиста

11 шагов на пути к работе дата-сайентиста

Получить работу в области науки о данных, МО и ИИ сложно. Эти 11 шагов помогут стратегически подойти к решению этой проблемы (спойлер: Kaggle не относится к их числу).
R

В каком возрасте вы получите Нобелевскую премию — визуализация на языке R.

Вы когда-нибудь пробовали решать задачи с помощью визуализации? Предлагаем решить занимательную задачу на языке R. Нобелевские премии (до 1969 года всего их было пять, а...
Как создать первый проект по инженерии данных: инкрементный подход. Часть 1

Как создать первый проект по инженерии данных: инкрементный подход. Часть 1

Инкрементный подход фокусируется на последовательном приращении функциональности продукта. При разработке проекта по инженерии данных такой подход гарантирует успех. Он повышает управляемость проектом, позволяет изучать различные концепции по мере продвижения и ускоряет выпуск более качественных продуктов.
SMOTE: метод увеличения числа примеров миноритарного класса

SMOTE: метод увеличения числа примеров миноритарного класса

SMOTE - одна из распространенных стратегий сэмплинга, позволяющая решить проблему дисбаланса классов. Это пошаговое руководство по использованию алгоритма SMOTE в Python позволит избежать просчетов в МО.
Создание платформы обработки и анализа данных Bazaar

Создание платформы обработки и анализа данных Bazaar

Знакомьтесь с новой платформой Bazaar Technologies. Амбициозный стартап заявляет, что способен решать проблемы масштабирования данных в петабайтах.
Чем отличаются модели МО в науке и производстве

Чем отличаются модели МО в науке и производстве

Почему модели МО, которые хорошо выглядят "на бумаге", не гарантируют хорошей работы в производстве? Вот что думает специалист в области МО.
Как писать идеальные конспекты по науке о данных

Как писать идеальные конспекты по науке о данных

Предлагаем несколько практических советов по написанию конспектов при изучении науки о данных. Следуя им, вы сможете эффективно понимать и усваивать сложнейшие концепции, которые пригодятся в дальнейшей работе.
Как легко развертывать модели МО в 2022 году с помощью Streamlit, BentoML и DagsHub

Как легко развертывать модели МО в 2022 году с помощью Streamlit, BentoML и DagsHub

Хотите поделиться проектом, но не знаете, как это лучше сделать? Рассмотрим простой способ представления моделей МО с использованием Streamlit, BentoML и DagsHub.
GraphSAGE: как масштабировать графовые нейронные сети до миллиардов соединений

GraphSAGE: как масштабировать графовые нейронные сети до миллиардов соединений

GraphSAGE - это алгоритм обучения с индуктивным представлением, который применяется для работы с графами. Посмотрим, как он работает, и сравним его с аналогичными инструментами, чтобы выявить преимущества и недостатки.
Как дата-аналитику стать дата-сайентистом в 2023 году

Как дата-аналитику стать дата-сайентистом в 2023 году

Какие навыки и ресурсы нужны дата-аналитику, чтобы получить должность дата-сайентиста? Как сократить и облегчить этот карьерный переход? Воспользуйтесь практическими советами старшего дата-сайентиста, который ранее работал дата-аналитиком.
MLOps: как внедрить систему рекомендаций товаров на ecommerce-сайт

MLOps: как внедрить систему рекомендаций товаров на ecommerce-сайт

Умные инструменты - алгоритм Word2Vec и МО-сервис Layer - помогут быстро и дешево создать и внедрить модель рекомендаций и категоризации товаров на сайте электронной коммерции. В итоге пользователи платформы получат персонализированный опыт, а ее владелец сможет повысить конверсии и увеличить продажи.
Типы операций обновления в MongoDB с использованием Spring Boot

Типы операций обновления в MongoDB с использованием Spring Boot

Разбираемся, как обновлять данные в MongoDB, в чем заключаются преимущества и недостатки существующих способов и как выглядят результаты их применения.
5 неочевидных истин науки о данных

5 неочевидных истин науки о данных

Хотите открыть для себя красоту машинного кода, скрывающуюся за нулями и единицами? Для начала узнайте 5 неочевидных истин науки о данных. Они помогут вам ступить на путь постижения этой увлекательной дисциплины со свежим взглядом.
Инженерия данных: руководство для начинающих, вдохновленное Формулой-1

Инженерия данных: руководство для начинающих, вдохновленное Формулой-1

Сложные понятия и процессы лучше всего объяснять на конкретных кейсах. Сегодня покажем, как работать с данными, на примере компании, участвующей в гоночном чемпионате Формула-1.
Автоматическое МО (AutoML) с использованием PyCaret: основные принципы

Автоматическое МО (AutoML) с использованием PyCaret: основные принципы

Специалисты по обработке данных тратят около 80% времени на то, чтобы выбрать оптимальную модель, отрегулировать ее параметры и подождать, пока она осуществит необходимые расчеты. На выручку приходит автоматическое МО, в разы ускоряющее подбор адекватной модели.
Computer Science

Прозрачность: иллюзии единой системы. Часть 2

Предыдущие части: Часть 1 Одной из (множества) причин сложности распределенных систем является то, что они пытаются делать множество вещей одновременно. Распределенная система создает для конечного...
Что такое большие данные: комплексный обзор

Что такое большие данные: комплексный обзор

Большие данные появились в конце 2000-х годов и стали настоящим технологическим прорывом. Предлагаем поразмышлять над тем, в чем суть этого феномена, как он позволяет оптимизировать бизнес-процессы и как им можно управлять.
Почему точные модели не всегда полезны

Почему точные модели не всегда полезны

Утверждение, которое кажется парадоксальным: точность модели - не главный признак ее эффективности! Важно также разработать продукт, оправданный с денежной точки зрения. Сегодня поговорим о том, как функции экономической полезности помогают связать МО-модели с нуждами клиентов.
Основы качественного анализа данных

Основы качественного анализа данных

Успешный анализ данных - это комбинация технического мастерства, стратегического подхода и применимости на практике. Важно не только провести умелое исследование, но и донести его смысл до заинтересованных сторон. Сегодня разберем стратегии качественного анализа данных.
Моделирование данных в мире современного стека данных 2.0

Моделирование данных в мире современного стека данных 2.0

Сравнивать моделирование данных со стеком данных - все равно что уподоблять автомобили интеллектуальным навигационным системам. Предлагаем на практических примерах убедиться в том, что технологии современного стека данных позволяют аналитикам успешно вести исследования без моделирования.
Внутренняя платформа МО Bigeye: цели и методы создания

Внутренняя платформа МО Bigeye: цели и методы создания

Машинное обучение на платформе Bigeyeизбавляет инженеров и специалистов по обработке данных от необходимости вручную настраивать критерии оповещений. Оно существенно экономит время, ведь получение показателей...
Как создать первый проект по инженерии данных: инкрементный подход. Часть 2

Как создать первый проект по инженерии данных: инкрементный подход. Часть 2

Инкрементный подход похож на спринт: он позволяет оперативнее реагировать на любые изменения и быстрее достигать цели. Небольшие, но постепенные шаги (спринты) обеспечат вам заряд адреналина всякий раз, когда вы будете вычеркивать из списка очередную выполненную задачу.
12 стратегий настройки готовых к производству RAG-приложений

12 стратегий настройки готовых к производству RAG-приложений

По мере увеличения прототипов RAG-конвейеров становится насущным обсуждение стратегий оптимизации их производительности. Посмотрим, как можно повысить результативность работы RAG-конвейера с помощью гиперпараметров и различных стратегий настройки.
4 аспекта, упущенных в большинстве программ по науке о данных.

4 аспекта, упущенных в большинстве программ по науке о данных.

Большинство программ, тренингов и курсов по науке о данных не готовят студентов к реальной практике. Мы поможем вам восполнить этот пробел, который в Массачусетском технологическом институте называют "пропущенным семестром образования в области компьютерных наук".
Инженерия геопространственных данных: пространственное индексирование

Инженерия геопространственных данных: пространственное индексирование

Слышали ли вы о пространственном индексировании? Эта технология обладает мощным потенциалом: она способна оптимизировать производительность запросов, сэкономить время обработки данных и упростить задачи машинного обучения.
Jackknife+: «швейцарский нож» в конформном прогнозировании для регрессии

Jackknife+: «швейцарский нож» в конформном прогнозировании для регрессии

Рассмотрим преимущества Jackknife+ - эффективного метода конформного прогнозирования, который представляет собой усовершенствованную версию jackknife.
8 экспертных советов по использованию Apache Spark

8 экспертных советов по использованию Apache Spark

Хотите в совершенстве освоить Apache Spark? Воспользуйтесь советами эксперта, 1,5 года проработавшего с клиентами Databricks. Узнайте, как работает Spark, что общего между этим фреймворком и продовольственным магазином и как добиться в работе с ним оптимальных результатов.
Состояние инфраструктуры данных на 2023 год  -  ключевые тренды ландшафта MAD от Мэтта Терка

Состояние инфраструктуры данных на 2023 год  —  ключевые тренды ландшафта MAD от Мэтта Терка

Как выглядит ландшафт инструментов по работе с данными глазами инсайдера, который активно общается с конечными пользователями? Рассмотрим, какова ситуаций в целом и какие в ней наблюдаются тенденции.
Проект инженерии данных с DAG Airflow «от и до». Часть 2

Проект инженерии данных с DAG Airflow «от и до». Часть 2

Проверим корректность данных, отправим письмо и сообщение в Slack с информацией об адресе почты и пароле. Объединим все части проекта, создадим и запустим DAG Airflow со всеми задачами.
Визуализация параметров градиентного спуска в Torch

Визуализация параметров градиентного спуска в Torch

Загляните за интерфейс, чтобы увидеть, как параметры SGD влияют на обучение модели. Графические представления помогут оценить роль таких параметров, как импульс (обычный и Нестерова), сокращение весов, демпфирование.
Этические проблемы в науке о данных

Этические проблемы в науке о данных 

Затронем вопросы этики в науке о данных. Выявим имеющиеся проблемы и предложим пути решения.
BigQuery теперь поддерживает Query Queues

BigQuery теперь поддерживает Query Queues

Новая функция Google BigQuery под названием Query Queues позволяет автоматически определять количество запросов, выполняемых одновременно. Дополнительные запросы, превышающие заданный уровень параллелизма, ставятся в очередь до тех пор, пока не освободятся ресурсы обработки.
iOS/Swift: подробное руководство по модульным и UI-тестам. Часть 1

iOS/Swift: подробное руководство по модульным и UI-тестам. Часть 1

Добавим тесты в имеющийся проект, создадим новый и основательно все настроим. Распишем тестовый сценарий.
Rust

Использование строк в Rust

Копировать одну переменную в другую и ожидать, что значение будет доступно в первой переменной — это обычное дело для многих языков программирования. Но это не совсем...
5 инструментов для специалистов по обработке данных

5 инструментов для специалистов по обработке данных

Рассказываем о пяти инструментах, которые позволят сэкономить время вам и вашей команде при работе над проектом. Они помогут не только с очисткой и анализом данных, но и с построением, обучением и тестированием моделей машинного обучения.
Data Science

Бета-распределение: интуиция, примеры, вывод

Часть 1, Часть 2, Часть 3 Бета-распределение — это распределение вероятностей по вероятностям. Мы можем использовать его для моделирования вероятностей: рейтинг кликов вашей рекламы, коэффициент конверсии клиентов,...
JavaScript

Javascript и функциональное программирование: Введение

Я всегда был нацелен на результат. Меня не привлекают псевдоинтеллектуальные концепции, причудливая терминология и пиар. Вместо этого, я всегда стремлюсь к тем инструментам и...