Наука о данных

Всё что касается науки о данных: алгоритмы и структуры данных, Искусственный Интеллект, анализ данных и многое другое!

Наука о данных — что она изучает на самом деле?

Наука о данных — что она изучает на самом деле?

Данные окружают нас повсюду. Это незаменимый инструмент в руках современного человека. “Данные действительно помогают нам во всем”, — когда-то признал Джефф Вейнер, гендиректор LinkedIn. Что же собой представляет наука о данных и каковы были предпосылки ее стремительного развития?
Data Science

Персонализация контента с IBM Watson

В своём дипломном проекте я решил продолжить работать с естественным языком, фильмами и IBM Watson. В предыдущем проекте я визуализировал психологические профили персонажей фильмов,...
Statistics

Статистика - это грамматика науки о данных. Часть 1

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 «Статистика — это грамматика науки» Данное высказывание приписывают английскому математику...
Метод SHAP для категориальных признаков

Метод SHAP для категориальных признаков

Поговорить о том, как складывать SHAP-значения категориальных признаков, преобразованных путем прямой кодировки, с помощью кода Python.
Галерея лучших модулей Python

Галерея лучших модулей Python

Вас никогда не обескураживало огромное число модулей Python? И, скорее всего, вам было непросто выбрать всего один для конкретного проекта. В этой статье вы...
Как инструменты дизайна интерфейса и визуализации способствуют развитию Machine Teaching?

Алгоритм YOLO простым языком

Что такое YOLO? Эта аббревиатура расшифровывается как “You Only Look Once” (“Стоит только раз взглянуть”). YOLO  —  современный алгоритм глубокого обучения, который широко используется...
Сетка данных с точки зрения баз данных и на практике

Сетка данных с точки зрения баз данных и на практике

Сетка данных — это набирающая популярность архитектурная парадигма. Но многие из ее основных понятий имеют параллели в традиционном проектировании баз данных, особенно в том, как думать о представлениях и материализации. Автор рассматривает основные понятия сетки данных через призму классических понятий области баз данных, а затем показывает, как они работают на практике в проекте GlareDB.
7 Способов вывести свои новые навыки Python на следующий уровень

7 Способов вывести свои новые навыки Python на следующий уровень

Внимание: в этой статье нет партнёрских ссылок. Когда я впервые начинал изучать Python, я не знал, что делать с моими новыми навыками дальше. Поэтому они...
Чем отличаются модели МО в науке и производстве

Чем отличаются модели МО в науке и производстве

Почему модели МО, которые хорошо выглядят "на бумаге", не гарантируют хорошей работы в производстве? Вот что думает специалист в области МО.
GPT3

Как работает GPT3

Обученная языковая модель генерирует текст. В качестве входных данных при желании ей можно также передать некоторый текст, влияющий на выходные данные. Выходные данные генерируются...
4 альтернативы Pandas: ускоренное выполнение анализа данных

4 альтернативы Pandas: ускоренное выполнение анализа данных

Бенчмарк производительности популярных инструментов анализа данных заставит вас иногда отказываться от Pandas. Каждый из этих инструментов  -  Polars, DuckDB, Vaex и Modin - при анализе данных на кластере машин работает гораздо быстрее, чем Pandas.
Современные шаблоны проектирования архитектуры

Современные шаблоны проектирования архитектуры

Многие современные приложения нужно проектировать в масштабе предприятия или даже всего интернета. Все они должны отвечать требованиям масштабируемости, доступности, безопасности, надежности и отказоустойчивости. Здесь я...
Python

Выбор оптимального алгоритма поиска в Python

Когда дело касается обучения, мы, как правило, используем один из двух основных подходов: идём либо вширь и стараемся охватить как можно больший спектр области,...
Audio Datasets

25 наборов аудиоданных для исследований

Наборы музыкальных данных Free Music Archive FMA предназначен для анализа музыки и состоит из полноразмерного HQ-аудио, предварительно вычисленных характеристик, а также метаданных трека и пользовательского уровня....
Kotlin

Разностный алгоритм Майерса и наблюдаемые свойства в Kotlin - как их объединить, чтобы облегчить жизнь разработчика

Посмотрите на анимацию ниже. Это группа разноцветных элементов, которые при нажатии кнопки начинают перемещаться. С точки зрения разработчика, эти элементы размещаются внутри RecyclerView с...
Математические операции над массивами и матрицами

Математические операции над массивами и матрицами

В процессе обработки и организации данных в определенные моменты возникает необходимость в выполнении математических операций над массивами и матрицами. Заглянем в notebook Чтобы ознакомиться с рассматриваемыми далее...
Что думают ученые-компьютерщики о влиянии ИИ на общество

Что думают ученые-компьютерщики о влиянии ИИ на общество

В ученой среде традиционно считают, что нельзя привносить этические или политические ценности в научный процесс. Но что, если исследования порождают проблемы безопасности, вызывают расистские...
5 подводных камней нереляционных баз данных

5 подводных камней нереляционных баз данных

Когда речь заходит о нереляционных базах данных, не все видят две стороны одной медали: многие упускают из виду то, что у этих баз данных...
Парадокс надежности ИИ

Парадокс надежности ИИ

Представьте, что вы босс и у вас в штате два работника (человека): Кирилл Небрежный  —  это сплошное разочарование. Лишь в 70% случаев он справляется с...
Data

Будущее данных: децентрализованная графовая база данных

Происходит смена парадигмы, которая коренным образом изменит способы хранения, обработки и передачи данных внутри компаний. Эта смена породит изобилие новых возможностей, в том числе...
Data Science

Как сгенерировать настоящие случайные числа в Solidity с блокчейном

Если бы вы погуглили фразу “случайные числа в Solidity” (речь идёт об англоязычном поиске), то в самых популярных результатах выдачи было бы: Solidity не может...
4 Продвинутых приема работы с функциями Python, о которых вы могли не знать

4 Продвинутых приема работы с функциями Python, о которых вы могли не знать

Знаете ли вы, как принудительно задавать именованные аргументы, создавать декоратор функций и анонимные функции или распаковывать массив или словарь в аргументы функции? Предлагаем вашему...
Machine Learning

Подробное руководство по свёрточным нейронным сетям

Искусственный интеллект существенно развился на своём пути сокращения разрыва между возможностями людей и машин. Разработчики наравне с энтузиастами работают над великим множеством аспектов в...
Краткое руководство по созданию наборов данных с помощью Python

Краткое руководство по созданию наборов данных с помощью Python

Хотите собирать и хранить данные своих пользователей? Краткий гайд поможет вам в три шага создать собственный пользовательский датасет. Для этого вам понадобится менее часа и минимальный набор инструментов, включающий API Google Sheets и Streamlit.
Как быстро и легко создавать прототипы датасайенс-проектов

Как быстро и легко создавать прототипы датасайенс-проектов

Преобразовать Jupyter Notebook в интерактивный дашборд - задача из простых. Для этого даже не нужно знать HTML, CSS и JavaScript. Разбираемся, как создать приложение для совместного использования прямо в среде ноутбука с помощью Mercury.
Python

Python 3: 3 функции, которые следует помнить

Многие разработчики, особенно новички, уже активно пишут на Python 3. И хотя в этой версии появилось множество новых функций, многие из них неизвестны или...
Генерируйте реалистичные датасеты с помощью Snowfakery

Генерируйте реалистичные датасеты с помощью Snowfakery

Когда вы разрабатываете новый продукт, приложение или функцию, то тестировать ее необходимо на реалистичных данных. Сначала данные создаются вручную, но если нужно протестировать аналитические...
JavaScript

Сумасшедший способ проверить, является ли число простым, используя регулярное выражение

В поисках алгоритмов для выявления простых чисел, вы где-нибудь, да встречали подобное выражение:   Что это? Это способ проверки, является ли число простым. Вам даже не...
Apache Spark

Apache Spark: гайд для новичков

Что такое Apache Spark? Специалисты компании Databricks, основанной создателями Spark, собрали лучшее о функционале Apache Spark в своей книге Gentle Intro to Apache Spark (очень рекомендую...
Database

Не используйте ID, сгенерированные базой данных для доменных сущностей

Вы, вероятно, позволяли базам данных генерировать ID для сущностей по крайней мере один раз. Но что, если я скажу вам, что при разработке приложений есть...
10 рекомендаций по Apache Airflow для дата-инженеров

10 рекомендаций по Apache Airflow для дата-инженеров

Раскройте потенциал Airflow, придерживайтесь рекомендаций по повышению надежности и эффективности конвейеров данных, производительности, сопровождаемости и масштабируемости. Дадим примеры, как эти рекомендации реализовать.
Data Science

Алгоритм XGBoost: пусть он царствует долго!

Хоть с того момента и прошло 15 лет, я до сих пор помню первый день на моей первой работе. Я только-только выпустился из ВУЗа...
Декораторы в Python за три минуты

Декораторы в Python за три минуты

Декораторы представляют собой удобный для восприятия человеком способ расширения возможностей функции, метода или класса извне. Использование декораторов особенно полезно при декорировании (т. е. расширении)...
Mathematics

Эйнштейн и самая красивая из всех теорий

Британский физик-теоретик Поль Дирак (1902–1984), один из основоположников квантовой механики, однажды написал: «Было трудно примирить ньютоновскую теорию гравитации, в соответствии с которой гравитационное взаимодействие распространяется...
Инструменты для быстрого овладения наукой о данных

Инструменты для быстрого овладения наукой о данных

Компании типа BlobCity предоставляют множество шаблонов кода ИИ/МО. Этот инструментарий способен как облегчить работу опытных специалистов в области науки о данных, так и ускорить профессиональное становление новичков.
Как X оптимизировал обработку 400 миллиардов событий

Как X оптимизировал обработку 400 миллиардов событий

Хотите знать, как Twitter, ныне X, справляется с таким фантастическим объемом работы, достигая при этом низкой задержки, высокой точности, стабильности и снижения эксплуатационных расходов? Оказывается, все дело в архитектуре платформы. Узнайте о том, с какими проблемами столкнулся X и как решил их с помощью новой архитектуры.
Data Science

Как работает случайный лес?

Как и почему работает случайный лес? Разбираемся Важная часть машинного обучения  —  это классификация. Мы хотим знать, к какому классу (или группе) принадлежит значение. Возможность...
Тестирование больших данных: руководство для начинающих

Тестирование больших данных: руководство для начинающих

Что такое тестирование больших данных, и с какими проблемами можно столкнуться в этом процессе? Расскажем про основные типы, способы и инструменты тестирования больших данных.
Самые полезные продвинутые техники SQL 

Самые полезные продвинутые техники SQL 

Освойте три продвинутые техники SQL - оконные функции, подзапросы и общие табличные выражения - с помощью примеров использования и экспертных советов. Эти техники значительно расширят ваши возможности по работе с данными.
Автоматическое создание музыки с помощью искусственного интеллекта

Автоматическое создание музыки с помощью искусственного интеллекта

Раз уж мы в начале 2021 года, то должны затронуть тему, о которой много говорилось в последнее время. По мере того, как всё больше...
Stack

Для чего нужны стеки?

Когда я узнал, что такое стек, мне стало интересно его практическое применение. Оказалось, что чаще всего эта структура используется для имплементации операции “Отмена” (...
Как легко развертывать модели МО с помощью Streamlit, BentoML и DagsHub

Как легко развертывать модели МО с помощью Streamlit, BentoML и DagsHub

Хотите поделиться проектом, но не знаете, как это лучше сделать? Рассмотрим простой способ представления моделей МО с использованием Streamlit, BentoML и DagsHub.
Сложные ИИ-модели созданы с помощью некачественных данных

Сложные ИИ-модели созданы с помощью некачественных данных

Те, кто занят в сфере искусственного интеллекта, в том числе и в проекте Deepnews, часто презентуют свои новейшие модели как инновационные и эффективные средства...
Разработка виртуального помощника для удовлетворения основных потребностей пользователей

Разработка виртуального помощника для удовлетворения основных потребностей пользователей

В этой статье мы расскажем о том, как организовать пользовательские потребности в соответствии со сложностью и частотой возникновения, а также расставим приоритеты в поэтапном...
Data Science

Моделирование экспоненциального роста

Чтобы лучше усвоить материал, рекомендуем вам использовать данные для примера и Python Notebook. Почему именно экспоненциальный рост? Экспоненциальный рост — это математическая функция, которая может использоваться в нескольких...
Algorithms

Завораживающая последовательность Фибоначчи

Занимаясь изучением обработки данных, расчётами, а также другими компьютерными и математическими операциями, мы сталкиваемся со многими алгоритмами. Несмотря на то, что иногда мы недолюбливаем...
DetectoRS

DetectoRS - новейшее средство обнаружения объектов от Google Research

В области компьютерного зрения не прекращается поиск новых техник, алгоритмов и сквозных обучаемых конвейеров для задач по обнаружению объектов и сегментации изображений. Каждый год...
Python

Python: 5 ошибок в применении охвата списка

Охват списка, (далее ОС), бесспорно, самая мощная возможность Python, которая может оказаться невероятно эффективным инструментом, но может и сильно снизить читаемость кода. Рассмотрим несколько...
6 функций Pandas для быстрого эксплораторного анализа данных

6 функций Pandas для быстрого эксплораторного анализа данных

Познакомьтесь с 6 функциями, лежащими в основе любого эксплораторного анализа данных. Они позволят сделать первый шаг в исследовании данных в Pandas.
Artificial Intelligence

Почему люди подсаживаются на TikTok? Алгоритм ИИ, который вас подловил

Tick Tok стремительно завоёвывает мир. Согласно данным Sensor Tower, это приложение для коротких видео было загружено более 2 миллиардов раз с App Store и...
Julia

В поисках лучшей среды для Julia: Juno или Jupyter?

Одним из важнейших факторов, влияющих на производительность программирования, является среда разработки. Особенно это относится к науке о данных, так как специалисты, работающие в этой...
Погружение в графы

Погружение в графы

Графы в большинстве своем представляют собой неупорядоченные деревья. В основном это утверждение касается ненаправленных и невзвешенных графов. Однако оно остается в силе и в...
Продвинутые темы SQL для дата-инженеров

Продвинутые темы SQL для дата-инженеров

Рассмотрим важные техники SQL, иллюстрируя их примерами применения набора данных: объединение таблиц, подзапросы и оконные функции, фильтрацию и агрегирование. Освоив их, вы будете лучше справляться с анализом и визуализацией данных и сможете повысить качество принимаемых в организациях решений.
Python

Метод опорных векторов: примеры на Python

Метод опорных векторов (далее МОВ)  —  это техника машинного обучения с учителем. Она используется в классификации, может быть применена к регрессионным задачам. Метод определяет границу...
11 шагов на пути к работе дата-сайентиста

11 шагов на пути к работе дата-сайентиста

Получить работу в области науки о данных, МО и ИИ сложно. Эти 11 шагов помогут стратегически подойти к решению этой проблемы (спойлер: Kaggle не относится к их числу).
AI

Привет, новый мир «Искусственного интеллекта»

Почему каждый должен подготовиться к «революционной автоматизации» Нам нужно начать лучше разбираться в новых технологиях, таких как искусственный интеллект, роботы и блокчейн.Навело на эту мысль...
MongoDB: ограничение отображаемых документов

MongoDB: ограничение отображаемых документов 

Разберем методы Limit() и Skip() и приведем примеры
Python

Как создать бота для автоматизации повседневных задач, с помощью Python и Google BigQuery

У каждого из нас есть однообразные задачи, которые мы выполняем изо дня в день, из недели в неделю. Составление отчетов, в большинстве случаев, является...
Spotify

От Spotify к собственной рекомендательной системе

Каждый понедельник моя жизнь озаряется одним событием. И учёба или работа здесь ни при чём — я говорю об еженедельном обновлении чудесного плейлиста “Открытия недели” на...
Data Science

Анализ текста средствами языка программирования R

“Люди часто восхваляют классические произведения, даже не читая их”, — Марк Твен. Надеюсь, что ваш опыт опровергает это высказывание Марка Твена, а также верю, что вы всё-таки...
Реализация архитектуры с сохранением состояния в Streamlit

Реализация архитектуры с сохранением состояния в Streamlit

Streamlit Streamlit прошел долгий путь становления с момента своего создания в октябре 2019 года. Он не только предоставил разработчикам ПО новые возможности, но и обеспечил...
Tensorflow

Автоматизация Doom с глубоким Q-обучением: реализация в Tensorflow

Введение Методы онлайнового обучения машин (ОО) — это семейство динамических алгоритмов обучения с подкреплением, которое стоит за кулисами многих достижений во всей области ИИ за последние десять...
Использование Snowflake для прогнозирования эскалации в колл-центре

Использование Snowflake для прогнозирования эскалации в колл-центре

Упредить эскалацию звонков в колл-центре  —  непростая задача. Справиться с ней поможет модель TOP_INSIGHTS. Она автоматизирует всю аналитическую работу службы поддержки, позволяя повысить удовлетворенность клиентов и улучшить их опыт взаимодействия с компанией.
Руководство по SQL: команда MySQL INSERT в подробностях

Руководство по SQL: команда MySQL INSERT в подробностях

Примеры MySQL INSERT на практике для начинающих, команды INSERT INTO, VALUES, SET, SELECT, IGNORE и загрузка записей напрямую из файла.
Data science

Изучение нового языка для работы с данными

В постоянно меняющейся экосистеме инструментов для анализа данных вам придется часто изучать все новые и новые языки, чтобы идти в ногу со временем и...
К подготовке и публикации первого пакета Python готовы!

К подготовке и публикации первого пакета Python готовы!

Python стал одним из самых широко используемых языков программирования. Главным образом объясняется это тем, что мы, его обычные пользователи, можем поделиться своим кодом, обеспечивая...
Инженерия данных — не только для инженеров!

Инженерия данных — не только для инженеров!

Тот, кто зарабатывает на жизнь написанием контента, наверняка может научиться работать и с данными. Начните с создания простой базы данных с использованием SQL, Python и облачных вычислений.
ЕС ужесточает регулирование в сфере использования искусственного интеллекта

ЕС ужесточает регулирование в сфере использования искусственного интеллекта

21 апреля Еврокомиссия опубликовала свод строгих правил, по-новому регулирующих использование искусственного интеллекта. Это первый документ подобного рода. В нем ИИ определяется как технология, являющаяся...
Python

Python 3.9

Что нового ожидает нас в этой версии и в будущих релизах? Вышел полный релиз Python 3.9! Очевидно, что эта версия знаменует собой переломный момент в эволюции Python....
Как алгоритм "случайный лес" вычисляет продавцов-мошенников на онлайн-рынке

Как алгоритм «случайный лес» вычисляет продавцов-мошенников на онлайн-рынке

Как показала практика, интернет полон мошенников, охотящихся за наивными пользователями. Посмотрим, как специальная модель МО обнаруживает злоумышленников на C2C-рынке.
Machine Learning

6 концептов книги Эндрю Ына «Жажда машинного обучения»

“Техническая стратегия для инженеров-разработчиков искусственного интеллекта в эпоху глубокого обучения” “Жажда машинного обучения” структурирует разработку проектов, использующих машинное обучение. Книга включает в себя практический опыт,...
Как собрать данные для DS-проекта с помощью Python: 3 шага

Как собрать данные для DS-проекта с помощью Python: 3 шага

Начните свой проект по науке о данных с создания Python-скрипта, используя библиотеку Selenium для извлечения данных. Предлагаем узнать, как это выполнить в 3 шага.
MongoDB: удаление базы данных

MongoDB: удаление базы данных 

В прошлой статье о MongoDB мы рассмотрели создание базы данных. В данном разделе рассмотрим процесс ее удаления.
Audio Data Analysis

Анализ аудиоданных с помощью глубокого обучения и Python (часть 1)

Введение Аудиоанализ - область, включающая автоматическое распознавание речи (ASR), цифровую обработку сигналов, а также классификацию, тегирование и генерацию музыки - представляет собой развивающийся поддомен приложений...
Как за месяц создать систему учета посещаемости на базе распознавания лиц

Как за месяц создать систему учета посещаемости на базе распознавания лиц

Нестандартные решения - верные помощники в разработке инноваций. Представляем инновационный проект управления посещаемостью, созданный двумя инженерами-программистами менее чем за месяц.
Python

Обучение Inception в Google распознаванию пользовательских изображений

Ищете краткое руководство по обучению классификатора пользовательских изображений? С помощью Inception API от Google Brain с этой задачей можно справиться быстрее, чем выпить чашку...
Data Science

5 видов регрессии и их свойства

Линейная и логистическая регрессии обычно являются первыми видами регрессии, которые изучают в таких областях, как машинное обучение и наука о данных. Оба метода считаются...
MongoDB: создание и удаление коллекции

MongoDB: создание и удаление коллекции

Рассмотрим создание и удаление коллекции с помощью команд createCollection() и drop().
Обнаружение фейковых новостей с помощью машинного обучения

Обнаружение фейковых новостей с помощью машинного обучения

Что общего у фейковых новостей? Как создать чат-бота, который отличает такие новости от реальных? Почему BERT не является универсальным решением в машинном обучении? Узнайте ответы на эти и сопутствующие вопросы прямо сейчас.
Обработка естественного языка

Обработка естественного языка

Обработка естественного языка или NLP (от англ. Natural language processing)  —  одна из самых известных областей науки о данных. За последнее десятилетие она приобрела...
Что говорить на поведенческом интервью по науке о данных

Что говорить на поведенческом интервью по науке о данных

Произвести приятное впечатление на потенциального работодателя во время собеседования непросто. Тем не менее с этой задачей можно легко справиться, если следовать этим 3 простым лайфхакам.
Как автоматизировать сравнение датасетов с Terraform и BigQuery

Как автоматизировать сравнение датасетов с Terraform и BigQuery

Автоматизация проверки датасетов значительно упрощает жизнь. Узнаем, как же это сделать с помощью инструмента для управления облачной инфраструктурой Terraform и сервиса для анализа больших наборов данных BigQuery.
Python

4 простые визуализации данных в Python

Визуализация данных является неотъемлемой частью любых проектов в науке о данных или в проектах машинного обучения. Для того, чтобы получить некоторое представление об определенных...
BERT  -  коротко о главном

BERT  -  коротко о главном

Предварительно обученные модели представления языка Существует два способа использования предобученных языковых моделей: извлечение признаков (feature-based), когда представления предварительно обученной модели используются в качестве дополнительных функций...
Что нужно знать, чтобы начать заниматься квантовыми вычислениями

Что нужно знать, чтобы начать заниматься квантовыми вычислениями

Несмотря на относительно старую технологию, только в последнее время квантовые вычисления привлекли к себе много внимания как индустрии, так и СМИ. Квантовые вычисления впервые...
Создание архитектур кода с помощью функциональных операторов

Создание архитектур кода с помощью функциональных операторов

Говоря о функциональном программировании, мы сразу вспоминаем о функциях. Однако есть и другие концепции, которые отлично работают в науке о данных. Одной из таких концепций являются функциональные операторы, позволяющие создавать сложные архитектуры для выразительного кода.
7 библиотек Python для вашего первого проекта по науке о данных

7 библиотек Python для вашего первого проекта по науке о данных

Pandas Данные играют первостепенную роль в разработке продуктов, задействующих науку о данных и машинное обучение. Однако информация часто нуждается в предварительной очистке и некоторых манипуляциях,...
Computer Science

Много узлов, одна распределенная система

Говорят, что один (мужчина, женщина — какой-то человек) — в поле не воин. Но в наши дни к этому списку можно добавить и «компьютер». Мы окружены машинами, компьютерами...
AI

Почему компании терпят неудачи, применяя искусственный интеллект?

Я бы хотела поделиться с вами секретом: когда люди говорят о «машинном обучении», зачастую, они имеют ввиду всегда одно — как правильно применить ИИ и извлечь...
Как инструменты дизайна интерфейса и визуализации способствуют развитию Machine Teaching?

Как инструменты дизайна интерфейса и визуализации способствуют развитию Machine Teaching?

Разметка данных для машинного обучениянесет в себе ряд проблем и сложностей. Поэтому нам понадобится лучший подход, который ценит человеческий опыт и управляет расходами, а...
Как я устроил пожизненный запас чесночных пицца-палочек с помощью Python и Selenium

Как я устроил пожизненный запас чесночных пицца-палочек с помощью Python и Selenium

Не знаю как вы, а я обожаю пиццу, особенно вместе с чесночными палочками от «Папа Джонс». И когда мне пришло это сообщение после последнего...
Основы SQLite на примере практической задачи

Основы SQLite на примере практической задачи

Базы данных  —  это превосходный, безопасный и надежный способ хранения данных. Все основные реляционные базы объединяет SQL, т.е. язык управления данными, их базами и...
Типы операций обновления в MongoDB с использованием Spring Boot

Типы операций обновления в MongoDB с использованием Spring Boot

Разбираемся, как обновлять данные в MongoDB, в чем заключаются преимущества и недостатки существующих способов и как выглядят результаты их применения.
Основы науки о данных

Основы науки о данных

Наука о данных  —  это быстро развивающаяся область, изначально основанная на статистике. За последние несколько десятилетий она стала намного шире из-за экспоненциального роста объема...
Data Science

4 способа обработки ошибок для стеков

Обработка ошибок — это часть рабочих будней каждого программиста. Всегда были и будут ситуации, когда по какой-либо причине код не заработает, и наша задача — следить за тем,...
14 наборов данных для датасайенс-проектов

14 наборов данных для датасайенс-проектов

Представляем 14 наборов данных, которые пригодятся для различных целей, например классификации текстов и изображений, создании системы рекомендаций, а также визуализации данных.
Как использовать MSE в науке о данных

Как использовать MSE в науке о данных

Среднеквадратичная ошибка (MSE) - одна из полезных метрик, помогающих определить эффективность модели. Рассказываем, как использовать MSE для оценки и оптимизации производительности в науке о данных.
Библиотеки Python для машинного обучения

Библиотеки Python для машинного обучения

Что такое «библиотека Python»? Если вдуматься, она очень похожа на обычную библиотеку, в которой собраны самые разные книги. В библиотеке Python имеется несколько уникальных модулей,...
Database

Почему в базе данных происходит взаимоблокировка?

Круг вопросов для обсуждения Попробуем объяснить, что такое взаимная блокировка и почему она возникает в базе данных. Напишем SQL-инструкции и искусственно вызовем взаимоблокировку, а также обсудим...
Внутренняя платформа МО Bigeye: цели и методы создания

Внутренняя платформа МО Bigeye: цели и методы создания

Машинное обучение на платформе Bigeyeизбавляет инженеров и специалистов по обработке данных от необходимости вручную настраивать критерии оповещений. Оно существенно экономит время, ведь получение показателей...
SQL

Развертывание Flask приложения на Heroku и подключение к БД MySQL  -  JawsDB

Проблемы развертывания Новички часто устанавливают все пакеты на системном уровне из-за отсутствия опыта (например, с помощью pip). Получение зависимостей из requirements.txt для каждого проекта создаёт...
Python

Учимся писать строки документации в Python

Все мы когда-то писали такой код, взглянув на который две недели спустя, трудно было понять почему и как он работает. Нам часто приходится иметь...
F-строки и 3 эффективных способа их применения

F-строки и 3 эффективных способа их применения

Далеко в прошлом остались те времена, когда разработчики Python еще использовали оператор % для форматирования строк.  С момента появления Python 3.0 его постепенно заменили вызовом...
JavaScript

Новые API интернационализации в JavaScript

Intl  —  глобальный объект для форматирования строк, чисел и дат с учётом языка пользователя. Он работает над отображением зависящей от языка информации. Интернационализация  —  способ...
Уменьшаем размер образа Docker для приложения Next.js

Уменьшаем размер образа Docker для приложения Next.js

Как избавиться от ненужных файлов в образе докера? Выполним контейнеризацию приложения и простую оптимизацию размеров образа Docker.