Data Science

Машинное обучение. С чего начать? Часть 2

Предыдущая часть: Часть 1 Очистка данных В любом проекте приходится заниматься «чисткой данных». К следующему этапу можно переходить только после приведения в порядок ваших данных. Чаще всего...
Data science

Изучение нового языка для работы с данными

В постоянно меняющейся экосистеме инструментов для анализа данных вам придется часто изучать все новые и новые языки, чтобы идти в ногу со временем и...
Создайте приложение для резюмирования новостных статей с Hugging Face и Gradio

Создайте приложение для резюмирования новостных статей с Hugging Face и Gradio

У вас накопилась масса закладок со статьями для последующего чтения, но вы так и не добрались до них? Нет времени читать длинные статьи? Хотите узнать...
Data Science

От продвинутой к эффективной аналитике

За последнюю декаду в компаниях произошел фундаментальный сдвиг в философии принятия решений. Лидеры ушли из среды, где был важен личный опыт и интуиция, в...
Структуры данных: динамическое программирование

Структуры данных: динамическое программирование

Подход динамического программирования схож с подходом «разделяй и властвуй»: тоже разбивает задачи на как можно более мелкие подзадачи. Отличие в том, что здесь подзадачи решаются не независимо.
ТОП-4 официальных сайта МО-библиотек и способы их использования

ТОП-4 официальных сайта МО-библиотек и способы их использования

Ознакомьтесь с обзором 4 лучших сайтов машинного обучения: Scikit-learn, TensorFlow, Keras и PyTorch. Предлагаем также освоить эффективные способы применения каждого из этих ресурсов.
Algorithms

Наглядное объяснение алгоритма Беллмана-Форда

Алгоритм Беллмана-Форда находит в ориентированном графе кратчайшие пути от исходной вершины до всех остальных. В отличие от алгоритма Дейкстры, в алгоритме Беллмана-Форда могут быть...
Наш первый миллиард строк в DuckDB

Наш первый миллиард строк в DuckDB

Как одной машиной заменяется целый кластер? Расскажем об особенностях DuckDB, решаемых задачах и приобретенном с ее помощью опыте в реальном проекте обработки 450 Гб.
Как удалить одинаковые данные из отсортированного массива

Как удалить одинаковые данные из отсортированного массива

Задача Имеется отсортированный массив nums. Необходимо удалить из него одинаковые данные так, чтобы один элемент появлялся только один раз и возвращал новое число элементов.  Не нужно...
Algorithms

8 базовых алгоритмических задач на собеседованиях

Во время собеседования на должность в IT-сфере часто касаются вопросов применения алгоритмов. Наиболее популярными являются алгоритмы поиска и сортировки (строковые алгоритмы, бинарный поиск, алгоритм...
Machine Learning

Как вино может быть слегка острым и резким?

Как можно о вине сказать, что оно острое, резкое, яркое или плотное? Описания вин (особенно те, которые делают сомелье) часто состоят из как будто...
За гранью HCD: нужен ли новый подход в дизайне для ИИ?

За гранью HCD: нужен ли новый подход в дизайне для ИИ?

Сетевая технология имеет сетевые эффекты. Зачастую они являются неосязаемыми и усиливаются через систему во время использования машинного обучения. Но есть ли смысл создавать ориентированный...
Машинное обучение без данных

Машинное обучение без данных

Создание продуктов и услуг с помощью моделей МО требует обучающих данных, которые обычно получают от клиентов. При этом часто нарушается цикл инноваций: разработка качественного продукта невозможна без построения достойной модели, которая, в свою очередь, нуждается в большом количестве данных, поступающих от клиентов, ожидающих качественного продукта.
3 распространенные ошибки при поиске работы в области науки о данных в 2022 году

3 распространенные ошибки при поиске работы в области науки о данных

Мечтаете связать свою жизнь с наукой о данных? Тогда прислушайтесь к рекомендациям эксперта в этой отрасли. Они помогут избежать наиболее распространенных ошибок при поиске работы.
11 шагов на пути к работе дата-сайентиста

11 шагов на пути к работе дата-сайентиста

Получить работу в области науки о данных, МО и ИИ сложно. Эти 11 шагов помогут стратегически подойти к решению этой проблемы (спойлер: Kaggle не относится к их числу).
Python

Обнаружение объектов с помощью цветовой сегментации изображений в Python

Начинаем Если у вас уже есть Jupyter Notebook или IDE, с помощью которых можно запускать установленные Python и OpenCV, то сразу переходите к разделу Выполнение. Инструменты Наш...
Топ-5 ошибок при объявлении функций в Python

Топ-5 ошибок при объявлении функций в Python

Функции являются критическим компонентом в любом программном проекте. Написанные должным образом, они представляют собой практичный способ написания читаемого и поддерживаемого кода. Однако, если функции...
Что говорить на поведенческом интервью по науке о данных

Что говорить на поведенческом интервью по науке о данных

Произвести приятное впечатление на потенциального работодателя во время собеседования непросто. Тем не менее с этой задачей можно легко справиться, если следовать этим 3 простым лайфхакам.
Как выжать максимум из предобученных языковых моделей с GroupBERT

Как выжать максимум из предобученных языковых моделей с GroupBERT

Как достичь 2-кратного ускорения обучения на интеллектуальном процессоре Graphcore, обеспечивая более быстрые и эффективные вычисления? Что делает GroupBERT лучше BERT и других моделей с групповыми преобразованиями в Transformer? Отвечаем на эти и сопутствующие вопросы.
Почему вам не удастся стать "великим" специалистом по данным?

Почему вам не удастся стать «великим» специалистом по данным?

Быть просто "хорошим" специалистом по обработке данных не проблема. Куда сложнее стать "великим". Позвольте мне, как специалисту по обработке данных, открыть вам глаза на самую прибыльную работу 21-го века.
DesignPatterns

Под покровом капустного листа: шаблон Декоратор

Я родилась в городке, расположенном на западном берегу реки Амур на Дальнем востоке России. Эта область известна своим влажным континентальным климатом, для которого характерны...
Mathematics

Эйнштейн и самая красивая из всех теорий

Британский физик-теоретик Поль Дирак (1902–1984), один из основоположников квантовой механики, однажды написал: «Было трудно примирить ньютоновскую теорию гравитации, в соответствии с которой гравитационное взаимодействие распространяется...
Структуры данных, которые необходимо знать каждому программисту

Структуры данных, которые необходимо знать каждому программисту

Пройти путь от нуля до профессионального инженера-программиста можно исключительно с помощью бесплатных ресурсов в интернете. Но разработчики, которые идут по этому пути, часто игнорируют...
6 алгоритмов машинного обучения, которые должен знать каждый исследователь данных

6 алгоритмов машинного обучения, которые должен знать каждый исследователь данных

Машинное обучение - одна из тех областей, которые должен знать каждый, кто изучает науку о данных. Предлагаем описание 6 ключевых алгоритмов контролируемого МО, изложенное простым, доступным языком.
Структуры данных: подход «разделяй и властвуй»

Структуры данных: подход «разделяй и властвуй»

При подходе «разделяй и властвуй» задача делится на мелкие подзадачи, каждая из которых решается независимо. При их делении на еще более мелкие подзадачи в конце концов настает момент, когда дальнейшее деление невозможно.
Три библиотеки R, которые должен знать каждый специалист по данным

Три библиотеки R, которые должен знать каждый специалист по данным

Даже если вы используете Python, включите в свой арсенал инструментов три мощные библиотеки R, созданные крупнейшими технологическими компаниями мира.
Algorithm

Графы и пути — алгоритм Дейкстры

Примеры из веб-приложения здесь. Зачем В 1959 году Эдсгер Дейкстра пришел к выводу о том, что компьютеры могут находить самые эффективные траектории, измеряя и высчитывая расстояния в...
7 библиотек Python для вашего первого проекта по науке о данных

7 библиотек Python для вашего первого проекта по науке о данных

Pandas Данные играют первостепенную роль в разработке продуктов, задействующих науку о данных и машинное обучение. Однако информация часто нуждается в предварительной очистке и некоторых манипуляциях,...
Ludwig на PyTorch

Ludwig на PyTorch

Простота, модульность и расширяемость - отличительные признаки декларативного фреймворка глубокого обучения Ludwig. Его разработчики представляют новую, переработанную с нуля версию - Ludwig v0.5. И главная его особенность в том, что весь бэкенд переносится на PyTorch.
Pandas

7 трюков pandas для науки о данных

1. Анализ образцов датафреймов с помощью df.groupby().__iter__() Обычно исследовать набор данных строка за строкой или группа за группой в блокнотах Jupyter сложнее, чем в Excel....
Computer Science

Графы: основы теории, алгоритмы поиска

Возможно, вы уже знакомы с понятием спортивного программирования и знаете, что оно помогает развить навыки решения проблем и прокачать технические знания о структурах данных...
DeepNote

Deepnote - новая IDE для специалистов по данным

Дисклеймер: автор никак не связан с Deepnote или его участниками. Deepnote — это бесплатный онлайн-блокнот для специалистов по данным, фокусирующийся в основном на совместном использовании в реальном...
Наивный байесовский алгоритм

Наивный байесовский алгоритм

Введение Самые простые решения обычно оказываются самыми действенными, и в этом смысле показателен пример наивного байесовского алгоритма. Несмотря на большие успехи машинного обучения в последние...
String и string в С#: больше, чем просто стиль?

String и string в С#: больше, чем просто стиль?

Обзор Во-первых, давайте рассмотрим оба типа: String—  это обычный идентификатор, который относится к типу данных .NET System.String. Также необходимо, чтобы был импортирован класс System. string—  это зарезервированный дескриптор в...
Kotlin

Разностный алгоритм Майерса и наблюдаемые свойства в Kotlin - как их объединить, чтобы облегчить жизнь разработчика

Посмотрите на анимацию ниже. Это группа разноцветных элементов, которые при нажатии кнопки начинают перемещаться. С точки зрения разработчика, эти элементы размещаются внутри RecyclerView с...
Data Science

Гениально или глупо? Самая неоднозначная нейросеть

Некоторые считают нейронную сеть экстремального обучения (ELM) одной из самых удачных нейросетей — изучению её архитектуры даже посвящена отдельная конференция. Сторонники ELM утверждают, что для выполнения...
AI

Почему искусственный интеллект никогда не захватит мир?

Я не присваиваю себе идею о том, что ИИ (в самом расцвете сил) сделает из людей второсортных рабочих и создаст грубый дисбаланс на рынке...
SQL для Data Science: альтернатива обмену через Google Disk и Slack

SQL для Data Science: альтернатива обмену через Google Disk и Slack

Как аналитику данных показать SQL-запросы коллегам? Доступный обмен наработками через Jupyter Notebook, Tidyverse или Superset.
Machine Learning

6 концептов книги Эндрю Ына «Жажда машинного обучения»

“Техническая стратегия для инженеров-разработчиков искусственного интеллекта в эпоху глубокого обучения” “Жажда машинного обучения” структурирует разработку проектов, использующих машинное обучение. Книга включает в себя практический опыт,...
Парадокс «Гранд-отель»

Парадокс «Гранд-отель»

ПРОЛОГ «Хочешь поиграть в пазлы?»  —  спросила мама своего 8-летнего ребёнка. «Конечно, мамочка!»  —  ответило дитя. Все мы любим головоломки. И забавно, что эта любовь не...
Data

Будущее данных: децентрализованная графовая база данных

Происходит смена парадигмы, которая коренным образом изменит способы хранения, обработки и передачи данных внутри компаний. Эта смена породит изобилие новых возможностей, в том числе...
Artificial Intelligence

Машинное забывание: почему забывание важно для ИИ

Посмотрим правде в глаза: никому не нравится забывать. Все мы расстраиваемся, когда не можем вспомнить, где оставили ключи или как зовут коллегу, с которым...
Data Science

Машинное обучение. С чего начать? Часть 1

По мере того, как машинное обучение всё больше внедряют в бизнес-процессы, жизненно важным становится наличие инструмента, который позволяет быстро решать поставленные задачи. Зачастую в...
Mathematics

Метод подсчёта количества решений

Линейные алгебраические уравнения — одни из самых простых уравнений, которые мы можем решить. Если в уравнении только одна переменная, решение тривиально, в то время как для...
Python

Как создать бота для автоматизации повседневных задач, с помощью Python и Google BigQuery

У каждого из нас есть однообразные задачи, которые мы выполняем изо дня в день, из недели в неделю. Составление отчетов, в большинстве случаев, является...
NLP

Обработка естественного языка для анализа отзывов онлайн-покупателей

Цель использования обработки естественного языка в описываемом проекте — анализ обзоров на товары, оставленных онлайн-покупателями.  Я начал работу над этим проектом для достижения трех бизнес-целей:  Найти основные компоненты...
Statistics

Статистика - это грамматика науки о данных. Часть 3

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Меры расположения Процентили Процентили делят упорядоченные данные...
Artificial Intelligence

Обратные вызовы Keras за 2 минуты

Что такое обратный вызов Keras? Из документации Keras: Обратный вызов — множество функций, применяемых на данной стадии тренировки. Вы можете использовать их, чтобы посмотреть на внутреннее состояние...
5 доказательств силы итерируемых объектов в Python

5 доказательств силы итерируемых объектов в Python

Что такое итерируемые объекты?  Итерируемые (перебираемые) объекты — это коллекция важных структур данных в Python. Например, к ним относятся такие встроенные типы, как строки, списки и словари....
Data Science

Качество превыше количества: создание идеального проекта в науке о данных

В стартапе, жаргонизм «метрика тщеславия» означает число, находящееся под контролем компании для того, чтобы убедить мир — а иногда и самих себя — в том, что они успешнее,...
ЕС ужесточает регулирование в сфере использования искусственного интеллекта

ЕС ужесточает регулирование в сфере использования искусственного интеллекта

21 апреля Еврокомиссия опубликовала свод строгих правил, по-новому регулирующих использование искусственного интеллекта. Это первый документ подобного рода. В нем ИИ определяется как технология, являющаяся...
Alteryx - достойная платформа обработки данных?

Alteryx - достойная платформа обработки данных?

Alteryx - это больше, чем просто инструмент обработки данных. Он отлично подходит для решения задач интеграции и анализа данных, а также может похвастаться множеством средств связи с системами и базами данных.
Новая библиотека превосходит Pandas по производительности

Новая библиотека превосходит Pandas по производительности

Выпуск pandas датируется 2008 годом, и написана она была на Python, Cython и Си. Сегодня мы сравниваем производительность этой всем известной библиотеки с новой...
Python

Не слушай профи - делай print()

Если вы скажете профессиональным программистам, что используете print() для отслеживания ошибок, готовьтесь уворачиваться от летящих в вашу сторону стульев. Есть ли смысл продираться через...
Machine Learning

Алгоритмы машинного обучения простым языком. Часть 3

Предыдущие части: Часть 1, Часть 2 Логистическая регрессия Итак, мы уже познакомились с линейной регрессией. Она определяла влияние переменных на другую переменную при условии, что: 1)...
Pandas

10 лайфхаков для работы с библиотекой Pandas

Pandas — широко распространённая Python-библиотека для работы со структурированными данными. По её использованию уже составлено большое количество уроков, однако, я хотел бы рассказать о нескольких небольших...
Состояние инфраструктуры данных на 2023 год  -  ключевые тренды ландшафта MAD от Мэтта Терка

Состояние инфраструктуры данных на 2023 год  —  ключевые тренды ландшафта MAD от Мэтта Терка

Как выглядит ландшафт инструментов по работе с данными глазами инсайдера, который активно общается с конечными пользователями? Рассмотрим, какова ситуаций в целом и какие в ней наблюдаются тенденции.
Machine Learning Models

Все модели машинного обучения за 6 минут

Все модели машинного обучения разделяются на обучение с учителем (supervised) и без учителя (unsupervised). В первую категорию входят регрессионная и классификационная модели. Рассмотрим значения...
Как за месяц создать систему учета посещаемости на базе распознавания лиц

Как за месяц создать систему учета посещаемости на базе распознавания лиц

Нестандартные решения - верные помощники в разработке инноваций. Представляем инновационный проект управления посещаемостью, созданный двумя инженерами-программистами менее чем за месяц.
SQL

Руководство по SQL: Как лучше писать запросы

Язык структурированных запросов – SQL, является незаменимым навыком в области науки о данных и, вообще говоря, приобрести этот навык довольно просто. Однако большинство забывают, что...
5 инструментов для специалистов по обработке данных

5 инструментов для специалистов по обработке данных

Рассказываем о пяти инструментах, которые позволят сэкономить время вам и вашей команде при работе над проектом. Они помогут не только с очисткой и анализом данных, но и с построением, обучением и тестированием моделей машинного обучения.
Пусть говорят… расходящиеся гистограммы!

Пусть говорят… расходящиеся гистограммы!

Термин “divergere” происходит от латинского языка и означает расхождение. Среди его синонимов: разделение, разногласие, различие, пересечение и столкновение мнений. Он отражает разнообразие точек зрения...
Machine Learning

Алгоритмы машинного обучения простым языком. Часть 1

Как недавнего выпускника буткемпа по машинному обучению от Flatiron School меня буквально затопило советами о том, как стать асом в прохождении интервью. Я заметил,...
Наука о данных — что она изучает на самом деле?

Наука о данных — что она изучает на самом деле?

Данные окружают нас повсюду. Это незаменимый инструмент в руках современного человека. “Данные действительно помогают нам во всем”, — когда-то признал Джефф Вейнер, гендиректор LinkedIn. Что же собой представляет наука о данных и каковы были предпосылки ее стремительного развития?
Anaconda

Как установить Anaconda на Mac

Просто и понятно о том, как установить Anaconda на Mac и исправить страшную ошибку «conda command not found» Необходимость Anaconda Начав работать в области науки о данных,...
Как работает обратное распространение в нейронных сетях

Как работает обратное распространение в нейронных сетях

Обратное распространение используется для эффективного обучения нейронных сетей посредством цепного правила. Рассмотрим особенности этого процесса.
Artificial Intelligence

Алгоритм поиска A*

Пошаговый разбор алгоритма поиска А* Поиск короткого пути — это то, чем каждый занимается ежедневно. Алгоритм А *— один из самых популярных методов решения задач на поиск кратчайшего...
Как освоить алгоритмы?

Как освоить алгоритмы?

Чтобы что-то было сделано компьютером, нужно указать ему, как это сделать. Нужно написать программу с пошаговым объяснением: какие задачи компьютер должен выполнить и каким...
Rust

Реализация base64 на Rust

Практически каждый разработчик так или иначе использует base64. Но каков механизм работы этого алгоритма? Я считаю, что самый простой способ по-настоящему понять, как работает...
Что такое компилятор

Что такое компилятор

Если вы программист, то наверняка слышали слово “компилятор”. Но знаете ли вы, что это такое на самом деле? Вы когда-нибудь задумывались, что происходит под...
Data Science

Плотность вероятности - это не сама вероятность

Наибольшее значение вероятности — единица. Это общеизвестный факт! Однако для некоторых плотностей вероятности (например, плотности вероятности экспоненциального распределения на графике ниже), когда λ= 1.5 и ?...
Data Science

Когда ИИ или машинное обучение неуместны

Вообразите, что вам только что удалось заполучить набор данных клинических испытаний. Превосходно! Чтобы помочь вам войти в роль, я подготовила следующие данные: Представьте, что эти...
Введение в метод Монте-Карло по схеме цепей Маркова

Введение в метод Монте-Карло по схеме цепей Маркова

Слева: моделированное необработанное совместное распределение коэффициентовСправа: моделированное совместное распределение коэффициентов без отбраковки В предыдущей статье я дал краткое введение в байесовскую статистику и рассказал, как...
Data Science

Доходчиво об обучении на основе многообразий с алгоритмами IsoMap, t-SNE и LLE

Метод главных компонент (PCA) весьма производителен, но зачастую дает сбой, так как предполагает возможность линейного моделирования данных. Он выражает новые признаки в виде линейных...
Statistics

Статистика - это грамматика науки о данных. Часть 5

Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Условная вероятность Условная вероятность — это вероятность наступления некоторого события, при условии, что другое событие уже произошло. Условная вероятность...
GPT3

Как работает GPT3

Обученная языковая модель генерирует текст. В качестве входных данных при желании ей можно также передать некоторый текст, влияющий на выходные данные. Выходные данные генерируются...
6 функций Pandas для быстрого эксплораторного анализа данных

6 функций Pandas для быстрого эксплораторного анализа данных

Познакомьтесь с 6 функциями, лежащими в основе любого эксплораторного анализа данных. Они позволят сделать первый шаг в исследовании данных в Pandas.
Создание интерфейсов, удобных для алгоритмов

Создание интерфейсов, удобных для алгоритмов

Дизайнер должен досконально знать материалы, с которыми работает. В прошлом это было понимание особых свойств древесины, металлов, печатных станков и, наконец, пикселей. Современным дизайнерам...
Менеджеры контекста в Python  -  выходим за пределы "with open() file"

Менеджеры контекста в Python  -  выходим за пределы «with open() file»

Введение В Python при работе с файлами наиболее распространённой функция open(), создающая объект типа файл, который в зависимости от ситуации позволяет читать или записывать данные....
Структуры данных и алгоритмы: стек

Структуры данных и алгоритмы: стек

Стек - это абстрактный тип данных, который обычно используется в большинстве языков программирования. Хорошие примеры для объяснения понятия стека - колода карт или стопка тарелок. Разберем основные операции, проводимые со стеком.
Руководство для начинающих исследователей данных

Руководство для начинающих исследователей данных

Как новичку влиться в сферу науки о данных? Наличие продуманного плана может дать значительное преимущество начинающему специалисту. Предлагаем взять на вооружение план действий, основанный на личном опыте человека, добившегося успехов в этой области.
Как создать первый проект по инженерии данных: инкрементный подход. Часть 1

Как создать первый проект по инженерии данных: инкрементный подход. Часть 1

Инкрементный подход фокусируется на последовательном приращении функциональности продукта. При разработке проекта по инженерии данных такой подход гарантирует успех. Он повышает управляемость проектом, позволяет изучать различные концепции по мере продвижения и ускоряет выпуск более качественных продуктов.
Пересечение 3D-лучей (ближайшая точка)

Пересечение 3D-лучей (ближайшая точка)

Хотите разобраться в математической теории, лежащей в основе 3D-лучей? Предлагаем простое руководство по применению таких математических инструментов, как псевдообратные матрицы, оптимизация с помощью наименьших квадратов, метод Крамера, смешанное произведение.
Время управлять версиями проектов МО по-новому

Время управлять версиями проектов МО по-новому

Специалисты по анализу данных и инженеры машинного обучения часто представляют проекты предиктивной аналитики в виде конвейера  —  производственного процесса, который принимает четко определенные вводы...
Как X оптимизировал обработку 400 миллиардов событий

Как X оптимизировал обработку 400 миллиардов событий

Хотите знать, как Twitter, ныне X, справляется с таким фантастическим объемом работы, достигая при этом низкой задержки, высокой точности, стабильности и снижения эксплуатационных расходов? Оказывается, все дело в архитектуре платформы. Узнайте о том, с какими проблемами столкнулся X и как решил их с помощью новой архитектуры.
AI

Как распознавать объекты 600 классов, используя 9 миллионов изображений из Open Images

Если вы собираетесь создать классификатор изображений и вам нужна база для обучения, то вам понадобится лишь Google Open Images. Этот датасет состоит более чем из...
Визуализация параметров градиентного спуска в Torch

Визуализация параметров градиентного спуска в Torch

Загляните за интерфейс, чтобы увидеть, как параметры SGD влияют на обучение модели. Графические представления помогут оценить роль таких параметров, как импульс (обычный и Нестерова), сокращение весов, демпфирование.
Machine Learning

Выборки. Джентльменский набор

Простая случайная выборка Вы хотите выбрать подмножество, в котором каждый член имеет равную вероятность быть выбранным. Ниже мы случайно выбираем 100 значений из набора данных: sample_df...
Data Science

Анализ текста средствами языка программирования R

“Люди часто восхваляют классические произведения, даже не читая их”, — Марк Твен. Надеюсь, что ваш опыт опровергает это высказывание Марка Твена, а также верю, что вы всё-таки...
Современные шаблоны проектирования архитектуры

Современные шаблоны проектирования архитектуры

Многие современные приложения нужно проектировать в масштабе предприятия или даже всего интернета. Все они должны отвечать требованиям масштабируемости, доступности, безопасности, надежности и отказоустойчивости. Здесь я...
Data Science

Как работает случайный лес?

Как и почему работает случайный лес? Разбираемся Важная часть машинного обучения  —  это классификация. Мы хотим знать, к какому классу (или группе) принадлежит значение. Возможность...
Big Data

Vaex: Python библиотека для работы с DataFrame вне памяти и быстрой визуализации

Данных становится всё больше Некоторые массивы данных слишком велики, чтобы поместиться в основной памяти обычного компьютера, не говоря уже о ноутбуке. Тем не менее, все хотят...

#04TheNotSoToughML | “Давай, минимизируй ошибки” — Но достаточно ли этого?

Пришло время развеять миф о том, что машинное обучение - это сложно. Интуитивное МО позволяет пользоваться легкодоступными инструментами, не требующими специальных знаний.
Будет ли ИИ главенствовать в 2021 году? Большой вопрос

Будет ли ИИ главенствовать в 2021 году? Большой вопрос

Технологии, связанные с искусственным интеллектом, развиваются в стремительном темпе. Узнаем, что ожидает ИИ в будущем. В 2020 году ИИ претерпел быстрые преобразования, неожиданные разработки и...
По маршруту SQLite - Pandas: 7 основных операций

По маршруту SQLite - Pandas: 7 основных операций

Просто и по существу: познакомимся с модулем sqlite3, рассмотрим основные операции с базой данных SQLite и принцип ее взаимодействия с pandas.
Как получить данные в нужном формате с помощью Pandas

Как получить данные в нужном формате с помощью Pandas

Дата-сайентистам приходится работать с данными разных форматов. Разбираемся, в чем заключается разница между длинным и широким форматами данных, а также в том, как перейти от одного формата к другому в Pandas.
14 наборов данных для датасайенс-проектов

14 наборов данных для датасайенс-проектов

Представляем 14 наборов данных, которые пригодятся для различных целей, например классификации текстов и изображений, создании системы рекомендаций, а также визуализации данных.
JavaScript

8 лучших платформ и библиотек JavaScript для машинного обучения

Невероятный рост новых технологий, таких как машинное обучение, облегчил жизнь разработчикам: создавать приложения на базе искусственного интеллекта стало намного проще. И теперь к активному...
Реализация архитектуры с сохранением состояния в Streamlit

Реализация архитектуры с сохранением состояния в Streamlit

Streamlit Streamlit прошел долгий путь становления с момента своего создания в октябре 2019 года. Он не только предоставил разработчикам ПО новые возможности, но и обеспечил...
Большой недостаток социальных сетей и его устранение

Большой недостаток социальных сетей и его устранение

Чуть более двух десятилетий назад, на заре своего развития Интернет столкнулся с серьезной проблемой: очень сложно было найти «правильную», необходимую информацию. Другими словами, поисковые...
Golang

Идеальная настройка вашего Golang проекта

Часть 1, Часть 2, Часть 3 При запуске нового проекта самые большие трудности у меня всегда вызывала его настройка. Всегда стараешься сделать её «идеальной»: используешь лучшую...
Принципы SOLID - ключи к чистому коду

Принципы SOLID - ключи к чистому коду

Хотите писать чистый, удобочитаемый код и экономить при этом время? Тогда уделите несколько минут изучению принципов SOLID, выведенных легендарным Робертом К. Мартином в бестселлере "Чистая архитектура".
Советы по переходу с AWS CloudFormation на CDK

Советы по переходу с AWS CloudFormation на CDK

CDK - потрясающий инструмент, который дает реальный опыт при создании инфраструктуры, что особенно важно для тех, кто при создании функциональных средств руководствуется методологией системной инженерии, которая требует, чтобы инженеры отвечали не только за реализацию.
JavaScript

Почему написание собственного кода делает вас лучшим разработчиком

На днях я проводил собеседование на позицию senior разработчика JavaScript. Мой коллега, тоже присутствовавший на собеседовании, попросил претендента написать функцию, которая будет выполнять HTTP-вызов...
Руководство по модулю Python itertools

Руководство по модулю Python itertools

Ознакомьтесь с 10 наиболее полезными функциями модуля Python itertools. Они помогут вам подняться на новый уровень программирования и стать более эффективным Python-разработчиком.