Как писать код на Python лучше: 6 рекомендаций
В среде разработчиков Python считается одним из самых популярных языков программирования. Он используется везде — от веб-разработки до машинного обучения.
Причин такой популярности много. Это...
Рекуррентная нейронная сеть с головы до ног
Нейрон — строительный элемент человеческого мозга. Он анализирует сложные сигналы за микросекунды и отправляет ответы нервной системе, которая решает сложные задачи. У всех нейронов одна и...
Моделирование данных в мире современного стека данных 2.0
Сравнивать моделирование данных со стеком данных - все равно что уподоблять автомобили интеллектуальным навигационным системам. Предлагаем на практических примерах убедиться в том, что технологии современного стека данных позволяют аналитикам успешно вести исследования без моделирования.
Автоматизация Doom с глубоким Q-обучением: реализация в Tensorflow
Введение
Методы онлайнового обучения машин (ОО) — это семейство динамических алгоритмов обучения с подкреплением, которое стоит за кулисами многих достижений во всей области ИИ за последние десять...
Deepnote - новая IDE для специалистов по данным
Дисклеймер: автор никак не связан с Deepnote или его участниками.
Deepnote — это бесплатный онлайн-блокнот для специалистов по данным, фокусирующийся в основном на совместном использовании в реальном...
Создание приложения-чата с LangChain, большими языковыми моделями и Streamlit для взаимодействия со сложной базой...
Создадим приложение-чат для взаимодействия со сложной базой данных при помощи агентов и инструментов LangChain. Затем реализуем и развернем функционал памяти, создадим удобный интерфейс, в котором сложные запросы упрощаются в диалоговом режиме.
Пересечение 3D-лучей (ближайшая точка)
Хотите разобраться в математической теории, лежащей в основе 3D-лучей? Предлагаем простое руководство по применению таких математических инструментов, как псевдообратные матрицы, оптимизация с помощью наименьших квадратов, метод Крамера, смешанное произведение.
О машинном обучении простым языком
В XXI веке машинное обучение и искусственный интеллект будут “править бал”. Ежедневно мы производим большое количество данных. Сюда также входят данные о покупках клиентов...
7 советов по улучшению анализа данных в Python
#1: Pandas Profiling
Преимущества этого инструмента очевидны. Анимация ниже создана с помощью вызова метода df.profile_report():
С помощью этого инструмента можно с легкостью устанавливать и импортировать пакет...
Структуры данных: кольцевой (циклический, замкнутый) связный список
Кольцевой связный список - это разновидность связного списка, при которой первый элемент указывает на последний, а последний - на первый. Кольцевой связный список можно сделать как из односвязного , так и из двусвязного списка.
Инженерия геопространственных данных: пространственное индексирование
Слышали ли вы о пространственном индексировании? Эта технология обладает мощным потенциалом: она способна оптимизировать производительность запросов, сэкономить время обработки данных и упростить задачи машинного обучения.
Пять отличных Python-библиотек для data science
Python — это лучший друг специалистов по данным, а библиотеки значительно упрощают их жизнь. Работая над NLP-проектом, я открыл для себя пять отличных Python-библиотек, которые мне...
Будущее практического применения чат-ботов
В последние несколько лет мы стали свидетелями гонки между компаниями за создание самой большой, самой мощной и самой интересной модели под названием NLP (Обработка...
Топ-5 браузерных расширений для специалистов по анализу данных
Работа современного исследователя данных неразрывно связана с браузером. Представляем 5 браузерных расширений, упрощающих этот процесс: Diigo, CatalyzeX, Octotree, Open in Colab и BibItNow.
Как работает обратное распространение в нейронных сетях
Обратное распространение используется для эффективного обучения нейронных сетей посредством цепного правила. Рассмотрим особенности этого процесса.
От продвинутой к эффективной аналитике
За последнюю декаду в компаниях произошел фундаментальный сдвиг в философии принятия решений. Лидеры ушли из среды, где был важен личный опыт и интуиция, в...
Создание модели машинного обучения с помощью Google Colab без дополнительных настроек
Машинное обучение позволяет разрабатывать модели, способные выдавать точные прогнозы. Сегодня рассмотрим, как можно создать модель МО, используя такой инструмент, как Google Colab.
Будет ли ИИ главенствовать в 2021 году? Большой вопрос
Технологии, связанные с искусственным интеллектом, развиваются в стремительном темпе. Узнаем, что ожидает ИИ в будущем.
В 2020 году ИИ претерпел быстрые преобразования, неожиданные разработки и...
Вычисление π: моделирование методом Монте-Карло
Каждый год 14 марта любители математики отмечают День числа пи! Есть много способов вычислить это легендарное число π, которое примерно равно 3,14159…
Обсудим все эти...
Графы: основы теории, алгоритмы поиска
Возможно, вы уже знакомы с понятием спортивного программирования и знаете, что оно помогает развить навыки решения проблем и прокачать технические знания о структурах данных...
Глубокие свёрточные нейросети: руководство для начинающих
Перед прочтением
В этой статье предполагается, что у читателя уже есть базовые знания о глубоких нейронных сетях (нейронных сетях прямого распространения). О них подробно рассказывалось...
10 популярных проектов GitHub, написанных на Python
Уже долгое время разработчики во всем мире выбирают Python для большинства своих проектов. Python — второй по популярности язык на GitHub, крупнейшем веб-сервисе для...
Бета-распределение: интуиция, примеры, вывод
Часть 1, Часть 2, Часть 3
Бета-распределение — это распределение вероятностей по вероятностям. Мы можем использовать его для моделирования вероятностей: рейтинг кликов вашей рекламы, коэффициент конверсии клиентов,...
Мой опыт добавления нереляционной MongoDB в кластер Kubernetes
Установим MongoDB в Kind-кластер Kubernetes и интегрируем в приложение Spring Boot. Поработаем с сущностями и документами нереляционной БД, протестируем, запустимся, сделаем профили, загрузим образ и развернемся.
Моделирование логистического роста
Часть 1, Часть 2
В прошлой статье мы рассмотрели пример моделирования первой вспышки коронавируса с помощью экспоненциального роста. Следующая ступень анализа — логистический рост. Воспользуйтесь Python notebook...
Автоматическое создание музыки с помощью искусственного интеллекта
Раз уж мы в начале 2021 года, то должны затронуть тему, о которой много говорилось в последнее время. По мере того, как всё больше...
Генерируйте реалистичные датасеты с помощью Snowfakery
Когда вы разрабатываете новый продукт, приложение или функцию, то тестировать ее необходимо на реалистичных данных. Сначала данные создаются вручную, но если нужно протестировать аналитические...
Наглядное объяснение алгоритма Беллмана-Форда
Алгоритм Беллмана-Форда находит в ориентированном графе кратчайшие пути от исходной вершины до всех остальных. В отличие от алгоритма Дейкстры, в алгоритме Беллмана-Форда могут быть...
3 случая, когда линейная модель может ошибаться
Введение
В этой статье я покажу три случая, когда линейные модели могут привести к неверным результатам. Основное внимание будет уделено сравнению линейных моделей с моделируемыми...
Основы обработки естественного языка за 10 минут
Вероятно, вы находитесь здесь потому, что хотите как можно скорее научиться обработке естественного языка. Без лишних слов приступим к процессу.
Первым делом следует:
1. Установить зависимости...
5 секретов наилучшего использования кортежей в Python
Python, являясь языком программирования общего назначения, предоставляет набор встроенных типов данных, включая int, str, tuple, list, dict и set. Четыре последних считаются контейнерами, так...
5 простых способов визуализации данных на Python. С кодом
Визуализация данных — это большая часть работы специалистов в области data science. На ранних стадиях развития проекта часто необходимо выполнять разведочный анализ данных (РАД, Exploratory data...
Как собрать данные для DS-проекта с помощью Python: 3 шага
Начните свой проект по науке о данных с создания Python-скрипта, используя библиотеку Selenium для извлечения данных. Предлагаем узнать, как это выполнить в 3 шага.
Создание архитектур кода с помощью функциональных операторов
Говоря о функциональном программировании, мы сразу вспоминаем о функциях. Однако есть и другие концепции, которые отлично работают в науке о данных. Одной из таких концепций являются функциональные операторы, позволяющие создавать сложные архитектуры для выразительного кода.
Python 3.9
Что нового ожидает нас в этой версии и в будущих релизах?
Вышел полный релиз Python 3.9!
Очевидно, что эта версия знаменует собой переломный момент в эволюции Python....
Эйнштейн и самая красивая из всех теорий
Британский физик-теоретик Поль Дирак (1902–1984), один из основоположников квантовой механики, однажды написал:
«Было трудно примирить ньютоновскую теорию гравитации, в соответствии с которой гравитационное взаимодействие распространяется...
Погружение в базы данных
Базы данных представляют собой упорядоченные наборы данных, хранящиеся в компьютерной системе и доступные в электронном виде. Существует множество типов баз данных, например:
облачные;реляционные;объектно-ориентированные;NoSQL.
Выбор той или...
Как за секунды обрабатывать DataFrame с миллиардами строк
Анализ больших данных в Python переживает свой ренессанс. Всё началось с NumPy, которая тоже в каком-то смысле причастна к инструменту, с которыми я вас...
Настройте свой Jupyter Notebook правильно
В своей известной презентации “Я не люблю блокноты” (видео и слайды) Джоэль Грус критикует Jupyter Notebook — вероятно, самую популярную среду разработки для машинного обучения. Для...
Ускоряем работу с pandas при помощи modin
Pandas — библиотека, которая не нуждается в представлении, если речь идёт о работе с данными. Она привносит высокую производительность, структурирование данных и удобную работу с ними....
Почему вам не удастся стать «великим» специалистом по данным?
Быть просто "хорошим" специалистом по обработке данных не проблема. Куда сложнее стать "великим". Позвольте мне, как специалисту по обработке данных, открыть вам глаза на самую прибыльную работу 21-го века.
Сопряженное априорное распределение
Часть 1, Часть 2, Часть 3
1. Что такое априорное распределение?
Априорная вероятность — это вероятность события до того, как мы получили дополнительные данные. В байесовском выводе априорное распределение — это...
Apache Spark: гайд для новичков
Что такое Apache Spark?
Специалисты компании Databricks, основанной создателями Spark, собрали лучшее о функционале Apache Spark в своей книге Gentle Intro to Apache Spark (очень рекомендую...
10 актуальных профессий в области науки о данных
С одной стороны, поиск работы — это суровая игра, в которой нужно выделиться среди сотен, а иногда и тысяч других соискателей. С другой стороны,...
Пошаговое построение логистической регрессии в Python
Логистическая регрессия — это алгоритм классификации машинного обучения, используемый для прогнозирования вероятности категориальной зависимой переменной. В логистической регрессии зависимая переменная является бинарной переменной, содержащей данные, закодированные...
List Comprehensions в Python за 5 минут
Зачем нужен list comprehension в Python?
Чтобы сохранить строчки кода.
List comprehensions — это один из способов создания Pythonic-однострочников (one-liners) с итерируемыми списками.
В качестве примера рассмотрим продуктовую корзину. Вы...
Значение Data Science в современном мире
Что же такое data science? Data science — это научная дисциплина, которая занимается поиском истины и использует данные для получения знаний и идей. Data science стремительно...
Не используйте ID, сгенерированные базой данных для доменных сущностей
Вы, вероятно, позволяли базам данных генерировать ID для сущностей по крайней мере один раз.
Но что, если я скажу вам, что при разработке приложений есть...
3 признака того, что ваш ИИ-проект обречен
Я провела консультации по сотням проектов машинного обучения и научилась замечать ранние признаки того, что клиент собственными руками пилит сук, на котором сидит.
Вот тройка...
В каком возрасте вы получите Нобелевскую премию — визуализация на языке R.
Вы когда-нибудь пробовали решать задачи с помощью визуализации? Предлагаем решить занимательную задачу на языке R.
Нобелевские премии (до 1969 года всего их было пять, а...
4 способа обработки ошибок для стеков
Обработка ошибок — это часть рабочих будней каждого программиста. Всегда были и будут ситуации, когда по какой-либо причине код не заработает, и наша задача — следить за тем,...
Поездка в берлинском метро с графовой БД Memgraph
Вы научитесь импортировать и визуализировать сложные сети метро, выполнять осмысленные запросы и красиво оформлять ответы базы. Эти навыки открывают возможности анализа и визуализации данных. Авторы рекомендуют продолжать экспериментировать с Memgraph Lab.
Графы и пути — алгоритм Дейкстры
Примеры из веб-приложения здесь.
Зачем
В 1959 году Эдсгер Дейкстра пришел к выводу о том, что компьютеры могут находить самые эффективные траектории, измеряя и высчитывая расстояния в...
6 SQL-запросов, о которых должен знать каждый дата-инженер
SQL уже больше 45 лет, но он по-прежнему в деле и незаменим для быстрого анализа данных с написанием сложных запросов. Попрактикуемся в этом с продвинутым синтаксисом SQL для решения многих бизнес-задач.
Как подключиться к MongoDB с помощью Node.js
Базы данных - полезный инструмент для проекта, и для работы с ними можно воспользоваться MongoDB. Разбираемся, как подключиться к MongoDB при помощи Mongoose.
Состояние инфраструктуры данных на 2023 год — ключевые тренды ландшафта MAD от Мэтта Терка
Как выглядит ландшафт инструментов по работе с данными глазами инсайдера, который активно общается с конечными пользователями? Рассмотрим, какова ситуаций в целом и какие в ней наблюдаются тенденции.
7 способов раскрыть жульничество аналитика данных
Не имеет значения, являетесь ли вы крупным или малым предпринимателем, инвестором, частью менеджерского звена компании, судьёй на марафоне программирования или иным участником технологической индустрии,...
Анализ аудиоданных с помощью глубокого обучения и Python (часть 2)
Предыдущая часть: Часть 1
Сверточные нейронные сети (CNN) схожи с обычными нейронными сетями: они состоят из нейронов с обучаемыми весами и сдвигами. Каждый нейрон получает...
Краткий обзор 10 популярных архитектурных шаблонов приложений
Вы когда-нибудь задавались вопросом о том, как именно разрабатываются масштабные системы крупных предприятий? До того, как перейти к непосредственной разработке программного обеспечения, мы определяемся...
7 Способов вывести свои новые навыки Python на следующий уровень
Внимание: в этой статье нет партнёрских ссылок.
Когда я впервые начинал изучать Python, я не знал, что делать с моими новыми навыками дальше. Поэтому они...
8 базовых алгоритмических задач на собеседованиях
Во время собеседования на должность в IT-сфере часто касаются вопросов применения алгоритмов. Наиболее популярными являются алгоритмы поиска и сортировки (строковые алгоритмы, бинарный поиск, алгоритм...
Как выжать максимум из предобученных языковых моделей с GroupBERT
Как достичь 2-кратного ускорения обучения на интеллектуальном процессоре Graphcore, обеспечивая более быстрые и эффективные вычисления? Что делает GroupBERT лучше BERT и других моделей с групповыми преобразованиями в Transformer? Отвечаем на эти и сопутствующие вопросы.
4 расширения VS Code, которые пригодятся дата-инженеру
Если вы пользуетесь VS Code, то наверняка успели убедиться в его практичности. Однако работу с этим редактором можно сделать еще удобнее. Предлагаем расширения VS Code, которые сэкономят много времени и сил.
Все что нужно знать о древовидных структурах данных
Когда вы впервые учитесь кодировать, общепринято изучать массивы в качестве «основной структуры данных».
В конце концов, вы также изучаете хэш-таблицы. Для получения степени по «Компьютерным...
3 простых шага для оптимизации гиперпараметров в любом Python-скрипте
Итак, вы написали Python-скрипт, который обучает и оценивает модель машинного обучения. И теперь вам хочется оптимизировать гиперпараметры и повысить производительность модели.
Я помогу!
В данной статье...
Нет жесткому кодированию конфиденциальных данных в приложениях Python!
Защита конфиденциальных параметров - одна из приоритетных задач в IT-сфере. Мы расскажем, как обезопасить их в приложениях Python.
По маршруту SQLite - Pandas: 7 основных операций
Просто и по существу: познакомимся с модулем sqlite3, рассмотрим основные операции с базой данных SQLite и принцип ее взаимодействия с pandas.
Интуитивная основа обучения с подкреплением
В этом видео от автора показан обученный агент, который пытается избежать встречного движения, перестраиваясь в другой ряд и меняя скорость. Обучение проводилось с помощью...
ML-инженер или специалист по обработке данных? (Закат науки о данных?)
Привет, меня зовут Джейсон
Я специалист по обработке данных (чуть позже в статье это понятие будет определено конкретнее) в Кремниевой долине, и мне очень нравится расширять...
Создайте приложение для резюмирования новостных статей с Hugging Face и Gradio
У вас накопилась масса закладок со статьями для последующего чтения, но вы так и не добрались до них? Нет времени читать длинные статьи?
Хотите узнать...
Оптимизация работы баз данных с PostgreSQL 12
PostgreSQL претендует на звание самой передовой базы данных с открытым исходным кодом в мире, и вполне заслуженно. Основные технические возможности, производительность и рабочие характеристики...
Почему лучшее - враг хорошего в MLOps?
Вы наверняка слышали об исследовании, которое подтвердило, что ML-проекты чаще терпят фиаско, чем оказываются успешными. Даже если статистика провалов в этой сфере кажется вам...
10 трюков для мастеров Python
На первый взгляд Python может показаться простым языком, который любой может освоить, и многих удивляет, какого мастерства можно достичь в этом языке. Python один...
4 важных навыка, которые специалисты по обработке данных часто недооценивают
Наука о данных — это не только данные
Если посмотреть на список того, что необходимо развивать будущему специалисту по обработке данных, то скорее всего он будет состоять из...
Как дата-аналитику стать дата-сайентистом в 2023 году
Какие навыки и ресурсы нужны дата-аналитику, чтобы получить должность дата-сайентиста? Как сократить и облегчить этот карьерный переход? Воспользуйтесь практическими советами старшего дата-сайентиста, который ранее работал дата-аналитиком.
Плотность вероятности - это не сама вероятность
Наибольшее значение вероятности — единица. Это общеизвестный факт! Однако для некоторых плотностей вероятности (например, плотности вероятности экспоненциального распределения на графике ниже), когда λ= 1.5 и ?...
Простыми словами о рекурсии
В программировании рекурсия, или же рекурсивная функция — это такая функция, которая вызывает саму себя.
Рекурсию также можно сравнить с матрёшкой. Первая кукла самая большая, за ней...
80 практических вопросов по Python для собеседования
Многие начинающие ученые в области данных начали свое путешествие по науке о данных с языка программирования Python. Почему Python? Потому что он легок в...
10 веских причин изучить Python для занятий наукой о данных
Не знаете, с чего начать погружение в науку о данных? Начните с изучения Python. Это верный способ быстро, легко и увлекательно освоить основы науки о данных.
4 Продвинутых приема работы с функциями Python, о которых вы могли не знать
Знаете ли вы, как принудительно задавать именованные аргументы, создавать декоратор функций и анонимные функции или распаковывать массив или словарь в аргументы функции? Предлагаем вашему...
Обратные вызовы Keras за 2 минуты
Что такое обратный вызов Keras?
Из документации Keras:
Обратный вызов — множество функций, применяемых на данной стадии тренировки. Вы можете использовать их, чтобы посмотреть на внутреннее состояние...
Цепь Маркова
Цепь Маркова используют многие современные компании и организации. Она помогает прогнозировать погоду и разрабатывать маркетинговые стратегии, находит применение в различных приложениях для решения реальных...
Топ-10 ошибок анализа данных
Аналитик данных — лучший в статистике среди программистов и лучший программист среди статистиков. В этом топе обсудим, как программисту стать лучше в статистике.
Примеры, код...
Гамма-функция - интуиция, определение, примеры
Почему это интересно?
Многие распределения вероятностей определяются с использованием гамма-функции, я перечислю лишь некоторые: гамма-распределение, бета-распределение, распределение Дирихле, распределение хи-квадрат, т-распределение Стьюдента и так далее.
Для...
Наука о данных — что она изучает на самом деле?
Данные окружают нас повсюду. Это незаменимый инструмент в руках современного человека. “Данные действительно помогают нам во всем”, — когда-то признал Джефф Вейнер, гендиректор LinkedIn. Что же собой представляет наука о данных и каковы были предпосылки ее стремительного развития?
Метод SHAP для категориальных признаков
Поговорить о том, как складывать SHAP-значения категориальных признаков, преобразованных путем прямой кодировки, с помощью кода Python.
ИИ: решение неверно поставленных задач
В 2008 году восходящие звезды Кремниевой долины собрались вокруг стола в конференц-зале. В будущем все они станут титанами технологического мира, однако в то время...
Машинное забывание: почему забывание важно для ИИ
Посмотрим правде в глаза: никому не нравится забывать. Все мы расстраиваемся, когда не можем вспомнить, где оставили ключи или как зовут коллегу, с которым...
Много узлов, одна распределенная система
Говорят, что один (мужчина, женщина — какой-то человек) — в поле не воин. Но в наши дни к этому списку можно добавить и «компьютер». Мы окружены машинами, компьютерами...
Будущее данных: децентрализованная графовая база данных
Происходит смена парадигмы, которая коренным образом изменит способы хранения, обработки и передачи данных внутри компаний. Эта смена породит изобилие новых возможностей, в том числе...
Как сгенерировать настоящие случайные числа в Solidity с блокчейном
Если бы вы погуглили фразу “случайные числа в Solidity” (речь идёт об англоязычном поиске), то в самых популярных результатах выдачи было бы:
Solidity не может...
Парадокс «Гранд-отель»
ПРОЛОГ
«Хочешь поиграть в пазлы?» — спросила мама своего 8-летнего ребёнка. «Конечно, мамочка!» — ответило дитя.
Все мы любим головоломки. И забавно, что эта любовь не...
Этические проблемы в науке о данных
Затронем вопросы этики в науке о данных. Выявим имеющиеся проблемы и предложим пути решения.
Все модели машинного обучения за 6 минут
Все модели машинного обучения разделяются на обучение с учителем (supervised) и без учителя (unsupervised). В первую категорию входят регрессионная и классификационная модели. Рассмотрим значения...
Сканер документов на основе технологии машинного зрения
В последнее время, когда я работал с OpenCV, мне пришла в голову идея написать фреймворк для преобразования изображений. Такое приложение будет полезно каждый день...
Важные аспекты математики в науке о данных - «что» и «почему»
Введение
Математика является фундаментом для любой современной научной дисциплины. И ни для кого не секрет, что почти все методы современной науки о данных (включая машинное...
Добыча данных: анализ рыночной корзины с помощью алгоритма Apriori
Вы когда-нибудь задумывались над тем, почему хлеб всегда лежит рядом с маслом в бакалейном магазине? Сегодня мы раскроем этот секрет.
Новый модуль временных рядов PyCaret
Новый модуль PyCaret отличается простотой и функциональностью. Рассмотрим его в действии.
Метод опорных векторов: примеры на Python
Метод опорных векторов (далее МОВ) — это техника машинного обучения с учителем. Она используется в классификации, может быть применена к регрессионным задачам.
Метод определяет границу...
5 типов алгоритмов машинного обучения, которые нужно знать
Машинное обучение — один из самых известных и важных подразделов науки о данных. В 1959 году исследователь компании IBM Артур Самюэл впервые ввёл термин...
Angular 19 — потрясающая версия: все новое!
19-я версия Angular впечатляет своими обновлениями. В ней значительно повышена производительность, упрощен процесс разработки, стабилизированы ключевые сигнальные API, а также предложены новые возможности в Angular Material и CDK.
Пять шагов к красивому терминалу, которым вам понравится пользоваться
Если вы читаете эту статью, то, скорее всего, вы не большой поклонник своего терминала, и время, потраченное на ввод команд, входит в список неприятных...
Управление памятью в Ruby on Rails
Изучим модель памяти с ее компонентами, принцип работы сборщика мусора. Как оптимизируется использование памяти в Ruby, выполняются мониторинг и профилирование?








































































































