Квантовые вычисления для всех
Квантовые вычисления. Наряду с квантовой запутанностью и квантовой телепортацией это модное учёное словечко широко распространено в научной фантастике и научно-популярных СМИ. Но что оно...
Выбор оптимального алгоритма поиска в Python
Когда дело касается обучения, мы, как правило, используем один из двух основных подходов: идём либо вширь и стараемся охватить как можно больший спектр области,...
6 концептов книги Эндрю Ына «Жажда машинного обучения»
“Техническая стратегия для инженеров-разработчиков искусственного интеллекта в эпоху глубокого обучения”
“Жажда машинного обучения” структурирует разработку проектов, использующих машинное обучение. Книга включает в себя практический опыт,...
Цепь Маркова
Цепь Маркова используют многие современные компании и организации. Она помогает прогнозировать погоду и разрабатывать маркетинговые стратегии, находит применение в различных приложениях для решения реальных...
Как создать первый проект по инженерии данных: инкрементный подход. Часть 2
Инкрементный подход похож на спринт: он позволяет оперативнее реагировать на любые изменения и быстрее достигать цели. Небольшие, но постепенные шаги (спринты) обеспечат вам заряд адреналина всякий раз, когда вы будете вычеркивать из списка очередную выполненную задачу.
Двоичные деревья: управляемый подход к поиску значений
Зачем
Разработчик нанимается небольшим городом населением в сто тысяч. Задача состоит в том, чтобы преобразовать бумажную телефонную книгу в цифровой вариант. У мэра города есть...
Почему в базе данных происходит взаимоблокировка?
Круг вопросов для обсуждения
Попробуем объяснить, что такое взаимная блокировка и почему она возникает в базе данных.
Напишем SQL-инструкции и искусственно вызовем взаимоблокировку, а также обсудим...
Обучение Inception в Google распознаванию пользовательских изображений
Ищете краткое руководство по обучению классификатора пользовательских изображений? С помощью Inception API от Google Brain с этой задачей можно справиться быстрее, чем выпить чашку...
Графы и пути — алгоритм Дейкстры
Примеры из веб-приложения здесь.
Зачем
В 1959 году Эдсгер Дейкстра пришел к выводу о том, что компьютеры могут находить самые эффективные траектории, измеряя и высчитывая расстояния в...
10 актуальных профессий в области науки о данных
С одной стороны, поиск работы — это суровая игра, в которой нужно выделиться среди сотен, а иногда и тысяч других соискателей. С другой стороны,...
5 любопытных библиотек Python
Как один из наиболее популярных языков программирования, Python содержит огромное количество прекрасных библиотек, облегчающих разработку, таких как Pandas, Numpy, Matplotlib, SciPy и так далее.
Однако...
29 сниппетов Pytorch для ускорения цикла машинного обучения
Мне очень нравится задействовать фрагменты кода для создания более быстрых циклов итераций по сравнению с традиционными конвейерами машинного обучения. Pytorch уже давно стал важной...
4 аспекта, упущенных в большинстве программ по науке о данных.
Большинство программ, тренингов и курсов по науке о данных не готовят студентов к реальной практике. Мы поможем вам восполнить этот пробел, который в Массачусетском технологическом институте называют "пропущенным семестром образования в области компьютерных наук".
3 худших совета по осваиванию науки о данных
К сожалению, существенная часть информации либо не соответствует действительности, либо просто недоступна для начинающих. При наличии достаточного опыта можно легко распознать и проигнорировать ее, однако новичку практически невозможно отделить зерна от плевел, что в итоге приводит к потере времени и разочарованию.
Как установить Anaconda на Mac
Просто и понятно о том, как установить Anaconda на Mac и исправить страшную ошибку «conda command not found»
Необходимость Anaconda
Начав работать в области науки о данных,...
Алгоритмы ограничения скорости
Для чего нужно ограничение скорости API
Ограничение скорости помогает защитить сервисы от злонамеренных поведений, нацеленных на протоколы прикладного уровня. К числу таких поведений относятся DoS-атаки (атаки...
Качество превыше количества: создание идеального проекта в науке о данных
В стартапе, жаргонизм «метрика тщеславия» означает число, находящееся под контролем компании для того, чтобы убедить мир — а иногда и самих себя — в том, что они успешнее,...
Выборки. Джентльменский набор
Простая случайная выборка
Вы хотите выбрать подмножество, в котором каждый член имеет равную вероятность быть выбранным. Ниже мы случайно выбираем 100 значений из набора данных:
sample_df...
5 неочевидных истин науки о данных
Хотите открыть для себя красоту машинного кода, скрывающуюся за нулями и единицами? Для начала узнайте 5 неочевидных истин науки о данных. Они помогут вам ступить на путь постижения этой увлекательной дисциплины со свежим взглядом.
Что такое большие данные: комплексный обзор
Большие данные появились в конце 2000-х годов и стали настоящим технологическим прорывом. Предлагаем поразмышлять над тем, в чем суть этого феномена, как он позволяет оптимизировать бизнес-процессы и как им можно управлять.
Руководство по SQL: команда MySQL INSERT в подробностях
Примеры MySQL INSERT на практике для начинающих, команды INSERT INTO, VALUES, SET, SELECT, IGNORE и загрузка записей напрямую из файла.
12 стратегий настройки готовых к производству RAG-приложений
По мере увеличения прототипов RAG-конвейеров становится насущным обсуждение стратегий оптимизации их производительности. Посмотрим, как можно повысить результативность работы RAG-конвейера с помощью гиперпараметров и различных стратегий настройки.
4 способа обработки ошибок для стеков
Обработка ошибок — это часть рабочих будней каждого программиста. Всегда были и будут ситуации, когда по какой-либо причине код не заработает, и наша задача — следить за тем,...
Алгоритмы машинного обучения простым языком. Часть 1
Как недавнего выпускника буткемпа по машинному обучению от Flatiron School меня буквально затопило советами о том, как стать асом в прохождении интервью. Я заметил,...
Лучший алгоритм решения задач по программированию на Python
По-прежнему актуальны споры о фактической пользе таких веб-сайтов по Python-программированию, как Codewars или Leetcode, и их роли в развитии профессиональных навыков разработчиков. Но несмотря...
Как освоить машинное обучение
Чтобы самостоятельно освоить машинное обучение, не обязательно записываться на дорогостоящие курсы. Можно обойтись бесплатными роликами на YouTube, онлайн-руководствами и советами практикующих специалистов МО.
Глубокие нейросети: руководство для начинающих
Введение
ИИ уже успел достаточно нашуметь — о нейросетях сейчас знают и в научной среде, и в бизнесе. Вам наверняка случалось читать, что совсем скоро ваши рабочие...
3 случая, когда линейная модель может ошибаться
Введение
В этой статье я покажу три случая, когда линейные модели могут привести к неверным результатам. Основное внимание будет уделено сравнению линейных моделей с моделируемыми...
В США ограничивают использование технологий распознавания лиц
Но надолго ли?
Технологию распознавания лиц сегодня начали применять и правоохранительные органы, и военные структуры, и частные компании, при этом они вот уже 40-лет используют базы...
Что говорить на поведенческом интервью по науке о данных
Произвести приятное впечатление на потенциального работодателя во время собеседования непросто. Тем не менее с этой задачей можно легко справиться, если следовать этим 3 простым лайфхакам.
ML-инженер или специалист по обработке данных? (Закат науки о данных?)
Привет, меня зовут Джейсон
Я специалист по обработке данных (чуть позже в статье это понятие будет определено конкретнее) в Кремниевой долине, и мне очень нравится расширять...
Развёртывание модели машинного обучения в виде REST API
В статье вы узнаете, как разворачивать модели машинного обучения и составлять прогнозы при помощи любого языка программирования, который вам нравится. Конечно, за основу вы...
80 практических вопросов по Python для собеседования
Многие начинающие ученые в области данных начали свое путешествие по науке о данных с языка программирования Python. Почему Python? Потому что он легок в...
Почему теория графов круче, чем вы думали
Что такое графы?
Спросите специалиста из любой области науки, как работает предмет его исследований. Наверняка он предложит вам рассмотреть некую систему с существующими внутри нее связями....
Типы операций обновления в MongoDB с использованием Spring Boot
Разбираемся, как обновлять данные в MongoDB, в чем заключаются преимущества и недостатки существующих способов и как выглядят результаты их применения.
Настройте свой Jupyter Notebook правильно
В своей известной презентации “Я не люблю блокноты” (видео и слайды) Джоэль Грус критикует Jupyter Notebook — вероятно, самую популярную среду разработки для машинного обучения. Для...
14 наборов данных для датасайенс-проектов
Представляем 14 наборов данных, которые пригодятся для различных целей, например классификации текстов и изображений, создании системы рекомендаций, а также визуализации данных.
5 простых способов визуализации данных на Python. С кодом
Визуализация данных — это большая часть работы специалистов в области data science. На ранних стадиях развития проекта часто необходимо выполнять разведочный анализ данных (РАД, Exploratory data...
Как составить Data Science портфолио? Часть 4
Предыдущие части: Часть 1, Часть 2, Часть 3
Medium и/или другие платформы для блоггинга.
Блог — это способ показать, что вы что-то умеете. Когда вы пишите о проекте...
О машинном обучении простым языком
В XXI веке машинное обучение и искусственный интеллект будут “править бал”. Ежедневно мы производим большое количество данных. Сюда также входят данные о покупках клиентов...
5 базовых статистических концептов, которые должен знать каждый специалист по обработке данных
В таком искусстве, как наука о данных, статистика может оказаться мощным инструментом. В широком смысле, статистика означает использование математики для технического анализа данных. Базовая...
Искусственный интеллект: надежды и угрозы
Регулярно появляющиеся новости о стремительном развитии и потенциальных угрозах искусственного интеллекта (ИИ) все сильнее будоражат общественность. Нужно ли приветствовать революцию ИИ или стоит ее...
Разбор 7 ошибок Python
Как только задачи, стоящие перед специалистами по данным, переходят из родной научной области в сферу разработки ПО, решать их становится все труднее. И хотя...
Отслеживание фокусированного времени с помощью Python
Ценность внимания
Внимание, похоже, становится ценным активом в современном мире. Любое приложение и любой посещаемый вами веб-сайт заточен на то, чтобы заполучить частичку вашего внимания,...
Решение алгоритмических проблем: Поиск повторяющихся элементов в массиве
Проблема
Найти дубликат в массиве
Given an array of n + 1 integers between 1 and n, find one of the duplicates.
If there are multiple possible...
5 рекомендаций по оптимизации запросов SQL
Никогда не поздно проанализировать свой стиль программирования запросов SQL, выявить недостатки и исправить. Рассмотрим 5 способ улучшить запросы и повысить свою продуктивность.
Алгоритм машинного обучения t-SNE - отличный инструмент для снижения размерности в Python
Улучшение качества визуализации - актуальная проблема для многих разработчиков. Узнайте, как использовать алгоритм машинного обучения t-SNE для визуализации данных высокой размерности.
3 новых настораживающих примера ИИ-систем
Не пора ли внедрять элементы управления в эту мощную форму технологии, называемую ИИ? Это не то, в чем мы можем позволить себе ошибаться.
Обнаружение фейковых новостей с помощью машинного обучения
Что общего у фейковых новостей? Как создать чат-бота, который отличает такие новости от реальных? Почему BERT не является универсальным решением в машинном обучении? Узнайте ответы на эти и сопутствующие вопросы прямо сейчас.
Анализ аудиоданных с помощью глубокого обучения и Python (часть 2)
Предыдущая часть: Часть 1
Сверточные нейронные сети (CNN) схожи с обычными нейронными сетями: они состоят из нейронов с обучаемыми весами и сдвигами. Каждый нейрон получает...
Галерея лучших модулей Python
Вас никогда не обескураживало огромное число модулей Python? И, скорее всего, вам было непросто выбрать всего один для конкретного проекта. В этой статье вы...
#04TheNotSoToughML | “Давай, минимизируй ошибки” — Но достаточно ли этого?
Пришло время развеять миф о том, что машинное обучение - это сложно. Интуитивное МО позволяет пользоваться легкодоступными инструментами, не требующими специальных знаний.
9 важных сниппетов Python для оптимизации работы со скриптами
Ускорение работы на Python
Написание скриптов на Python для решения самых разных задач — одно из моих любимых занятий. Когда самостоятельно доходишь до ответа, который предлагает...
Как получить данные в нужном формате с помощью Pandas
Дата-сайентистам приходится работать с данными разных форматов. Разбираемся, в чем заключается разница между длинным и широким форматами данных, а также в том, как перейти от одного формата к другому в Pandas.
10 Графовых алгоритмов
Графы превратились в невероятно сильное средство моделирования и получения данных из соцсетей, веб-страниц и ссылок, а также определения местоположения и маршрутов в GPS. Любой...
Основы SQLite на примере практической задачи
Базы данных — это превосходный, безопасный и надежный способ хранения данных. Все основные реляционные базы объединяет SQL, т.е. язык управления данными, их базами и...
Состояние инфраструктуры данных на 2023 год — ключевые тренды ландшафта MAD от Мэтта Терка
Как выглядит ландшафт инструментов по работе с данными глазами инсайдера, который активно общается с конечными пользователями? Рассмотрим, какова ситуаций в целом и какие в ней наблюдаются тенденции.
Продвинутые темы SQL для дата-инженеров
Рассмотрим важные техники SQL, иллюстрируя их примерами применения набора данных: объединение таблиц, подзапросы и оконные функции, фильтрацию и агрегирование. Освоив их, вы будете лучше справляться с анализом и визуализацией данных и сможете повысить качество принимаемых в организациях решений.
Быстрая сборка и развертывание дашборда со Streamlit
Со Streamlit разработка дашборда для решения машинного обучения становится невероятно простой.
Streamlit — это фреймворк с открытым кодом, специально разработанный для инженеров машинного обучения, работающих с Python....
ИИ: решение неверно поставленных задач
В 2008 году восходящие звезды Кремниевой долины собрались вокруг стола в конференц-зале. В будущем все они станут титанами технологического мира, однако в то время...
Лучший способ эффективно управлять неструктурированными данными
Узнайте о передовых методах работы с неструктурированными данными с помощью хранилищ объектов и озер данных. Это позволит более эффективно хранить, собирать и использовать данные.
Рекурсия и цикл, в чем разница? На примере Python
Цикл — это фундаментальный инструмент в программировании. Существует множество различных типов циклов, но почти все они выполнят одну базовую функцию: повторение определённых действий над данными, для...
Топ-10 ошибок анализа данных
Аналитик данных — лучший в статистике среди программистов и лучший программист среди статистиков. В этом топе обсудим, как программисту стать лучше в статистике.
Примеры, код...
Четыре метода, которые повысят качество работы с Pandas
Знакомьтесь с "великолепной четверкой" методов - assign, map, query и explode. Это самые крутые фичи Pandas. Они сделают ваш код более ясным, элегантным и эффективным.
Парадокс «Гранд-отель»
ПРОЛОГ
«Хочешь поиграть в пазлы?» — спросила мама своего 8-летнего ребёнка. «Конечно, мамочка!» — ответило дитя.
Все мы любим головоломки. И забавно, что эта любовь не...
Как за месяц создать систему учета посещаемости на базе распознавания лиц
Нестандартные решения - верные помощники в разработке инноваций. Представляем инновационный проект управления посещаемостью, созданный двумя инженерами-программистами менее чем за месяц.
Контейнеры это просто. Контейнерные технологии для начинающих
Вступление
Будь вы студент или уже состоявшийся разработчик, вы наверняка слышали о «контейнерах». Более того, вероятно вы слышали, что контейнеры — это «лёгкие» виртуальные машины....
Как работает GPT3
Обученная языковая модель генерирует текст. В качестве входных данных при желании ей можно также передать некоторый текст, влияющий на выходные данные. Выходные данные генерируются...
Как найти выход из лабиринта с помощью Python
Создание лабиринта
Наш лабиринт будет в виде матрицы размером n*m с нулями для проходов и единицами для стен.
a = [
[1, 1,...
Как с помощью Python создавать математическую мультипликацию типа 3Blue1Brown
Для чего нужна математическая мультипликация?
Вы когда-нибудь пытались освоить математические концепции алгоритма машинного обучения с помощью образовательного ресурса 3Blue1Brown? 3Blue1Brown — это знаменитый математический канал...
Пять направлений применения исследования операций
В последние годы область исследования операций процветала наряду с развитием вычислительной мощности. Сейчас многие организации используют этот подход, чтобы разрабатывать оперативные, тактические и даже...
Подробное руководство по свёрточным нейронным сетям
Искусственный интеллект существенно развился на своём пути сокращения разрыва между возможностями людей и машин. Разработчики наравне с энтузиастами работают над великим множеством аспектов в...
Проект инженерии данных «от и до» с Apache Airflow, Postgres и GCP
Подробно расскажем о контейнерах Docker, оркестрации ETL-конвейеров, работе с облачными технологиями, настройке рабочей среды для ETL-проектов с Apache Airflow. А в конце поделимся нужными командами.
Графы и пути: Алгоритм Брона-Кербоша, максимальные группы
Статья описывает алгоритм Брон-Кербоша для нахождения максимальных кликов в графах. Автор объясняет, как алгоритм работает и его применение в задачах, связанных с теорией графов и анализом данных.
Как выбрать СУБД для решения ваших задач?
Разложим все по полочкам: типы СУБД, их преимущества и недостатки, для каких задач подходят и какие решения есть на рынке. Поможем сделать правильный выбор с учетом всех факторов.
MLOps: как внедрить систему рекомендаций товаров на ecommerce-сайт
Умные инструменты - алгоритм Word2Vec и МО-сервис Layer - помогут быстро и дешево создать и внедрить модель рекомендаций и категоризации товаров на сайте электронной коммерции. В итоге пользователи платформы получат персонализированный опыт, а ее владелец сможет повысить конверсии и увеличить продажи.
8 базовых алгоритмических задач на собеседованиях
Во время собеседования на должность в IT-сфере часто касаются вопросов применения алгоритмов. Наиболее популярными являются алгоритмы поиска и сортировки (строковые алгоритмы, бинарный поиск, алгоритм...
Основные концепции и структуры Python, которые должен знать каждый серьёзный программист
Генераторы
Создание итератора в Python требует большой работы. Класс (в ООП) должен быть построен с применением методов __iter__() и __next__(), внутренние состояния должны быть сохранены...
Библиотеки Python для машинного обучения
Что такое «библиотека Python»?
Если вдуматься, она очень похожа на обычную библиотеку, в которой собраны самые разные книги. В библиотеке Python имеется несколько уникальных модулей,...
Метод подсчёта количества решений
Линейные алгебраические уравнения — одни из самых простых уравнений, которые мы можем решить. Если в уравнении только одна переменная, решение тривиально, в то время как для...
Руководство к использованию деревьев решений в машинном обучении и науке о данных
Деревья решений являются классом очень эффективной модели машинного обучения, позволяющей получить высокую точность в решении многих задач, сохраняя при этом высокий уровень интерпретации. Четкость...
Создание архитектур кода с помощью функциональных операторов
Говоря о функциональном программировании, мы сразу вспоминаем о функциях. Однако есть и другие концепции, которые отлично работают в науке о данных. Одной из таких концепций являются функциональные операторы, позволяющие создавать сложные архитектуры для выразительного кода.
Как создать платформу обработки и анализа данных за неделю
Хотите создать полнофункциональную платформу данных с ежедневно обновляемыми аналитическими таблицами/дэшбордами? Простое пошаговое руководство (со ссылкой на код в репозитории GitHub) позволит реализовать такой проект всего за неделю.
Структуры данных: связный список
Связный список - последовательность структур данных, связанных ссылками - вторая по частоте использования после массива структура данных. Рассмотрим основные операции и покажем пример на языке С.
Пакетная обработка 22 ГБ данных о транзакциях с помощью Pandas
Можно ли работать с большими массивами данных при ограниченных вычислительных ресурсах? Можно и очень даже успешно, если использовать пакетную обработку для создания различных агрегаций этих данных.
8 ключевых команд для управления средами Conda
Введение
Виртуальные среды — не самая простая концепция для новичков в Python. Как правило, при установке ПО, например Microsoft Office и Evernote, большинство из нас...
Пять парадоксов с вероятностью, которые вас озадачат
А может быть сможете их перехитрить?
В повседневной жизни мы постоянно сталкиваемся с ситуациями неопределенности. Так, по крайней мере подсознательно, мы постоянно встречаемся с вероятностями....
8 базовых понятий статистики для науки о данных
Статистика — это разновидность математического анализа, использующая количественные модели и репрезентации для анализа экспериментальных или реальных данных. Главное преимущество статистики — простота представления информации. Недавно я пересматривала материалы...
Монада - программируемая точка с запятой
Монады — программируемые точки с запятой. Именно так. Монада предоставляет функции, позволяющие упорядочивать действия. Более того, между каждыми двумя действиями выполняется определённый фрагмент кода....
4 альтернативы Pandas: ускоренное выполнение анализа данных
Бенчмарк производительности популярных инструментов анализа данных заставит вас иногда отказываться от Pandas. Каждый из этих инструментов - Polars, DuckDB, Vaex и Modin - при анализе данных на кластере машин работает гораздо быстрее, чем Pandas.
Собеседование в области науки о данных: 7 распространенных ошибок
Вас преследует неудачи на собеседованиях в области науки о данных и машинного обучения? Рассматриваем распространенные проблемы и размышляем о том, как их избежать.
Как освоить алгоритмы?
Чтобы что-то было сделано компьютером, нужно указать ему, как это сделать. Нужно написать программу с пошаговым объяснением: какие задачи компьютер должен выполнить и каким...
Как инструменты дизайна интерфейса и визуализации способствуют развитию Machine Teaching?
Разметка данных для машинного обучениянесет в себе ряд проблем и сложностей. Поэтому нам понадобится лучший подход, который ценит человеческий опыт и управляет расходами, а...
Краткое руководство по созданию наборов данных с помощью Python
Хотите собирать и хранить данные своих пользователей? Краткий гайд поможет вам в три шага создать собственный пользовательский датасет. Для этого вам понадобится менее часа и минимальный набор инструментов, включающий API Google Sheets и Streamlit.
Плотность вероятности - это не сама вероятность
Наибольшее значение вероятности — единица. Это общеизвестный факт! Однако для некоторых плотностей вероятности (например, плотности вероятности экспоненциального распределения на графике ниже), когда λ= 1.5 и ?...
Простое руководство по визуализации данных в машинном обучении
Создание информационных визуализаций - важнейший процесс, помогающий определить эффективность модели МО. Библиотека Yellowbrick, обладающая богатым функционалом, значительно упростит этот процесс.
Как учатся машины
С каждым днём машины становятся умнее. Когда вы заходите на YouTube, Amazon, или Facebook, то для вас автоматически подбираются рекомендованные видео, товары и посты....
Я хочу изучать AI и машинное обучение. С чего мне начать?
Когда-то я работал в Apple Store и мечтал изменить свою жизнь: вместо обслуживания техники Apple, мне хотелось ее создавать.
Я начал изучать машинное обучение (ML)...
Разветвление вселенной UI
В 2023 году нам предстоит увидеть новые версии пользовательского опыта. Ознакомьтесь с некоторыми из них, а заодно поразмышляйте над тем, нужно ли нам отказаться от пользовательского интерфейса вообще или стоит переосмыслить его в пользу более естественных, минималистичных и осязаемых вариантов?
Изучаем WebAssembly с помощью Rust
Внимание: с этой статьёй вы не освоите Rust, зато сможете быстро разобраться и приступить к работе с WASM, используя замечательный инструментарий wasm-pack и интуитивно...
9 важных сниппетов Python для оптимизации работы со скриптами
Ускорение работы на Python
Написание скриптов на Python для решения самых разных задач — одно из моих любимых занятий. Когда самостоятельно доходишь до ответа, который предлагает...
Как внести свой первый вклад в открытый исходный код
Давно собирались внести свой вклад в открытый исходный код, но не знаете, с чего начать? Предлагаем простое и понятное руководство по этому процессу.
Наскучил JavaScript? Достойная альтернатива - Mint
Недавно я создал небольшое веб-приложение с помощью Mint. Для меня это определенно стало освежающим опытом, который я и вам рекомендую. Mint является относительно малоизвестным...