Как дата-аналитику стать дата-сайентистом в 2023 году

Как дата-аналитику стать дата-сайентистом в 2023 году

Какие навыки и ресурсы нужны дата-аналитику, чтобы получить должность дата-сайентиста? Как сократить и облегчить этот карьерный переход? Воспользуйтесь практическими советами старшего дата-сайентиста, который ранее работал дата-аналитиком.
Python

Python: как заменить циклы For на Map, Filter и Reduce

Вы когда-нибудь смотрели на свой код и видели водопад из циклов for? Вам приходилось щурить глаза и наклоняться к монитору, чтобы рассмотреть его поближе? Я...
R

В каком возрасте вы получите Нобелевскую премию — визуализация на языке R.

Вы когда-нибудь пробовали решать задачи с помощью визуализации? Предлагаем решить занимательную задачу на языке R. Нобелевские премии (до 1969 года всего их было пять, а...
Эффективное итерирование по строкам в Pandas DataFrame

Эффективное итерирование по строкам в Pandas DataFrame

Рассмотрим продвинутые методы итерирования по строкам, которые заменят iterrows и itertuples. Некоторые из них позволяют повышать производительность почти в две тысячи раз, не снижая при этом читабельности кода.
Streamlit

Быстрая сборка и развертывание дашборда со Streamlit

Со Streamlit разработка дашборда для решения машинного обучения становится невероятно простой. Streamlit — это фреймворк с открытым кодом, специально разработанный для инженеров машинного обучения, работающих с Python....
Создание платформы обработки и анализа данных Bazaar

Создание платформы обработки и анализа данных Bazaar

Знакомьтесь с новой платформой Bazaar Technologies. Амбициозный стартап заявляет, что способен решать проблемы масштабирования данных в петабайтах.
7 Способов вывести свои новые навыки Python на следующий уровень

7 Способов вывести свои новые навыки Python на следующий уровень

Внимание: в этой статье нет партнёрских ссылок. Когда я впервые начинал изучать Python, я не знал, что делать с моими новыми навыками дальше. Поэтому они...
5 уникальных подходов Google к инженерии данных

5 уникальных подходов Google к инженерии данных

Когда я пришел в Google в качестве поставщика в 2019 году, у меня уже был опыт работы в области здравоохранении и технологическом секторе. Тем...
Пошаговое руководство по обучению модели на Vertex AI от Google Cloud

Пошаговое руководство по обучению модели на Vertex AI от Google Cloud

Предыстория и личный интерес  Не так давно компания Google предоставила во всеобщее пользование свою облачную платформу для машинного обучения  —  Vertex AI. Моей радости просто нет...
12 стратегий настройки готовых к производству RAG-приложений

12 стратегий настройки готовых к производству RAG-приложений

По мере увеличения прототипов RAG-конвейеров становится насущным обсуждение стратегий оптимизации их производительности. Посмотрим, как можно повысить результативность работы RAG-конвейера с помощью гиперпараметров и различных стратегий настройки.
Как получить данные в нужном формате с помощью Pandas

Как получить данные в нужном формате с помощью Pandas

Дата-сайентистам приходится работать с данными разных форматов. Разбираемся, в чем заключается разница между длинным и широким форматами данных, а также в том, как перейти от одного формата к другому в Pandas.
Python

Где и как применить Python на практике? Три основные сферы его применения

Если вы собираетесь изучать такой язык программирования, как Python, или уже изучаете — у вас может возникнуть резонный вопрос: «Для решения каких конкретных задач я могу использовать...
Python

Связный список в деталях

Определение и пояснение?‍? Когда мы будем говорить “связный список”, то подразумеваться будет однонаправленный связный список. Чтобы получше понять эту структуру данных, давайте рассмотрим ее отличительные...
Как освоить алгоритмы?

Как освоить алгоритмы?

Чтобы что-то было сделано компьютером, нужно указать ему, как это сделать. Нужно написать программу с пошаговым объяснением: какие задачи компьютер должен выполнить и каким...
Разбор 7 ошибок Python

Разбор 7 ошибок Python

Как только задачи, стоящие перед специалистами по данным, переходят из родной научной области в сферу разработки ПО, решать их становится все труднее. И хотя...
Пересечение 3D-лучей (ближайшая точка)

Пересечение 3D-лучей (ближайшая точка)

Хотите разобраться в математической теории, лежащей в основе 3D-лучей? Предлагаем простое руководство по применению таких математических инструментов, как псевдообратные матрицы, оптимизация с помощью наименьших квадратов, метод Крамера, смешанное произведение.
Прозрачность

Прозрачность: иллюзия единой системы. Часть 1

Даже если мы только знакомимся с распределенными системами, то уже ясно, что данная система по определению состоит из множества движимых элементов. И эти части...
Настоящие беспилотные такси выезжают на улицы города

Настоящие беспилотные такси выезжают на улицы города

Компания Waymo официально запускает парк беспилотных автомобилей в городе Финикс Waymo  —  компания по производству беспилотных автомобилей, вышедшая из Google в 2016 году, наконец выполнит своё...
Python

Оценка производительности нейронной сети Keras с помощью визуализаций Yellowbrick

Если вы когда-то использовали Keras для создания модели машинного обучения, то скорее всего перед этим вы строили примерно такие графики: Здесь представлена матрица потери при...
11 шагов на пути к работе дата-сайентиста

11 шагов на пути к работе дата-сайентиста

Получить работу в области науки о данных, МО и ИИ сложно. Эти 11 шагов помогут стратегически подойти к решению этой проблемы (спойлер: Kaggle не относится к их числу).
Science

Важные аспекты математики в науке о данных - «что» и «почему»

Введение Математика является фундаментом для любой современной научной дисциплины. И ни для кого не секрет, что почти все методы современной науки о данных (включая машинное...
6 SQL-запросов, о которых должен знать каждый дата-инженер

6 SQL-запросов, о которых должен знать каждый дата-инженер

SQL уже больше 45 лет, но он по-прежнему в деле и незаменим для быстрого анализа данных с написанием сложных запросов. Попрактикуемся в этом с продвинутым синтаксисом SQL для решения многих бизнес-задач.
8 ключевых команд для управления средами Conda

8 ключевых команд для управления средами Conda

Введение  Виртуальные среды  —  не самая простая концепция для новичков в Python. Как правило, при установке ПО, например Microsoft Office и Evernote, большинство из нас...
Binary Trees

Двоичные деревья: управляемый подход к поиску значений

Зачем Разработчик нанимается небольшим городом населением в сто тысяч. Задача состоит в том, чтобы преобразовать бумажную телефонную книгу в цифровой вариант. У мэра города есть...
4 принципа успешной поисковой системы и не только

4 принципа успешной поисковой системы и не только

Поиск повсюду и сталкиваемся мы с ним ежедневно. Эта функция реализована на каждом сайте и является частью любого IT-продукта. Вызов меню поиска простой комбинацией...
ML-инженер или специалист по обработке данных? (Закат науки о данных?)

ML-инженер или специалист по обработке данных? (Закат науки о данных?)

Привет, меня зовут Джейсон Я специалист по обработке данных (чуть позже в статье это понятие будет определено конкретнее) в Кремниевой долине, и мне очень нравится расширять...
Python

5 секретов наилучшего использования кортежей в Python

Python, являясь языком программирования общего назначения, предоставляет набор встроенных типов данных, включая int, str, tuple, list, dict и set. Четыре последних считаются контейнерами, так...
6 алгоритмов машинного обучения, которые должен знать каждый исследователь данных

6 алгоритмов машинного обучения, которые должен знать каждый исследователь данных

Машинное обучение - одна из тех областей, которые должен знать каждый, кто изучает науку о данных. Предлагаем описание 6 ключевых алгоритмов контролируемого МО, изложенное простым, доступным языком.
Audio Data Analysis

Анализ аудиоданных с помощью глубокого обучения и Python (часть 2)

Предыдущая часть: Часть 1 Сверточные нейронные сети (CNN) схожи с обычными нейронными сетями: они состоят из нейронов с обучаемыми весами и сдвигами. Каждый нейрон получает...
Kotlin

Разностный алгоритм Майерса и наблюдаемые свойства в Kotlin - как их объединить, чтобы облегчить жизнь разработчика

Посмотрите на анимацию ниже. Это группа разноцветных элементов, которые при нажатии кнопки начинают перемещаться. С точки зрения разработчика, эти элементы размещаются внутри RecyclerView с...
Состояние инфраструктуры данных на 2023 год  -  ключевые тренды ландшафта MAD от Мэтта Терка

Состояние инфраструктуры данных на 2023 год  —  ключевые тренды ландшафта MAD от Мэтта Терка

Как выглядит ландшафт инструментов по работе с данными глазами инсайдера, который активно общается с конечными пользователями? Рассмотрим, какова ситуаций в целом и какие в ней наблюдаются тенденции.
Data Science

Как составить Data Science портфолио? Часть 1

Как получить работу в области Data Science? Во-первых, нужно знать основы статистики, машинного обучения, программирования и т.д. Во-вторых, вам нужно будет составить портфолио. Да, несомненно,...
Big data

Как построить идеальное хранилище данных

Может показаться, что в последние годы многое изменилось в сфере сбора и хранения данных. Такие вещи, как NoSQL, «Big Data», различные графические и потоковые...
Погружение в базы данных

Погружение в базы данных

Базы данных представляют собой упорядоченные наборы данных, хранящиеся в компьютерной системе и доступные в электронном виде. Существует множество типов баз данных, например: облачные;реляционные;объектно-ориентированные;NoSQL. Выбор той или...
Суперсила индексов для оптимизации SQL-запросов

Суперсила индексов для оптимизации SQL-запросов

Введение  Вы любите SQL и хотите улучшить свои навыки выполнения SQL-запросов? Вы знаете, что индексация  —  отличный инструмент для оптимизации запросов, но при этом не...
Введение в метод Монте-Карло по схеме цепей Маркова

Введение в метод Монте-Карло по схеме цепей Маркова

Слева: моделированное необработанное совместное распределение коэффициентовСправа: моделированное совместное распределение коэффициентов без отбраковки В предыдущей статье я дал краткое введение в байесовскую статистику и рассказал, как...
Data Science

Как работает случайный лес?

Как и почему работает случайный лес? Разбираемся Важная часть машинного обучения  —  это классификация. Мы хотим знать, к какому классу (или группе) принадлежит значение. Возможность...
Data Science

8 базовых понятий статистики для науки о данных

Статистика — это разновидность математического анализа, использующая количественные модели и репрезентации для анализа экспериментальных или реальных данных. Главное преимущество статистики — простота представления информации. Недавно я пересматривала материалы...
Как найти выход из лабиринта с помощью Python

Как найти выход из лабиринта с помощью Python

Создание лабиринта Наш лабиринт будет в виде матрицы размером n*m с нулями для проходов и единицами для стен. a = [ [1, 1,...
Data Science

14 проектов по науке о данных для вашего 14-дневного карантина

Проекты по визуализации Возможно, самые короткие по срокам проекты визуализации данных! Ниже приведены три интересных набора данных, с помощью которых вы сможете пополнить свои портфолио,...
Data Science

Машинное обучение. С чего начать? Часть 2

Предыдущая часть: Часть 1 Очистка данных В любом проекте приходится заниматься «чисткой данных». К следующему этапу можно переходить только после приведения в порядок ваших данных. Чаще всего...
ИИ: решение неверно поставленных задач

ИИ: решение неверно поставленных задач

В 2008 году восходящие звезды Кремниевой долины собрались вокруг стола в конференц-зале. В будущем все они станут титанами технологического мира, однако в то время...
Работа с панелью индикаторов. Руководство программиста Python. Часть 3

Работа с панелью индикаторов. Руководство программиста Python. Часть 3

Часть 1, Часть 2, Часть 3 В этой серии статей в качестве основной платформы для Dashboarding используется Dash от Plotly. Прежде чем перейти к этой статье,...
Разведочный анализ данных в одной строке кода

Разведочный анализ данных в одной строке кода

В программировании важно уметь пользоваться инструментами, которые обеспечивают удобное выполнение сложных функций. Сегодня познакомимся с разведочным анализом данных и полезной библиотекой sweetviz.
Годовой план изучения науки о данных

Годовой план изучения науки о данных

2020-ый наконец-то закончился, а значит уже можно начать планировать 2021-ый. Для начала зададим себе вопрос: чему мы хотим научиться в этом году? Многие выбирают в...
К подготовке и публикации первого пакета Python готовы!

К подготовке и публикации первого пакета Python готовы!

Python стал одним из самых широко используемых языков программирования. Главным образом объясняется это тем, что мы, его обычные пользователи, можем поделиться своим кодом, обеспечивая...
4 важных навыка, которые специалисты по обработке данных часто недооценивают

4 важных навыка, которые специалисты по обработке данных часто недооценивают

Наука о данных — это не только данные Если посмотреть на список того, что необходимо развивать будущему специалисту по обработке данных, то скорее всего он будет состоять из...
Галерея лучших модулей Python

Галерея лучших модулей Python

Вас никогда не обескураживало огромное число модулей Python? И, скорее всего, вам было непросто выбрать всего один для конкретного проекта. В этой статье вы...
Алгоритм Рабина-Карпа с полиномиальным хешем и модульной арифметикой

Алгоритм Рабина-Карпа с полиномиальным хешем и модульной арифметикой

Введение Созданный Ричардом Карпом и Майклом Рабином алгоритм Рабина-Карпа  —  это алгоритм поиска строки, который использует хеширование для поиска совпадений между заданным шаблоном поиска и...
Artificial Intelligence

Переживут ли творческие профессии революцию искусственного интеллекта?

Людьми нас делает наш разум, а искусственный разум — продолжение нашего. Ян Лекун Люди великолепно развили свои способности. Из куска мрамора мы изваяли прекрасные статуи, написали живущие в...
JavaScript

8 лучших платформ и библиотек JavaScript для машинного обучения

Невероятный рост новых технологий, таких как машинное обучение, облегчил жизнь разработчикам: создавать приложения на базе искусственного интеллекта стало намного проще. И теперь к активному...
Почему вам не удастся стать "великим" специалистом по данным?

Почему вам не удастся стать «великим» специалистом по данным?

Быть просто "хорошим" специалистом по обработке данных не проблема. Куда сложнее стать "великим". Позвольте мне, как специалисту по обработке данных, открыть вам глаза на самую прибыльную работу 21-го века.
Python

4 шага к совершенству: правила для идеальных функций

Функции — это блоки кода, выполняющие требуемые действия. Они являются фундаментальными составляющими любого проекта разработки. Без них мы не сможем ни обработать данные, ни представить их...
Как создать хранилище данных за 5 шагов

Как создать хранилище данных за 5 шагов

В проекте по созданию хранилища данных не обойтись без четкого плана действий. Познакомьтесь с ключевыми этапами его реализации - от четкой постановки бизнес-целей до запуска готового к использованию проекта.
MongoDB: моделирование данных

MongoDB: моделирование данных

Данные в MongoDB обладают гибкой схемой хранения документов в одной коллекции. Документам не обязательно иметь одинаковый набор полей или структуру. Общие поля в них могут содержать разные типы данных.
Data Science

Гамма-функция - интуиция, определение, примеры

Почему это интересно? Многие распределения вероятностей определяются с использованием гамма-функции, я перечислю лишь некоторые: гамма-распределение, бета-распределение, распределение Дирихле, распределение хи-квадрат, т-распределение Стьюдента и так далее.  Для...
Python

Python 3: 3 функции, которые следует помнить

Многие разработчики, особенно новички, уже активно пишут на Python 3. И хотя в этой версии появилось множество новых функций, многие из них неизвестны или...
Machine Learning

6 концептов книги Эндрю Ына «Жажда машинного обучения»

“Техническая стратегия для инженеров-разработчиков искусственного интеллекта в эпоху глубокого обучения” “Жажда машинного обучения” структурирует разработку проектов, использующих машинное обучение. Книга включает в себя практический опыт,...
Разработка виртуального помощника для удовлетворения основных потребностей пользователей

Разработка виртуального помощника для удовлетворения основных потребностей пользователей

В этой статье мы расскажем о том, как организовать пользовательские потребности в соответствии со сложностью и частотой возникновения, а также расставим приоритеты в поэтапном...

#04TheNotSoToughML | “Давай, минимизируй ошибки” — Но достаточно ли этого?

Пришло время развеять миф о том, что машинное обучение - это сложно. Интуитивное МО позволяет пользоваться легкодоступными инструментами, не требующими специальных знаний.
3 признака того, что ваш ИИ-проект обречен

3 признака того, что ваш ИИ-проект обречен

Я провела консультации по сотням проектов машинного обучения и научилась замечать ранние признаки того, что клиент собственными руками пилит сук, на котором сидит. Вот тройка...
Как писать код на Python лучше: 6 рекомендаций

Как писать код на Python лучше: 6 рекомендаций

В среде разработчиков Python считается одним из самых популярных языков программирования. Он используется везде  —  от веб-разработки до машинного обучения. Причин такой популярности много. Это...
Создайте приложение для резюмирования новостных статей с Hugging Face и Gradio

Создайте приложение для резюмирования новостных статей с Hugging Face и Gradio

У вас накопилась масса закладок со статьями для последующего чтения, но вы так и не добрались до них? Нет времени читать длинные статьи? Хотите узнать...
Как установить несколько версий Python в WSL2 и управлять ими

Как установить несколько версий Python в WSL2 и управлять ими

Открываем PowerShell PowerShell  —  это командная оболочка и объектно-ориентированный язык сценариев, который используется для настройки системных параметров и автоматизации задач администрирования. В операционной системе практически...
MongoDB: удаление базы данных

MongoDB: удаление базы данных 

В прошлой статье о MongoDB мы рассмотрели создание базы данных. В данном разделе рассмотрим процесс ее удаления.
8 экспертных советов по использованию Apache Spark

8 экспертных советов по использованию Apache Spark

Хотите в совершенстве освоить Apache Spark? Воспользуйтесь советами эксперта, 1,5 года проработавшего с клиентами Databricks. Узнайте, как работает Spark, что общего между этим фреймворком и продовольственным магазином и как добиться в работе с ним оптимальных результатов.
Как специалисту по обработке данных создать крутое портфолио и подключить к нему чат-бота

Как специалисту по обработке данных создать крутое портфолио и подключить к нему чат-бота

Буду честен. Для специалиста по обработке данных найти сейчас работу — настоящая пытка. Это самая притягательная профессия 21 века, огромная конкуренция в ней растёт с каждым...
Креативное программирование: методы и инструменты для JavaScript, Python и других языков

Креативное программирование: методы и инструменты для JavaScript, Python и других языков

Креативное программирование Задача этого вида программирования состоит в создании не функционального, а выразительного продукта. В этом процессе немаловажную роль играет эстетика, и именно поэтому он...
4 альтернативы Pandas: ускоренное выполнение анализа данных

4 альтернативы Pandas: ускоренное выполнение анализа данных

Бенчмарк производительности популярных инструментов анализа данных заставит вас иногда отказываться от Pandas. Каждый из этих инструментов  -  Polars, DuckDB, Vaex и Modin - при анализе данных на кластере машин работает гораздо быстрее, чем Pandas.
Data Science

Моделирование логистического роста

Часть 1, Часть 2 В прошлой статье мы рассмотрели пример моделирования первой вспышки коронавируса с помощью экспоненциального роста. Следующая ступень анализа — логистический рост. Воспользуйтесь Python notebook...
Структуры данных: кольцевой (циклический, замкнутый) связный список

Структуры данных: кольцевой (циклический, замкнутый) связный список

Кольцевой связный список - это разновидность связного списка, при которой первый элемент указывает на последний, а последний - на первый. Кольцевой связный список можно сделать как из односвязного , так и из двусвязного списка.
Структуры данных: двусвязный (двунаправленный) список

Структуры данных: двусвязный (двунаправленный) список

Двусвязный список - это разновидность связного списка, при которой переход по элементам возможен в обоих направлениях (как вперед, так и назад), в отличие от односвязного списка.
Наивный байесовский алгоритм

Наивный байесовский алгоритм

Введение Самые простые решения обычно оказываются самыми действенными, и в этом смысле показателен пример наивного байесовского алгоритма. Несмотря на большие успехи машинного обучения в последние...
Менеджеры контекста в Python  -  выходим за пределы "with open() file"

Менеджеры контекста в Python  -  выходим за пределы «with open() file»

Введение В Python при работе с файлами наиболее распространённой функция open(), создающая объект типа файл, который в зависимости от ситуации позволяет читать или записывать данные....
Продвинутые техники SQL

Продвинутые техники SQL

Подробно объясним используемые методы  -  концептуально и с практическими примерами. Создадим аналитические SQL-запросы PostreSQL, используя таблицу видеоигр из Kaggle.
Автоматический анализ текста с использованием Streamlit

Автоматический анализ текста с использованием Streamlit

Streamlit  —  эффективный и оперативный инструмент для анализа текста. С ним можно провести реферирование текста, частеречную разметку и распознавание именованных объектов. Введение в анализ текста Текстовая аналитика...
В США ограничивают использование технологий распознавания лиц

В США ограничивают использование технологий распознавания лиц

Но надолго ли? Технологию распознавания лиц сегодня начали применять и правоохранительные органы, и военные структуры, и частные компании, при этом они вот уже 40-лет используют базы...
Machine Learning Model

Как построить модель машинного обучения, если под рукой нет доступных данных

Перед решением любой задачи науки о данных, такой как исследовательский анализ или построение модели, нужно ответить на следующие вопросы: Что вы хотите узнать или обнаружить...
Как организовать свою систему обработки данных: кейс mondayDB

Как организовать свою систему обработки данных: кейс mondayDB

Приглашаем в увлекательное путешествие в мир mondayDB - нового механизма обработки данных. Разработчики этой системы рассказывают о ее основных концепциях: столбцовом хранении данных, лямбда-архитектуре и отделении хранения от вычислений.
Machine Learning

Анализ моделей машинного обучения при помощи Imandra

Расскажем о задачах классификации и регрессии. Данные, модели, условия и Imandra с её возможностями помогать прогнозировать рак и вред от лесных пожаров. Введение Проверка параметров изучаемых моделей — сложная...
Четыре метода, которые повысят качество работы с Pandas

Четыре метода, которые повысят качество работы с Pandas

Знакомьтесь с "великолепной четверкой" методов - assign, map, query и explode. Это самые крутые фичи Pandas. Они сделают ваш код более ясным, элегантным и эффективным.
Data Science

Руководство к использованию деревьев решений в машинном обучении и науке о данных

Деревья решений являются классом очень эффективной модели машинного обучения, позволяющей получить высокую точность в решении многих задач, сохраняя при этом высокий уровень интерпретации. Четкость...
Эпоха Больших данных

Эпоха Больших данных

Технологии Big Data имеют ощутимые преимущества. Однако все более злободневно звучит вопрос: как использовать потенциал Больших данных без ущерба для конфиденциальности и безопасности граждан?
Data Science

Условная независимость - основа байесовской сети

1. Восприятие условной независимости  Скажем, A — рост ребенка, а B — количество слов, которые он знает. Кажется, что если A высокий, то B, соответственно, тоже.  Однако существует информация, которая...
Data Science

Байесовский вывод - интуиция и примеры

Часть 1, Часть 2, Часть 3 Зачем кто-то вообще изобрел байесовский вывод?  Чтобы обновлять вероятность по мере поступления новых данных.  Суть байесовского вывода в том, чтобы объединить...
Python

Не слушай профи - делай print()

Если вы скажете профессиональным программистам, что используете print() для отслеживания ошибок, готовьтесь уворачиваться от летящих в вашу сторону стульев. Есть ли смысл продираться через...
Data Science

Как отточить ваши “инстинкты данных”

Ввиду недавних успехов в области машинного обучения и исследований в области искусственного интеллекта, немного удивительно, что наука о данных стала сферой главного интереса. Нет сомнений...
Data Science

4 способа обработки ошибок для стеков

Обработка ошибок — это часть рабочих будней каждого программиста. Всегда были и будут ситуации, когда по какой-либо причине код не заработает, и наша задача — следить за тем,...
BigQuery теперь поддерживает Query Queues

BigQuery теперь поддерживает Query Queues

Новая функция Google BigQuery под названием Query Queues позволяет автоматически определять количество запросов, выполняемых одновременно. Дополнительные запросы, превышающие заданный уровень параллелизма, ставятся в очередь до тех пор, пока не освободятся ресурсы обработки.
SQL для Data Science: альтернатива обмену через Google Disk и Slack

SQL для Data Science: альтернатива обмену через Google Disk и Slack

Как аналитику данных показать SQL-запросы коллегам? Доступный обмен наработками через Jupyter Notebook, Tidyverse или Superset.
Лассо- и ридж-регрессии: интуитивное сравнение

Лассо- и ридж-регрессии: интуитивное сравнение

Регуляризация размерности данных - важнейший навык в машинном обучении, позволяющий повысить эффективность модели. Чтобы овладеть им, необходимо понять различие между лассо- и ридж-регрессиями. Попробуем разобраться с этими методами статистического обучения.
Наука о данных в "царстве" Web3

Наука о данных в “царстве” Web3

Что лучше - традиционные платформы или платформы Web3? Попробуем разобраться.
Как обучить модель квантового МО, используя данные из CSV?

Как обучить модель квантового МО, используя данные из CSV?

Область квантового машинного обучения не сразу поддается начинающим исследователям данных из CSV. Предлагаем поучиться не на теоретических примерах (которые зачастую не имеют практической пользы), а на реальном опыте специалистов QML.
Artificial Intelligence

Инновационный алгоритм глубокого обучения в Google Translate

Современный Google Translate просто потрясает своими возможностями. Для реализации способности выполнять перевод между любой парой из десятков поддерживаемых языков создатели этого инструмента очень находчиво...
Python

Пять отличных Python-библиотек для data science

Python — это лучший друг специалистов по данным, а библиотеки значительно упрощают их жизнь. Работая над NLP-проектом, я открыл для себя пять отличных Python-библиотек, которые мне...
Структуры данных: основные понятия

Структуры данных: основные понятия

Предыдущая часть: "Структуры данных: динамическое программирование" Определение данных Это определение конкретных данных со следующими характеристиками: атомарность, то есть определяется единое понятие.отслеживаемость, т. е. определение должно сопоставляться с...
Machine Learning

25 прикольных вопросов для собеседования по машинному обучению

Могут ли вопросы на собеседовании по машинному обучению быть одновременно прикольными и глубокими? 25 вопросов, которые не просто проверят знания и навыки кандидата, но и...
Компилятор VS интерпретатор: ключевые отличия

Компилятор VS интерпретатор: ключевые отличия

Интерпретаторы и компиляторы отвечают за преобразование языка программирования или сценариев (язык высокого уровня) в машинный код. Но если обе программы делают одно и то...
Основы SQLite на примере практической задачи

Основы SQLite на примере практической задачи

Базы данных  —  это превосходный, безопасный и надежный способ хранения данных. Все основные реляционные базы объединяет SQL, т.е. язык управления данными, их базами и...
Автоматическое МО (AutoML) с использованием PyCaret: основные принципы

Автоматическое МО (AutoML) с использованием PyCaret: основные принципы

Специалисты по обработке данных тратят около 80% времени на то, чтобы выбрать оптимальную модель, отрегулировать ее параметры и подождать, пока она осуществит необходимые расчеты. На выручку приходит автоматическое МО, в разы ускоряющее подбор адекватной модели.
Модульные тесты на Golang: от стандартного Testing до Testify

Модульные тесты на Golang: от стандартного Testing до Testify

Напишем тесты для проверки работы функций. Посмотрим, как совершенствуются тестовые сценарии с Testify.
Продвинутые техники PHP. Часть 2

Продвинутые техники PHP. Часть 2

Рассмотрим стратегии эффективной обработки ошибок, профессиональной отладки и возможностей PHP-фреймворков для быстрой разработки. Раскроем еще больше секретов PHP и пополним багаж знаний.
8 ключевых команд для управления средами Conda

8 ключевых команд для управления средами Conda

Введение  Виртуальные среды  —  не самая простая концепция для новичков в Python. Как правило, при установке ПО, например Microsoft Office и Evernote, большинство из нас...
Что на самом деле важно для качества кода?

Что на самом деле важно для качества кода?

Хотя новички и джедаи могут озвучивать свои подходы к решению проблем одинаково, результаты разработки у них совершенно разные, как и способы достижения чистого кода. Чтобы понять специфику создания действительно качественного кода, предлагаем детально разобрать реальный пример с реальным кодом.
8 строгих правил Илона Маска для сотрудников

8 строгих правил Илона Маска для сотрудников

На чем стоит столь успешная деятельность всемирно известного научного революционера? Знакомьтесь с цитатами из внутренних обращений Маска к своим сотрудникам, утверждающими регламент работы в компании.