5 типов алгоритмов машинного обучения, которые нужно знать

5 типов алгоритмов машинного обучения, которые нужно знать

Машинное обучение  —  один из самых известных и важных подразделов науки о данных. В 1959 году исследователь компании IBM Артур Самюэл впервые ввёл термин...
Создание платформы обработки и анализа данных Bazaar

Создание платформы обработки и анализа данных Bazaar

Знакомьтесь с новой платформой Bazaar Technologies. Амбициозный стартап заявляет, что способен решать проблемы масштабирования данных в петабайтах.
Как предварительно обработать данные и текстовые сообщения из социальных сетей

Как предварительно обработать данные и текстовые сообщения из социальных сетей

Одна из самых непростых задач при использовании данных из социальных сетей и текстовых сообщений для NLP (Natural Language Processing  —  обработки естественного языка) заключается...
Введение в алгоритмы машинного обучения: линейная регрессия

Введение в алгоритмы машинного обучения: линейная регрессия

Линейная регрессия - отправной пункт в освоении науки о данных, с которого новички приступают к овладению моделированием данных. Каждому начинающему исследователю данных будет полезно ознакомиться с алгоритмом линейной регрессии, его реализацией на Python и способами применения.

Какие десять книг про науку о данных и искусственный интеллект стоит прочитать в 2020

Чтобы стать экспертом в какой-либо области, нужно взять на себя обязательство учиться и быть последовательным в достижении своих целей. И это справедливо для всех...
5 уникальных подходов Google к инженерии данных

5 уникальных подходов Google к инженерии данных

Когда я пришел в Google в качестве поставщика в 2019 году, у меня уже был опыт работы в области здравоохранении и технологическом секторе. Тем...
Пакетная обработка 22 ГБ данных о транзакциях с помощью Pandas

Пакетная обработка 22 ГБ данных о транзакциях с помощью Pandas

Можно ли работать с большими массивами данных при ограниченных вычислительных ресурсах? Можно и очень даже успешно, если использовать пакетную обработку для создания различных агрегаций этих данных.
SQL

NoSQL убивает SQL?

На прошлой неделе мой друг переслал мне письмо от успешного предпринимателя, который утверждает, что “SQL мёртв”.  Предприниматель убеждён, что чрезвычайно популярные NoSQL базы данных, такие...
Data Science

4 способа обработки ошибок для стеков

Обработка ошибок — это часть рабочих будней каждого программиста. Всегда были и будут ситуации, когда по какой-либо причине код не заработает, и наша задача — следить за тем,...
Эпоха Больших данных

Эпоха Больших данных

Технологии Big Data имеют ощутимые преимущества. Однако все более злободневно звучит вопрос: как использовать потенциал Больших данных без ущерба для конфиденциальности и безопасности граждан?
Data Science

Алгоритм XGBoost: пусть он царствует долго!

Хоть с того момента и прошло 15 лет, я до сих пор помню первый день на моей первой работе. Я только-только выпустился из ВУЗа...
Python

4 простые визуализации данных в Python

Визуализация данных является неотъемлемой частью любых проектов в науке о данных или в проектах машинного обучения. Для того, чтобы получить некоторое представление об определенных...
Data science

8 способов “настроить” Data-команду на успех. Часть вторая

Предыдущие части: Часть 1 Другие лучшие практики Далее я привожу вымышленные сценарии, рассматривая общие стратегии, которые менеджеры должны использовать, чтобы не навредить своей Data-команде. 2) Ищите «Систематические ошибки...
Моделирование данных в мире современного стека данных 2.0

Моделирование данных в мире современного стека данных 2.0

Сравнивать моделирование данных со стеком данных - все равно что уподоблять автомобили интеллектуальным навигационным системам. Предлагаем на практических примерах убедиться в том, что технологии современного стека данных позволяют аналитикам успешно вести исследования без моделирования.
Структуры данных: двусвязный (двунаправленный) список

Структуры данных: двусвязный (двунаправленный) список

Двусвязный список - это разновидность связного списка, при которой переход по элементам возможен в обоих направлениях (как вперед, так и назад), в отличие от односвязного списка.
Тематическое моделирование с помощью BERT

Тематическое моделирование с помощью BERT

Часто, когда заказчики обращаются ко мне с просьбой провести анализ их продукта на основе НЛП, они задают один и тот же вопрос: «Какая тема чаще...
Пять парадоксов с вероятностью, которые вас озадачат

Пять парадоксов с вероятностью, которые вас озадачат

А может быть сможете их перехитрить? В повседневной жизни мы постоянно сталкиваемся с ситуациями неопределенности. Так, по крайней мере подсознательно, мы постоянно встречаемся с вероятностями....
Структуры данных: подход «разделяй и властвуй»

Структуры данных: подход «разделяй и властвуй»

При подходе «разделяй и властвуй» задача делится на мелкие подзадачи, каждая из которых решается независимо. При их делении на еще более мелкие подзадачи в конце концов настает момент, когда дальнейшее деление невозможно.
Как писать код на Python лучше: 6 рекомендаций

Как писать код на Python лучше: 6 рекомендаций

В среде разработчиков Python считается одним из самых популярных языков программирования. Он используется везде  —  от веб-разработки до машинного обучения. Причин такой популярности много. Это...
Как автоматизировать сравнение датасетов с Terraform и BigQuery

Как автоматизировать сравнение датасетов с Terraform и BigQuery

Автоматизация проверки датасетов значительно упрощает жизнь. Узнаем, как же это сделать с помощью инструмента для управления облачной инфраструктурой Terraform и сервиса для анализа больших наборов данных BigQuery.
BigQuery теперь поддерживает Query Queues

BigQuery теперь поддерживает Query Queues

Новая функция Google BigQuery под названием Query Queues позволяет автоматически определять количество запросов, выполняемых одновременно. Дополнительные запросы, превышающие заданный уровень параллелизма, ставятся в очередь до тех пор, пока не освободятся ресурсы обработки.
Реализация архитектуры с сохранением состояния в Streamlit

Реализация архитектуры с сохранением состояния в Streamlit

Streamlit Streamlit прошел долгий путь становления с момента своего создания в октябре 2019 года. Он не только предоставил разработчикам ПО новые возможности, но и обеспечил...
Data Science

Машинное обучение. С чего начать? Часть 2

Предыдущая часть: Часть 1 Очистка данных В любом проекте приходится заниматься «чисткой данных». К следующему этапу можно переходить только после приведения в порядок ваших данных. Чаще всего...
Data Science

Безградиентный подход к оптимизации нейронной сети

Градиентный спуск  —  это одна из важнейших идей в области машинного обучения, в котором алгоритм с учетом функции затрат итеративно выполняет шаги с наибольшим...
5 рекомендаций по оптимизации запросов SQL

5 рекомендаций по оптимизации запросов SQL

Никогда не поздно проанализировать свой стиль программирования запросов SQL, выявить недостатки и исправить. Рассмотрим 5 способ улучшить запросы и повысить свою продуктивность.
Руководство по структурам данных и алгоритмам: введение и настройка среды

Руководство по структурам данных и алгоритмам: введение и настройка среды

Различные типы структур данных так или иначе используются почти в каждом корпоративном приложении. Пройдя это руководство, вы получите четкое представление о структурах данных, необходимое для понимания сложности приложений корпоративного уровня.
Computer Science

Продвинутый взгляд на рекурсию

Рекурсия является одним из наиболее мощных подходов в программировании. С ее помощью можно решать чрезвычайно сложные задачи, печатая при этом невероятно малый объем кода.
Containers

Контейнеры это просто. Контейнерные технологии для начинающих

Вступление Будь вы студент или уже состоявшийся разработчик, вы наверняка слышали о «контейнерах». Более того, вероятно вы слышали, что контейнеры — это «лёгкие» виртуальные машины....
Python

5 любопытных библиотек Python

Как один из наиболее популярных языков программирования, Python содержит огромное количество прекрасных библиотек, облегчающих разработку, таких как Pandas, Numpy, Matplotlib, SciPy и так далее. Однако...
Big data

Как построить идеальное хранилище данных

Может показаться, что в последние годы многое изменилось в сфере сбора и хранения данных. Такие вещи, как NoSQL, «Big Data», различные графические и потоковые...
6 SQL-запросов, о которых должен знать каждый дата-инженер

6 SQL-запросов, о которых должен знать каждый дата-инженер

SQL уже больше 45 лет, но он по-прежнему в деле и незаменим для быстрого анализа данных с написанием сложных запросов. Попрактикуемся в этом с продвинутым синтаксисом SQL для решения многих бизнес-задач.
Цепь Маркова

Цепь Маркова

Цепь Маркова используют многие современные компании и организации. Она помогает прогнозировать погоду и разрабатывать маркетинговые стратегии, находит применение в различных приложениях для решения реальных...
Годовой план изучения науки о данных

Годовой план изучения науки о данных

2020-ый наконец-то закончился, а значит уже можно начать планировать 2021-ый. Для начала зададим себе вопрос: чему мы хотим научиться в этом году? Многие выбирают в...
MongoDB: типы данных

MongoDB: типы данных 

MongoDB поддерживает множество типов данных - перечислим их в этой статье.
Statistics

Статистика - это грамматика науки о данных. Часть 1

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 «Статистика — это грамматика науки» Данное высказывание приписывают английскому математику...
Инженерия геопространственных данных: пространственное индексирование

Инженерия геопространственных данных: пространственное индексирование

Слышали ли вы о пространственном индексировании? Эта технология обладает мощным потенциалом: она способна оптимизировать производительность запросов, сэкономить время обработки данных и упростить задачи машинного обучения.
Data Science

5 базовых статистических концептов, которые должен знать каждый специалист по обработке данных

В таком искусстве, как наука о данных, статистика может оказаться мощным инструментом. В широком смысле, статистика означает использование математики для технического анализа данных. Базовая...
Выбор между SQL и NoSQL: ACID и CAP, схема и транзакции

Выбор между SQL и NoSQL: ACID и CAP, схема и транзакции

Детальное руководство по архитектуре баз данных: основные концепции в работе реляционных (SQL) и распределенных (NoSQL) баз данных.
Python

3 простых шага для оптимизации гиперпараметров в любом Python-скрипте

Итак, вы написали Python-скрипт, который обучает и оценивает модель машинного обучения. И теперь вам хочется оптимизировать гиперпараметры и повысить производительность модели. Я помогу! В данной статье...
ИИ: решение неверно поставленных задач

ИИ: решение неверно поставленных задач

В 2008 году восходящие звезды Кремниевой долины собрались вокруг стола в конференц-зале. В будущем все они станут титанами технологического мира, однако в то время...
Структуры данных: динамическое программирование

Структуры данных: динамическое программирование

Подход динамического программирования схож с подходом «разделяй и властвуй»: тоже разбивает задачи на как можно более мелкие подзадачи. Отличие в том, что здесь подзадачи решаются не независимо.
MongoDB: введение, преимущества и настройка среды

MongoDB: введение, преимущества и настройка среды

В данной серии руководств объясним ключевые концепции MongoDB, необходимые для создания и развертывания высоко масштабируемой базы данных с акцентом на производительность.
Что думают ученые-компьютерщики о влиянии ИИ на общество

Что думают ученые-компьютерщики о влиянии ИИ на общество

В ученой среде традиционно считают, что нельзя привносить этические или политические ценности в научный процесс. Но что, если исследования порождают проблемы безопасности, вызывают расистские...
Python

Не слушай профи - делай print()

Если вы скажете профессиональным программистам, что используете print() для отслеживания ошибок, готовьтесь уворачиваться от летящих в вашу сторону стульев. Есть ли смысл продираться через...
Автоматический анализ текста с использованием Streamlit

Автоматический анализ текста с использованием Streamlit

Streamlit  —  эффективный и оперативный инструмент для анализа текста. С ним можно провести реферирование текста, частеречную разметку и распознавание именованных объектов. Введение в анализ текста Текстовая аналитика...
Пусть говорят… расходящиеся гистограммы!

Пусть говорят… расходящиеся гистограммы!

Термин “divergere” происходит от латинского языка и означает расхождение. Среди его синонимов: разделение, разногласие, различие, пересечение и столкновение мнений. Он отражает разнообразие точек зрения...
Как создать первый проект по инженерии данных: инкрементный подход. Часть 1

Как создать первый проект по инженерии данных: инкрементный подход. Часть 1

Инкрементный подход фокусируется на последовательном приращении функциональности продукта. При разработке проекта по инженерии данных такой подход гарантирует успех. Он повышает управляемость проектом, позволяет изучать различные концепции по мере продвижения и ускоряет выпуск более качественных продуктов.
Большой недостаток социальных сетей и его устранение

Большой недостаток социальных сетей и его устранение

Чуть более двух десятилетий назад, на заре своего развития Интернет столкнулся с серьезной проблемой: очень сложно было найти «правильную», необходимую информацию. Другими словами, поисковые...

Инкременты и декременты

В данной статье активно используется термин «операнд». Так что такое операнд? Операнд — это величина, над которой операторы могут выполнять определенные действия. О! А что такое оператор? Оператор — это специальный символ, выполняющий...
Python

Где и как применить Python на практике? Три основные сферы его применения

Если вы собираетесь изучать такой язык программирования, как Python, или уже изучаете — у вас может возникнуть резонный вопрос: «Для решения каких конкретных задач я могу использовать...
Python

Random forest в Python

Практический пример машинного обучения До сих по еще не было более удачного времени для машинного обучения. Благодаря доступным учебным онлайн ресурсам в Интернет, бесплатные инструменты...
Основные концепции и структуры Python, которые должен знать каждый серьёзный программист

Основные концепции и структуры Python, которые должен знать каждый серьёзный программист

Генераторы Создание итератора в Python требует большой работы. Класс (в ООП) должен быть построен с применением методов __iter__() и __next__(), внутренние состояния должны быть сохранены...
Как быстро и легко создавать прототипы датасайенс-проектов

Как быстро и легко создавать прототипы датасайенс-проектов

Преобразовать Jupyter Notebook в интерактивный дашборд - задача из простых. Для этого даже не нужно знать HTML, CSS и JavaScript. Разбираемся, как создать приложение для совместного использования прямо в среде ноутбука с помощью Mercury.
Machine Learning

Не учите машинное обучение

Примечание: следующие рассуждения основаны на моих личных наблюдениях за командами, работающими над машинным обучением, а не академическом обзоре отрасли. Как разработчик, вы, вероятно, хотя бы...
Как с помощью Python создавать математическую мультипликацию типа 3Blue1Brown

Как с помощью Python создавать математическую мультипликацию типа 3Blue1Brown

Для чего нужна математическая мультипликация? Вы когда-нибудь пытались освоить математические концепции алгоритма машинного обучения с помощью образовательного ресурса 3Blue1Brown? 3Blue1Brown  —  это знаменитый математический канал...
Машинное обучение с Amazon Aurora

Машинное обучение с Amazon Aurora

Любая современная компания, достигнув определенного момента в своем развитии, сталкивается с непростой задачей: сделать свою продукцию более кастомизируемой для клиентов. Стремление к персонализации товаров...
Как стать дата-сайентистом в 2025 году?Как стать дата-сайентистом в 2025 году?

Как стать дата-сайентистом в 2025 году?

Мечтаете повелевать большими данными? Четкая дорожная карта поможет вам приобрести надежную теоретическую базу в математике, статистике, программировании и других отраслях, необходимых современному дата-сайентисту. 
Algorithms

Завораживающая последовательность Фибоначчи

Занимаясь изучением обработки данных, расчётами, а также другими компьютерными и математическими операциями, мы сталкиваемся со многими алгоритмами. Несмотря на то, что иногда мы недолюбливаем...
Создание интерфейсов, удобных для алгоритмов

Создание интерфейсов, удобных для алгоритмов

Дизайнер должен досконально знать материалы, с которыми работает. В прошлом это было понимание особых свойств древесины, металлов, печатных станков и, наконец, пикселей. Современным дизайнерам...
MongoDB: создание базы данных

MongoDB: создание базы данных 

Рассмотрим процесс создания базы данных в MongoDB.
Проект инженерии данных с DAG Airflow «от и до». Часть 2

Проект инженерии данных с DAG Airflow «от и до». Часть 2

Проверим корректность данных, отправим письмо и сообщение в Slack с информацией об адресе почты и пароле. Объединим все части проекта, создадим и запустим DAG Airflow со всеми задачами.
7 библиотек Python для вашего первого проекта по науке о данных

7 библиотек Python для вашего первого проекта по науке о данных

Pandas Данные играют первостепенную роль в разработке продуктов, задействующих науку о данных и машинное обучение. Однако информация часто нуждается в предварительной очистке и некоторых манипуляциях,...
Создайте приложение для резюмирования новостных статей с Hugging Face и Gradio

Создайте приложение для резюмирования новостных статей с Hugging Face и Gradio

У вас накопилась масса закладок со статьями для последующего чтения, но вы так и не добрались до них? Нет времени читать длинные статьи? Хотите узнать...
NLP

Обработка естественного языка для анализа отзывов онлайн-покупателей

Цель использования обработки естественного языка в описываемом проекте — анализ обзоров на товары, оставленных онлайн-покупателями.  Я начал работу над этим проектом для достижения трех бизнес-целей:  Найти основные компоненты...
Python

Python: как заменить циклы For на Map, Filter и Reduce

Вы когда-нибудь смотрели на свой код и видели водопад из циклов for? Вам приходилось щурить глаза и наклоняться к монитору, чтобы рассмотреть его поближе? Я...
Кодирование категориальных данных: визуальное руководство для начинающих с примерами кода

Кодирование категориальных данных: визуальное руководство для начинающих с примерами кода

Это руководство позволит освоить 6 методов сопоставления категорий и чисел. Вы поймете, почему так важен правильный выбор метода кодирования категориальных данных. В заключение получите полезные советы, которые помогут избежать досадных ошибок в проектах по машинному обучению.
Data Science

Доходчиво об обучении на основе многообразий с алгоритмами IsoMap, t-SNE и LLE

Метод главных компонент (PCA) весьма производителен, но зачастую дает сбой, так как предполагает возможность линейного моделирования данных. Он выражает новые признаки в виде линейных...
Настоящие беспилотные такси выезжают на улицы города

Настоящие беспилотные такси выезжают на улицы города

Компания Waymo официально запускает парк беспилотных автомобилей в городе Финикс Waymo  —  компания по производству беспилотных автомобилей, вышедшая из Google в 2016 году, наконец выполнит своё...
Будет ли ИИ главенствовать в 2021 году? Большой вопрос

Будет ли ИИ главенствовать в 2021 году? Большой вопрос

Технологии, связанные с искусственным интеллектом, развиваются в стремительном темпе. Узнаем, что ожидает ИИ в будущем. В 2020 году ИИ претерпел быстрые преобразования, неожиданные разработки и...
Computer Science

Графы: основы теории, алгоритмы поиска

Возможно, вы уже знакомы с понятием спортивного программирования и знаете, что оно помогает развить навыки решения проблем и прокачать технические знания о структурах данных...
Data Science

Все что нужно знать о древовидных структурах данных

Когда вы впервые учитесь кодировать, общепринято изучать массивы в качестве «основной структуры данных». В конце концов, вы также изучаете хэш-таблицы. Для получения степени по «Компьютерным...
О машинном обучении простым языком

О машинном обучении простым языком

В XXI веке машинное обучение и искусственный интеллект будут “править бал”. Ежедневно мы производим большое количество данных. Сюда также входят данные о покупках клиентов...
Как выжать максимум из предобученных языковых моделей с GroupBERT

Как выжать максимум из предобученных языковых моделей с GroupBERT

Как достичь 2-кратного ускорения обучения на интеллектуальном процессоре Graphcore, обеспечивая более быстрые и эффективные вычисления? Что делает GroupBERT лучше BERT и других моделей с групповыми преобразованиями в Transformer? Отвечаем на эти и сопутствующие вопросы.
Artificial Intelligence

Рекуррентная нейронная сеть с головы до ног

Нейрон — строительный элемент человеческого мозга. Он анализирует сложные сигналы за микросекунды и отправляет ответы нервной системе, которая решает сложные задачи. У всех нейронов одна и...
Руководство для начинающих исследователей данных

Руководство для начинающих исследователей данных

Как новичку влиться в сферу науки о данных? Наличие продуманного плана может дать значительное преимущество начинающему специалисту. Предлагаем взять на вооружение план действий, основанный на личном опыте человека, добившегося успехов в этой области.
Как работает обратное распространение в нейронных сетях

Как работает обратное распространение в нейронных сетях

Обратное распространение используется для эффективного обучения нейронных сетей посредством цепного правила. Рассмотрим особенности этого процесса.
Структуры данных: асимптотический анализ

Структуры данных: асимптотический анализ

Асимптотический анализ алгоритма - это определение математических границ/рамок его производительности во время выполнения, позволяющее очень легко находить время работы алгоритма в лучшем, среднем и худшем случае.
Data Science

Как отточить ваши “инстинкты данных”

Ввиду недавних успехов в области машинного обучения и исследований в области искусственного интеллекта, немного удивительно, что наука о данных стала сферой главного интереса. Нет сомнений...
12 стратегий настройки готовых к производству RAG-приложений

12 стратегий настройки готовых к производству RAG-приложений

По мере увеличения прототипов RAG-конвейеров становится насущным обсуждение стратегий оптимизации их производительности. Посмотрим, как можно повысить результативность работы RAG-конвейера с помощью гиперпараметров и различных стратегий настройки.
Artificial Intelligence

Обратные вызовы Keras за 2 минуты

Что такое обратный вызов Keras? Из документации Keras: Обратный вызов — множество функций, применяемых на данной стадии тренировки. Вы можете использовать их, чтобы посмотреть на внутреннее состояние...
Machine Learning

Пишем нейронную сеть, предсказывающую рак груди, за пять минут

Минута первая: вступление Этот высокоуровневый урок рассчитан на новичков в машинном обучении и искусственном интеллекте. Для того, чтобы успешно создать нейронную сеть, необходимы: Установленный Python второй...
4 Продвинутых приема работы с функциями Python, о которых вы могли не знать

4 Продвинутых приема работы с функциями Python, о которых вы могли не знать

Знаете ли вы, как принудительно задавать именованные аргументы, создавать декоратор функций и анонимные функции или распаковывать массив или словарь в аргументы функции? Предлагаем вашему...
Четыре метода, которые повысят качество работы с Pandas

Четыре метода, которые повысят качество работы с Pandas

Знакомьтесь с "великолепной четверкой" методов - assign, map, query и explode. Это самые крутые фичи Pandas. Они сделают ваш код более ясным, элегантным и эффективным.
Apache Spark

Apache Spark: гайд для новичков

Что такое Apache Spark? Специалисты компании Databricks, основанной создателями Spark, собрали лучшее о функционале Apache Spark в своей книге Gentle Intro to Apache Spark (очень рекомендую...
Data Science

Качество превыше количества: создание идеального проекта в науке о данных

В стартапе, жаргонизм «метрика тщеславия» означает число, находящееся под контролем компании для того, чтобы убедить мир — а иногда и самих себя — в том, что они успешнее,...
Распознавание звуков с помощью глубокого обучения

Распознавание звуков с помощью глубокого обучения

Вы когда-нибудь просыпались с непонятным ощущением: слышишь какой-то звук, но точно знаешь, что в этом звуке что-то не то? Распознавание звуков  —  это один базовых...
Artificial Intelligence

Алгоритм поиска A*

Пошаговый разбор алгоритма поиска А* Поиск короткого пути — это то, чем каждый занимается ежедневно. Алгоритм А *— один из самых популярных методов решения задач на поиск кратчайшего...
Типы операций обновления в MongoDB с использованием Spring Boot

Типы операций обновления в MongoDB с использованием Spring Boot

Разбираемся, как обновлять данные в MongoDB, в чем заключаются преимущества и недостатки существующих способов и как выглядят результаты их применения.
Внутренняя платформа МО Bigeye: цели и методы создания

Внутренняя платформа МО Bigeye: цели и методы создания

Машинное обучение на платформе Bigeyeизбавляет инженеров и специалистов по обработке данных от необходимости вручную настраивать критерии оповещений. Оно существенно экономит время, ведь получение показателей...
Лучший алгоритм решения задач по программированию на Python

Лучший алгоритм решения задач по программированию на Python

По-прежнему актуальны споры о фактической пользе таких веб-сайтов по Python-программированию, как Codewars или Leetcode, и их роли в развитии профессиональных навыков разработчиков. Но несмотря...
Data Science

Персонализация контента с IBM Watson

В своём дипломном проекте я решил продолжить работать с естественным языком, фильмами и IBM Watson. В предыдущем проекте я визуализировал психологические профили персонажей фильмов,...
5 причин смещения в машинном обучении и что с этим делать

5 причин смещения в машинном обучении и что с этим делать

Смещение в машинном обучении означает, что алгоритм дает ошибочные результаты из-за неточных предположений, сделанных на одном из этапов процесса. Чтобы разработать любой процесс машинного обучения,...
SQL

Руководство по SQL: Как лучше писать запросы

Язык структурированных запросов – SQL, является незаменимым навыком в области науки о данных и, вообще говоря, приобрести этот навык довольно просто. Однако большинство забывают, что...
Algorithms

8 базовых алгоритмических задач на собеседованиях

Во время собеседования на должность в IT-сфере часто касаются вопросов применения алгоритмов. Наиболее популярными являются алгоритмы поиска и сортировки (строковые алгоритмы, бинарный поиск, алгоритм...
Machine Learning

Руководство по машинному обучению для новичков

Простое объяснение с примерами из математики, программирования и реальной жизни. Для кого это руководство? Для технических специалистов, которые хотят повторить основы машинного обучения.Для тех, кто не смыслит...
String и string в С#: больше, чем просто стиль?

String и string в С#: больше, чем просто стиль?

Обзор Во-первых, давайте рассмотрим оба типа: String—  это обычный идентификатор, который относится к типу данных .NET System.String. Также необходимо, чтобы был импортирован класс System. string—  это зарезервированный дескриптор в...
Простое развёртывание графовой базы данных: JanusGraph

Простое развёртывание графовой базы данных: JanusGraph

Недавно мне потребовалось постоянно где-то хранить большие графовые данные, и я занялся поисками распределённой графовой базы данных с открытым исходным кодом. Главным требованием было...
Database

Почему в базе данных происходит взаимоблокировка?

Круг вопросов для обсуждения Попробуем объяснить, что такое взаимная блокировка и почему она возникает в базе данных. Напишем SQL-инструкции и искусственно вызовем взаимоблокировку, а также обсудим...
Machine Learning

Алгоритмы машинного обучения простым языком. Часть 1

Как недавнего выпускника буткемпа по машинному обучению от Flatiron School меня буквально затопило советами о том, как стать асом в прохождении интервью. Я заметил,...
Как проверить наличие файла или каталога в R, Python и Bash?

Как проверить наличие файла или каталога в R, Python и Bash?

Проверка наличия файла или каталога в R Для этого примера мы создали файл myfile.txt и каталог my_test_folder. Как проверить наличие файла? Наличие файла легко проверить с помощью команды file.exists()...
Как украсть API-ключи ChatGPT

Как украсть API-ключи ChatGPT

А вы знаете, где нужно хранить API-ключи ChatGPT, чтобы спать спокойно? Известно ли вам, как злоумышленники могут обойти популярные техники безопасности и получить доступ к вашим API-ключам? Чтобы этого не случилось, ознакомьтесь с основными правилами безопасности фронтенда.
Мы снова написали самый быстрый JS-фреймворк UI

Мы снова написали самый быстрый JS-фреймворк UI

Я выработал четкий алгоритм, который применяю практически ко всем видам возникающих передо мной задач. Шаг 1. Определить задачу. Этот этап нередко оказывается самым длительным, потому что...
Автоматизация скриншот-тестирования предварительных просмотров Compose с использованием отражения

Автоматизация скриншот-тестирования предварительных просмотров Compose с использованием отражения

Это решение по автоматизации скриншот-тестирования предварительных просмотров Composable занимает всего пару часов, интегрируется в проект и имеет почти нулевые затраты на обслуживание. При этом оно позволяет быть уверенным в том, что любое изменение пользовательского интерфейса не приведет к неожиданным сбоям.
Motivation

7 секретов для поддержания мотивации при изучении программирования

В Codementor мы с гордостью можем похвастаться более 6000 наставников по программированию, которые помогают людям во всем мире научиться программировать. Одной из самых больших...
RedwoodJS

Взгляд на RedwoodJS

Обзор веб-фреймворка Redwood: Rails в мире React, авторы которого верят, что удобство начинается со стандартизации. Что из себя представляет этот фреймворк? Читайте ответы ниже.