Наука о данных

Всё что касается науки о данных: алгоритмы и структуры данных, Искусственный Интеллект, анализ данных и многое другое!

Neural Networks

Глубокие нейросети: руководство для начинающих

Введение ИИ уже успел достаточно нашуметь — о нейросетях сейчас знают и в научной среде, и в бизнесе. Вам наверняка...
Python

Пять отличных Python-библиотек для data science

Python — это лучший друг специалистов по данным, а библиотеки значительно упрощают их жизнь. Работая над NLP-проектом, я открыл для себя пять отличных Python-библиотек,...
Data Science

4 способа обработки ошибок для стеков

Обработка ошибок — это часть рабочих будней каждого программиста. Всегда были и будут ситуации, когда по какой-либо причине код не заработает, и наша задача — следить...
Julia

В поисках лучшей среды для Julia: Juno или Jupyter?

Одним из важнейших факторов, влияющих на производительность программирования, является среда разработки. Особенно это относится к науке о данных, так как специалисты, работающие...
Machine Learning

Подробное руководство по свёрточным нейронным сетям

Искусственный интеллект существенно развился на своём пути сокращения разрыва между возможностями людей и машин. Разработчики наравне с энтузиастами работают над великим множеством...
Machine Learning

Анализ моделей машинного обучения при помощи Imandra

Расскажем о задачах классификации и регрессии. Данные, модели, условия и Imandra с её возможностями помогать прогнозировать рак и вред от лесных пожаров.
Data Science

8 базовых понятий статистики для науки о данных

Статистика — это разновидность математического анализа, использующая количественные модели и репрезентации для анализа экспериментальных или реальных данных. Главное преимущество статистики — простота представления информации. Недавно я...
Mathematics

Эйнштейн и самая красивая из всех теорий

Британский физик-теоретик Поль Дирак (1902–1984), один из основоположников квантовой механики, однажды написал: «Было трудно примирить ньютоновскую теорию гравитации, в...
Data Science

Моделирование экспоненциального роста

Чтобы лучше усвоить материал, рекомендуем вам использовать данные для примера и Python Notebook. Почему именно экспоненциальный рост?
Python

Сможет ли Julia занять место рядом с Python

Julia и Python —языки программирования, которыми я очень дорожу. Использование Julia вместо Python обладает множеством преимуществ, таких как меньшее время написания кода...
Stack

Для чего нужны стеки?

Когда я узнал, что такое стек, мне стало интересно его практическое применение. Оказалось, что чаще всего эта структура используется для имплементации операции...
Data Science

14 проектов по науке о данных для вашего 14-дневного карантина

Проекты по визуализации Возможно, самые короткие по срокам проекты визуализации данных! Ниже приведены три интересных набора данных, с помощью...
Python

Где и как применить Python на практике? Три основные сферы его применения

Если вы собираетесь изучать такой язык программирования, как Python, или уже изучаете — у вас может возникнуть резонный вопрос: «Для решения каких конкретных задач я могу использовать...
Python

List Comprehensions в Python за 5 минут

Зачем нужен list comprehension в Python? Чтобы сохранить строчки кода. List comprehensions — это один из способов создания...
Artificial Intelligence

Переживут ли творческие профессии революцию искусственного интеллекта?

Людьми нас делает наш разум, а искусственный разум — продолжение нашего. Ян Лекун Люди великолепно развили...
Python

Как создать бота для автоматизации повседневных задач, с помощью Python и Google BigQuery

У каждого из нас есть однообразные задачи, которые мы выполняем изо дня в день, из недели в неделю. Составление отчетов, в большинстве...
Mathematics

Почему 0,99999… равно 1

Давайте разберёмся, почему математики говорят, что 0,(9)=1. То есть ноль целых девять в периоде равно одному. Объяснение простое, но красивое.
Machine Learning

Почему логарифмы так важны в машинном обучении

Если бы вы жили на 10-м этаже, вы бы поднимались по лестнице или пользовались лифтом? Цель в обоих случаях одна: вы хотите...
Neural networks

Заставляем глубокие нейронные сети рисовать, чтобы понять, как они работают

Для нас до сих пор остаётся загадкой то, почему глубокое обучение так хорошо работает. Несмотря на то, что имеется куча догадок, почему...
Artificial Intelligence

Я хочу изучать AI и машинное обучение. С чего мне начать?

Когда-то я работал в Apple Store и мечтал изменить свою жизнь: вместо обслуживания техники Apple, мне хотелось ее создавать. Я начал изучать машинное обучение (ML)...
Artificial Intelligence

Рекуррентная нейронная сеть с головы до ног

Нейрон — строительный элемент человеческого мозга. Он анализирует сложные сигналы за микросекунды и отправляет ответы нервной системе, которая решает сложные задачи. У всех нейронов...
Python

Интерактивное управление в Jupyter Notebooks

Вряд ли найдётся занятие бесполезнее, чем вновь и вновь запускать одну и ту же ячейку, немного меня значение...
Data Science

Шесть рекомендаций для начинающих специалистов по Data Science

Навыки, необходимые для работы Сфера data science пользуется большим спросом, однако для трудоустройства вам потребуется опыт...
Artificial Intelligence

Как искусственный интеллект меняет финансовый сектор?

Анализ акций и других ценных бумаг обычно кажется нам крайне трудоёмким процессом. Эффективное управление рисками требует масштабных исследований и анализа моделей, данных...
Data Science

Гамма-функция - интуиция, определение, примеры

Почему это интересно? Многие распределения вероятностей определяются с использованием гамма-функции, я перечислю лишь некоторые: гамма-распределение, бета-распределение, распределение Дирихле, распределение...
Audio Data Analysis

Анализ аудиоданных с помощью глубокого обучения и Python (часть 1)

Введение Аудиоанализ - область, включающая автоматическое распознавание речи (ASR), цифровую обработку сигналов, а также классификацию, тегирование и генерацию...
Data Science

Байесовский вывод - интуиция и примеры

Часть 1, Часть 2, Часть 3 Зачем кто-то вообще изобрел байесовский вывод?  Чтобы обновлять вероятность по...
numpy

Нейронная сеть с нуля при помощи numpy

Здесь можно посмотреть полный код. Для того, чтобы полностью понять статью, нужны базовые знания принципов работы с numpy, линейной...
Data Science

Вычисление π: моделирование методом Монте-Карло

Каждый год 14 марта любители математики отмечают День числа пи! Есть много способов вычислить это легендарное число π, которое примерно равно 3,14159…
Software Architectural Patterns

Краткий обзор 10 популярных архитектурных шаблонов приложений

Вы когда-нибудь задавались вопросом о том, как именно разрабатываются масштабные системы крупных предприятий? До того, как перейти к непосредственной разработке программного обеспечения, мы определяемся...
Data Science

Бета-распределение: интуиция, примеры, вывод

Часть 1, Часть 2, Часть 3 Бета-распределение — это распределение вероятностей по вероятностям. Мы можем использовать его для моделирования вероятностей: рейтинг...
Data Science

Почему за способностью объяснения модели стоит будущее Data Science

Техники объяснения модели показывают, что изучает модель, а знание о том, что происходит внутри модели имеет большое значение.
Data Science

Настройка Data Science окружения на вашем компьютере

После прохождения различных курсов и обучения на различных образовательных платформах, вроде Datacamp, вашим следующим шагом станет использование полученных знаний о Python, R, Git или...
Machine Learning

Алгоритмы машинного обучения простым языком. Часть 1

Как недавнего выпускника буткемпа по машинному обучению от Flatiron School меня буквально затопило советами о том, как стать асом в прохождении интервью....
Machine Learning

Топ-10 ошибок анализа данных

Аналитик данных  —  лучший в статистике среди программистов и лучший программист среди статистиков. В этом топе обсудим, как программисту стать лучше в...
Data Science

Введение в теорию информации

Индонезийские пещеры острова Борнео дают представление о самой примитивной зарегистрированной форме коммуникации. Около 40000 лет назад, ещё до развития письменного языка, физические...
Алгоритмы

Алгоритмы поиска, которые должен знать каждый специалист по обработке и анализу данных

В последние годы алгоритмы для решения задач автоматического планирования и диспетчеризации стали вновь популярными в области машинного обучения. Понимание принципов их работы...
Machine Learning

Руководство по машинному обучению для новичков

Простое объяснение с примерами из математики, программирования и реальной жизни. Для кого это руководство?
Data Science

Что такое распределение Пуассона?

Прежде чем вводить параметр λ и подставлять его в формулу, давайте задумаемся: почему Пуассону вообще пришлось изобретать такое распределение?
Data Science

Плотность вероятности - это не сама вероятность

Наибольшее значение вероятности — единица. Это общеизвестный факт! Однако для некоторых плотностей вероятности (например, плотности вероятности экспоненциального распределения на графике ниже), когда λ= 1.5...
Statistics

Статистика - это грамматика науки о данных. Часть 3

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4,...
Machine Learning

Выборки. Джентльменский набор

Простая случайная выборка Вы хотите выбрать подмножество, в котором каждый член имеет равную вероятность быть выбранным. Ниже мы случайно...
Computer Science

Много узлов, одна распределенная система

Говорят, что один (мужчина, женщина — какой-то человек) — в поле не воин. Но в наши дни к этому списку можно добавить и «компьютер». Мы окружены...
Apache Spark

Apache Spark: гайд для новичков

Что такое Apache Spark? Специалисты компании Databricks, основанной создателями Spark, собрали лучшее о функционале Apache Spark в своей книге Gentle...
Statistics

Статистика - это грамматика науки о данных. Часть 2

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть...
Pandas

10 лайфхаков для работы с библиотекой Pandas

Pandas — широко распространённая Python-библиотека для работы со структурированными данными. По её использованию уже составлено большое количество уроков, однако, я хотел бы рассказать о...
Data Science

Развёртывание модели машинного обучения в виде REST API

В статье вы узнаете, как разворачивать модели машинного обучения и составлять прогнозы при помощи любого языка программирования, который вам нравится. Конечно, за...
Machine Learning Models

Все модели машинного обучения за 6 минут

Все модели машинного обучения разделяются на обучение с учителем (supervised) и без учителя (unsupervised). В первую категорию...
Python

Рекурсия и цикл, в чем разница? На примере Python

Цикл — это фундаментальный инструмент в программировании. Существует множество различных типов циклов, но почти все они выполнят одну базовую функцию: повторение определённых действий над...
Data Science

5 видов регрессии и их свойства

Линейная и логистическая регрессии обычно являются первыми видами регрессии, которые изучают в таких областях, как машинное обучение и наука о данных. Оба метода считаются...
Machine Learning

Ускорение GPU в машинном обучении и больших данных

Введение Вычисления на графических процессорах становятся всё более и более важными. Количество данных во всём...
Data Science

Условная независимость - основа байесовской сети

1. Восприятие условной независимости  Скажем, A — рост ребенка, а B — количество слов, которые он знает. Кажется, что если A высокий,...
Data Science

Сопряженное априорное распределение

Часть 1, Часть 2, Часть 3 1. Что такое априорное распределение?  Априорная вероятность — это вероятность события до...
Data Science

5 базовых статистических концептов, которые должен знать каждый специалист по обработке данных

В таком искусстве, как наука о данных, статистика может оказаться мощным инструментом. В широком смысле, статистика означает использование математики для технического анализа данных. Базовая...
Data Analysis

Анализ автоаварий в Барселоне с использованием Pandas, Matplotlib и Folium

Open Data Barcelona - это сервис, предоставляющий наборы данных Барселоны, который содержит около 400 наборов, охватывающих широкий спектр тем, таких как население,...
Data Science

Как составить Data Science портфолио? Часть 1

Как получить работу в области Data Science? Во-первых, нужно знать основы статистики, машинного обучения, программирования и т.д. Во-вторых, вам нужно будет составить портфолио. Да, несомненно,...
Machine Learning Model

Как построить модель машинного обучения, если под рукой нет доступных данных

Перед решением любой задачи науки о данных, такой как исследовательский анализ или построение модели, нужно ответить на следующие вопросы:
Binary Trees

Двоичные деревья: управляемый подход к поиску значений

Зачем Разработчик нанимается небольшим городом населением в сто тысяч. Задача состоит в том, чтобы преобразовать бумажную телефонную книгу в цифровой вариант. У мэра города есть...
Python

Random forest в Python

Практический пример машинного обучения До сих по еще не было более удачного времени для машинного обучения. Благодаря доступным учебным онлайн ресурсам в Интернет, бесплатные инструменты...
Jupyter Notebook

Настройте свой Jupyter Notebook правильно

В своей известной презентации “Я не люблю блокноты” (видео и слайды) Джоэль Грус критикует Jupyter Notebook — вероятно, самую популярную среду разработки для машинного...
Computer Vision

Сканер документов на основе технологии машинного зрения

В последнее время, когда я работал с OpenCV, мне пришла в голову идея написать фреймворк для преобразования изображений. Такое приложение будет полезно...
SQL

Руководство по SQL: Как лучше писать запросы

Язык структурированных запросов – SQL, является незаменимым навыком в области науки о данных и, вообще говоря, приобрести этот навык довольно просто. Однако большинство забывают, что...
Data Science

Машинное обучение. С чего начать? Часть 2

Предыдущая часть: Часть 1 Очистка данных В любом проекте приходится заниматься «чисткой данных». К следующему...
JavaScript

Сумасшедший способ проверить, является ли число простым, используя регулярное выражение

В поисках алгоритмов для выявления простых чисел, вы где-нибудь, да встречали подобное выражение:   Что это? Это способ проверки, является ли число простым. Вам даже не...
Data Science

Значение Data Science в современном мире

Что же такое data science? Data science — это научная дисциплина, которая занимается поиском истины и использует данные для получения знаний и идей. Data...
Data Science

Исследование операций: что, когда и как

Несколько расплывчатый термин “исследование операций” был придуман в Первую мировую войну. Британские военные собрали группу ученых для распределения недостаточных ресурсов — например, еды, медикаментов,...
Python

Обзор библиотеки Datatable в Python

Данные, с которыми вы работаете, уже настолько большие, что вы часами ждёте их загрузки? Пора осваивать новый инструмент, который избавит вас от...
Anaconda

Как установить Anaconda на Mac

Просто и понятно о том, как установить Anaconda на Mac и исправить страшную ошибку «conda command not found» Необходимость...
SQL

NoSQL убивает SQL?

На прошлой неделе мой друг переслал мне письмо от успешного предпринимателя, который утверждает, что “SQL мёртв”.  Предприниматель убеждён, что...
Machine Learning

25 прикольных вопросов для собеседования по машинному обучению

Могут ли вопросы на собеседовании по машинному обучению быть одновременно прикольными и глубокими? 25 вопросов, которые не просто...

Какие десять книг про науку о данных и искусственный интеллект стоит прочитать в 2020

Чтобы стать экспертом в какой-либо области, нужно взять на себя обязательство учиться и быть последовательным в достижении своих целей. И это справедливо...
Data Science

Объясняем производящую функцию моментов

1. Начнем с главного — что такое “момент” в вероятности и статистике? Скажем, нас интересует случайная переменная X.
Algorithms

8 базовых алгоритмических задач на собеседованиях

Во время собеседования на должность в IT-сфере часто касаются вопросов применения алгоритмов. Наиболее популярными являются алгоритмы поиска и сортировки (строковые алгоритмы, бинарный...
Bamboolib

Bamboolib — изучайте и используйте Pandas без написания кода

Установка Bamboolib Установка достаточно проста: pip install bamboolib Чтобы Bamboolib работал с Jupyter...
Algorithms

Решение алгоритмических проблем: Поиск повторяющихся элементов в массиве

Проблема Найти дубликат в массиве Given an array of n + 1 integers between 1 and...
JavaScript

6 лучших JS-библиотек для визуализации данных и создания отчетов

Веб-инструменты для отчетов используются для представления, создания и изменения отчетов с помощью веб-интерфейса — веб-браузера. Эти инструменты могут быть встроены в сторонние...
Statistics

Статистика - это грамматика науки о данных. Часть 5

Часть 1, Часть 2, Часть 3, Часть 4, Часть 5 Условная вероятность
Data Science

Анализ независимых компонент в Python

Предположим, вы на вечеринке беседуете с милой девушкой. Вас атакует множество звуков: разговоры людей по всему дому, громко играющая на фоне музыка....
Statistics

Статистика - это грамматика науки о данных. Часть 1

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть 5
Artificial Intelligence

Обратные вызовы Keras за 2 минуты

Что такое обратный вызов Keras? Из документации Keras: Обратный вызов — множество функций, применяемых на...
AI

Топ — 9 фреймворков в мире искусственного интеллекта

Сначала были роботы, затем ассистенты Google Now и Siri, а сегодня новый ИИ — Google Duplex. Похоже, искусственный интеллект добился определенных успехов в том чтобы стать...
Science

Важные аспекты математики в науке о данных - «что» и «почему»

Введение Математика является фундаментом для любой современной научной дисциплины. И ни для кого не секрет, что почти все методы современной науки о данных (включая машинное...
DataScience

Сумма экспоненциальных случайных величин

Сумма экспоненциальных случайных величин Пусть X1 и X2 — независимые, экспоненциальные и случайные величины со средним значением λ. Пусть Y=X1+X2....
Data Science

Как составить Data Science портфолио? Часть 2

Предыдущие части: Часть 1 Портфолио — итеративно У Фавио Васкеса есть отличная статья на тему того, как он получил работу в сфере Data Science. Как вы уже поняли, в своей статье он...
Machine Learning

Пишем нейронную сеть, предсказывающую рак груди, за пять минут

Минута первая: вступление Этот высокоуровневый урок рассчитан на новичков в машинном обучении и искусственном интеллекте. Для того, чтобы успешно...
Streamlit

Быстрая сборка и развертывание дашборда со Streamlit

Со Streamlit разработка дашборда для решения машинного обучения становится невероятно простой. Streamlit — это фреймворк с открытым кодом, специально разработанный для...
Golang

Привет, Go!

За последние пару месяцев я полюбил Go по разным субъективным причинам. Чтобы продемонстрировать всю красоту и простоту языка Go, рассмотрим классическую небольшую...
Python

4 простые визуализации данных в Python

Визуализация данных является неотъемлемой частью любых проектов в науке о данных или в проектах машинного обучения. Для того, чтобы получить некоторое представление об определенных...
Data Science

3 случая, когда линейная модель может ошибаться

Введение В этой статье я покажу три случая, когда линейные модели могут привести к неверным результатам. Основное внимание будет...
Big Data

Vaex: Python библиотека для работы с DataFrame вне памяти и быстрой визуализации

Данных становится всё больше Некоторые массивы данных слишком велики, чтобы поместиться в основной памяти обычного компьютера, не говоря уже о ноутбуке. Тем не менее, все хотят...
Python

Оценка производительности нейронной сети Keras с помощью визуализаций Yellowbrick

Если вы когда-то использовали Keras для создания модели машинного обучения, то скорее всего перед этим вы строили примерно такие графики:
Quantum Сomputing

Квантовые вычисления для всех

Квантовые вычисления. Наряду с квантовой запутанностью и квантовой телепортацией это модное учёное словечко широко распространено в научной фантастике и научно-популярных СМИ. Но...
Algorithms

Завораживающая последовательность Фибоначчи

Занимаясь изучением обработки данных, расчётами, а также другими компьютерными и математическими операциями, мы сталкиваемся со многими алгоритмами. Несмотря на то, что иногда...
Pandas

Ускоряем работу с pandas при помощи modin

Pandas — библиотека, которая не нуждается в представлении, если речь идёт о работе с данными. Она привносит высокую производительность, структурирование данных и удобную работу...
Rust

Реализация base64 на Rust

Практически каждый разработчик так или иначе использует base64. Но каков механизм работы этого алгоритма? Я считаю, что самый простой способ по-настоящему понять,...
Statistics

Статистика - это грамматика науки о данных. Часть 4

Повторение статистики для начала путешествия по науке о данных Часть 1, Часть 2, Часть 3, Часть 4, Часть...
Data Science

Как составить Data Science портфолио? Часть 3

Предыдущие части: Часть 1, Часть 2 Значение социальных сетей Этот раздел очень похож на «Значение портфолио», просто поделенный на подразделы. Как сказал Дэвид Робинсон: Когда я оцениваю кандидата, для...
Data Science

Как работает случайный лес?

Как и почему работает случайный лес? Разбираемся Важная часть машинного обучения  —  это классификация. Мы хотим знать, к какому...
Machine Learning

Алгоритмы машинного обучения простым языком. Часть 3

Предыдущие части: Часть 1, Часть 2 Логистическая регрессия Итак, мы уже познакомились с линейной регрессией. Она...
Python

5 простых способов визуализации данных на Python. С кодом

Визуализация данных — это большая часть работы специалистов в области data science. На ранних стадиях развития проекта часто необходимо выполнять разведочный анализ данных (РАД, Exploratory data...
Clean Code

Подсказки по именованию логических переменных

Существует определенное соглашение  —  снабжать имена логических переменных и функций префиксами “is” или “has”. Ну, знаете, что-то вроде isLoggedIn, hasAccess или наподобие...
DataScience

Сумма экспоненциальных случайных величин

Сумма экспоненциальных случайных величин Пусть X1 и X2 — независимые, экспоненциальные и случайные величины со средним значением λ. Пусть Y=X1+X2....
API

Улучшение производительности .NET Core API

Google предоставляет такую статистику посещаемости веб-страниц: 53% посетителей мобильных сайтов покидают страницу, если она загружается более трёх секунд.https://www.thinkwithgoogle.com/marketing-resources/data-measurement/mobile-page-speed-new-industry-benchmarks/
Python

Как я создал веб-скрапер на Python для поиска жилья

Через несколько месяцев мне придется съехать из съемной квартиры и искать новую. Как бы это ни было тяжело, особенно учитывая замаячивший на горизонте ценовой...
CodeReview

Code Review - Полное руководство

После проведения сотни code rewiew, лично возглавив R&D (Research & Development) команду и спровоцировав несколько непреднамеренных ошибок, я решил поделиться своими выводами...