Наука о данных

Всё что касается науки о данных: алгоритмы и структуры данных, Искусственный Интеллект, анализ данных и многое другое!

Настоящие беспилотные такси выезжают на улицы города

Настоящие беспилотные такси выезжают на улицы города

Компания Waymo официально запускает парк беспилотных автомобилей в городе Финикс Waymo  —  компания по производству беспилотных автомобилей, вышедшая из Google...
5 доказательств силы итерируемых объектов в Python

5 доказательств силы итерируемых объектов в Python

Что такое итерируемые объекты?  Итерируемые (перебираемые) объекты — это коллекция важных структур данных в Python. Например, к ним относятся такие...
Креативное программирование: методы и инструменты для JavaScript, Python и других языков

Креативное программирование: методы и инструменты для JavaScript, Python и других языков

Креативное программирование Задача этого вида программирования состоит в создании не функционального, а выразительного продукта. В этом процессе немаловажную...
К подготовке и публикации первого пакета Python готовы!

К подготовке и публикации первого пакета Python готовы!

Python стал одним из самых широко используемых языков программирования. Главным образом объясняется это тем, что мы, его обычные пользователи, можем поделиться своим...
Алгоритм Рабина-Карпа с полиномиальным хешем и модульной арифметикой

Алгоритм Рабина-Карпа с полиномиальным хешем и модульной арифметикой

Введение Созданный Ричардом Карпом и Майклом Рабином алгоритм Рабина-Карпа  —  это алгоритм поиска строки, который использует хеширование для...
Что нужно знать, чтобы начать заниматься квантовыми вычислениями

Что нужно знать, чтобы начать заниматься квантовыми вычислениями

Несмотря на относительно старую технологию, только в последнее время квантовые вычисления привлекли к себе много внимания как индустрии, так и СМИ. Квантовые...
Как я устроил пожизненный запас чесночных пицца-палочек с помощью Python и Selenium

Как я устроил пожизненный запас чесночных пицца-палочек с помощью Python и Selenium

Не знаю как вы, а я обожаю пиццу, особенно вместе с чесночными палочками от «Папа Джонс». И когда мне пришло это сообщение...
Сборка и запуск загрузчика

Сборка и запуск загрузчика

Что вас здесь ждёт Если вы так же любопытны, как я, вы наверняка задумывались о том, как работают операционные...
5 подводных камней нереляционных баз данных

5 подводных камней нереляционных баз данных

Когда речь заходит о нереляционных базах данных, не все видят две стороны одной медали: многие упускают из виду то, что у этих...
Как освоить алгоритмы?

Как освоить алгоритмы?

Чтобы что-то было сделано компьютером, нужно указать ему, как это сделать. Нужно написать программу с пошаговым объяснением: какие задачи компьютер должен выполнить...
10 Графовых алгоритмов

10 Графовых алгоритмов

Графы превратились в невероятно сильное средство моделирования и получения данных из соцсетей, веб-страниц и ссылок, а также определения местоположения и маршрутов в...
ML-инженер или специалист по обработке данных? (Закат науки о данных?)

ML-инженер или специалист по обработке данных? (Закат науки о данных?)

Привет, меня зовут Джейсон Я специалист по обработке данных (чуть позже в статье это понятие будет определено конкретнее) в...
Python

Python 3.9

Что нового ожидает нас в этой версии и в будущих релизах? Вышел полный релиз Python 3.9! Очевидно,...
Data Science

Когда ИИ или машинное обучение неуместны

Вообразите, что вам только что удалось заполучить набор данных клинических испытаний. Превосходно! Чтобы помочь вам войти в роль, я подготовила следующие данные:
ArtificialIntelligence

SpineNet: нетрадиционная архитектура backbone-сети от Google Brain

Проблема классификации была весьма эффективно решена при помощи архитектур типа “энкодер-декодер”, в которых энкодерам свойственно постепенное уменьшение масштаба. Однако эта архитектура...
Database

Скрытые алмазы: уведомления об изменениях в БД

Вступление Получение управляемых событиями уведомлений об изменениях (EDCN), когда данные изменяются непосредственно из БД, без необходимости опроса для получения...
Pandas

7 трюков pandas для науки о данных

1. Анализ образцов датафреймов с помощью df.groupby().__iter__() Обычно исследовать набор данных строка за строкой или группа за группой...
Python

4 шага к совершенству: правила для идеальных функций

Функции — это блоки кода, выполняющие требуемые действия. Они являются фундаментальными составляющими любого проекта разработки. Без них мы не сможем ни обработать данные, ни...
Data Science

Доходчиво об обучении на основе многообразий с алгоритмами IsoMap, t-SNE и LLE

Метод главных компонент (PCA) весьма производителен, но зачастую дает сбой, так как предполагает возможность линейного моделирования данных. Он выражает новые признаки в...
Python

Не слушай профи - делай print()

Если вы скажете профессиональным программистам, что используете print() для отслеживания ошибок, готовьтесь уворачиваться от летящих в вашу сторону стульев. Есть ли смысл...
Audio Datasets

25 наборов аудиоданных для исследований

Наборы музыкальных данных Free Music Archive FMA предназначен для анализа музыки и состоит из полноразмерного...
Data Science

Крутые наборы данных для машинного обучения

Более 50 открытых наборов для ваших исследований Хорошее исследование в машинном обучении начинается с подходящего набора данных. Нет необходимости...
Python

Как собрать кубик Рубика с помощью генетических алгоритмов

Введение В качестве эксперимента я решил собрать кубик Рубика с помощью генетических алгоритмов (ГА). Их основная концепция заключается в...
Data Science

Безградиентный подход к оптимизации нейронной сети

Градиентный спуск  —  это одна из важнейших идей в области машинного обучения, в котором алгоритм с учетом функции затрат итеративно выполняет шаги...
DataScience

Поиск с возвратом в решении типичных задач на собеседовании

Поиск с возвратом  —  это эффективный метод для решения алгоритмических задач, обычно задаваемых на собеседовании. Данный вид поиска ищет решения в глубину...
Spotify

От Spotify к собственной рекомендательной системе

Каждый понедельник моя жизнь озаряется одним событием. И учёба или работа здесь ни при чём — я говорю об еженедельном обновлении чудесного плейлиста “Открытия...
Python

Python: как заменить циклы For на Map, Filter и Reduce

Вы когда-нибудь смотрели на свой код и видели водопад из циклов for? Вам приходилось щурить глаза и наклоняться к монитору, чтобы рассмотреть...
Python

Теория графов в кратком и практичном изложении

Графы являются очень полезной в программировании структурой, поскольку зачастую задачи компьютерной науки можно представить в виде графа и решить с помощью одной...
Data Science

Статистические типы данных, используемые в машинном обучении

Введение в статистику Статистика — это наука об изучении данных. Знания в этой области позволяют использовать подходящие методы сбора и анализа...
Computer Science

Продвинутый взгляд на рекурсию

Рекурсия является одним из наиболее мощных подходов в программировании. С ее помощью можно решать чрезвычайно сложные задачи, печатая при этом невероятно малый...
Machine Learning

Не учите машинное обучение

Примечание: следующие рассуждения основаны на моих личных наблюдениях за командами, работающими над машинным обучением, а не академическом обзоре отрасли.
Python

Python 3: 3 функции, которые следует помнить

Многие разработчики, особенно новички, уже активно пишут на Python 3. И хотя в этой версии появилось множество новых функций, многие из них...
Database

Моделирование связей графа в DynamoDB

В основе Koan лежат его цели и то, как эти цели взаимосвязывают людей и команды внутри компании. Эти связи зачастую оказываются сложными,...
Artificial Intelligence

Инновационный алгоритм глубокого обучения в Google Translate

Современный Google Translate просто потрясает своими возможностями. Для реализации способности выполнять перевод между любой парой из десятков поддерживаемых языков создатели этого инструмента...
Data Science

От продвинутой к эффективной аналитике

За последнюю декаду в компаниях произошел фундаментальный сдвиг в философии принятия решений. Лидеры ушли из среды, где был важен личный опыт и...
Python

Метод опорных векторов: примеры на Python

Метод опорных векторов (далее МОВ)  —  это техника машинного обучения с учителем. Она используется в классификации, может быть применена к регрессионным задачам.
DeepNote

Deepnote - новая IDE для специалистов по данным

Дисклеймер: автор никак не связан с Deepnote или его участниками. Deepnote — это бесплатный онлайн-блокнот для специалистов по данным, фокусирующийся...
DetectoRS

DetectoRS - новейшее средство обнаружения объектов от Google Research

В области компьютерного зрения не прекращается поиск новых техник, алгоритмов и сквозных обучаемых конвейеров для задач по обнаружению объектов и сегментации изображений....
Database

Почему в базе данных происходит взаимоблокировка?

Круг вопросов для обсуждения Попробуем объяснить, что такое взаимная блокировка и почему она возникает...
Data Science

Слабо контролируемое обнаружение объектов - сквозной цикл обучения

Обнаружение объектов  —  широко известная задача компьютерного зрения, по которой было проведено огромное число исследований. Методы же контролируемого обнаружения объектов стали...
DesignPatterns

Под покровом капустного листа: шаблон Декоратор

Я родилась в городке, расположенном на западном берегу реки Амур на Дальнем востоке России. Эта область известна своим влажным континентальным климатом, для...
Algorithms

Наглядное объяснение алгоритма Беллмана-Форда

Алгоритм Беллмана-Форда находит в ориентированном графе кратчайшие пути от исходной вершины до всех остальных. В отличие от алгоритма Дейкстры, в алгоритме Беллмана-Форда...
Machine Learning

Обзор шаблонов SnapML и их возможностей в Lens Studio

В июне 2020 года Snapchat выпустил Lens Studio 3.0. — крупное обновление своего ПО для создания эффектов дополненной реальности (далее AR). Среди всего изобилия...
Python

Выбор оптимального алгоритма поиска в Python

Когда дело касается обучения, мы, как правило, используем один из двух основных подходов: идём либо вширь и стараемся охватить как можно больший...
Computer Science

Графы: основы теории, алгоритмы поиска

Возможно, вы уже знакомы с понятием спортивного программирования и знаете, что оно помогает развить навыки решения проблем и прокачать технические знания о...
Data Science

Почему мы создали платформу для инженерии машинного обучения, а не науки о данных

Около года назад некоторые из нас начали работать над платформой машинного обучения с открытым исходным кодом Cortex. Наша мотивация была проста: создание...
Python

5 секретов наилучшего использования кортежей в Python

Python, являясь языком программирования общего назначения, предоставляет набор встроенных типов данных, включая int, str, tuple, list, dict и set. Четыре последних считаются...
GPT3

Как работает GPT3

Обученная языковая модель генерирует текст. В качестве входных данных при желании ей можно также передать некоторый текст, влияющий на выходные данные. Выходные...
Python

Утиная типизация в Python - 3 примера

Утиная типизация Опытным программистам концепция утиной типизации наверняка знакома. Для новичков же это словосочетание может звучать довольно странно: какое...
Python

Python в 2021: расписание релизов и основные функции

На данный момент мы используем Python 3.8, а последняя стабильная версия 3.8.4 была выпущена совсем недавно. Python 3.9 уже находится на стадии...
Python

Python: 5 ошибок в применении охвата списка

Охват списка, (далее ОС), бесспорно, самая мощная возможность Python, которая может оказаться невероятно эффективным инструментом, но может и сильно снизить читаемость кода....
Data Science

Гениально или глупо? Самая неоднозначная нейросеть

Некоторые считают нейронную сеть экстремального обучения (ELM) одной из самых удачных нейросетей — изучению её архитектуры даже посвящена отдельная конференция. Сторонники ELM утверждают, что...
Database

Не используйте ID, сгенерированные базой данных для доменных сущностей

Вы, вероятно, позволяли базам данных генерировать ID для сущностей по крайней мере один раз. Но что, если я скажу...
Mathematics

Метод подсчёта количества решений

Линейные алгебраические уравнения — одни из самых простых уравнений, которые мы можем решить. Если в уравнении только одна переменная, решение тривиально, в то время...
Python

Связный список в деталях

Определение и пояснение?‍? Когда мы будем говорить “связный список”, то подразумеваться будет однонаправленный связный список. Чтобы получше...
Tensorflow

Автоматизация Doom с глубоким Q-обучением: реализация в Tensorflow

Введение Методы онлайнового обучения машин (ОО) — это семейство динамических алгоритмов обучения с подкреплением, которое стоит за кулисами многих достижений во...
Python

10 трюков для мастеров Python

На первый взгляд Python может показаться простым языком, который любой может освоить, и многих удивляет, какого мастерства можно достичь в этом языке....
Data Science

Глубокие свёрточные нейросети: руководство для начинающих

Перед прочтением В этой статье предполагается, что у читателя уже есть базовые знания о глубоких нейронных сетях (нейронных...
Data Science

Как сгенерировать настоящие случайные числа в Solidity с блокчейном

Если бы вы погуглили фразу “случайные числа в Solidity” (речь идёт об англоязычном поиске), то в самых популярных результатах выдачи было...
Python

5 любопытных библиотек Python

Как один из наиболее популярных языков программирования, Python содержит огромное количество прекрасных библиотек, облегчающих разработку, таких как Pandas, Numpy, Matplotlib, SciPy и...
Python

Пошаговое построение логистической регрессии в Python

Логистическая регрессия — это алгоритм классификации машинного обучения, используемый для прогнозирования вероятности категориальной зависимой переменной. В логистической регрессии зависимая переменная является бинарной переменной, содержащей...
Julia

Стоит ли учить Julia?

Julia — это новейший IT-язык, поэтому я решил его попробовать. Вопрос в том, стоит ли добавлять его в арсенал специалиста по данным?
Data Science

7 способов раскрыть жульничество аналитика данных

Не имеет значения, являетесь ли вы крупным или малым предпринимателем, инвестором, частью менеджерского звена компании, судьёй на марафоне программирования или иным участником...
Jupyter

Как Jupyter превратился в полноценную IDE

Jupyter Notebook - удобный инструмент для поэтапного развития идей по разработке ПО. Специалисты по данным используют его для записи процесса своей работы,...
Artificial Intelligence

Почему люди подсаживаются на TikTok? Алгоритм ИИ, который вас подловил

Tick Tok стремительно завоёвывает мир. Согласно данным Sensor Tower, это приложение для коротких видео было загружено более 2 миллиардов раз с...
Data Frame

Как за секунды обрабатывать DataFrame с миллиардами строк

Анализ больших данных в Python переживает свой ренессанс. Всё началось с NumPy, которая тоже в каком-то смысле причастна к инструменту, с которыми...
Python

3 простых шага для оптимизации гиперпараметров в любом Python-скрипте

Итак, вы написали Python-скрипт, который обучает и оценивает модель машинного обучения. И теперь вам хочется оптимизировать гиперпараметры и повысить производительность модели.
Artificial Intelligence

Лучшие фреймворки для ИИ и машинного обучения в веб-разработке

Конкуренция на технологическом рынке чрезвычайно высока, и компании стремятся получить преимущество с помощью веб-дизайна и разработки. Чтобы веб-приложение...
Tensor

Что такое тензор?

Концепция тензора была создана в 1900 году двумя итальянскими математиками — Туллио Леви-Чивита и Грегорио Риччи-Курбастро, и, как это обычно бывает, основывалась на работе...
Machine Learning

Анализ моделей машинного обучения при помощи Imandra

Расскажем о задачах классификации и регрессии. Данные, модели, условия и Imandra с её возможностями помогать прогнозировать рак и вред от лесных пожаров.
Python

Пять отличных Python-библиотек для data science

Python — это лучший друг специалистов по данным, а библиотеки значительно упрощают их жизнь. Работая над NLP-проектом, я открыл для себя пять отличных Python-библиотек,...
Neural Networks

Глубокие нейросети: руководство для начинающих

Введение ИИ уже успел достаточно нашуметь — о нейросетях сейчас знают и в научной среде, и в бизнесе. Вам наверняка...
Data Science

4 способа обработки ошибок для стеков

Обработка ошибок — это часть рабочих будней каждого программиста. Всегда были и будут ситуации, когда по какой-либо причине код не заработает, и наша задача — следить...
Julia

В поисках лучшей среды для Julia: Juno или Jupyter?

Одним из важнейших факторов, влияющих на производительность программирования, является среда разработки. Особенно это относится к науке о данных, так как специалисты, работающие...
Data Science

Моделирование логистического роста

Часть 1, Часть 2 В прошлой статье мы рассмотрели пример моделирования первой вспышки коронавируса с помощью экспоненциального роста. Следующая...
Machine Learning

Подробное руководство по свёрточным нейронным сетям

Искусственный интеллект существенно развился на своём пути сокращения разрыва между возможностями людей и машин. Разработчики наравне с энтузиастами работают над великим множеством...
Artificial Intelligence

Переживут ли творческие профессии революцию искусственного интеллекта?

Людьми нас делает наш разум, а искусственный разум — продолжение нашего. Ян Лекун Люди великолепно развили...
Mathematics

Эйнштейн и самая красивая из всех теорий

Британский физик-теоретик Поль Дирак (1902–1984), один из основоположников квантовой механики, однажды написал: «Было трудно примирить ньютоновскую теорию гравитации, в...
Data Science

8 базовых понятий статистики для науки о данных

Статистика — это разновидность математического анализа, использующая количественные модели и репрезентации для анализа экспериментальных или реальных данных. Главное преимущество статистики — простота представления информации. Недавно я...
Data Science

3 случая, когда линейная модель может ошибаться

Введение В этой статье я покажу три случая, когда линейные модели могут привести к неверным результатам. Основное внимание будет...
Python

Сможет ли Julia занять место рядом с Python

Julia и Python —языки программирования, которыми я очень дорожу. Использование Julia вместо Python обладает множеством преимуществ, таких как меньшее время написания кода...
Machine Learning

Почему логарифмы так важны в машинном обучении

Если бы вы жили на 10-м этаже, вы бы поднимались по лестнице или пользовались лифтом? Цель в обоих случаях одна: вы хотите...
Artificial Intelligence

Как искусственный интеллект меняет финансовый сектор?

Анализ акций и других ценных бумаг обычно кажется нам крайне трудоёмким процессом. Эффективное управление рисками требует масштабных исследований и анализа моделей, данных...
Mathematics

Почему 0,99999… равно 1

Давайте разберёмся, почему математики говорят, что 0,(9)=1. То есть ноль целых девять в периоде равно одному. Объяснение простое, но красивое.
Data Science

14 проектов по науке о данных для вашего 14-дневного карантина

Проекты по визуализации Возможно, самые короткие по срокам проекты визуализации данных! Ниже приведены три интересных набора данных, с помощью...
Data Science

Моделирование экспоненциального роста

Чтобы лучше усвоить материал, рекомендуем вам использовать данные для примера и Python Notebook. Почему именно экспоненциальный рост?
Data Science

Введение в теорию информации

Индонезийские пещеры острова Борнео дают представление о самой примитивной зарегистрированной форме коммуникации. Около 40000 лет назад, ещё до развития письменного языка, физические...
Rust

Реализация base64 на Rust

Практически каждый разработчик так или иначе использует base64. Но каков механизм работы этого алгоритма? Я считаю, что самый простой способ по-настоящему понять,...
Computer Vision

Сканер документов на основе технологии машинного зрения

В последнее время, когда я работал с OpenCV, мне пришла в голову идея написать фреймворк для преобразования изображений. Такое приложение будет полезно...
Quantum Сomputing

Квантовые вычисления для всех

Квантовые вычисления. Наряду с квантовой запутанностью и квантовой телепортацией это модное учёное словечко широко распространено в научной фантастике и научно-популярных СМИ. Но...

Какие десять книг про науку о данных и искусственный интеллект стоит прочитать в 2020

Чтобы стать экспертом в какой-либо области, нужно взять на себя обязательство учиться и быть последовательным в достижении своих целей. И это справедливо...
Data Science

Создаем YouTube видео из кода

Если вы когда-либо задумывались о создании видео, содержащего компьютерную анимацию, эта статья для вас. Я предполагаю, что у вас уже есть код,...
SQL

NoSQL убивает SQL?

На прошлой неделе мой друг переслал мне письмо от успешного предпринимателя, который утверждает, что “SQL мёртв”.  Предприниматель убеждён, что...
Data Science

Вычисление π: моделирование методом Монте-Карло

Каждый год 14 марта любители математики отмечают День числа пи! Есть много способов вычислить это легендарное число π, которое примерно равно 3,14159…
Apache Spark

Apache Spark: гайд для новичков

Что такое Apache Spark? Специалисты компании Databricks, основанной создателями Spark, собрали лучшее о функционале Apache Spark в своей книге Gentle...
Data Science

Исследование операций: что, когда и как

Несколько расплывчатый термин “исследование операций” был придуман в Первую мировую войну. Британские военные собрали группу ученых для распределения недостаточных ресурсов — например, еды, медикаментов,...
Machine Learning Models

Все модели машинного обучения за 6 минут

Все модели машинного обучения разделяются на обучение с учителем (supervised) и без учителя (unsupervised). В первую категорию...
Data Science

Анализ текста средствами языка программирования R

“Люди часто восхваляют классические произведения, даже не читая их”, — Марк Твен. Надеюсь, что ваш опыт опровергает это высказывание Марка...
Audio Data Analysis

Анализ аудиоданных с помощью глубокого обучения и Python (часть 2)

Предыдущая часть: Часть 1 Сверточные нейронные сети (CNN) схожи с обычными нейронными сетями: они состоят из нейронов с обучаемыми...
Audio Data Analysis

Анализ аудиоданных с помощью глубокого обучения и Python (часть 1)

Введение Аудиоанализ - область, включающая автоматическое распознавание речи (ASR), цифровую обработку сигналов, а также классификацию, тегирование и генерацию...
Kotlin

С Kotlin приведение стало еще удобнее

Приведение — это необходимое зло в программировании. Мы обожаем его ненавидеть. В Kotlin выполнять приведение намного приятнее, чем в Java. Читайте ниже об очень...
Learning

Как начать учиться, когда на это совсем нет времени

Как вы проводите свое время? Недостаток времени — основная причина, почему мы не учимся изо дня в день! На самом деле проблема заключается в другом! У каждого из...
JavaScript Essentials

JavaScript Essentials: Типы и структура данных

В рубрике Essentials мы рассматриваем наиболее используемые и важные методы. Эта рубрика будет полезна разработчикам, которые уже знают другой язык или тем, кто хочет...

Инкременты и декременты

В данной статье активно используется термин «операнд». Так что такое операнд? Операнд — это величина, над которой операторы могут...
Android

Какие языки программирования нужно знать, чтобы разрабатывать приложения под Android?

Итак, вы решили научиться разрабатывать приложения под Android? Отлично! Но нужно понимать, что без труда не вынешь и рыбку из пруда. Программирование — это крайне обширная...