С чего аналитику начать изучение Python
Многие аналитики задумываются об изучении Python, но не представляют себе первых шагов.
В первую очередь, тем кто не знаком с Python я бы рекомендовал установить дистрибутив Anaconda. Это удобнее, чем устанавливать чистый Python, т. к. Anaconda содержит большинство пакетов, необходимых для анализа данных.
Следующий шаг — выбор среды разработки. Для анализа данных лучше всего подойдет Jupyter Notebook. Эта среда разработки устанавливается вместе с Anaconda. Вот простой туториал по работе с Jupyter Notebook.
Тем, кто вообще никогда не сталкивался с языками программирования (например, не писал на Паскале или Бейсике в школе), я бы посоветовал пройти любые курсы базового питона. Например, на Stepik или Codecademy.
Многие аналитики начинают учить Python, но быстро бросают. Чаще всего это происходит потому, что люди начинают изучение с синтаксиса и простых абстрактных примеров. Поначалу это может быть интересным, но потом надоедает. Лучше всего проходить основы языка (на курсах или с помощью учебника), но параллельно попробовать решать простые практические задачи, автоматизируя рутину и сразу же ощущая как Python улучшает вашу жизнь.
В автоматизации задач на Python очень помогает обширное число разнообразных библиотек. Я публикую в канале ссылки как на туториалы по уже ставшим классикой библиотекам, так и на новые интересные библиотеки.
На мой взгляд, самая главная библиотека для аналитика — Pandas. Если вы хотите быстро очищать, трансформировать, агрегировать, объединять и вообще всячески манипулировать табличными данными, то Pandas будет в этом надежным помощником. Для аналитика эта библиотека покрывает 90% задач. Про Pandas есть хорошая статья в блоге khashtamov.com (и весь блог годный!). Также советую почитать более хардкорную статью ребят из ODS. Если вы решите выбрать образовательные курсы — это отлично, но не советую надеяться, что выбрав какую-то одну образовательную программу вы получите всеохватывающий спектр знаний, поэтому вашей надёжной подмогой станет постоянное изучение различных материалов: статей в блогах (пример), видео (пример), онлайн-учебников (пример). Не забывайте про документацию и вопросы на стаковерфлоу — почти как кофе и сигареты — это комбинация.
А ещё я подготовил большую подборку ссылок про Pandas.
Начните использовать Python с решения какой-то простой практической задачи, например, выгрузки данных через API Яндекс.Метрики и сохранения полученных данных в Excel. Узнать как начать работать с API Яндекс.Метрики можно из моей статьи.
Данные из Яндекс.Метрики в Python можно получить с помощью вот такого простого сниппета. Начните с получения токена для API Яндекс.Метрики и выполните этот код в Jupyter Notebook. Вы удивитесь как это просто!
Дальше можно усложнять скрипт, например, сделать несколько различных запросов и выгрузить данные на несколько вкладок в одном Excel-файле. Или выгрузить из Метрики данные с множеством dimensions и попробовать на их основе сделать в Pandas несколько таблиц с группировкой с помощью функции groupby, а также сводные таблицы с помощью функции pivot_table.
Успехов в автоматизированной борьбе с рутиной!
Вступайте в группу на Facebook и подписывайтесь на мой канал в Telegram, там публикуются интересные статьи про анализ данных и не только.