Дорогие друзья и коллеги. Приглашаю интересующихся на летний практический курс по добыче данных из Интернета. Ссылка на запись в гугл-формах прилагается.
В программе восемь занятий (мастер-классы и разборы практических домашних заданий). Тематический план курса:
1. Извлечение данных с сайта, написанного на статическом HTML, с непредсказуемыми заранее URL конечных файлов с данными.
2. Извлечение данных, интегрированных в код страниц в формате JSON и аналогичных форматах. Проблемы импорта JSON в R (и экспорта из R).
3. Извлечение данных из открытых каналов Telegram.
4. Имитация обращения от браузера при работе с wget.
В ходе работы мы будем использовать текстовые редакторы / редакторы кода, а также wget, Perl и R. Большую часть времени займет оттачивание навыков работы с регулярными выражениями и анализ сайтов.
Домашние задания подразумевают самостоятельное извлечение данных и построение визуализаций на их основе известными обучающимся способами (предпочтительно использование навыков работы в R).
Стоимость курса — 12.5 (двенадцать с половиной) тысяч рублей. Прослушавшим ранее теоретический курс "Введение в анализ данных" — 10 (десять) тысяч рублей.
Занятия проходят в Zoom, начнутся со второй недели августа (8 или 9), два занятия в неделю, по вечерам с 19:00 до 21:00 московского времени (GMT+3). Дни занятий будут объявлены дополнительно, скорее всего, это будут ПН+ЧТ или ВТ+ПТ.
https://forms.gle/tLaX1HqJqZPRMJe96