Приглашаю интересующихся на практический курс по добыче данных из Интернета.
В программе восемь занятий (мастер-классы и разборы практических домашних заданий). Тематический план курса:
1. Извлечение данных с сайта, написанного на статическом HTML, с непредсказуемыми заранее URL конечных файлов с данными.
2. Извлечение данных, интегрированных в код страниц в формате JSON и аналогичных форматах. Проблемы импорта JSON в R (и экспорта из R).
3. Извлечение данных из открытых каналов Telegram.
4. Имитация обращения от браузера при работе с wget.
В ходе работы мы будем использовать текстовые редакторы / редакторы кода, а также wget, Perl и R. Желательно иметь некоторый предварительный опыт работы с языком регулярных выражений (Regular Expressions), однако он, как и опыт работы с перечисленными средами программирования и приложениями может быть приобретен и в ходе обучения. Большую часть времени займет оттачивание навыков работы с регулярными выражениями и анализ сайтов.
Домашние задания подразумевают самостоятельное извлечение данных и построение визуализаций на их основе известными обучающимся способами (предпочтительно использование навыков работы в R).
Стоимость курса — 12.5 (двенадцать с половиной) тысяч рублей. Прослушавшим ранее теоретический курс "Введение в анализ данных" — 10 (десять) тысяч рублей.
Занятия проходят в Zoom, начнутся после 18 апреля, два занятия в неделю, по вечерам с 19:00 до 21:00 московского времени (GMT+3). Дни занятий будут объявлены дополнительно, скорее всего, это будут ПН+ЧТ или ВТ+ПТ. До майских праздников пройдет четыре занятия, одно — между праздниками и три — после.
Запись — в форме Google: https://forms.gle/Zwtr8bCNwYkAdxzi9
