Приглашаю интересующихся на практический курс по добыче данных из Интернета. В программе восемь занятий (мастер-классы и разборы практических домашних заданий). Тематический план курса: 1. Извлечение данных с сайта, написанного на статическом HTML, с непредсказуемыми заранее URL конечных файлов с данными. 2. Извлечение данных, интегрированных в код страниц в формате JSON и аналогичных форматах. Проблемы импорта JSON в R (и экспорта из R). 3. Извлечение данных из открытых каналов Telegram. 4. Имитация обращения от браузера при работе с wget. В ходе работы мы будем использовать текстовые редакторы / редакторы кода, а также wget, Perl и R. Желательно иметь некоторый предварительный опыт работы с языком регулярных выражений (Regular Expressions), однако он, как и опыт работы с перечисленными средами программирования и приложениями может быть приобретен и в ходе обучения. Большую часть времени займет оттачивание навыков работы с регулярными выражениями и анализ сайтов. Домашние задания подразумевают самостоятельное извлечение данных и построение визуализаций на их основе известными обучающимся способами (предпочтительно использование навыков работы в R). Стоимость курса — 12.5 (двенадцать с половиной) тысяч рублей. Прослушавшим ранее теоретический курс "Введение в анализ данных" — 10 (десять) тысяч рублей. Занятия проходят в Zoom, начнутся после 18 апреля, два занятия в неделю, по вечерам с 19:00 до 21:00 московского времени (GMT+3). Дни занятий будут объявлены дополнительно, скорее всего, это будут ПН+ЧТ или ВТ+ПТ. До майских праздников пройдет четыре занятия, одно — между праздниками и три — после. Запись — в форме Google: https://forms.gle/Zwtr8bCNwYkAdxzi9

Теги:

Теги других блогов: