Дорогие друзья и коллеги. Пришло время объявить набор в новую группу по основам инфографики и анализа данных в R. R — мой основной инструмент в течение последних десяти лет. В этой среде я рисую иллюстрации и провожу необходимые расчеты для своих статей по истории науки и образования, инфографику для проекта по коронавирусу или анализа результатов выборов в России и других странах. Ссылка на запись продублирована в комментарии.
Что нужно знать и уметь для освоения курса? (1) Ориентироваться в системе папок с файлами на вашем компьютере, в том числе, очень твердно знать, где находятся папки "Рабочий стол" и "Мои документы" и / или их аналоги и какие примерно файлы и папки в них лежат. (2) Суметь самостоятельно или с помощью друзей поставить на свой компьютер небходимый минимум программ, с которыми мы бдем работать (список будет разослан записавшимся).
Два слова о содержании. Программа занятий пересмотрена с учетом опыта трех семестров и обратной связи, предоставленной слушателями. Некоторые темы (начальные сведения по сбору данных в Интернете) исключены (об этом читается отдельный специальный месячный курс), некоторые расширены, будет больше практики / домашних заданий. При освоении материала упор сделан на связь инфографики и формальных методов анализа и самостоятельное написание кода небходимых преобразований данных в R. Курс состоит из нескольких модулей, примерное содержание которых указано ниже:
(1) Как должны выглядеть данные, подготвленные для анализа. Основные человеко-и-машиночитаемые форматы данных: CSV и TDV, JSON и XML.
(2) Основы языка регулярных выражений (RegEx), примеры его использования при работе с файлами данных.
(3) Введение в анализ данных в R.
(3.0) Основы работы в командной строке R. Простейшие арифметические действия, общие представления о синтаксисе команд, объектах и функциях R.
(3.1) Структура данных и ее отражение в объектах R. Загрузка данных в R из файлов различных форматов. Классы объектов, обращение к хранящимся в них данным и преобразования данных.
(3.2) Грамматика инфографики — основные типы уни- и бивариатных графиков и их связь с моделями, используемыми в анализе данных.
(3.3) Извлечение описательных статистик. Основные методы формального анализа, направленные на проверку гипотез о случайности наблюдаемых паттернов (параметрические методы: t-test, ANOVA, Chi-squared, корреляция Пирсона, линейная регрессия, введение в непараметрические методы: коэффициенты корреляции рангов Спирмена и Кендалла, тест Уилкоксона, тест Краскела-Уоллиса, точный тест Фишера).
===
Занятия будут проходить по понедельникам и четвергам 19:00-21:00 (время московское GMT+3)
Курс рассчитан на 16 занятий (8 недель по два занятия), занятия начнутся 30 мая 2022, в понедельник. Оплата помесячно, 7.5 тыс. р. за четыре недели занятий, 15 тыс. р. за весь курс. Тем, кто учился у меня ранее, — скидка (6 + 6 = 12 тыс.). Занятия проходят в Zoom. Ожидаемая дата окончания курса — 21 июля. Я не исключаю того, что, по не вполне зависящим от меня обстоятельствам, 1-2 дня для занятий придется пропустить, поэтому дата окончания курса указана условно и может сместиться на неделю.
Форма для записи : https://forms.gle/uaD158FQKk8eBPSS9
===
Для привлечения внимания использована иллюстрация из статьи M Demin, A Kouprianov (2021) "Three centuries of German-language philosophy journals (1765–1953): a bibliometric analysis". Scientometrics 126 (7), 5651-5664 (динамика числа издаваемых в немецкоязычном пространстве журналов по философии).