ModernStatistics2014_syllabus_cx

реклама
"Национальный исследовательский университет "Высшая школа экономики"
Программа дисциплины «Современная прикладная статистика с использованием языка R»
для направления 040100.68 «Социология» подготовки магистра
1
Область применения и нормативные ссылки
Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности.
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 040100.68 «Социология», обучающихся по магистерской программе «Современный социальный анализ» изучающих дисциплину 040100.68 «Социология».
Программа разработана в соответствии с:



2
Образовательным Стандартом Федерального Государственного Автономного Образовательного Учреждения Высшего Профессионального Образования «Национального Исследовательского Университета «Высшая Школа Экономики» по направлению подготовки
магистра
040100.68
Социология,
утвержденным
в
2011
году:
http://www.hse.ru/data/2012/07/26/1257346994/standart-040100.68.pdf
Образовательной программой НИУ-ВШЭ направления 040100.68 «Социология» по подготовки магистра по программе «Современный социальный анализ».
Рабочим учебным планом университета по направлению подготовки магистра НИУ-ВШЭ
040100.68 «Социология».
Цели освоения дисциплины
Целью дисциплины «Современная прикладная статистика с использованием языка R» является освоение современного подхода к статистике, основанном на использовании статистических
вычислительных инструментов (R), моделировании, многомерных графиков и методов кластеризации и классификации. Современная прикладная статистика сочетает в себе мощь современной вычислительной техники и теоретической статистики. Эта дисциплина рассматривает принципы статистического анализа в R - среде для статистического и графического анализа данных.
Задачами освоения дисциплины « Современная прикладная статистика с использованием
языка R» являются: 1) развитие способности анализировать и работать с данными, 2) приобретение
опыта увереного использования R и современных статистических методов.
Форма проведения занятий: лекции и семинары.
3
Компетенции обучающегося, формируемые в результате освоения дисциплины
В результате освоения дисциплины студент должен:
Знать:
 теорию и применение основных статистических методов;
 различия между методами;
 условия применения и ограничения.
Уметь:
выбрать подходящий метод для исследования;
использовать соответствующие статистические методы для разработки эффективных моделей;
 интерпретировать результаты анализа данных;
 формулировать исследовательские проблемы.


"Национальный исследовательский университет "Высшая школа экономики"
Программа дисциплины «Современная прикладная статистика с использованием языка R»
для направления 040100.68 «Социология» подготовки магистра
Иметь навыки (приобрести опыт):
 аналитической работы с разными данными;
 использования R и статистических пакетов для выполнения вычислений и анализа данных;
 презентации аргументов, на русском и английском языках.
В результате освоения дисциплины студент осваивает следующие компетенции:
Компетенция
Код по Дескрипторы – основные признаки
ФГОС/ освоения (показатели достижения
НИУ
результата)
Формы и методы обучения,
способствующие формированию и развитию компетенции
Способность свободно
пользоваться русским и
иностранными языками
как средством делового
общения; владение
навыками редактирования и перевода профессиональных текстов;
ОК-3
Аргументирует свою точку зрения на русском и английском
языках; читает, пересказывает и
анализирует литературу для семинаров.
Лекционные и семинарские занятия, самостоятельная работа
с литературой.
Умение работать самостоятельно и в коллективе, навыки руководства коллективом
ОК-5
Успешно выполняет индивиду- Самостоятельная работа
альные и групповые задания во с литературой; презентавремя семинара.
ция и проведение дискуссии.
Способность к самостоятельному обучению новым методам исследования, к изменению научного и научнопроизводственного профиля своей профессиональной деятельности;
ОК-8
Самостоятельно разбирает и
анализирует предложенный и
дополнительный материал курса.
Подготовка к семинарским занятиям, изучение
литературы.
Способность и умение
самостоятельно использовать знания и навыки
по философии социальных наук, новейшим
тенденциям и направлениям современной социологической теории,
методологии и методам
социальных наук применительно к задачам фундаментального или прикладного исследования
социальных общностей,
институтов и процессов,
общественного мнения;
ПК-1
Применяет знания по философии социальных наук, новейшим тенденциям и направлениям современной социологической теории, методологии и методам социальных наук в теоретических и практических заданиях (домашних заданиях, проекте, итоговом зачете).
Семинарские занятия;
контрольная работа и зачет.
"Национальный исследовательский университет "Высшая школа экономики"
Программа дисциплины «Современная прикладная статистика с использованием языка R»
для направления 040100.68 «Социология» подготовки магистра
Код по Дескрипторы – основные признаки
ФГОС/ освоения (показатели достижения
НИУ
результата)
Компетенция
Способность использовать углубленные специализированные теоретические знания, практические навыки и умения для организации
научных и научноприкладных исследований, учебного процесса,
экспертной, аналитической и консалтинговой
деятельности (в соответствии с профилем ООП
магистратуры);
4
ПК11
Использует углубленные специализированные теоретические знания, практические
навыки и умения в практических заданиях (в домашнем задании, контрольной работе,
итоговом зачете), требующих
экспертной, аналитической и
консалтинговой оценки, анализа и поведения.
Формы и методы обучения,
способствующие формированию и развитию компетенции
Семинарские занятия;
контрольная работа и зачет.
Место дисциплины в структуре образовательной программы
Для специализаций 040100.68 «Социология» подготовки магистра настоящая дисциплина
является дисциплиной по выбору.
Изучение данной дисциплины базируется на следующих дисциплинах:
 Основы социологической теории и методологии (рекомендуется)
 Английский язык, социологическая терминология и основы перевода и написания
научных текстов (обязательно)
Для освоения учебной дисциплины, студенты должны владеть следующими знаниями и
компетенциями:
 Умение грамотно читать, переводить, говорить и писать на английском языке.
5
№
1
2
3
4
5
6
7
Тематический план учебной дисциплины
Название раздела
Introduction to Modern Statistical Analysis
Review of R Basics I
Review of R Basics II
Data Description and Exploration
Clustering and Classification without Training I
Clustering and Classification without Training II
Classification with Training I
Всего
часов
Аудиторные часы
ПрактиЛекСемические
ции
нары
занятия
Самостоятельная
работа
10
13
13
14
14
2
2
2
2
2
1
1
2
2
8
10
10
10
10
14
2
2
10
14
2
2
10
"Национальный исследовательский университет "Высшая школа экономики"
Программа дисциплины «Современная прикладная статистика с использованием языка R»
для направления 040100.68 «Социология» подготовки магистра
8
9
6
Classification with Training II
Refining Models and Predictions
Всего часов:
26
22
140
4
2
20
2
12
20
20
108
Формы контроля знаний студентов
Тип контроля
Текущий
(неделя)
Итоговый
Форма контроля
3ий модуль
Параметры **
Контрольная работа
*
90 мин
Эссе
Реферат
Коллоквиум
Домашнее задание
Зачет
*
*
Презентация и вопросы по проекту.
Критерии оценки знаний, навыков
6.1
Для домашних работ:




Студент должен продемонстрировать:
способность к восприятию, обобщению, анализу информации;
способность к самостоятельному усамообучению и творческому осмыслению;
умение логически верно, аргументировано и ясно строить письменную речь;
владение иностранным языком на уровне, достаточном для чтения и анализа источников на
иностранных языках.
Для итогового зачёта:




Студент должен продемонстрировать:
знание материала лекций и обязательной литературы;
понимание изученных методов;
способность применить и объяснить изученные методы;
способность подобрать методы исследования, обосновать и указать недостатки выбранных
методов.
Оценки за зачётную работу выставляются по 10–балльной шкале по следующим
критериям:
10 – 9 – отличная работа, выполненна самостоятельно, изложена логично, методы анализа
соответствуют вопросу, продемонстрировано уверенное владение материалом, работа
грамотно оформлена и результаты анализа грамотно представленны.
8 – очень хорошая работа, продемонстрированы навыки самостоятельного анализа материала
и аргументирования, но есть маленькие недочеты в графиках или результатах анализа.
"Национальный исследовательский университет "Высшая школа экономики"
Программа дисциплины «Современная прикладная статистика с использованием языка R»
для направления 040100.68 «Социология» подготовки магистра
7 – 6 – хорошая работа, продемонстрированы навыки анализа материала и самостоятельного
мышления, но есть существенные недочеты в постановке проблемы, графиках или
результатах анализа.
5 – 4 – удовлетворительная работа состоящая в основном из таблиц или графиков, работа
правильно оформлена, но нет достаточного понимания или интерпретации результатов.
Возможны ошибки.
3 – 1 – неудовлетворительная работа, отсутствие понимания, огромные ошибки (незачет).
0 – неудовлетворительная работа, отсутствие ответа или «скачанный» текст (незачет).
6.2
Порядок формирования оценок по дисциплине
Преподаватель не оценивает работу студентов на семинарских и практических занятиях: активность студентов в дискуссиях, правильность решения задач на семинаре, знание материала.
Преподаватель оценивает самостоятельную работу студентов: правильность и регулярность
выполнения домашних работ, а так же заданий, которые выполняются на семинарских занятиях.
Накопленная оценка за текущий контроль учитывает результаты студента по текущему контролю следующим образом:
Онакопленная= 0,5* Одз + 0,5* Ок.р
Результирующая оценка за дисциплину рассчитывается следующим образом:
Орезульт =0,7* Онакопл + 0,3 *·Озач
Способ округления накопленной оценки результирующей (итогового) контроля в форме зачета: арифметический.
Оценка за итоговый контроль (зачёт) блокирующая, при неудовлетворительной итоговой
оценке результирующая оценка - неудовлетворительная.
На пересдаче студенту не предоставляется возможность получить дополнительный балл для
компенсации оценки за текущий контроль.
На зачете студент может получить дополнительный вопрос (дополнительную практическую
задачу, решить к пересдаче домашнее задание), ответ на который оценивается в 1 балл.
7
Содержание дисциплины
Основные темы курса и рекомендуемая литература
ТЕМА 1.
ТЕМА 2.
ТЕМА 3.
ТЕМА 4.
ТЕМА 5.
ТЕМА 6.
ТЕМА 7.
Introduction to Modern Statistical Analysis
Review of R Basics I
Review of R Basics II
Data Description and Exploration
Clustering and Classification without Training I
Clustering and Classification without Training II
Classification with Training I
"Национальный исследовательский университет "Высшая школа экономики"
Программа дисциплины «Современная прикладная статистика с использованием языка R»
для направления 040100.68 «Социология» подготовки магистра
ТЕМА 8.
ТЕМА 9.
Classification with Training II
Refining Models and Predictions
Тематика лекций, семинарских занятий и литература к ним
ТЕМА 1. Introduction to Modern Statistical Analysis
Introduction to Data Science, Data Mining and statistics. Data Science jobs. Data analysis foundations.
Exploratory data analysis. Statistical thinking. Data science process and the role of a data scientist.
Литература
O'Neal, C., & Schutt, R. (2014). Doing Data Science. Sebastopol, California: O'Reilly Media. Chapter 1.
Available online.
Anderson, R. K. (2013). Visual Data Mining. West Sussex, UK: John Wiley & Sons. Available at «ebrary»
HSE electronic library.
ТЕМА 2. Review of R Basics I
Back to fundamentals of working in R: data types, structures, transformations, graphics, data visualization,
interactive graphics, scripts.
Литература
Torgo, L. (2011). Data Mining with R: Learning with case studies. Boca Raton, FL, US: Chapman
& Hall/CRC & Taylor & Francis Group.
ТЕМА 3. Review of R Basics II
Functions, elements of programming. Saving and loading data in R; working with .csv and Excel files,
retrieving data from databases via ODBC.
Литература
Torgo, L. (2011). Data Mining with R: Learning with case studies. Boca Raton, FL, US: Chapman
& Hall/CRC & Taylor & Francis Group.
ТЕМА 4. Data Description and Exploration
Individual variables, multiple variables, charts; outlier detection, obtaining outlier ranking, Local Outlier
Factors (LOF); data cleaning and transformation; Plots: Histogram, Density, Pie Chart, Bar Chart, Boxplot,
Scatter Plot, Contour maps.
Литература
Torgo, L. (2011). Data Mining with R: Learning with case studies. Boca Raton, FL, US: Chapman
& Hall/CRC & Taylor & Francis Group.
Anderson, R. K. (2013). Visual Data Mining. West Sussex, UK: John Wiley & Sons. Available at «ebrary»
HSE electronic library. Chapters 2 and 3.
ТЕМА 5. Clustering and Classification without Training I
General principles. Clustering techniques: hierarchical clustering, particional clustering (k-means
clustering, k-medoids), density based clustering.
"Национальный исследовательский университет "Высшая школа экономики"
Программа дисциплины «Современная прикладная статистика с использованием языка R»
для направления 040100.68 «Социология» подготовки магистра
Литература
Govaert, G. (2009). Data Analysis. London, UK: Wiley/ISTE. Available at «ebrary» HSE electronic library.
Anderson, R. K. (2013). Visual Data Mining. West Sussex, UK: John Wiley & Sons. Available at «ebrary»
HSE electronic library. Chapter 7.
Дополнительная литература
Torgo, L. (2011). Data Mining with R: Learning with case studies. Boca Raton, FL, US: Chapman
& Hall/CRC & Taylor & Francis Group.
ТЕМА 6. Clustering and Classification without Training II
Principle Component Analysis. Correspondence Analysis.
Литература
Govaert, G. (2009). Data Analysis. London, UK: Wiley/ISTE. Available at «ebrary» HSE electronic library.
Дополнительная литература
Torgo, L. (2011). Data Mining with R: Learning with case studies. Boca Raton, FL, US: Chapman
& Hall/CRC & Taylor & Francis Group.
ТЕМА 7. Classification with Training I
Logistic Regression, Linear Discriminant Analysis, Decision and Classification Trees.
Литература
Govaert, G. (2009). Data Analysis. London, UK: Wiley/ISTE. Available at «ebrary» HSE electronic library.
Дополнительная литература
Torgo, L. (2011). Data Mining with R: Learning with case studies. Boca Raton, FL, US: Chapman
& Hall/CRC & Taylor & Francis Group.
ТЕМА 8. Classification with Training II
Random Forest and Support Vector Machines (SVM). Algorithms. Transformations. Advantages and limitations.
Литература
Govaert, G. (2009). Data Analysis. London, UK: Wiley/ISTE. Available at «ebrary» HSE electronic library.
Anderson, R. K. (2013). Visual Data Mining. West Sussex, UK: John Wiley & Sons. Available at «ebrary»
HSE electronic library. Chapter 4.
Дополнительная литература
Torgo, L. (2011). Data Mining with R: Learning with case studies. Boca Raton, FL, US: Chapman
& Hall/CRC & Taylor & Francis Group.
ТЕМА 9. Refining Models and Predictions
"Национальный исследовательский университет "Высшая школа экономики"
Программа дисциплины «Современная прикладная статистика с использованием языка R»
для направления 040100.68 «Социология» подготовки магистра
Designing models. Extracting meaning from data. Moving from descriptive to predictive models. Forecasting. Applications of statistical techniques and data mining methods in industry. New technologies of data
processing: MapReduce, Pregel and Hadoop.
Литература
Han, J. & Kamber, M. (2006). Data Mining: Concepts and Techniques. New York: Elsevier. Available at
«ebrary» HSE electronic library.
Дополнительная литература
O'Neal, C., & Schutt, R. (2014). Doing Data Science. Sebastopol, California: O'Reilly Media.
8
Образовательные технологии
Занятия проводятся в форме интерактивных лекций и семинарских занятий (групповых дискуссий).
9
Оценочные средства для текущего контроля и аттестации студента
9.1 Тематика заданий текущего контроля
Домашние задания
1. Load data from file X into R, dataframe Y. Explore your data. Report your results.
2. Load data from SQL database X into R. Perform cluster analysis using variables A-Z. Report your
results and insert the corresponding graphs.
3. Find mistakes in the syntax.
Контрольная работа
1. You are given a database of employees. Which of the following commands will you use to perform
the following operations.
2. Select X from the table Y, sorted according to Z in decreasing order.
3. Using logistic regression, develop a classification model and classify the following cases.
9.2
Вопросы для оценки качества освоения дисциплины
1)
Why did your choose this method?
2)
What are the limitations of your method?
3)
Why did you choose this form of data visualization/description?
4)
How did you evaluate your model? Interpret the results.
10 Учебно-методическое и информационное обеспечение дисциплины
10.1 Базовый учебник
Базового учебника на английском языке, который удовлетворяет требованиям НИУ-ВШЭ
нет. В основном материал курса состоит из материала книг, которые доступны через электронные
ресурсы нашей библиотеки. Основным общедоступным пособием на английском языке является
электронная версия книги из электронной библиотеки НИУ-ВШЭ:
Govaert, G. (2009). Data Analysis. London, UK: Wiley/ISTE. Available at «ebrary» HSE electronic
library.
"Национальный исследовательский университет "Высшая школа экономики"
Программа дисциплины «Современная прикладная статистика с использованием языка R»
для направления 040100.68 «Социология» подготовки магистра
10.2 Основная литература
Anderson, R. K. (2013). Visual Data Mining. West Sussex, UK: John Wiley & Sons. Available at
«ebrary» HSE electronic library.
Torgo, L. (2011). Data Mining with R: Learning with case studies. Boca Raton, FL, US: Chapman
& Hall/CRC & Taylor & Francis Group.
10.3 Дополнительная литература
Han, J. & Kamber, M. (2006). Data Mining: Concepts and Techniques. New York: Elsevier. Available at «ebrary» HSE electronic library.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning
with Applications in R. New York: Springer.
O'Neal, C., & Schutt, R. (2014). Doing Data Science. Sebastopol, California: O'Reilly Media.
Chapter 1. Available online.
10.4 Справочники, словари, энциклопедии
Kabacoff, R. I. (2011). R in Action. Data Analysis and Graphics with R. Shelter Island, NY: Manning Publications. Или на русском: Кабаков, Р. И. (2014). R в действии. Анализ и визуализация
данных на языке R. ДМК Пресс.
Елисеева И. И., Юзбашев М. М. (2006). Общая теория статистики: Учебник
Финансы и статистика. 656с.
10.5 Программные средства
Студенты пользуются свободным програмным обеспечением R или RStudio (IDEs).
10.6 Дистанционная поддержка дисциплины
Для выполнения и сдачи всех письменных заданий студенты должны пользоваться ЛМС
(LMS Learning Management System), где выложены инструкции для выполнения заданий и ссылки
на материал семинаров.
11 Материально-техническое обеспечение дисциплины
Для лекций используется проектор и PowerPoint презентации.
Скачать