Вторая конференция "Свободное програмное обеспечение в высшей школе" (27-28 января 2007)

Свободное программное обеспечение: статистический анализ и идентификация моделей

Чичкарев Евгений Анатольевич

Приазовский государственный университет

Представлен опыт использования свободного ПО для проведения научных исследований и преподавания "Идентификация и моделирование объектов автоматизации", "Математическое моделирование и оптимизация" для студентов и аспирантов.

Проанализированы возможности использования пакетов R, gretl, paw, root, надстроек для офисных пакетов для анализа и параметризации зависимостей различными методами построения иллюстраций.

Возможности решения задач статистического анализа в Linux

В UNIX-подобных ОС имеется достаточно широкий выбор статистических программ и библиотек различного назначения - от простейших средств до развитых интегрированных сред. Для простейших задач статистического анализа с использованием выборок умеренного объема, не включающих ошибочные или пропущенные значения, достаточный выбор процедур и методов обеспечивают офисные пакеты - Gnumeric (включает пакет анализа, не уступающий MS Office) и в несколько меньшей степени - OO.Calc. Более широкие возможности обеспечивают пакеты gretl (GNU Regression and Time-series Library) и R.

Gretl - простой в использовании, но достаточно мощный пакет статистического анализа, позволяющий решать целый ряд задач оценивания методом наименьших квадратов (множественная регрессия, двустадийное оценивание, нелинейное оценивание и т.п.). Построение графических иллюстраций основано на использовании gnuplot. R - скриптовый язык и среда исполнения для статистических вычислений и графики. Это проект GNU, весьма схожий с языком S (в определенной степени R можно рассматривать как вариант реализации S). Имеется ряд важных различий,но большая часть кода, написанного для исполнения S, не изменяется и под R.

R предоставляет широкое разнообразие статистических (линейное и нелинейное моделирование, классические статистические испытания, анализ временных рядов, классификация, кластеризация...) и графических методов. Язык S язык можно рассматривать как механизм выбора статистической методологии исследований, и R обеспечивает открытый исходный код для участия в этой деятельности.

Одна из сильных сторон R - простота получения качественных графических иллюстраций, пригодных для публикации.

R - интегрированная среда, включающая набор средств для манипуляции данными, вычислений и создания графических иллюстраций, которая включает:

Пакет R организован на базе среды исполнения полномасштабного динамического языка программирования. Реализация R позволяет писать расширения на различных языках (собственно R, C, fortran и т.п.).

Кроме того, имеется open-source пакет RPy, реализующий интерфейс R-Python. Этот интерфейс обеспечивает работу с любыми объектами R и выполнение произвольных функций R из программы на python.

Несколько иной подход к анализу данных использован в пакетах root и более раннем paw (см. недавние публикации Е.М.Балдина). Оба пакета предоставляют пользователю скриптовый язык для работы с данными, и включают средства оценивания методом наименьших квадратов. Однако и root, и paw предназначены для решения специфичных задач обработки результатов физического эксперимента, поэтому для решения широкого круга разнородных задач наибольшие возможности обеспечивает среда R.

Использование открытого ПО

Сравнительная оценка и анализ применимости статистического ПО проводилась с достаточно утилитарными целями - организация практикума по курсам "Идентификация и моделирование объектов автоматизации", "Теория систем и математическое моделирование" и т.п. как для будущих IT-специалистов, так и для общих специальностей, а также для аспирантов и магистров всех специальностей. Кроме того, перед автором стояла задача статистической обработки большого количества производственных данных, включающих как ошибочные значения, так и пропуски, основанной на использовании разнообразных статистических тестов.

Другой важной проблемой являлось наличие графического интерфейса пользователя или возможностей быстрой его разработки. По результатам опробования различных вариантов организации практикума, наиболее приемлемым вариантом оказалось использование среды R с пакетом Rcmdr, что обеспечивает как полный набор необходимых методов, так и удобный интерфейс, не вызывающий проблем освоения студентами. Среда R портирована в MS Windows, что обеспечивает единый подход к статистическим расчетам независимо от организации компьютерных классов и установленной в них ОС. К сожалению, во всех статистических пакетах вывод графиков в postscript-формате требует доработки и настройки шрифтов для получения русских обозначений осей, подписей на графиках и т.п.

Связка R+RCmdr зарекомендовала себя как удобное средство обработки производственных и научных данных, и была использована автором для построения калибровки промышленных измерительных средств и оптимизации технологии раскисления и легирования стали в условиях металлургических предприятий г. Мариуполя.

Программа конференции