Индивидуальная статистическая характеристика. Аналитический анализ

К характеристикам вариации , или колеблемости , результатов измерений относят размах, дисперсию, среднее квадратическое отклонение, коэффициент вариации и др.

Все средние характеристики дают общую характеристику ряда результатов измерений. На практике нас часто интересует, как сильно каждый результат отклоняется от среднего значения. Однако, легко можно представить, что две группы результатов измерений имеют одинаковые средние, но различные значения измерений. Например, для ряда 3, 6, 3¾ среднее значение = 4; для ряда 5, 2, 5¾также среднее значение = 4, несмотря на существенное различие этих рядов.

Поэтому средние характеристики всегда необходимо дополнять показателями вариации, или колеблемости. Самой простой характеристикой вариации является размах варьирования . Его определяют как разность между наибольшим и наименьшим результатами измерений. Однако он улавливает только крайние отклонения, но не отражает отклонений всех результатов.

Чтобы дать обобщающую характеристику, можно вычислить отклонения от среднего результата. Например, для ряда 3, 6, 3 значения (x i - ) будут следующими: 3 - 4 = -1; 6 - 4 = 2; 3 - 4 = -1. Сумма этих отклонений (-1) + 2 + (-1) всегда равна 0. Чтобы избежать этого, значения каждого отклонения возводят в квадрат:

(-1) 2 + 2 2 + (-1) 2 = 6.

Значение (x i - ) 2 делает отклонения от средней более явственными: малые отклонения становятся еще меньше (0,5 2 =0,25), а большие¾еще больше

(5 2 = 25). Получившуюся сумму S (x i - ) 2 называют суммой квадратов

отклонений . Разделив эту сумму на число измерений, получают средний квадрат отклонений, или дисперсию . Она обозначается s 2 и вычисляется по формуле:

S (x i - ) 2

s 2 = ¾¾¾¾¾ .

Если число измерений не более 30, т.е. n < 30, используется формула:

S (x i - ) 2

s 2 = ¾¾¾¾¾¾¾ .

Эти формулы применяются, когда результаты представлены неупорядоченной (обычной) выборкой.

Из характеристик колеблемости наиболее часто используется среднее квадратическое отклонение , которое определяется как положительное значение корня квадратного из значения дисперсии, т.е.:

Среднее квадратическое отклонение (оно называется также стандартным отклонением) имеет те же единицы измерения, что и результаты измерения, т.е. характеризует степень отклонения результатов от среднего значения в абсолютных единицах. Однако для сравнения колеблемости двух и более совокупностей, имеющих различные единицы измерения, эта характеристика не пригодна.



Коэффициент вариации определяется как отношение среднего квадратического отклонения к среднему арифметическому, выраженное в процентах. Вычисляется он по формуле:

В спортивной практике колеблемость результатов измерений в зависимости от величины коэффициента вариации считают небольшой (0¾10%), средней (11¾20%) и большой (V>20%).

Коэффициент вариации имеет важное значение в спортивной метрологии, т. к., будучи величиной относительной (измеряется в процентах), позволяет сравнивать между собой колеблемость результатов измерений, имеющих различные единицы измерения. Коэффициент вариации можно использовать лишь в том случае, если измерения выполнены в шкале отношений.

Упомянем еще об одном показателе рассеивания¾стандартной (средней квадратической) ошибке среднего арифметического. Этот показатель (обычно он обозначается символами m или S) характеризует колеблемость средней. Поясним примером. Предположим, что нас интересуют результаты в беге на 100 м учеников 10-ых классов Минска. Мы проводим с этой целью выборочное обследование, и на выборке объемом 100 юношей находим, что в среднем 10-классники показывают результат 13,7 ± 0,4 с.

Предположим, что мы проведем такие обследования много раз на разных выборках. Как будет варьировать в них средняя арифметическая? Ясно, что чем больше объем выборки, тем меньше будет вариация средних величин. Если, например, мы возьмем в одном случае две выборки по 10 человек, а во втором¾ по 10 000 человек, средние результаты во втором случае, вероятнее всего, будут ближе друг к другу (и одновременно ближе к средней генеральной совокупности¾среднему результату в беге всех 10-классников Минска).

Стандартная ошибка средней арифметической вычисляется по формуле:

S x = ¾¾ ,

где s¾стандартное отклонение результатов измерений, n¾объем выборки. В приведенном выше примере стандартная ошибка средней арифметической равна S x = 0,4/= 0,04 с, т.е. она в десять раз меньше, чем среднее квадратическое отклонение результатов измерений.

1.5. Нормальный закон распределения непрерывных случайных величин

Предварительная информация по МЕТОДАМ ОБРАБОТКИ РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА

ПОДГОТОВКА ПЕРВИЧНЫХ ДАННЫХ К АНАЛИЗУ

Наблюдая и измеряя характеристики объекта, экспериментатор собирает первичный статистический материал. Дальнейшая задача состоит в такой обработке и представлении первичных данных, которые позволили бы оценить и сопоставить результаты для проверки гипотез, для выявления существенных свойств и закономерностей изучаемого процесса. В основе методов обработки лежит предварительное упорядочение, cиcтeмaтизaция первичных данных и вычисление их статистических характеристик.

Обобщенный алгоритм подготовки данных может быть представлен следующим операциями:
а) все данные формулируются и записываются в необходимой краткой форме;
б) проводится группировка данных, то есть распределение их на однородные группы в соответствии с интересующими экспериментатора признаками. Данные в каждой группе упорядочиваются - классифицируются, сортируются, структурируются в соответствии с той моделью, которая разрабатывалась при составлении плана-программы устанавливаются характеристики (признаки, параметры каждой группы данных и производится подсчет абсолютного числа факторов, характеризующих группуг) данные внутри каждой сформированной группы располагаются в ряд (вариационный ряд) по убыванию или возрастанию признака. Определяется наибольшее и наименьшее значения признака;
д) вариационные ряды данных, полученных в номинальной или порядковой шкале, ранжируются. Интервалы группировки по рангам выбираются оптимальными (слишком крупные интервалы скрывают нюансы явлений, слишком дробные - затрудняют o6pаботку). В результате этой операции появляются новые количественные данные;
е) проводится статистическая обработка полученных количественных данных, заключающаяся в вычислении некоторых статистических характероистик и оценок, позволяющих глубже понять особенности экспериментальных явлений;
ж) составляются наглядные материалы, отображающие полученную информацию: таблицы, графики, диаграммы, схемы и др., по которым в дальнейшем устанавливаются и анализируются связи между параметрами экспериментальных объектов.

СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ

Экспериментатору необходимо знание ряда простейших понятий математической статистики и умение с ними работать.
Все множество интересующих исследователя однородных явлений, событий или их показателей называется генеральной совокупностью данных объектов. Та часть последней, которая подвергается экспериментальному изучению, называется выборочными совокупностью или выборкой.
Величина (объем) выборки представляет собой абсолютное (счетное) количество однородных объектов исследования (явлений, событий или их характеристик).
Выборка характеризуется рядом статистических характеристик, наиболее употребительными из которых являются: среднее арифметическое значение, дисперсия, среднее квадратичное отклонение среднего арифметического.

Среднее значение данного показателя выборочной совокупности (арифметическое среднее, выборочное среднее ) - это отношение суммы всех измеренных значений показателя к величине выборки.

Если в выборке есть повторяющиеся значения, то составляется таблица сгруппированных данных, следующего вида:

Тогда = , где n= .

Среднее значение недостаточно полно характеризует выборку; за ним скрывается “поведение” самого показателя явления-“разброс”, различное распределение его значений около среднего (так называемая “функция распределения”).

Выборочной дисперсией (s 2) статистического показателя называется среднее значение квадратов отклонений отдельных его значений от среднего выборочного; дисперсия определяется по формуле:

S 2 = (2)

Для сгруппированных данных S 2 = .

Выборочнымсредним квадратическим отклонением называется корень квадратный из выборочной дисперсии.

Выборочные дисперсия и среднее квадратичное отклонение играют большую роль при определении степени достоверности результатов.
Генеральная совокупность также обладает всеми вышеперечисленными статистическими характеристиками, которые в общем случае не совпадают с характеристиками выборки. Для эксперимента особое значение, имеет оценка той ошибки, которая допускается, если по выборочным характеристикам судить о генеральной совокупности.
В практике вычислений величина расхождения средних значений генеральной и выборочной совокупностей определяется средней квадратической ошибкой выборочного среднего, которая вычисляется по формуле

Мода - это наиболее часто встречающеесязначение в выборке. Мода применяется, например, при определении размера одежды, обуви, пользующейся наибольшим спросом у покупателей. Модой для дискретного ряда является значение, обладающая наибольшей частотой.

Медиана - это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.

Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот , а затем определяют, какое значение признака приходится на нее. (Если отсортированный ряд содержит нечетное число признаков, то значение среднего в упорядоченном ряду будет медианой, порядковый номер медианы вычисляют по формуле:

(n + 1)/2,

в случае четного числа признаков медиана будет равна среднему арифметическому из двух признаков находящихся в середине ряда.

Рассматривая основные статистические характеристики ряда, оценивают центральную тенденцию выборки и колеблемость, или вариацию. Центральную тенденцию выборки позво­ляют оценить такие статистические характеристики, как среднее арифметическое значение, мода, медиана. Средняя величина характеризует групповые свойства, является центром распределения, занимает центральное положение в общей массе варьирующих значений признака.

Среднее арифметическое значение для неупорядоченного ряда измерений вычисляют путем суммирования всех измерений и деления суммы на число измерений по формуле: = ,

где – сумма всех значений x i , n – общее число измерений.

Модой (Мо) называют результат выборки или совокупности, наиболее часто встречающейся в этой выборке. Для интервального вариационного ряда модальный интервал выбирается по наибольшей частоте. Например, в ряду из цифр: 2, 3, 4, 4, 4, 5, 6, 6, 7 модой является 4, потому что встречается чаще других чисел.

В случае, когда все значения в группе встречаются одинаково часто, принято считать, что группа не имеет моды. Когда два соседних значения имеют одинаковую частоту и они больше частоты любого другого значения, мода есть среднее этих двух значений. Например, в ряду из цифр: 2, 3, 4, 4, 5, 5, 6, 7 модой является 4,5. Если два несмежных значения в группе имеют равные часто­ты и они больше частот любого значения, то существуют две моды. Например, в ряду из цифр: 2, 3, 3, 4, 5, 5, 6, 7 модами являются 3 и 5.

Медиана (Ме) – результат измерения, который находится в середине ранжированного ряда. Медиана делит упорядо­ченное множество пополам так, что одна половина значений ока­зывается больше медианы, а другая – меньше. Если ряд чисел содержит нечетное количество значений, то медианой является среднее значение. Например, в ряду чисел: 6, 9, 11 , 19, 31 медиана число 11.

Если данные содержат четное количество измерений, то медианой является число, составляющее среднее между двумя центральными значениями. Например, в ряду чисел: 6, 9, 11, 19, 31, 48 медиана равна (11+19): 2 = 15.

Моду и медиану используют для оценки среднего при измерении в шкалах порядка (а моду также и в номинальных шкалах).

К характеристикам вариации, или колеблемости, результатов измерений относят размах, среднее квадратическое отклонение, коэффициент вариации и др.

Все средние характеристики дают общую характеристику ряда результатов измерений. На практике нас часто интересует, как сильно каждый результат отклоняется от среднего значения. Однако легко можно представить, что две группы результатов измерений имеют одинаковые средние, но различные значения измерений. Например, для ряда 3, 6, 3 – среднее значение = 4, для ряда 5, 2, 5 также среднее зна­чение = 4, несмотря на существенное различие этих рядов.



Поэтому средние характеристики всегда необходимо дополнять показателями вариации, или колеблемости. Самой простой характеристикой вариации является размах варьирования, определяемый как разность между наибольшим и наименьшим результа­тами измерений. Однако он улавливает только крайние отклонения, но не отражает отклонений всех результатов.

Чтобы дать обобщающую характеристику, можно вычислить отклонения от среднего результата. Среднее квадратическое отклонение вычисляется по формуле:

где Х – наибольший показатель; X – наименьший показатель; К – табличный коэффициент (приложение 4).

Среднее квадратическое отклонение (оно называется также стандартным отклонением) имеет те же единицы измерения, что и результаты измерения. Однако для сравнения колеблемости двух и более совокупностей, имеющих различные единицы измерения, эта характеристика не пригодна. Для этого используется коэффициент вариации.

Коэффициент вариации определяется как отношение среднего квадратического отклонения к среднему арифметическому, выраженное в процентах. Вычисляется он по формуле: V = . 100%

Колеблемость результатов измерений в зависимости от величины коэффициента вариации считают небольшой (0–10%), средней (11–20%) и большой (>20%).

Коэффициент вариации имеет важное значение, так как, будучи величиной относительной (измеряется в процентах), позволяет сравнивать между собой колеблемость результа­тов измерений, имеющих различные единицы измерения. Коэффициент вариации можно использовать лишь в том случае, если измерения выполнены в шкале отношений.



Еще один показатель рассеивания – стандартная (средняя квадратическая) ошибка средней арифметической . Этот показатель (обычно он обозначается символами m или S) характеризует колеблемость средней.

Стандартная ошибка средней арифметической вычисляется по формуле:

где σ – стандартное отклонение результатов измерения, n – объем выборки.

Одна из основных задач статистики состоит в надлежащей обработке информации. Конечно, у статистики есть много других задач: получение и хранение информации, выработка различных прогнозов, оценка их достоверности и т. д. Но ни одна из этих целей не достижима без обработки данных. Поэтому, сперва необходимо выделить основные характеристики статистических данных.

Электронные таблицы Excel имеют огромный набор средств для анализа статистических данных. Наиболее часто используемые статистические функции встроены в основное ядро программы, то есть эти функции доступны с момента запуска программы. Другие более специализированные функции входят в дополнительную подпрограмму, называемую пакетом анализа. Команды и функции пакета анализа называют Инструментами анализа.

Рассмотрим основные характеристики выборочных данных.

Среднее значение.

С помощью среднего значения вычисляют выборочное (или генеральное) среднее, то есть среднее арифметическое значение признака выборочной (или генеральной) совокупности. В Excel среднее значение вычисляется так: =СУММ(F4:F60)/СЧЁТ(F4:F60). Также в Excel существует функция для его вычисления: СРЗНАЧ. Аргументом функции является набор чисел, как правило, задаваемый в виде интервала ячеек, например: =СРЗНАЧ (А3:А201).

Выборочная дисперсия и выборочное среднее квадратическое отклонение.

Выборочной дисперсией значений случайной величины Х называется среднее арифметическое квадратов отклонений наблюдаемых значений этой величины от их среднего арифметического:

Дисперсия характеризует отклонение от средней в квадратных единицах измерения признака, поэтому используют такой показатель, как среднее квадратичное отклонение, который измеряется в тех же единицах, что и изучаемый признак.

Выборочное среднее квадратичное отклонение определяется формулой:

Excel имеются функции, отдельно вычисляющие выборочную дисперсию стандартное отклонение в и генеральные дисперсию D г и стандартное отклонение г. Поэтому, прежде чем вычислять дисперсию и стандартное отклонение, следует четко определиться, являются ли ваши данные генеральной совокупностью или выборочной. В зависимости от этого нужно использовать для расчета D г и г, и в .

Вычисление выборочной дисперсии и выборочного стандартного отклонения в производится с помощью функций: = СУММ((4: 60 ? 28)^2)/ (СЧЁТ(4: 60)) и = КОРЕНЬ(29).

В Excel имеются функции ДИСП (или VAR) и СТАНДОТКЛОН (или STDEV).

Аргументом этих функций является набор чисел, как правило, заданный диапазоном ячеек, например, =ДИСП (В1:В48).

Для вычисления генеральной дисперсии D г и генерального стандартного отклонения г имеются функции ДИСПР (или VARP) и СТАНДОТКЛОНП (или STDEVP), соответственно.

Аргументы этих функций такие же, как и для выборочной дисперсии.

Объем совокупности.

Объем совокупности выборочной или генеральной - это число элементов совокупности. Функция СЧЕТ (или COUNT) определяет количество ячеек в заданном диапазоне, которые содержат числовые данные. Пустые ячейки или ячейки, содержащие текст, функция СЧЕТ пропускает. Аргументом функции СЧЕТ является интервал ячеек, например: =СЧЕТ (С2:С16).

Для определения количества непустых ячеек, независимо от их содержимого, используется функция СЧЕТ3. Ее аргументом является интервал ячеек.

Мода и медиана.

Мода (?) - это значение признака, которое чаще других встречается в совокупности данных. Она вычисляется функцией МОДА (или MODE). Ее аргументом является интервал ячеек с данными. Мода не вычисляется при исследовании НСВ.

Медиана (?) - это значение признака, которое разделяет совокупность на две равные по числу элементов части. Для вариационного ряда с нечётным числом членов медиана равна серединному варианту, а для ряда с чётным числом членов - полусумме двух серединных вариантов. Она вычисляется функцией МЕДИАНА (или MEDIAN). Ее аргументом является интервал ячеек.

Размах варьирования. Наибольшее и наименьшее значения.

Размах варьирования R - это разность между наибольшим x max и наименьшим xmin значениями признака совокупности (генеральной или выборочной): R =x max-x min.

Для нахождения наибольшего значения x max имеется функция МАКС (или MAX), а для наименьшего x min - функция МИН (или MIN). Их аргументом является интервал ячеек. Для того, чтобы вычислить размах варьирования данных в интервале ячеек, например, от А1 до А100, следует ввести формулу: =МАКС (А1:А100)-МИН (А1:А100).

Коэффициент вариации. Вычисляется как процентное соотношение выборочного среднего квадратичного отклонения к средней арифметической.

Если коэффициент вариации высок (более 35%), то выборочная совокупность считается неоднородной. Следовательно, использование среднего для её характеристики является неверным. В этом случае используют моду или медиану.

Для оценки отклонения распределения данных эксперимента от нормального распределения используются такие характеристики как асимметрия А и эксцесс Е .

Для нормального распределения А =0 и Е =0.

Асимметрия показывает, на сколько распределение данных несимметрично относительно нормального распределения: если А >0, то большая часть данных имеет значения, превышающие среднее; если А <0, то большая часть данных имеет значения, меньшие среднего. Асимметрия вычисляется функцией СКОС. Ее аргументом является интервал ячеек с данными, например, =СКОС (А1:А100).

Эксцесс оценивает «крутость», т.е. величину большего или меньшего подъема максимума распределения экспериментальных данных по сравнению с максимумом нормального распределения. Если Е >0, то максимум экспериментального распределения выше нормального; если Е <0, то максимум экспериментального распределения ниже нормального. Эксцесс вычисляется функцией ЭКСЦЕСС, аргументом которой являются числовые данные, заданные, как правило, в виде интервала ячеек, например: =ЭКСЦЕСС (А1:А100). [см. 5]

Получаем следующие вычисления (рисунок 14).

Рисунок 14 Вычисление основных характеристик

Получили следующие значения (рисунок 15).


Рисунок 15 Значения основных характеристик

Так как значение коэффициента вариации значительно превышает 35%, выборка является неоднородной и в качестве среднего значения используется медиана.

Статистика - одна из древнейших отраслей прикладной математики, которая широко использует теоретическую базу многих арифметических определений для осуществления практической деятельности человека. Ещё в древних государствах возникла необходимость строгого учета дохода граждан по группам, для проведения эффективного процесса налогообложения. Статистические исследования имеют громадное значение для экономического развития общества, и не только. Поэтому, в данном видеоуроке мы рассмотрим основные определения статистических характеристик.

Предположим, нам необходимо изучить статистику выполнения тестов учениками седьмого класса. Для начала нам необходимо создать массив информации, с которым можно работать. Информацией, в данном случае, будут являться цифры, определяющие количество выполненных тестов каждым из учеников. Рассмотрим два класса, содержащие по 15 школьников каждый. Общее задание включало 10 упражнений. Результаты получились следующими:

7А: 4, 10, 6, 4, 7, 8, 2, 10, 8, 5, 7, 9, 10, 6, 3;

7Б: 7, 5, 9, 7, 8, 10, 7, 1, 7, 6, 5, 9, 8, 10, 7.

Мы получили, в математической интерпретации, два множества чисел, состоящие из 15 элементов каждое. Этот информационный массив, сам по себе, мало чем может помочь в оценивании эффективности выполнения заданий. Поэтому его нужно статистически преобразовать. Для этого введем основные понятия статистики. Ряд чисел, полученных в результате исследования, называется выборкой. Каждое число (количество выполненных упражнений) - это варианта выборки. А количество всех чисел (в данном случае, это 30 - сумма всех учеников в обоих классах) является объемом выборки.

Одной из главных статистических характеристик является среднее арифметическое. Это значение определяется как частное, полученное в результате деления суммы значений вариант выборки на её объем. В нашем случае необходимо сложить все полученные значения чисел и поделить их на 15 (если мы вычисляем среднее арифметическое для какого-либо одного класса), либо же на 30 (если мы вычисляем общее среднее арифметическое). В представляемом примере, сумма всех количеств выполненных заданий для класса 7А составит 99. Поделив на 15, получаем 6,6 - это среднее арифметическое выполненных заданий для данной группы учеников.

Работать с хаотичным набором чисел не очень удобно, поэтому очень часто информационный массив приводят к упорядоченному набору данных. Создадим вариационный ряд для 7Б класса, использовав метод постепенного возрастания, располагая числа от меньшего к большему:

1, 5, 5, 6, 7, 7, 7, 7, 7, 8, 8, 9, 9, 10, 10.

Количество появлений какого-либо одного значения в выборке данных называется частотой варианты выборки. Например, частота варианты «7» в вышеуказанном вариационном ряду легко определяется, и равна она пяти. Для удобства отображения упорядоченный ряд преобразуется в таблицу, отображающую зависимость между стандартным рядом значений вариант, и частотой встречаемости (количеством учеников, выполнивших одинаковое количество задач).

В 7А классе наименьшей вариантой выборки является значение «2», а наибольшей - «10». Интервал между 2 и 10 называется размахом вариационного ряда. Для 7Б класса размах ряда составляет от 1 до 10. Наибольшая, по частоте встречаемости, варианта называется модой выборки - для 7А это число 7, встречающееся 5 раз.