План основного эесперимента: респондентам с РАС и СДВГ аналогичным образом, как в пилотном эксперименте, будут даваться тексты аналогичные тексты и идентичными пилотному эксперименту графическими настройками. Аналогичным образом будут измерены показатели: время чтения текста вслух, количество ошибок при чтении и количество ошибок в опроснике после прочтения текстов.
Для корреляционной гипотезы о сравнении количества ошибок в тесте также был применен тест знаков. Была посчитана корреляция по Спирмену = 0,65, по Фишеру, 0,78. За уровень значимости было принято решение взять 5%, желаемая мощность – 90%, beta=10%. z_alpha/2 = -1,96, z_beta = -1,28. Z = -3,24. N (количество респондентов для основного эксперимента) = 22. Для основного эксперимента по этой гипотезе нужно 22 респондента.
Опросники, которые респонденты заполняли после прочтения текстов
Образцы текстов, предложенные респондентам для чтения.
Точечная диаграмма для параметров «время» и «количество ошибок при чтении» для текста на белом фоне.
Точечная диаграмма для параметров «время» и «количество ошибок при чтении» для текста на кремовом фоне
Кроме того, была построена точечная диаграмма, отражающая корреляцию между временем чтения и количеством ошибок при чтении на кремовом фоне и на белом фоне.
Медиана, построенная по количеству ошибок в тесте ниже в тексте на кремовом фоне.
У текста на кремовом фоне ниже общее и среднее время чтения, а также меньше выбросов на диаграмме «ящик с усами».
Доверительные интервалы для корреляции
Доверительный интервал долей успеха
Длительность чтения текстов у текста на кремовом фоне ниже общее и среднее время чтения. P-value=0,005%, фактическая мощность=97,79%. Гипотеза подтвердилась. Длительность чтения текста на кремовом фоне меньше, чем на белом.
Фактическая мощность для этой гипотезы, рассчитанная методом бутстрапа, т. к. использовался тест Уилкоксона. Размер выборки в бутстрапе = 10000, из которых 9779 - статистически значимы, соответственно фактическая мощность = 97,79%. Это значение больше, чем запланированное (мощность в пилотном эксперименте = 90% по тесту знаков), что с большей вероятностью отбрасывает возможность ошибки благодаря использованию метода Уилсона.
Также были рассчитаны границы доверительных интервалов по методу подбора для успехов (за успех были взяты нетипичные разности) долей разностей. Доля успешных разностей = 8%, а ДИ находится в пределах 0,001 – 0,26.
z=(w+0.5)/КОРЕНЬ((n*(n+1)*(2n+1)/6);
p-value=НОРМРАСП(z);
т. е. результат статистически значимый на уровне α = 0,125% при односторонней проверке (c поправкой Холма-Бонферрони).
Количество ошибок в опроснике после чтения текста на кремовом фоне меньше, чем на белом. P-value=2,8%, фактическая мощность=63,96%. Гипотеза не подтвердилась.
Фактическая мощность для этой гипотезы, рассчитанная методом бутстрапа, т. к. использовался тест Уилкоксона. Размер выборки в бутстрапе = 10000, из которых 6396 - статистически значимы, соответственно фактическая мощность = 63,96%. Это значение меньше, чем запланированное (мощность в пилотном эксперименте = 99% по тесту знаков).
Также были рассчитаны границы доверительных интервалов на уровне доверия 98% по методу подбора для успехов (за успех были взяты нетипичные разности) долей разностей. Доля успешных разностей = 32%, а ДИ находится в пределах 0,15–0,53.
z=(w-0.5)/КОРЕНЬ((n*(n+1)*(2n+1)/6);
p-value=НОРМРАСП(z);
т.е. результат статистически незначимый на уровне α = 0,167% при односторонней проверке (c поправкой Холма-Бонферрони).
Фактическая мощность, равна 72% при двухсторонней проверке, при n = 22 для конкурирующей гипотезы r = 0,65 при α = 1,667%. Запланированная мощность должна быть равна 90%, фактическая же имеет меньшее значение, что может быть связано с ненормальным распределением данных.
Полученные результаты говорят о том, что настройки текста на кремовом фоне лучше, чем на белом, подходят для чтения с экрана людьми с СДВГ и/или РАС. В дальнейших исследованиях планируется проверить каждый параметр выявленного текста (кегль, интерлиньяж, трекинг), чтобы найти лучшее сочетание и доказать его результативность для людей с данными диагнозами.
Гипотеза о корреляции между временем, затраченным на чтение, и количеством ошибок при чтении не получила подтверждения, уровень значимости α = 1,667% с поправкой Холма-Бонферрони, p-value=0,14% и фактической мощностью= 78.1% для текста на белом фоне и p-value = 0,02% и фактической мощностью = 82% для текста на кремовом фоне. Запланированная мощность – 90%. Данная гипотеза проверялась по тесту Пирсона, направление проверки было двухстороннее для количества респондентов n=22.
Гипотеза №2 о количестве ошибок в тесте не подтвердилась. Она проверялась по тесту Уилкоксона, направление проверки - правостороннее для количества респондентов n=25, α = 0,0167%, p-value =2,816%, фактическая мощность– 64,45%, запланированная мощность – 99%.
Данная гипотеза проверялась по тесту Уилкоксона, направление проверки было левостороннее для количества респондентов n=25, α = 0,0125%, p-value =0,005%, фактическая мощность = 97,690%, запланированная мощность – 90%.
Текст, напечатанный шрифтом verdana 14 кегля черного цвета на кремовом фоне с интерлиньяжем 19 и трекингом 10, читается респондентами с РАС и/или СДВГ быстрее, чем текст на белом фоне напечатанный шрифтом arial 14 кегля черного цвета на белом фоне с интерлиньяжем 15 и трекингом 0.
При проведении экспериментов были выбраны респонденты от 18 до 35 лет с различными диагнозами спектра РАС. Стоит учитывать, что эксперимент проходил удаленно, тест немодерируемый. Респонденты читали тексты со своих экранов, которые не были откалиброваны.
Также ввиду различности диагнозов спектра РАС некоторым респондентам было сложнее читать числа и имена собственные, а также географические названия, но, поскольку, числа, имена и географические названия могут встретиться в любом тексте, их необходимо было включить в эксперимент.
Респондентам было предложено прочитать 2 текста (в случайном порядке), а затем заполнить опросник на знание и понимание текста. Замеряемые переменные: время чтения, количество ошибок при чтении и количество ошибок в тесте.
Для гипотезы о сравнении количества ошибок в тесте был применен тест знаков. Сначала была рассчитана разность количеством. 9 разностей ненулевых, 5 нулевые, 9 отрицательных. Был найден p1=1. За уровень значимости было принято решение взять 5%, желаемая мощность =99%, beta=1%. z alpha/2 = -1,96, z beta = -2,33. Z = -4,28.
N (количество респондентов для основного эксперимента) = 19 (таб. 8). Для основного эксперимента по этой гипотезе нужно 19 респондентов.
- Количество ошибок в тесте после прочтения текста на белом фоне больше, чем в тесте после прочтения текста на бежевом фоне.
- Метод проверки - W-критерий Уилкоксона
- Нулевая гипотеза -Количество ошибок в тесте после прочтения текста на белом и бежевом фонах идентично, Pбел > Pкрем.
- Направление проверки - правосторонняя (Pбел > Pкрем)
- Конкурирующая гипотеза - p ≠ 50%
- Уровни значимости и мощности - alpha – 1,67%, мощность - 90%, beta - 10%
- Планируемый размер выборки – 19 респондентов
Экспериментальная гипотеза 2
В итоге для проверки этих 3 гипотез нужно не менее 22 респондентов.
- Существует корреляция между временем чтения и количеством ошибок при чтении текста.
- Метод проверки - тест ранговой корреляции Спирмена
- Нулевая гипотеза - Корреляции между временем чтения и количеством ошибок при чтении текста нет.
- Направление проверки - двухстороннее
- Конкурирующая гипотеза - r = 0,65
- Уровни значимости и мощности - alpha – 1,67%, мощность - 90%, beta - 10%
- Планируемый размер выборок - 22 респондента
- Ширина строки не должна превышать 80 символов или глифов (40 в китайском, японском и корейском языках);
- Выравнивание текста по левому краю;
- Использовать достаточно крупный кегль. Размер шрифта текста можно изменить в пределах 200% без применения ассистивных технологий (чтобы пользователю не нужно было прибегать к горизонтальной прокрутке для прочтения строки).
- Интерлиньяж внутри абзаца не менее 135% от кегля шрифта, а интервал между абзацами - больше интерлиньяжа минимум в 1,5 раза;
- Текст на изображениях не использовать, так как изображение само по себе является отвлекающим элементом;
- Контраст. Визуальное отображение текста должно иметь коэффициент контрастности не менее 7:1 (уровень ААА), но желательно не доходить до 21,1:1. Оптимальное соотношение – 17-19:1. Для увеличенных текстов коэффициент контрастности от 4,5:1.
- Цвет текста и фона могут быть выбраны пользователем (соблюдая рекомендации по коэффициенту контрастности);
- Использование цвета. Не использовать цвет в качестве единственного визуального средства передачи информации. Использовать простые цвета, немногоцветные диаграммы и несложные изображения простых цветов для поддержки текстовой информации;
- Строить контент таким образом, чтобы он был максимально сжат и четко структурирован, использовать простые предложения и буллиты;
- Публиковать информацию на одной веб-странице, избегать множества переходов.
- Использовать линейную сетку;
- Сохранять консистентность.
- Интерлиньяж – 19 пт. (при автоматическом стандартном 16,8 пт. ) для текста 14 кегля. Интерлиньяж = 136%.
- Трекинг 10 em при стандартном размере, предлагаемым программой 0 em.
- Коэффициент контраста цветов фона (кремового #f7eea6 в системе hex, 247;238;166 в системе RGB) и текста (черного #000000 в системе hex, 0;0;0 в системе RGB) = 17,73:1, что соответствует наивысшему уровню доступности AAA, но в то же время не является наивысшим коэффициентом, который = 21,1:1, что способствует отсутствию чрезмерной нагрузки на зрительный аппарат.
Коэффициент контраста цветов текста и фона, измеренный в wave.
В выведенной экспериментальным путем формуле графических параметров текста можно выделить следующие, отличающиеся от стандартных в программе для верстки текста (adobe InDesign) настройки:
Сформулированные рекомендации и принципы для инклюзивного дизайна текста для людей с РАС и СДВГ
Рекомендации для инклюзивного дизайна текста в интерфейсах для людей с РАС и СДВГ
В результате основного (доказательного) эксперимента подтвердилась гипотеза №1:
Корреляция между временем чтения и количеством ошибок (0,2) во время чтения не значима при уровне α = 0,1667%: r (25) = 0,2, z = 0,86, z=(ФИШЕР(r)*КОРЕНЬ(n-3));
p-value = 0,02% при двухсторонней проверке. Доверительный интервал находится в границах от -0,28 до 0,6, т. к. фактическая мощность 82%.
Гипотеза о корреляции. Текст на белом фоне
Для проверки гипотезы использовался тест Уилкоксона. Были найдены разности между временем чтения текста на кремовом и на белом фонах. Направление проверки - левостороннее. В выборке из 25 тестов, не было нулевых разностей, а количество нетипичных разностей (положительных) составило k=2, остальные 23 – отрицательные, так доля нетипичных составила 8%. Далее значения были проранжированы, и, после «возвращения» им знаков, был найден W-критерий (-289) по которому был найден z-критерий и p-value (p-value = 0,005%):
Статистическая обработка экспериментальной гипотезы 2
Для проверки гипотезы использовался тест Уилкоксона. Были найдены разности между временем чтения текста на кремовом и на белом фонах. Направление проверки - левостороннее. В выборке из 25 тестов, не было нулевых разностей, а количество нетипичных разностей (положительных) составило k=2, остальные 23 – отрицательные, так доля нетипичных составила 8%. Далее значения были проранжированы, и, после «возвращения» им знаков, был найден W-критерий (-289) по которому был найден z-критерий и p-value (p-value = 0,005%):
Статистическая обработка экспериментальной гипотезы 1
В эксперименте приняли участие 25 респондентов с подтвержденными диагнозами РАС и/или СДВГ от 18 до 35 лет 6 мужчин и 19 женщин, средний возраст респондентов – 28 лет.
- Время чтения текста на кремовом фоне меньше, чем на белом.
- Метод проверки - W-критерий Уилкоксона
- Нулевая гипотеза - время чтения на белом и на кремовом фонах идентично, Pкрем< Pбел
- Направление проверки - левосторонняя (Pкрем < Pбел)
- Конкурирующая гипотеза - p ≠ 50%
- Уровни значимости и мощности - alpha – 1,25%, мощность - 90%, beta - 10%
- Планируемый размер выборки - 21 респондент
Экспериментальная гипотеза 1
Для гипотезы 1 о сравнении времени чтения двух текстов был применен тест знаков. Сначала была рассчитана разность между временем чтения текстов на белом и бежевом фонах. Все разности ненулевые, 2 отрицательные. Был найден p1=0,857. За уровень значимости было принято решение взять 1%, желаемая мощность = 90%, beta = 10%. z alpha/2 = -1,96, z beta = -1,29. Z=-3,24. N (количество респондентов для основного эксперимента) = 21. Для основного эксперимента по этой гипотезе нужен 21 респондент.
В рамках исследования было сформулировано 3 гипотезы: 2 основные и 1 гипотеза о корреляции. Направление проверки для всех гипотез - двухстороннее.
Доказательный эксперимент
Подтвержденные диагнозы распондентов
Доверительные интервалы для корреляции
Фактическая мощность, рассчитанная равна 78,1% при двухсторонней проверке, при n=22 для конкурирующей гипотезы r = 0,65 при α = 1,667%. Запланированная мощность должна быть равна 80%, фактическая же имеет меньшее значение, что может быть связано с ненормальным распределением данных.
Корреляция между временем чтения и количеством ошибок (r=0,34) во время чтения - статистически незначима на уровне α = 1,667% r (25) = 0,34, z = 1,49 ,
z=(ФИШЕР(r)*КОРЕНЬ(n-3)); p-value = 0,14%. Доверительный интервал находится в границах от -0,14 до 0,69.
Гипотеза о корреляции. Текст на кремовом фоне
Фрагмент из таблицы бутстрап для расчета фактической мощности по тесту Уилкоксона
Фрагмент из таблицы бутстрап для расчета фактической мощности по тесту Уилкоксона
Доверительный интервал долей успеха
Доверительный интервал для гипотезы о количестве ошибок в тесте
Доверительный интервал для гипотезы о времени чтения