Графики, которые вы видите, одновременно являются и фильтрами. На них можно кликать, меняя часть данных, которые отображаются на всех остальных графиках.
Если исследователь загрузил описание к некоторым параметрам, их можно будет увидеть на этих графиках при поднесении курсора к названию.
Фильтры на графиках со строковыми данными позволяют добавлять или удалять элементы из текущей выборки кликом.
Элементы данных, которые сейчас выделены и отображаются везде, выделяются цветом.
На картинке выбраны респонденты, родившиеся в Москве и относящие себя к мужскому полу.
На числовых графиках можно мышкой выделять диапазон значений.
На данном графике выделена группа респондентов от 38 до 54 лет.
Первая группа фильтров-графиков — результаты исследования.
Остальные графики описывают респондентов.
На этом графике вы можете выбрать интересующий вас метод.
Наведение курсора показывает, сколько процентов человек из данной выборки показало выбранный результат в данном методе.
На этом графике вы можете выбрать интересующие вас слова.
При поднесении курсора к слову показывается процент респондентов, ответивших по данному слову. Если все респонденты ответили по всем словам, будет показываться 100%.
Этот график показывает процентное распределение респондентов из текущей выборки по разным результатам.
При наличии нескольких результатов в одном эксперименте у одного и того же респондента высчитываются доли для каждого результата, сумма которых равна единице.
Этот график показывается в том случае, если в исследовании наблюдалась вариативность в речи одного говорящего.
На нём изображены как невариативные случаи, так и автоматически сгенерированные случаи употребления респондентами разных результатов в одном эксперименте.
Здесь также учитываются случаи, когда респондент в разных методах для одного слова показал разные результаты.
Нажмите на эту кнопку, чтобы сохранить применённые фильтры в базу исследований. Вы можете также добавить описание к фильтру.
Нажатие на эту кнопку поможет вернуться к исходному фильтру, если вы изначально его открывали.
Нажмите на эту кнопку, чтобы сбросить всю фильтрацию.
База данных для исследования вариативности смягчения/несмягчения согласных перед гласным на месте буквы "е" в заимствованных словах. Список потенциальных стимулов для экспериментов насчитывает ~1200 нарицательных существительных, прилагательных, наречий и глаголов. Все слова размечены по согласному перед "е", позиции слога по отношению к ударению, типу слога, первому вхождению в НКРЯ, количеству вхождений в корпусе и в поисковых системах, а также другим параметрам, на которые может ориентироваться исследователь.
При использовании базы "Квэст" ссылайтесь, пожалуйста, на саму базу и на эту статью:
Перова Д. М., Бондаренко К. Е., Добрушина Н. Р. База данных для исследования вариативности твердых/мягких согласных перед е в заимствованных словах // В кн.: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва,1–4 июля 2016 г.) / Под общ. ред.: В. Селегей. Вып. 15. М. : Изд-во РГГУ, 2016. С. 528-539
Исследователю необходимо предоставить 3 файла: файл с результатами исследования, параметрами и информацией о респондентах.
Все файлы должны быть формата .csv, иметь кодировку UTF-8, строку заголовка, как в примерах, в качестве разделителя колонок — ,, строк — символ переноса строки \r\n.
При наличии кавычек, символов переноса или запятых в тексте поля необходимо весь текст поля взять в кавычки и все кавычки внутри него удвоить. Подробнее — в стандарте.
Файлы рекомендуется как открывать, так и создавать в хорошем тестовом редакторе, например, Notepad++, Sublime Text или Atom.
Если один и тот же эксперимент повторялся несколько раз или в ходе одного эксперимента респондент показал несколько результатов (возможно, одинаковых), следует для каждой попытки завести отдельную строчку с результатами.
В хороших исследованиях каждый респондент должен быть опрошен по всем методам и словам, но, даже если в вашем исследовании это не так, это не приведёт к ошибке.
Если вы хотите разделить неопрошенных и не давших ответа респондентов, вы можете ввести особое обозначение для случая, когда не было получено результата, например -.
Количество строк в этом файле (не считая строки заголовков) должно совпадать с количеством графиков, которым вы хотите задать заголовки и описание.
Если вы хотите добавить название или описание к методам, словам, результатам или вариативности, добавьте в этот файл параметры с кодами mtd, word, res и var соответственно.
Каждое исследование должно быть подтверждено, чтобы попасть в список исследований.
Подтверждать исследование следует тогда, когда его автор считает, что все собранные данные правильно загружены и верно отображаются на графиках. Для подтверждения достаточно нажать на кнопку Подтвердить.
Если исследование загружено с ошибками или неверно отображается, его можно просто не подтверждать: оно само удалится в течение трёх суток с момента загрузки.
Все графики строятся автоматически по загруженным исследованиям. Чтобы их увидеть, достаточно зайти на страницу исследования.
При этом к данным можно применять различные фильтры, взаимодействуя с графиками.
Тут же можно открыть подробный тур, рассказывающий о том, каким образом это можно делать.
Если вы отключили автоматическое появление тура, вы можете его открыть здесь для образцового исследования или для текущего.
Можно также отдельно изучить систему подсчёта результатов.
Сохранение фильтров
Автор может сохранить своё исследование с выбранными фильтрами и предложить к нему описание.
Все сохранённые фильтры видны на странице с проведёнными исследованиями.
Мы постарались сделать так, чтобы вклад одного респондента в общий результат был равным для всех респондентов.
Например, если один респондент был опрошен 5 раз, а второй — всего 1, мы добиваемся того, чтобы результаты первого респондента имели равный вес с результатами второго.
Для этого была введена концепция множителей, которые уменьшают эффект от одного конкретного эксперимента настолько, чтобы количество экспериментов не влияло на общее распределение.
Если текущий фильтр отсекает лишь часть результатов одного респондента, мы не увеличиваем множители его оставшихся результатов, чтобы показать, что результаты опроса этого человека представлены сейчас не полностью.
Полтора землекопа
Многие, наверно, помнят о неправильно решённых задачках, в которых количество людей получается дробным.
Так вот, в нашей системе такие результаты не являются ошибкой. Дробные результаты появляются тогда, когда выбрано несколько разных экспериментов, в которых один и тот же человек мог дать разный ответ.
К этим случаям могут относиться как проявления вариативности в речи одного говорящего, так и просто наличие разных слов или методов.
Расчёты
Множитель для данного респондента и слова высчитывается, как единица, делённая на сумму всех строчек с этим респондентом и словом.
Допустим, у нас есть следующее распределение результатов, для которых мы посчитали множитель mul:
rsp
mtd
word
res
mul
1
Чтение
тест
э
1/3
1
Чтение
тест
э
1/3
1
Вопрос
тест
е
1/3
2
Чтение
тест
э
1/4
2
Вопрос
тест
э
1/4
2
Вопрос
тест
э
1/4
2
Вопрос
тест
е
1/4
Посчитав сумму множителей для каждого результата и разделив её на общую сумму множителей (равную 2) получим следующее распределение:
е
э
7/24
17/24
Чтобы найти среднее количество респондентов в нашей выборке, получивших данный результат, умножим полученные доли на количество респондентов, равное 2:
е
э
0,6
1,4
Можно заметить, что нам пришлось произвести две взаимообратных операции, которые перестанут быть таковыми при отсеивании некоторых строк из таблицы.
Это произойдёт потому, что множители согласно нашей системе останутся прежними (см. выше), а их сумма изменится.
Такая ситуация может появиться, если мы, например, выберем только метод "Вопрос":
rsp
mtd
word
res
mul
1
Вопрос
тест
е
1/3
2
Вопрос
тест
э
1/4
2
Вопрос
тест
э
1/4
2
Вопрос
тест
е
1/4
Количество респондентов по-прежнему равно 2, а сумма множителей изменилась и стала равной 13/12.
Произведя аналогичные операции, получим:
е
э
7/13 (1,1)
6/13 (0,9)
При таком количестве респондентов корреляционная зависимость сводится к нулю, но при наличии большой выборки она становится гораздо более ощутимой.
Ударение в глаголах с корнем -ня- в форме женского рода прошедшего времени
Информация
Автор: Терёхина Мария, Пантелеева Ирина, Миллер Евгения
Дата проведения исследования: 2017-12-18
Место проведения исследования: Высшая школа экономики
Научный руководитель: Ронько Роман Витальевич
Описание
Предметом исследования данного проекта является ударение в глаголах с корнем -ня- в форме женского рода прошедшего времени, т.е. в следующих глаголах: отняла, вняла, уняла, обняла, приняла, подняла, поняла, переняла, наняла, засняла, разняла, заняла, сняла.
Сбор данных происходил при личном опросе респондентов. В эксперименте приняло участие 53 информанта из четырёх возрастных групп (“до 18”, “18-30”, “31-50”, “51+”). В качестве исследуемых параметров мы рассматривали пол, возраст, место, где респондент прожил большую часть жизни, тип задания (осознанность проставления ударения). В ходе заполнения анкеты испытуемых также просили указать их уровень образования, но поскольку данный параметр в нашей выборке почти в 100% случаев определялся возрастом, было решено исключить его из рассмотрения.
Эксперимент состоял из трёх частей: 1) картинки со стимулами (вопросами, например “Что сделала девушка с туфлей?”: на изображении показано, что она её сняла); 2) чтение текстов и ответы на вопросы по содержанию, которые использовались в качестве филлеров; 3) постановка ударений в глаголах в составе словосочетаний (письменно). Первое и второе задания относились к неосознанной постановке ударений, третье - к осознанному.
При анализе данных было замечено, что результаты постановки ударений в первом задании не отличаются от постановки ударений при чтении текстов. Кроме того, нам не удалось подобрать иллюстрации ко всем перечисленным выше глаголам, поэтому решено было исключить данные, полученные при эксперименте с картинками.
Результаты подсчитывались следующим способом: для каждого испытуемого мы посчитали, сколько раз человек поставил ударение на последний слог в исследуемых словах в каждом из заданий (чтение текстов (14 вхождений) и письменная постановка ударений (15 вхождений)) и суммарно в двух заданиях. Затем была подсчитана статистическая значимость влияния каждого из параметров на количество ударений на последний слог.
Статистический анализ по большинству параметров происходил при помощи стандартного T-теста для двусторонней гипотезы (т.е. изначально предположение состояло в том, что кол-во ударений на последний слог одной группы отличаются от количества ударений другой, но неизвестно, в большую или меньшую сторону).
Анализ полученных данных дал следующие результаты:
при анализе суммарного количества ударений на последний слог в двух типах заданий статистически значимым критерием оказался только пол респондентов: женщины в среднем чаще делают ударение на последний слог (p-value = .016, мужчины: среднее = 23.72, стандартное отклонение = 3.27, разброс 18-29 (из 29), женщины: среднее = 26, стандартное отклонение = 3.71, разброс 13-29). Возраст (p-value = .40) и место жительства (p-value = .25) значимого влияния не оказали.
статистически значимая разница в осознанном и неосознанном проставлении ударений была обнаружена только в возрастной группе 18-30: при чтении текстов информанты этой возрастной группы чаще делали ударения на последний слог, чем при письменной постановке ударений (p-value = 0.22). В остальных возрастных группах, а также при разбиении выборки по другим параметрам (пол, место жительства), а также при общем противопоставлении данных по критерию осознанности статистически значимой разницы обнаружено не было.
Было замечено, что в разных значениях глагола занять в исследуемой форме ударение было в разных местах. Как показали результаты, параметр “значение” глагола статистически значим только при третьем (письменном) типе заданий (p-value < .001). Оказалось, что чаще встречалось занялА место, но зАняла денег.