Частотный анализ

Материал из Semograph
Версия от 17:37, 11 марта 2017; Belousov (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Индексация проекта

Чтобы работать с инструментами частотного анализа и разметки текстов, необходимо предварительно проиндексировать проект (Проект - Главная). Индексация может проводиться с лемматизацией.

При индексации можно различать и не различать регистр индексируемых слов (ПРОЕКТ/Проект/проект).

Частотный анализ проводится в несколько этапов (на рис. 1 представлен скриншот окна ЧА).

Первый этап ЧА

На первом этапе автоматически генерируется список слов (из всех контекстов проекта) с показателями встречаемости их в проекте (столбец 3 “Слова”). Выделение слова или лексемы (передается зеленым цветом) автоматически фильтрует контексты и отображает фрагменты тех, в которых встретилось данное слово или лексема. Активация контекста (4 столбец) позволяет осуществлять с ним ряд операций: увеличивать / уменьшать объем отображаемого (знаки + и -), выводить контекст в отдельное окно, скрывать / открывать содержание, а также убирать связь данного контекста с лексемой. Каждый контекст употребления слова (4 столбец) имеет название, совпадающее с названием всего контекста (например, К10) и порядковый номер расположения слова в нем (например, 23).

Рис. 1. В столбце Слова: символом T обозначается количество слов в контекстах проекта; символом P - количество контекстов данного слова, привязанных к лексемам, символом % - процентное соотношение привязанных контекстов слова к общему количеству контекстов данного слова.

Опорные слова Дополнительным инструментом работы со словами являются Опорные слова. Для работы с опорными словами требуется создать метаполе у слов. В это метаполе у выделенных с помощью чекбокса в поле Слова необходимых слов может заноситься определенное значение (например, "опорное слово"). С помощью промаркированных таким образом слов осуществляется фильтрация частотного списка слов - т.е. вывод в список слов только тех слов, которые встречаются в одном контексте (предложении, абзаце - вариант выбирает исследователь) с опорным словом. Опорные слова позволяют осуществлять ЧА только релевантной части текстового контента.

Второй этап ЧА

В ИС “Семограф” отличия в реализованных значениях слов передаются на уровне лексем (столбец 2 рис. 6, 7). Лексема терминологически понимается как словесный знак, рассматриваемый в совокупности своих форм (словоформ), имеющих одно значение (лексико-семантический вариант). Т.е. каждое использование слова в одном значении в совокупности всех грамматических форм при таком подходе будет оформляться в отдельную лексему.

Инструмент выделения лексем можно использовать и в контексте нетерминологического понятия лексемы. Например, объединять в лексему Я как формы личного местоимения Я, так и притяжательного местоимения Мой.

Таким образом, на втором этапе в ИС “Семограф” после генерации частотного списка слов (столбец 3) с отображением контекстов использования каждого слова (столбец 4), создаются лексемы из отдельных реализованных в контекстах значений. Для этого с помощью функции drag and drop выделенное слово из столбца 3 переносится в столбец 2. Автоматически в столбце 2 создается лексема с привязанным к ней словом и всеми контекстами (столбец 4), в которых данное слово встречается. Для того, чтобы созданная лексема имело одно значение, требуется отвязать от нее контексты, в которых слово имеет другое значение (т.е. в которых реализуется другая лексема). Исключенные контексты могут быть привязаны к другой созданной омонимичной лексеме. На рис. 2 видна “раскрытая” лексема я, состоящая из слов я, меня, мной, мне (словоизменительной парадигмы русского местоимения “я”), а также формами притяжательного местоимения мой. Привязка слова к лексеме означает привязку к лексеме определенных экспертом вариантов употребления данного слова (т.е. контекстов). Т.о. лексема состоит не просто из слов, а из слов в определенных контекстах их употребления.

Рис. 2. В столбце Лексемы: символом T обозначается общее количество привязанных к лексеме слов; символом F - количество полей, к которым привязана лексема.

Возле каждого слова в списке слов к данной лексеме располагается иконка, позволяющая удалить “привязку” слова к этой лексеме (т.е. исключить слово из лексемы). Таким образом, при активации слова в столбце контексты отображаются все случаи употребления данного слова. При активации лексемы в столбце контексты отображаются только привязанные к данной лексеме случаи употребления слова.

Доп. При создании лексемы можно пользоваться инструментом логического запроса к контекстам. Работа инструмента: а) выделяется одно или несколько слов, генерируется список контекстов, в которых используются данные слова; б) в поле Поиск столбца Контексты пишется поисковый запрос (регулярное выражение), который возвращает список контекстов, удовлетворяющий выражению; в) в столбце Лексема создается лексема, соотносимая с результатами запроса (списком контекстов), к которой осуществляется привязка отфильтрованных контекстов (они выделяются и переносятся сразу на поле данной лексемы).

Третий этап ЧА

На третьем этапе осуществляется группировка созданных лексем в семантические поля. На рис. 1 представлен список полей и показано содержание поля “Отрицательные именования”, состоящее из негативных характеристик субъектов политической деятельности (лексемы "говорун", "пустозвон" и др.).

Четвертый этап ЧА

Четвертый этап состоит из генерации С-карты и С-графа (семантических карты и графа). С-карта - это матрица N x N, строки и столбцы которой образуют сформированные на третьем этапе семантические поля, а в ячейках на пересечении строки и столбца размещается показатель совместного употребления двух полей в контекстах всего корпуса текстов. Границы контекстов в тексте могут устанавливаться автоматизировано (предложение, абзац, весь текст) и вручную (фрагмент текста между двумя границами сегментации). Полагается, что если два слова (и созданные на их основе лексемы) присутствуют в одном контексте, то они становятся связанными между собой через отнесение их к одному контексту. Поскольку каждая лексема относится к какому-то полю, постольку полагается наличие структурных связей между полями, в которые входят указанные лексемы и непосредственно репрезентирующие их в контекстах слова.

Таким образом, для каждого контекста автоматически подсчитываются все комбинации слов; а далее через лексемы, в которые входят слова, устанавливается связь между семантическими полями. Затем полученные по каждому контексту данные суммируются и результатом становится С-карта всего корпуса текстов.

Значения, отражаемые в С-карте, могут быть представлены как в абсолютных величинах, так и в относительных. Относительные показатели рассчитываются как отношение абсолютных показателей к общему количеству контекстов. Относительные показатели более релеванты, т.к. не зависят от объема материала и показывают пропорции распределения отдельных семантических полей и их связей в едином семантическом пространстве.

Выборочная генерация С-карты

1. Генерация С-карты отдельных выборок из контекстов проекта с помощью множественной и вложенной фильтрации контекстов по значениям метаданных контекста. 2. Генерация С-карты на основе опорных слов (активация контекстов, включающих опорное слово с помощью фильтрации по метаданным слова).


Главные страницы

Руководство пользователя

"Научный центр экспериментальных данных"