Частотный анализ

Содержание

1 Индексация проекта
2 Первый этап ЧА
3 Второй этап ЧА
4 Третий этап ЧА
5 Четвертый этап ЧА
6 Выборочная генерация С-карты
7 Главные страницы

Индексация проекта

Чтобы работать с инструментами частотного анализа и разметки текстов, необходимо предварительно проиндексировать проект (Проект - Главная). Индексация может проводиться с лемматизацией.

При индексации можно различать и не различать регистр индексируемых слов (ПРОЕКТ/Проект/проект).

Частотный анализ проводится в несколько этапов (на рис. 1 представлен скриншот окна ЧА).

Первый этап ЧА

На первом этапе автоматически генерируется список слов (из всех контекстов проекта) с показателями встречаемости их в проекте (столбец 3 “Слова”). Выделение слова или лексемы (передается зеленым цветом) автоматически фильтрует контексты и отображает фрагменты тех, в которых встретилось данное слово или лексема. Активация контекста (4 столбец) позволяет осуществлять с ним ряд операций: увеличивать / уменьшать объем отображаемого (знаки + и -), выводить контекст в отдельное окно, скрывать / открывать содержание, а также убирать связь данного контекста с лексемой. Каждый контекст употребления слова (4 столбец) имеет название, совпадающее с названием всего контекста (например, К10) и порядковый номер расположения слова в нем (например, 23).

Рис. 1. В столбце Слова: символом T обозначается количество слов в контекстах проекта; символом P - количество контекстов данного слова, привязанных к лексемам, символом % - процентное соотношение привязанных контекстов слова к общему количеству контекстов данного слова.

Опорные слова Дополнительным инструментом работы со словами являются Опорные слова. Для работы с опорными словами требуется создать метаполе у слов. В это метаполе у выделенных с помощью чекбокса в поле Слова необходимых слов может заноситься определенное значение (например, "опорное слово"). С помощью промаркированных таким образом слов осуществляется фильтрация частотного списка слов - т.е. вывод в список слов только тех слов, которые встречаются в одном контексте (предложении, абзаце - вариант выбирает исследователь) с опорным словом. Опорные слова позволяют осуществлять ЧА только релевантной части текстового контента.

Второй этап ЧА

В ИС “Семограф” отличия в реализованных значениях слов передаются на уровне лексем (столбец 2 рис. 6, 7). Лексема терминологически понимается как словесный знак, рассматриваемый в совокупности своих форм (словоформ), имеющих одно значение (лексико-семантический вариант). Т.е. каждое использование слова в одном значении в совокупности всех грамматических форм при таком подходе будет оформляться в отдельную лексему.

Инструмент выделения лексем можно использовать и в контексте нетерминологического понятия лексемы. Например, объединять в лексему Я как формы личного местоимения Я, так и притяжательного местоимения Мой.

Таким образом, на втором этапе в ИС “Семограф” после генерации частотного списка слов (столбец 3) с отображением контекстов использования каждого слова (столбец 4), создаются лексемы из отдельных реализованных в контекстах значений. Для этого с помощью функции drag and drop выделенное слово из столбца 3 переносится в столбец 2. Автоматически в столбце 2 создается лексема с привязанным к ней словом и всеми контекстами (столбец 4), в которых данное слово встречается. Для того, чтобы созданная лексема имело одно значение, требуется отвязать от нее контексты, в которых слово имеет другое значение (т.е. в которых реализуется другая лексема). Исключенные контексты могут быть привязаны к другой созданной омонимичной лексеме. На рис. 2 видна “раскрытая” лексема я, состоящая из слов я, меня, мной, мне (словоизменительной парадигмы русского местоимения “я”), а также формами притяжательного местоимения мой. Привязка слова к лексеме означает привязку к лексеме определенных экспертом вариантов употребления данного слова (т.е. контекстов). Т.о. лексема состоит не просто из слов, а из слов в определенных контекстах их употребления.

Рис. 2. В столбце Лексемы: символом T обозначается общее количество привязанных к лексеме слов; символом F - количество полей, к которым привязана лексема.

Возле каждого слова в списке слов к данной лексеме располагается иконка, позволяющая удалить “привязку” слова к этой лексеме (т.е. исключить слово из лексемы). Таким образом, при активации слова в столбце контексты отображаются все случаи употребления данного слова. При активации лексемы в столбце контексты отображаются только привязанные к данной лексеме случаи употребления слова.

Доп. При создании лексемы можно пользоваться инструментом логического запроса к контекстам. Работа инструмента: а) выделяется одно или несколько слов, генерируется список контекстов, в которых используются данные слова; б) в поле Поиск столбца Контексты пишется поисковый запрос (регулярное выражение), который возвращает список контекстов, удовлетворяющий выражению; в) в столбце Лексема создается лексема, соотносимая с результатами запроса (списком контекстов), к которой осуществляется привязка отфильтрованных контекстов (они выделяются и переносятся сразу на поле данной лексемы).

Третий этап ЧА

На третьем этапе осуществляется группировка созданных лексем в семантические поля. На рис. 1 представлен список полей и показано содержание поля “Отрицательные именования”, состоящее из негативных характеристик субъектов политической деятельности (лексемы "говорун", "пустозвон" и др.).

Четвертый этап ЧА

Четвертый этап состоит из генерации С-карты и С-графа (семантических карты и графа). С-карта - это матрица N x N, строки и столбцы которой образуют сформированные на третьем этапе семантические поля, а в ячейках на пересечении строки и столбца размещается показатель совместного употребления двух полей в контекстах всего корпуса текстов. Границы контекстов в тексте могут устанавливаться автоматизировано (предложение, абзац, весь текст) и вручную (фрагмент текста между двумя границами сегментации). Полагается, что если два слова (и созданные на их основе лексемы) присутствуют в одном контексте, то они становятся связанными между собой через отнесение их к одному контексту. Поскольку каждая лексема относится к какому-то полю, постольку полагается наличие структурных связей между полями, в которые входят указанные лексемы и непосредственно репрезентирующие их в контекстах слова.

Таким образом, для каждого контекста автоматически подсчитываются все комбинации слов; а далее через лексемы, в которые входят слова, устанавливается связь между семантическими полями. Затем полученные по каждому контексту данные суммируются и результатом становится С-карта всего корпуса текстов.

Значения, отражаемые в С-карте, могут быть представлены как в абсолютных величинах, так и в относительных. Относительные показатели рассчитываются как отношение абсолютных показателей к общему количеству контекстов. Относительные показатели более релеванты, т.к. не зависят от объема материала и показывают пропорции распределения отдельных семантических полей и их связей в едином семантическом пространстве.

Выборочная генерация С-карты

1. Генерация С-карты отдельных выборок из контекстов проекта с помощью множественной и вложенной фильтрации контекстов по значениям метаданных контекста. 2. Генерация С-карты на основе опорных слов (активация контекстов, включающих опорное слово с помощью фильтрации по метаданным слова).

Главные страницы

Руководство пользователя

"Научный центр экспериментальных данных"

Частотный анализ

Содержание

Индексация проекта

Первый этап ЧА

Второй этап ЧА

Третий этап ЧА

Четвертый этап ЧА

Выборочная генерация С-карты

Главные страницы

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты