Частотный анализ — различия между версиями

Материал из Semograph
Перейти к: навигация, поиск
 
Строка 1: Строка 1:
 
+
==Индексация проекта==
  
 
Чтобы работать с инструментами частотного анализа и разметки текстов, необходимо предварительно проиндексировать проект (Проект - Главная). Индексация может проводиться с лемматизацией.  
 
Чтобы работать с инструментами частотного анализа и разметки текстов, необходимо предварительно проиндексировать проект (Проект - Главная). Индексация может проводиться с лемматизацией.  
Строка 5: Строка 5:
 
При индексации можно различать и не различать регистр индексируемых слов (ПРОЕКТ/Проект/проект).
 
При индексации можно различать и не различать регистр индексируемых слов (ПРОЕКТ/Проект/проект).
  
Для разметки текстов необходимо создать метаполе/метаполя у проиндексированных слов. Метаполя слов создаются в Главном окне проекта (Проект - Главная).  
+
Частотный анализ проводится в несколько этапов (на рис. 1 представлен скриншот окна ЧА).
Принципы создания метаполей слов те же самые, что и у метаполей контекста у метаполей компонентов) (подробнее см. [[Метаполя]]).  
+
 
 +
==Первый этап ЧА==
 +
На первом этапе автоматически генерируется список слов (из всех контекстов проекта) с показателями встречаемости их в проекте (столбец 3 “Слова”).
 +
Выделение слова или лексемы (передается зеленым цветом) автоматически фильтрует контексты и отображает фрагменты тех, в которых встретилось данное слово или лексема. Активация контекста (4 столбец) позволяет осуществлять с ним ряд операций: увеличивать / уменьшать объем отображаемого (знаки + и -), выводить контекст в отдельное окно, скрывать / открывать содержание, а также убирать связь данного контекста с лексемой.
 +
Каждый контекст употребления слова (4 столбец) имеет название, совпадающее с названием всего контекста (например, К10) и порядковый номер расположения слова в нем (например, 23).
 +
 
 +
Рис. 1.
 +
В столбце Слова: символом T обозначается количество слов в контекстах проекта; символом P - количество контекстов данного слова, привязанных к лексемам, символом % - процентное соотношение привязанных контекстов слова к общему количеству контекстов данного слова.
 +
 
 +
Опорные слова
 +
Дополнительным инструментом работы со словами являются Опорные слова.
 +
Для работы с опорными словами требуется создать метаполе у слов. В это метаполе у выделенных с помощью чекбокса в поле Слова необходимых слов может заноситься определенное значение (например, "опорное слово"). С помощью промаркированных таким образом слов осуществляется фильтрация частотного списка слов - т.е. вывод в список слов только тех слов, которые встречаются в одном контексте (предложении, абзаце - вариант выбирает исследователь) с опорным словом.  
 +
Опорные слова позволяют осуществлять ЧА только релевантной части текстового контента.
 +
 
 +
==Второй этап ЧА==
 +
В ИС “Семограф” отличия в реализованных значениях слов передаются на уровне лексем (столбец 2 рис. 6, 7).
 +
Лексема терминологически понимается как словесный знак, рассматриваемый в совокупности своих форм (словоформ), имеющих одно значение (лексико-семантический вариант). Т.е. каждое использование слова в одном значении в совокупности всех грамматических форм при таком подходе будет оформляться в отдельную лексему.
 +
 
 +
Инструмент выделения лексем можно использовать и в контексте нетерминологического понятия лексемы. Например, объединять в лексему Я как формы личного местоимения Я, так и притяжательного местоимения Мой.
 +
 +
Таким образом, на втором этапе в ИС “Семограф” после генерации частотного списка слов (столбец 3) с отображением контекстов использования каждого слова (столбец 4), создаются лексемы из отдельных реализованных в контекстах значений. Для этого с помощью функции drag and drop выделенное слово из столбца 3 переносится в столбец 2. Автоматически в столбце 2 создается лексема с привязанным к ней словом и всеми контекстами (столбец 4), в которых данное слово встречается.
 +
Для того, чтобы созданная лексема имело одно значение, требуется отвязать от нее контексты, в которых слово имеет другое значение (т.е. в которых реализуется другая лексема). Исключенные контексты могут быть привязаны к другой созданной омонимичной лексеме.
 +
На рис. 2 видна “раскрытая” лексема я, состоящая из слов я, меня, мной, мне (словоизменительной парадигмы русского местоимения “я”), а также формами притяжательного местоимения мой. Привязка слова к лексеме означает привязку к лексеме определенных экспертом вариантов употребления данного слова (т.е. контекстов). Т.о. лексема состоит не просто из слов, а из слов в определенных контекстах их употребления.
 +
 
 +
Рис. 2.
 +
В столбце Лексемы: символом T обозначается общее количество привязанных к лексеме слов; символом  F - количество полей, к которым привязана лексема.
  
В блоке Индексация (в Главном окне проекта) можно настроить показ нужного метаполя слова в контексте.
+
Возле каждого слова в списке слов к данной лексеме располагается иконка, позволяющая удалить “привязку” слова к этой лексеме (т.е. исключить слово из лексемы).
 +
Таким образом, при активации слова в столбце контексты отображаются все случаи употребления данного слова. При активации лексемы в столбце контексты отображаются только привязанные к данной лексеме случаи употребления слова.
  
 +
Доп. При создании лексемы можно пользоваться инструментом логического запроса к контекстам. Работа инструмента:
 +
а) выделяется одно или несколько слов, генерируется список контекстов, в которых используются данные слова;
 +
б) в поле Поиск столбца Контексты пишется поисковый запрос (регулярное выражение), который возвращает список контекстов, удовлетворяющий выражению;
 +
в) в столбце Лексема создается лексема, соотносимая с результатами запроса (списком контекстов), к которой осуществляется привязка отфильтрованных контекстов (они выделяются и переносятся сразу на поле данной лексемы).
  
 +
==Третий этап ЧА==
 +
На третьем этапе осуществляется группировка созданных лексем в семантические поля.
 +
На рис. 1 представлен список полей и показано содержание поля “Отрицательные именования”, состоящее из негативных характеристик субъектов политической деятельности (лексемы "говорун", "пустозвон" и др.).
  
 +
==Четвертый этап ЧА==
 +
Четвертый этап состоит из генерации С-карты и С-графа (семантических карты и графа).
 +
С-карта - это матрица N x N, строки и столбцы которой образуют сформированные на третьем этапе семантические поля, а в ячейках на пересечении строки и столбца размещается показатель совместного употребления двух полей в контекстах всего корпуса текстов. Границы контекстов в тексте могут устанавливаться автоматизировано (предложение, абзац, весь текст) и вручную (фрагмент текста между двумя границами сегментации).
 +
Полагается, что если два слова (и созданные на их основе лексемы) присутствуют в одном контексте, то они становятся связанными между собой через отнесение их к одному контексту. Поскольку каждая лексема относится к какому-то полю, постольку полагается наличие структурных связей между полями, в которые входят указанные лексемы и непосредственно репрезентирующие их в контекстах слова.
  
 +
Таким образом, для каждого контекста автоматически подсчитываются все комбинации слов; а далее через лексемы, в которые входят слова, устанавливается связь между семантическими полями. Затем полученные по каждому контексту данные суммируются и результатом становится С-карта всего корпуса текстов.
  
 +
Значения, отражаемые в С-карте, могут быть представлены как в абсолютных величинах, так и в относительных. Относительные показатели рассчитываются как отношение абсолютных показателей к общему количеству контекстов. Относительные показатели более релеванты, т.к. не зависят от объема материала и показывают пропорции распределения отдельных семантических полей и их связей в едином семантическом пространстве.
  
 +
==Выборочная генерация С-карты==
 +
1. Генерация С-карты отдельных выборок из контекстов проекта с помощью множественной и вложенной фильтрации контекстов по значениям метаданных контекста.
 +
2. Генерация С-карты на основе опорных слов (активация контекстов, включающих опорное слово с помощью фильтрации по метаданным слова).
  
  

Текущая версия на 17:37, 11 марта 2017

Индексация проекта

Чтобы работать с инструментами частотного анализа и разметки текстов, необходимо предварительно проиндексировать проект (Проект - Главная). Индексация может проводиться с лемматизацией.

При индексации можно различать и не различать регистр индексируемых слов (ПРОЕКТ/Проект/проект).

Частотный анализ проводится в несколько этапов (на рис. 1 представлен скриншот окна ЧА).

Первый этап ЧА

На первом этапе автоматически генерируется список слов (из всех контекстов проекта) с показателями встречаемости их в проекте (столбец 3 “Слова”). Выделение слова или лексемы (передается зеленым цветом) автоматически фильтрует контексты и отображает фрагменты тех, в которых встретилось данное слово или лексема. Активация контекста (4 столбец) позволяет осуществлять с ним ряд операций: увеличивать / уменьшать объем отображаемого (знаки + и -), выводить контекст в отдельное окно, скрывать / открывать содержание, а также убирать связь данного контекста с лексемой. Каждый контекст употребления слова (4 столбец) имеет название, совпадающее с названием всего контекста (например, К10) и порядковый номер расположения слова в нем (например, 23).

Рис. 1. В столбце Слова: символом T обозначается количество слов в контекстах проекта; символом P - количество контекстов данного слова, привязанных к лексемам, символом % - процентное соотношение привязанных контекстов слова к общему количеству контекстов данного слова.

Опорные слова Дополнительным инструментом работы со словами являются Опорные слова. Для работы с опорными словами требуется создать метаполе у слов. В это метаполе у выделенных с помощью чекбокса в поле Слова необходимых слов может заноситься определенное значение (например, "опорное слово"). С помощью промаркированных таким образом слов осуществляется фильтрация частотного списка слов - т.е. вывод в список слов только тех слов, которые встречаются в одном контексте (предложении, абзаце - вариант выбирает исследователь) с опорным словом. Опорные слова позволяют осуществлять ЧА только релевантной части текстового контента.

Второй этап ЧА

В ИС “Семограф” отличия в реализованных значениях слов передаются на уровне лексем (столбец 2 рис. 6, 7). Лексема терминологически понимается как словесный знак, рассматриваемый в совокупности своих форм (словоформ), имеющих одно значение (лексико-семантический вариант). Т.е. каждое использование слова в одном значении в совокупности всех грамматических форм при таком подходе будет оформляться в отдельную лексему.

Инструмент выделения лексем можно использовать и в контексте нетерминологического понятия лексемы. Например, объединять в лексему Я как формы личного местоимения Я, так и притяжательного местоимения Мой.

Таким образом, на втором этапе в ИС “Семограф” после генерации частотного списка слов (столбец 3) с отображением контекстов использования каждого слова (столбец 4), создаются лексемы из отдельных реализованных в контекстах значений. Для этого с помощью функции drag and drop выделенное слово из столбца 3 переносится в столбец 2. Автоматически в столбце 2 создается лексема с привязанным к ней словом и всеми контекстами (столбец 4), в которых данное слово встречается. Для того, чтобы созданная лексема имело одно значение, требуется отвязать от нее контексты, в которых слово имеет другое значение (т.е. в которых реализуется другая лексема). Исключенные контексты могут быть привязаны к другой созданной омонимичной лексеме. На рис. 2 видна “раскрытая” лексема я, состоящая из слов я, меня, мной, мне (словоизменительной парадигмы русского местоимения “я”), а также формами притяжательного местоимения мой. Привязка слова к лексеме означает привязку к лексеме определенных экспертом вариантов употребления данного слова (т.е. контекстов). Т.о. лексема состоит не просто из слов, а из слов в определенных контекстах их употребления.

Рис. 2. В столбце Лексемы: символом T обозначается общее количество привязанных к лексеме слов; символом F - количество полей, к которым привязана лексема.

Возле каждого слова в списке слов к данной лексеме располагается иконка, позволяющая удалить “привязку” слова к этой лексеме (т.е. исключить слово из лексемы). Таким образом, при активации слова в столбце контексты отображаются все случаи употребления данного слова. При активации лексемы в столбце контексты отображаются только привязанные к данной лексеме случаи употребления слова.

Доп. При создании лексемы можно пользоваться инструментом логического запроса к контекстам. Работа инструмента: а) выделяется одно или несколько слов, генерируется список контекстов, в которых используются данные слова; б) в поле Поиск столбца Контексты пишется поисковый запрос (регулярное выражение), который возвращает список контекстов, удовлетворяющий выражению; в) в столбце Лексема создается лексема, соотносимая с результатами запроса (списком контекстов), к которой осуществляется привязка отфильтрованных контекстов (они выделяются и переносятся сразу на поле данной лексемы).

Третий этап ЧА

На третьем этапе осуществляется группировка созданных лексем в семантические поля. На рис. 1 представлен список полей и показано содержание поля “Отрицательные именования”, состоящее из негативных характеристик субъектов политической деятельности (лексемы "говорун", "пустозвон" и др.).

Четвертый этап ЧА

Четвертый этап состоит из генерации С-карты и С-графа (семантических карты и графа). С-карта - это матрица N x N, строки и столбцы которой образуют сформированные на третьем этапе семантические поля, а в ячейках на пересечении строки и столбца размещается показатель совместного употребления двух полей в контекстах всего корпуса текстов. Границы контекстов в тексте могут устанавливаться автоматизировано (предложение, абзац, весь текст) и вручную (фрагмент текста между двумя границами сегментации). Полагается, что если два слова (и созданные на их основе лексемы) присутствуют в одном контексте, то они становятся связанными между собой через отнесение их к одному контексту. Поскольку каждая лексема относится к какому-то полю, постольку полагается наличие структурных связей между полями, в которые входят указанные лексемы и непосредственно репрезентирующие их в контекстах слова.

Таким образом, для каждого контекста автоматически подсчитываются все комбинации слов; а далее через лексемы, в которые входят слова, устанавливается связь между семантическими полями. Затем полученные по каждому контексту данные суммируются и результатом становится С-карта всего корпуса текстов.

Значения, отражаемые в С-карте, могут быть представлены как в абсолютных величинах, так и в относительных. Относительные показатели рассчитываются как отношение абсолютных показателей к общему количеству контекстов. Относительные показатели более релеванты, т.к. не зависят от объема материала и показывают пропорции распределения отдельных семантических полей и их связей в едином семантическом пространстве.

Выборочная генерация С-карты

1. Генерация С-карты отдельных выборок из контекстов проекта с помощью множественной и вложенной фильтрации контекстов по значениям метаданных контекста. 2. Генерация С-карты на основе опорных слов (активация контекстов, включающих опорное слово с помощью фильтрации по метаданным слова).


Главные страницы

Руководство пользователя

"Научный центр экспериментальных данных"