Частотный анализ — различия между версиями
Belousov (обсуждение | вклад) |
Belousov (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
− | + | ==Индексация проекта== | |
Чтобы работать с инструментами частотного анализа и разметки текстов, необходимо предварительно проиндексировать проект (Проект - Главная). Индексация может проводиться с лемматизацией. | Чтобы работать с инструментами частотного анализа и разметки текстов, необходимо предварительно проиндексировать проект (Проект - Главная). Индексация может проводиться с лемматизацией. | ||
Строка 5: | Строка 5: | ||
При индексации можно различать и не различать регистр индексируемых слов (ПРОЕКТ/Проект/проект). | При индексации можно различать и не различать регистр индексируемых слов (ПРОЕКТ/Проект/проект). | ||
− | Для | + | Частотный анализ проводится в несколько этапов (на рис. 1 представлен скриншот окна ЧА). |
− | + | ||
+ | ==Первый этап ЧА== | ||
+ | На первом этапе автоматически генерируется список слов (из всех контекстов проекта) с показателями встречаемости их в проекте (столбец 3 “Слова”). | ||
+ | Выделение слова или лексемы (передается зеленым цветом) автоматически фильтрует контексты и отображает фрагменты тех, в которых встретилось данное слово или лексема. Активация контекста (4 столбец) позволяет осуществлять с ним ряд операций: увеличивать / уменьшать объем отображаемого (знаки + и -), выводить контекст в отдельное окно, скрывать / открывать содержание, а также убирать связь данного контекста с лексемой. | ||
+ | Каждый контекст употребления слова (4 столбец) имеет название, совпадающее с названием всего контекста (например, К10) и порядковый номер расположения слова в нем (например, 23). | ||
+ | |||
+ | Рис. 1. | ||
+ | В столбце Слова: символом T обозначается количество слов в контекстах проекта; символом P - количество контекстов данного слова, привязанных к лексемам, символом % - процентное соотношение привязанных контекстов слова к общему количеству контекстов данного слова. | ||
+ | |||
+ | Опорные слова | ||
+ | Дополнительным инструментом работы со словами являются Опорные слова. | ||
+ | Для работы с опорными словами требуется создать метаполе у слов. В это метаполе у выделенных с помощью чекбокса в поле Слова необходимых слов может заноситься определенное значение (например, "опорное слово"). С помощью промаркированных таким образом слов осуществляется фильтрация частотного списка слов - т.е. вывод в список слов только тех слов, которые встречаются в одном контексте (предложении, абзаце - вариант выбирает исследователь) с опорным словом. | ||
+ | Опорные слова позволяют осуществлять ЧА только релевантной части текстового контента. | ||
+ | |||
+ | ==Второй этап ЧА== | ||
+ | В ИС “Семограф” отличия в реализованных значениях слов передаются на уровне лексем (столбец 2 рис. 6, 7). | ||
+ | Лексема терминологически понимается как словесный знак, рассматриваемый в совокупности своих форм (словоформ), имеющих одно значение (лексико-семантический вариант). Т.е. каждое использование слова в одном значении в совокупности всех грамматических форм при таком подходе будет оформляться в отдельную лексему. | ||
+ | |||
+ | Инструмент выделения лексем можно использовать и в контексте нетерминологического понятия лексемы. Например, объединять в лексему Я как формы личного местоимения Я, так и притяжательного местоимения Мой. | ||
+ | |||
+ | Таким образом, на втором этапе в ИС “Семограф” после генерации частотного списка слов (столбец 3) с отображением контекстов использования каждого слова (столбец 4), создаются лексемы из отдельных реализованных в контекстах значений. Для этого с помощью функции drag and drop выделенное слово из столбца 3 переносится в столбец 2. Автоматически в столбце 2 создается лексема с привязанным к ней словом и всеми контекстами (столбец 4), в которых данное слово встречается. | ||
+ | Для того, чтобы созданная лексема имело одно значение, требуется отвязать от нее контексты, в которых слово имеет другое значение (т.е. в которых реализуется другая лексема). Исключенные контексты могут быть привязаны к другой созданной омонимичной лексеме. | ||
+ | На рис. 2 видна “раскрытая” лексема я, состоящая из слов я, меня, мной, мне (словоизменительной парадигмы русского местоимения “я”), а также формами притяжательного местоимения мой. Привязка слова к лексеме означает привязку к лексеме определенных экспертом вариантов употребления данного слова (т.е. контекстов). Т.о. лексема состоит не просто из слов, а из слов в определенных контекстах их употребления. | ||
+ | |||
+ | Рис. 2. | ||
+ | В столбце Лексемы: символом T обозначается общее количество привязанных к лексеме слов; символом F - количество полей, к которым привязана лексема. | ||
− | + | Возле каждого слова в списке слов к данной лексеме располагается иконка, позволяющая удалить “привязку” слова к этой лексеме (т.е. исключить слово из лексемы). | |
+ | Таким образом, при активации слова в столбце контексты отображаются все случаи употребления данного слова. При активации лексемы в столбце контексты отображаются только привязанные к данной лексеме случаи употребления слова. | ||
+ | Доп. При создании лексемы можно пользоваться инструментом логического запроса к контекстам. Работа инструмента: | ||
+ | а) выделяется одно или несколько слов, генерируется список контекстов, в которых используются данные слова; | ||
+ | б) в поле Поиск столбца Контексты пишется поисковый запрос (регулярное выражение), который возвращает список контекстов, удовлетворяющий выражению; | ||
+ | в) в столбце Лексема создается лексема, соотносимая с результатами запроса (списком контекстов), к которой осуществляется привязка отфильтрованных контекстов (они выделяются и переносятся сразу на поле данной лексемы). | ||
+ | ==Третий этап ЧА== | ||
+ | На третьем этапе осуществляется группировка созданных лексем в семантические поля. | ||
+ | На рис. 1 представлен список полей и показано содержание поля “Отрицательные именования”, состоящее из негативных характеристик субъектов политической деятельности (лексемы "говорун", "пустозвон" и др.). | ||
+ | ==Четвертый этап ЧА== | ||
+ | Четвертый этап состоит из генерации С-карты и С-графа (семантических карты и графа). | ||
+ | С-карта - это матрица N x N, строки и столбцы которой образуют сформированные на третьем этапе семантические поля, а в ячейках на пересечении строки и столбца размещается показатель совместного употребления двух полей в контекстах всего корпуса текстов. Границы контекстов в тексте могут устанавливаться автоматизировано (предложение, абзац, весь текст) и вручную (фрагмент текста между двумя границами сегментации). | ||
+ | Полагается, что если два слова (и созданные на их основе лексемы) присутствуют в одном контексте, то они становятся связанными между собой через отнесение их к одному контексту. Поскольку каждая лексема относится к какому-то полю, постольку полагается наличие структурных связей между полями, в которые входят указанные лексемы и непосредственно репрезентирующие их в контекстах слова. | ||
+ | Таким образом, для каждого контекста автоматически подсчитываются все комбинации слов; а далее через лексемы, в которые входят слова, устанавливается связь между семантическими полями. Затем полученные по каждому контексту данные суммируются и результатом становится С-карта всего корпуса текстов. | ||
+ | Значения, отражаемые в С-карте, могут быть представлены как в абсолютных величинах, так и в относительных. Относительные показатели рассчитываются как отношение абсолютных показателей к общему количеству контекстов. Относительные показатели более релеванты, т.к. не зависят от объема материала и показывают пропорции распределения отдельных семантических полей и их связей в едином семантическом пространстве. | ||
+ | ==Выборочная генерация С-карты== | ||
+ | 1. Генерация С-карты отдельных выборок из контекстов проекта с помощью множественной и вложенной фильтрации контекстов по значениям метаданных контекста. | ||
+ | 2. Генерация С-карты на основе опорных слов (активация контекстов, включающих опорное слово с помощью фильтрации по метаданным слова). | ||
Текущая версия на 17:37, 11 марта 2017
Содержание
Индексация проекта
Чтобы работать с инструментами частотного анализа и разметки текстов, необходимо предварительно проиндексировать проект (Проект - Главная). Индексация может проводиться с лемматизацией.
При индексации можно различать и не различать регистр индексируемых слов (ПРОЕКТ/Проект/проект).
Частотный анализ проводится в несколько этапов (на рис. 1 представлен скриншот окна ЧА).
Первый этап ЧА
На первом этапе автоматически генерируется список слов (из всех контекстов проекта) с показателями встречаемости их в проекте (столбец 3 “Слова”). Выделение слова или лексемы (передается зеленым цветом) автоматически фильтрует контексты и отображает фрагменты тех, в которых встретилось данное слово или лексема. Активация контекста (4 столбец) позволяет осуществлять с ним ряд операций: увеличивать / уменьшать объем отображаемого (знаки + и -), выводить контекст в отдельное окно, скрывать / открывать содержание, а также убирать связь данного контекста с лексемой. Каждый контекст употребления слова (4 столбец) имеет название, совпадающее с названием всего контекста (например, К10) и порядковый номер расположения слова в нем (например, 23).
Рис. 1. В столбце Слова: символом T обозначается количество слов в контекстах проекта; символом P - количество контекстов данного слова, привязанных к лексемам, символом % - процентное соотношение привязанных контекстов слова к общему количеству контекстов данного слова.
Опорные слова Дополнительным инструментом работы со словами являются Опорные слова. Для работы с опорными словами требуется создать метаполе у слов. В это метаполе у выделенных с помощью чекбокса в поле Слова необходимых слов может заноситься определенное значение (например, "опорное слово"). С помощью промаркированных таким образом слов осуществляется фильтрация частотного списка слов - т.е. вывод в список слов только тех слов, которые встречаются в одном контексте (предложении, абзаце - вариант выбирает исследователь) с опорным словом. Опорные слова позволяют осуществлять ЧА только релевантной части текстового контента.
Второй этап ЧА
В ИС “Семограф” отличия в реализованных значениях слов передаются на уровне лексем (столбец 2 рис. 6, 7). Лексема терминологически понимается как словесный знак, рассматриваемый в совокупности своих форм (словоформ), имеющих одно значение (лексико-семантический вариант). Т.е. каждое использование слова в одном значении в совокупности всех грамматических форм при таком подходе будет оформляться в отдельную лексему.
Инструмент выделения лексем можно использовать и в контексте нетерминологического понятия лексемы. Например, объединять в лексему Я как формы личного местоимения Я, так и притяжательного местоимения Мой.
Таким образом, на втором этапе в ИС “Семограф” после генерации частотного списка слов (столбец 3) с отображением контекстов использования каждого слова (столбец 4), создаются лексемы из отдельных реализованных в контекстах значений. Для этого с помощью функции drag and drop выделенное слово из столбца 3 переносится в столбец 2. Автоматически в столбце 2 создается лексема с привязанным к ней словом и всеми контекстами (столбец 4), в которых данное слово встречается. Для того, чтобы созданная лексема имело одно значение, требуется отвязать от нее контексты, в которых слово имеет другое значение (т.е. в которых реализуется другая лексема). Исключенные контексты могут быть привязаны к другой созданной омонимичной лексеме. На рис. 2 видна “раскрытая” лексема я, состоящая из слов я, меня, мной, мне (словоизменительной парадигмы русского местоимения “я”), а также формами притяжательного местоимения мой. Привязка слова к лексеме означает привязку к лексеме определенных экспертом вариантов употребления данного слова (т.е. контекстов). Т.о. лексема состоит не просто из слов, а из слов в определенных контекстах их употребления.
Рис. 2. В столбце Лексемы: символом T обозначается общее количество привязанных к лексеме слов; символом F - количество полей, к которым привязана лексема.
Возле каждого слова в списке слов к данной лексеме располагается иконка, позволяющая удалить “привязку” слова к этой лексеме (т.е. исключить слово из лексемы). Таким образом, при активации слова в столбце контексты отображаются все случаи употребления данного слова. При активации лексемы в столбце контексты отображаются только привязанные к данной лексеме случаи употребления слова.
Доп. При создании лексемы можно пользоваться инструментом логического запроса к контекстам. Работа инструмента: а) выделяется одно или несколько слов, генерируется список контекстов, в которых используются данные слова; б) в поле Поиск столбца Контексты пишется поисковый запрос (регулярное выражение), который возвращает список контекстов, удовлетворяющий выражению; в) в столбце Лексема создается лексема, соотносимая с результатами запроса (списком контекстов), к которой осуществляется привязка отфильтрованных контекстов (они выделяются и переносятся сразу на поле данной лексемы).
Третий этап ЧА
На третьем этапе осуществляется группировка созданных лексем в семантические поля. На рис. 1 представлен список полей и показано содержание поля “Отрицательные именования”, состоящее из негативных характеристик субъектов политической деятельности (лексемы "говорун", "пустозвон" и др.).
Четвертый этап ЧА
Четвертый этап состоит из генерации С-карты и С-графа (семантических карты и графа). С-карта - это матрица N x N, строки и столбцы которой образуют сформированные на третьем этапе семантические поля, а в ячейках на пересечении строки и столбца размещается показатель совместного употребления двух полей в контекстах всего корпуса текстов. Границы контекстов в тексте могут устанавливаться автоматизировано (предложение, абзац, весь текст) и вручную (фрагмент текста между двумя границами сегментации). Полагается, что если два слова (и созданные на их основе лексемы) присутствуют в одном контексте, то они становятся связанными между собой через отнесение их к одному контексту. Поскольку каждая лексема относится к какому-то полю, постольку полагается наличие структурных связей между полями, в которые входят указанные лексемы и непосредственно репрезентирующие их в контекстах слова.
Таким образом, для каждого контекста автоматически подсчитываются все комбинации слов; а далее через лексемы, в которые входят слова, устанавливается связь между семантическими полями. Затем полученные по каждому контексту данные суммируются и результатом становится С-карта всего корпуса текстов.
Значения, отражаемые в С-карте, могут быть представлены как в абсолютных величинах, так и в относительных. Относительные показатели рассчитываются как отношение абсолютных показателей к общему количеству контекстов. Относительные показатели более релеванты, т.к. не зависят от объема материала и показывают пропорции распределения отдельных семантических полей и их связей в едином семантическом пространстве.
Выборочная генерация С-карты
1. Генерация С-карты отдельных выборок из контекстов проекта с помощью множественной и вложенной фильтрации контекстов по значениям метаданных контекста. 2. Генерация С-карты на основе опорных слов (активация контекстов, включающих опорное слово с помощью фильтрации по метаданным слова).