Индексация контекстов — различия между версиями

Материал из Semograph
Перейти к: навигация, поиск
(Новая страница: «Алгоритм индексации выглядит следующим образом: 1. Выделяем слова, подлежащие индексации …»)
 
м (1 версия: Восстановленная версия)
 
(нет различий)

Текущая версия на 15:13, 3 сентября 2014

Алгоритм индексации выглядит следующим образом: 1. Выделяем слова, подлежащие индексации в переданном контексте (context); 2. Получаем список всех ContextHasWord для данного контекста (chw1); 4. Для каждого слова запоминаем сколько раз его встретили в wCount (начиная с 0); 5. Получаем список ContextHasWord для данных контекста/слова и сортируем его по возрастанию поля num (chw2); 6. Если chw2.size() > wCount[w], значит нужно обновить уже имеющуюся связь, иначе создаём новую (chw3). 7. Из chw1 удаляем только что сохранённую связь chw3; 8. Связи, оставшиеся в chw1, не имеют аналогов в новом контексте и подлежат удалению.

Таким образом, новый алгоритм сохраняет связи ContextHasWord при обновлении контекста, учитывая порядок слов.