Индексация контекстов — различия между версиями
Материал из Semograph
Belousov (обсуждение | вклад) (Новая страница: «Алгоритм индексации выглядит следующим образом: 1. Выделяем слова, подлежащие индексации …») |
Baranov (обсуждение | вклад) м (1 версия: Восстановленная версия) |
(нет различий)
|
Текущая версия на 15:13, 3 сентября 2014
Алгоритм индексации выглядит следующим образом: 1. Выделяем слова, подлежащие индексации в переданном контексте (context); 2. Получаем список всех ContextHasWord для данного контекста (chw1); 4. Для каждого слова запоминаем сколько раз его встретили в wCount (начиная с 0); 5. Получаем список ContextHasWord для данных контекста/слова и сортируем его по возрастанию поля num (chw2); 6. Если chw2.size() > wCount[w], значит нужно обновить уже имеющуюся связь, иначе создаём новую (chw3). 7. Из chw1 удаляем только что сохранённую связь chw3; 8. Связи, оставшиеся в chw1, не имеют аналогов в новом контексте и подлежат удалению.
Таким образом, новый алгоритм сохраняет связи ContextHasWord при обновлении контекста, учитывая порядок слов.