Индексация контекстов

Материал из Semograph
Версия от 15:13, 3 сентября 2014; Baranov (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Алгоритм индексации выглядит следующим образом: 1. Выделяем слова, подлежащие индексации в переданном контексте (context); 2. Получаем список всех ContextHasWord для данного контекста (chw1); 4. Для каждого слова запоминаем сколько раз его встретили в wCount (начиная с 0); 5. Получаем список ContextHasWord для данных контекста/слова и сортируем его по возрастанию поля num (chw2); 6. Если chw2.size() > wCount[w], значит нужно обновить уже имеющуюся связь, иначе создаём новую (chw3). 7. Из chw1 удаляем только что сохранённую связь chw3; 8. Связи, оставшиеся в chw1, не имеют аналогов в новом контексте и подлежат удалению.

Таким образом, новый алгоритм сохраняет связи ContextHasWord при обновлении контекста, учитывая порядок слов.