Индексация контекстов — различия между версиями

Текущая версия на 15:13, 3 сентября 2014

Алгоритм индексации выглядит следующим образом: 1. Выделяем слова, подлежащие индексации в переданном контексте (context); 2. Получаем список всех ContextHasWord для данного контекста (chw1); 4. Для каждого слова запоминаем сколько раз его встретили в wCount (начиная с 0); 5. Получаем список ContextHasWord для данных контекста/слова и сортируем его по возрастанию поля num (chw2); 6. Если chw2.size() > wCount[w], значит нужно обновить уже имеющуюся связь, иначе создаём новую (chw3). 7. Из chw1 удаляем только что сохранённую связь chw3; 8. Связи, оставшиеся в chw1, не имеют аналогов в новом контексте и подлежат удалению.

Таким образом, новый алгоритм сохраняет связи ContextHasWord при обновлении контекста, учитывая порядок слов.

Индексация контекстов — различия между версиями

Текущая версия на 15:13, 3 сентября 2014

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты

Версия 20:06, 12 июля 2014 (просмотреть исходный код) Belousov (обсуждение \| вклад) (Новая страница: «Алгоритм индексации выглядит следующим образом: 1. Выделяем слова, подлежащие индексации …»)	Текущая версия на 15:13, 3 сентября 2014 (просмотреть исходный код) Baranov (обсуждение \| вклад) м (1 версия: Восстановленная версия)
(нет различий)