Купите метку «2002» для своей закладки
и получите внимание 3 миллионов наших посетителей в месяц
Efficient text categorization algorithm that generates bigrams selectively by looking for ones that have an especially good chance of being useful. The algorithm uses the information gain metric, combined with various frequency thresholds.
We revisit the compression of inverted lists of document postings that store the position and frequency of terms, considering 2 approaches to improving retrieval efficiency: better implementation and better choice of integer compression scheme.
Показывается возможность заметного увеличения степени сжатия текстов за счет учета грамматики языка. Предлагается простая схема предварительной обработки (на основе LIPT), с расстановке маркеров принадлежности слова к некоторой части речи.
2002 Mitsubishi Lancer Drifting russian - my lil mitsubishi lancer, just having sum fun over winter while there is still snow outside!
рассматривается используемая в УИС РОССИЯ технология рубрицирования документов по сложным рубрикаторам, базирующаяся на знаниях о предметной области, описанных в Общественно-политическом тезаурусе.
В работе мы рассмотрим сложные задачи автоматической рубрикации текстов, которые нам приходилось решать, и используемые методы решения.
Основные принципы организации информационного поиска русских и английских документов в Университетской информационной системе РОССИЯ.