Рассматриваются методы выявления нечетких дубликатов в тематических коллекциях документов, формируемых в автоматическом режиме на основе публикаций, полученных из сети Интернет. Основное внимание уделяется различным модификациям метода шинглов, который позволяет достаточно быстро выполнить сравнение большого количества текстов без их предварительной обработки, что особенно важно при первичном отборе текстов для коллекции.
Approaches to detecting near-duplicates appearing in thematic text collections accumulated automatically on the basis
of text documents obtained from the Internet are discussed. The paper is focused on various modifications of shingle algorithm
since it allows comparing a large number of texts quickly and without any preprocessing. The latter is particularly
important when forming collections of raw texts.