Рассматриваются модели и существующие алгоритмы нормализации слов естественных языков. Описаны алгоритмы автоматического выделения основ для ряда естественных языков и возможные пути синтеза нормальной формы слова для казахского языка. Разработаны правила нормализации слов для казахского языка и алгоритм для обработки как словарных, так и отсутствующих в словаре, в том числе несуществующих, слов. Создан тезаурус научно-технических терминов по информационным технологиям на казахском языке и для него реализована система нормализации, доказывающая работоспособность разработанного алгоритма.
In this work considers the methods and research of the existing algorithms of normalization of words of natural languages and its realization for the Kazakh language. Details are described algorithms automatically extract the foundations for a number of natural languages and the possible ways of determining the normal form of the word. The algorithm and the rules of normalization of words for the terms included in the thesaurus domain. Implemented a system of normalization of scientific and technical terms in the Kazakh language, proving performance of the proposed algorithm.