Репозиторий Евразийского национального университета имени Л.Н. Гумилева
Репозиторий Евразийского национального университета имени Л.Н. Гумилева
Репозиторий Евразийского национального университета имени Л.Н. Гумилева
Просмотр элемента 
  •   Главная
  • Научные статьи
  • 01. Публикации в изданиях зарубежных стран
  • Energy
  • Просмотр элемента
  •   Главная
  • Научные статьи
  • 01. Публикации в изданиях зарубежных стран
  • Energy
  • Просмотр элемента
JavaScript is disabled for your browser. Some features of this site may not work without it.

DEVELOPMENT OF THE ALGORITHM OF KEYWORD SEARCH IN THE KAZAKH LANGUAGE TEXT CORPUS

Thumbnail
Автор
Akanova, А.
Ospanova, N.
Kukharenko, Y.
Abildinova, G.
Дата
2019
Редактор
Eastern-European Journal of Enterprise Technologies
ISSN
1729-4061
Аннотации
Питання семантичного аналiзу тексту займає осо- бливе мiсце в комп'ютернiй лiнгвiстицi. Дослiдники даної областi мають пiдвищений iнтерес до розробки алго- ритму, використання якого дозволить пiдвищити якiсть обробки корпусу тексту та ймовiрнiсне визначення змiсту тексту. Результати дослiдження застосувань методик, пiдходiв, алгоритмiв для семантичного аналiзу тексту у комп'ютернiй лiнгвiстицi в мiжнароднiй i казахстанськiй науцi призвели до розробки алгоритму пошуку ключових слiв в текстi казахською мовою. Першим етапом алго- ритму було складання еталонного словника ключових слiв для корпусу тексту українською мовою. Вирiшенням цiєї проблеми стало застосування алгоритму Портера (стем- мера) для корпусу текстiв казахською мовою. Реалiзацiя стеммера дозволила видiлити унiкальнi основи слiв i отри- мати еталонний словник, який згодом проiндексували. Наступний крок – це збiр навчальних даних iз корпусу текстiв. Для обчислення ступеня семантичної близькостi мiж словами кожному слову присвоюється вектор вiдпо- вiдних йому словоформ еталонного словника, в результа- тi якого виходить пара – ключове слово i вектор. I остан- нiм кроком алгоритму є навчання нейронних мереж. При навчаннi застосовується метод зворотного поширення помилок, що дозволяє провести семантичний аналiз кор- пусу тексту i отримати ймовiрнiсну кiлькiсть слiв, близь- ку до очiкуваної кiлькостi ключових. Цей процес дозволяє автоматизувати обробку текстового матерiалу шляхом створення цифрових навчальних моделей ключових слiв. Алгоритм використовується для розробки нейрокомп'ю- терної системи, що буде проводити автоматичну перевiр- ку текстових робiт учнiв онлайн курсiв. Унiкальнiстю алгоритму пошуку ключових слiв є застосування навчан- ня нейронної мережi для текстiв казахською мовою. У Казахстанi вченими в областi комп'ютерної лiнгвiсти- ки було проведено ряд дослiджень на основi застосування морфологiчного аналiзу, лемматизацiї та iнших пiдходiв i реалiзованi лiнгвiстичнi iнструменти (в основному слов- ники-перекладачi). Область застосування навчання ней- ронних мереж для синтаксичного аналiзу казахської мови залишається вiдкритим питанням в казахстанськiй науцi. Розроблений алгоритм передбачає вирiшення однiєї з проблем в отриманнi ефективного семантичного аналiзу тексту казахською мовою
URI
http://rep.enu.kz/handle/enu/19534
Открыть
Development-of-the-algorithm-of-keyword-search-in-the-Kazakh-language-text-corpusEasternEuropean-Journal-of-Enterprise-Technologies.pdf (370.4Kb)
Collections
  • Energy[234]
Показать полную информацию
CORE Recommender

Евразийский национальный университет имени Л.Н. Гумилева | Научная библиотека | Контакты
YM
Научная библиотека | Контакты
 

Просмотр

Весь DSpaceСообщества и коллекцииДата публикацииАвторыНазванияТематикаЭта коллекцияДата публикацииАвторыНазванияТематика

Моя учетная запись

ВойтиРегистрация

Евразийский национальный университет имени Л.Н. Гумилева | Научная библиотека | Контакты
YM
Научная библиотека | Контакты