DSpace Repository

DEVELOPMENT OF THE ALGORITHM OF KEYWORD SEARCH IN THE KAZAKH LANGUAGE TEXT CORPUS

Show simple item record

dc.contributor.author Akanova, А.
dc.contributor.author Ospanova, N.
dc.contributor.author Kukharenko, Y.
dc.contributor.author Abildinova, G.
dc.date.accessioned 2024-12-02T06:11:04Z
dc.date.available 2024-12-02T06:11:04Z
dc.date.issued 2019
dc.identifier.issn 1729-4061
dc.identifier.other DOI: 10.15587/1729-4061.2019.179036
dc.identifier.uri http://rep.enu.kz/handle/enu/19534
dc.description.abstract Питання семантичного аналiзу тексту займає осо- бливе мiсце в комп'ютернiй лiнгвiстицi. Дослiдники даної областi мають пiдвищений iнтерес до розробки алго- ритму, використання якого дозволить пiдвищити якiсть обробки корпусу тексту та ймовiрнiсне визначення змiсту тексту. Результати дослiдження застосувань методик, пiдходiв, алгоритмiв для семантичного аналiзу тексту у комп'ютернiй лiнгвiстицi в мiжнароднiй i казахстанськiй науцi призвели до розробки алгоритму пошуку ключових слiв в текстi казахською мовою. Першим етапом алго- ритму було складання еталонного словника ключових слiв для корпусу тексту українською мовою. Вирiшенням цiєї проблеми стало застосування алгоритму Портера (стем- мера) для корпусу текстiв казахською мовою. Реалiзацiя стеммера дозволила видiлити унiкальнi основи слiв i отри- мати еталонний словник, який згодом проiндексували. Наступний крок – це збiр навчальних даних iз корпусу текстiв. Для обчислення ступеня семантичної близькостi мiж словами кожному слову присвоюється вектор вiдпо- вiдних йому словоформ еталонного словника, в результа- тi якого виходить пара – ключове слово i вектор. I остан- нiм кроком алгоритму є навчання нейронних мереж. При навчаннi застосовується метод зворотного поширення помилок, що дозволяє провести семантичний аналiз кор- пусу тексту i отримати ймовiрнiсну кiлькiсть слiв, близь- ку до очiкуваної кiлькостi ключових. Цей процес дозволяє автоматизувати обробку текстового матерiалу шляхом створення цифрових навчальних моделей ключових слiв. Алгоритм використовується для розробки нейрокомп'ю- терної системи, що буде проводити автоматичну перевiр- ку текстових робiт учнiв онлайн курсiв. Унiкальнiстю алгоритму пошуку ключових слiв є застосування навчан- ня нейронної мережi для текстiв казахською мовою. У Казахстанi вченими в областi комп'ютерної лiнгвiсти- ки було проведено ряд дослiджень на основi застосування морфологiчного аналiзу, лемматизацiї та iнших пiдходiв i реалiзованi лiнгвiстичнi iнструменти (в основному слов- ники-перекладачi). Область застосування навчання ней- ронних мереж для синтаксичного аналiзу казахської мови залишається вiдкритим питанням в казахстанськiй науцi. Розроблений алгоритм передбачає вирiшення однiєї з проблем в отриманнi ефективного семантичного аналiзу тексту казахською мовою ru
dc.language.iso en ru
dc.publisher Eastern-European Journal of Enterprise Technologies ru
dc.relation.ispartofseries 5;101
dc.subject ключове слово ru
dc.subject алгоритм Портера ru
dc.subject семантичний аналiз ru
dc.subject нейронна мережа ru
dc.title DEVELOPMENT OF THE ALGORITHM OF KEYWORD SEARCH IN THE KAZAKH LANGUAGE TEXT CORPUS ru
dc.type Article ru


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account