Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм
Михайлов Д.В., Козлов А.П., Емельянов Г.М.

Новгородский государственный университет имени Ярослава Мудрого, Новгород, Россия

Аннотация:
Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов анализом релевантности исходной фразе и полноты отражения в исходных фразах выделяемого фактического знания. Данные проблемы актуальны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определяется совместным использованием оценки силы связи встречающихся в его фразах сочетаний слов исходной фразы и разбиением этих слов на классы по значению меры TF-IDF относительно текстов корпуса. В настоящей работе рассматривается расширение связей слов от традиционных биграмм до трёх и более элементов для выделения составляющих образа исходной фразы в виде сочетаний связанных по смыслу слов (с привлечением базы известных синтаксических отношений и без использования таковой). С целью более полного описания выделяемого в текстах корпуса фрагмента экспертного знания вводятся в рассмотрение совокупности исходных фраз, взаимно эквивалентных либо дополняющих друг друга по смыслу и представляющих единый образ. По сравнению с поиском составляющих рассматриваемого образа на готовом синтаксически размеченном текстовом корпусе предложенный метод позволяет в среднем в 17 раз сократить выход фраз, не релевантных исходным ни по описываемому фрагменту знания, ни по языковым формам его выражения.

Ключевые слова:
распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов.

Цитирование:
Михайлов, Д.В. Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм / Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов // Компьютерная оптика. – 2017. – Т. 41, № 3. – С. 461-471 – DOI: 10.18287/2412-6179-2017-41-3-461-471.

Литература:

  1. Михайлов, Д.В. Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF / Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов // Компьютерная оптика. – 2015. – Т. 39, № 3. – С. 429-438. – DOI: 10.18287/0134-2452-2015-39-3-429-438.
  2. Михайлов, Д.В. Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов / Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов // Компьютерная оптика. – 2016. – Т. 40, № 4. – С. 572-582. – DOI: 10.18287/2412-6179-2016-40-4-572-582.
  3. Шеннон, К. Работы по теории информации и кибернетики / К. Шеннон; пер. с англ. – М.: Иностран­ная литература, 1963. – С. 669-686.
  4. Sidorov, G. Syntactic dependency based N-grams in rule based automatic English as second language grammar correction / G. Sidorov // International Journal of Computational Linguistics and Applications. – 2013. – Vol. 4(2). – P. 169-188.
  5. Кудинов, М.С. Частичный синтаксический разбор текста на русском языке с помощью условных случайных полей / М.С. Кудинов // Машинное обучение и анализ данных. – 2013. – Т. 1, № 6. – С. 714-724. – ISSN 2223-3792.
  6. Москович, В.А. Дистрибутивно-статистический метод построения тезаурусов: современное состояние и перспективы / В.А. Москович. – М., 1971. – 66 с.
  7. Tanimoto, T.T. An elementary mathematical theory of classification and prediction / T.T. Tanimoto. – New York: International Business Machines Corporation, 1958. – 10 p.
  8. Загоруйко, Н.Г. Прикладные методы анализа данных и знаний / Н.Г. Загоруйко. – Новосибирск: Издательство института математики, 1999. – 270 с.
  9. Frantzi, K. Automatic recognition of multi-word terms: the C-value/NC-value method / K. Frantzi, S. Ananiadou, H. Mima // International Journal on Digital Libraries. – 2000. – Vol. 3, Issue 2. – P. 115-130. – DOI: 10.1007/s007999900023.
  10. Бродский, А. Алгоритмы контекстно-зависимого анно­тирования Яндекса на РОМИП-2008 / А. Бродский, Р. Ко­валев, М. Лебедев, Д. Лещинер, П. Сушин, И. Мучник // Труды РОМИП 2007-2008. – 2008. – С. 160-169.
  11. Национальный корпус русского языка [Электронный ресурс]. – URL: http://www.ruscorpora.ru/ (дата обра-щения 09.03.2017).
  12. Apache OpenNLP [Электронный ресурс]. – URL: >https://opennlp.apache.org / (дата обращения 10.03.2017).
  13. Leipzig Corpora Collection Download Page [Электронный ресурс]. – URL: http://wortschatz.unileipzig.de/en/down­load (дата обращения 10.03.2017).
  14. Natural Language Toolkit [Электронный ресурс]. – URL: http://www.nltk.org (дата обращения 17.03.2017).
  15. Pymorphy – NLPub [Электронный ресурс]. – URL: https://nlpub.ru/Pymorphy (дата обращения 17.03.2017).
  16. Russianmorphology: Russian Morphology for lucene [Элек­тронный ресурс]. – URL: http://code.google.com/p/russian­morphology/ (дата обращения 19.03.2017).

© 2009, IPSI RAS
Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: ko@smr.ru ; тел: +7 (846) 242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический редактор), факс: +7 (846) 332-56-20