Смешанные ядерные оценки многомерных распределений и их применение в задачах машинного обучения для классификации биологических объектов на основе спектральных измерений

Сирота А.А., Донских А.О., Акимов А.В., Минаков Д.А.

Воронежский государственный университет, Воронеж, Россия

Аннотация:
Рассматривается задача непараметрического восстановления многомерных плотностей распределения вероятностей в системах машинного обучения для классификации и аугментации данных. Предлагается метод получения смешанной ядерной непараметрической оценки плотности распределения как свертки ядерной оценки неизвестной плотности распределения вектора информативных признаков и известной или независимо оцениваемой плотности распределения вектора помеховой составляющей, сопровождающей процесс измерений. Анализируются свойства получаемых таким образом смешанных оценок. Приводятся результаты их сравнения с традиционной ядерной оценкой Парзена, применяемой непосредственно к общей выборке обучающих данных. Теоретически и экспериментально показывается, что использование смешанной оценки эквивалентно реализации процедуры аугментации – искусственного размножения обучающих данных в соответствии с известной или оцененной статистической моделью помеховой составляющей. Рассматриваются возможности применения смешанных оценок для обучения алгоритмов классификации биологических объектов (элементов зерновых смесей) на основе обработки измерений спектров пропускания в видимом и ближнем ИК-диапазонах длин волн.

Ключевые слова:
машинное обучение, классификация образов, аугментация данных, ядерная оценка плотности распределения, спектральные измерения

Цитирование:
Сирота, А.А. Cмешанные ядерные оценки многомерных распределений и их применение в задачах машинного обучения для классификации биологических объектов на основе спектральных измерений / А.А. Сирота, А.О. Донских, А.В. Акимов, Д.А. Минаков // Компьютерная оптика. – 2019. – Т. 43, № 4. – С. 677-691. – DOI: 10.18287/2412-6179-2019-43-4-677-691.

Литература:

  1. Кривенко, М.П. Непараметрическое оценивание элементов байесовского классификатора / М.П. Кривенко // Информатика и её применения. – 2010. – Т. 4, № 2. – С. 13-24.
  2. Лапко, А.В. Непараметрический алгоритм автоматической классификации в условиях статистических данных большого объема / А.В. Лапко, В.А. Лапко // Информатика и системы управления. – 2018. – № 3(57). – С. 59-70. – DOI: 10.22250/isu.2018.57.59-70.
  3. Nakamura, Y. Nonparametric density estimation based on self-organizing incremental neural network for large noisy data / Y. Nakamura, O. Hasegawa // IEEE Transactions on Neural Networks and Learning Systems. – 2016. – Vol. 28, Issue 1. – P. 8-17. – DOI: 10.1109/TNNLS.2015.2489225.
  4. Донских, А.О. Метод искусственного размножения данных в задачах машинного обучения с использованием непараметрических ядерных оценок плотности распределения вероятностей / А.О. Донских, А.А. Сирота // Вестник Воронежского государственного университета Серия: Системный анализ и информационные технологии. – 2017. – № 3. – С. 142-155.
  5. Yaeger, L. Effective training of a neural network character classifier for word recognition / L. Yaeger, R. Lyon, B. Webb // Advances in Neural Information Processing Systems 9 (NIPS 1996). – 1996. – P. 807-813.
  6. Ciresan, D.C. Deep big simple neural nets excel on handwritten digit recognition / D.C. Ciresan, U. Meier, L.M. Gambardella, J. Schmidhuber // Neural Computation. – 2010. – Vol. 22, Issue 12 – P. 3207-3220. – DOI: 10.1162/NECO_a_00052.
  7. Simard, P.Y. Best practices for convolutional neural networks applied to visual document analysis / P.Y. Simard, D. Steinkraus, J.C. Platt // Seventh International Conference on Document Analysis and Recognition. – 2003. – P. 958-963. – DOI: 10.1109/ICDAR.2003.1227801.
  8. Качалин, С.В. Повышение устойчивости обучения больших нейронных сетей дополнением малых обучающих выборок примеров-родителей, синтезированными биометрическими примерами-потомками / С.В. Качалин // Труды научно-технической конференции кластера пензенских предприятий, обеспечивающих безопасность информационных технологий. – 2014. – Т. 9. – С. 32-35.
  9. Акимов, А.В. Модели и алгоритмы искусственного размножения данных для обучения алгоритмов распознавания лиц методом Виолы–Джонса / А.В. Акимов, А.А. Сирота // Компьютерная оптика. – 2016. – Т. 40, № 6. – С. 911-918. – DOI: 10.18287/2412-6179-2016-40-6-911-918.
  10. Guo, H. Learning from imbalanced data sets with boosting and data generation: the DataBoost-IM approach / H. Guo, H.L. Viktor // ACM SIGKDD Explorations Newsletter. – 2004. – Vol. 6, Issue 1. – P. 30-39. – DOI: 10.1145/1007730.1007736.
  11. Chawla, N.V. SMOTE: synthetic minority over-sampling technique / N.V. Chawla, K.W. Bowyer, L.O. Hall, W.P. Kegelmeyer // Journal of Artificial Intelligence Research. – 2002. – Vol. 16, Issue 1. – P. 321-357. – DOI: 10.1613/jair.953.
  12. Chawla, N.V. SMOTEBoost: Improving prediction of the minority class in boosting / N.V. Chawla, A. Lazarevic, L.O. Hall, K.W. Bowyer. – In: Knowledge discovery in databases / ed. by N. Lavrač, D. Gamberger, L. Todorovski, H. Blockeel. – 2003. – P. 107-119.– DOI: 10.1007/978-3-540-39804-2_12.
  13. Фукунага, К. Введение в статистическую теорию распознавания образов / К. Фукунага. – М.: Наука, 1979. – 368 с.
  14. Duda, R.O. Pattern classification / R.O. Duda, P.E. Hart, D.G. Stork. – 2nd ed. – Hoboken, NJ: Wiley-Interscience, 2000. – 680 p.
  15. Крянев, А.В.Математические методы обработки неопределенных данных / А.В. Крянев, Г.В. Лукин. – М.: Физмалит, 2003. – 216 с.
  16. Акимов, А.В. Модели и алгоритмы распознавания цифровых изображений в условиях воздействия деформирующих и аддитивных искажений / А.В. Акимов, А.О. Донских, А.А. Сирота // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. – 2018. – № 1. – С. 104-118.
  17. Gramacki, A. Nonparametric kernel density estimation and its computational aspects / A. Gramacki. – Cham, Switzerland: Springer International Publishing AG, 2018. – P. 42-49. – ISBN: 978-3-319-71687-9.
  18. Добровидов, А.В. Выбор ширины окна ядерной функции в непараметрической оценке производной плотности методом сглаженной кроссвалидации / А.В. Добровидов, И.М. Рудько // Автоматика и телемеханика. – 2010. – № 2 – С. 42-58.
  19. Воронов, И.В. Выбор ширины окна при аппроксимации плотности распределения вероятности методом Парзена-Розенблатта в случае малого объема выборки / И.В. Воронов, Р.Н. Мухометзянов, А.А. Краснова // Радиоэлектронная техника. – 2016. – № 1(9) – С. 93-98.
  20. Donskikh, A.O. Optical methods of identifying the varieties of the components of grain mixtures based on using artificial neural networks for data analysis / A.O. Donskikh, D.A. Minakov, A.A. Sirota // Journal of Theoretical and Applied Information Technology – 2018. – Vol. 96, Issue 2. – P. 534-542.

     


© 2009, IPSI RAS
Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: ko@smr.ru ; тел: +7 (846) 242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический редактор), факс: +7 (846) 332-56-20