Обзор алгоритмов детектирования текстовых областей на изображениях и видеозаписях
Болотова Ю.А., Спицын В.Г., Осина П.М.

Томский политехнический университет, Томск, Россия

Аннотация:
Статья посвящена обзору методов детектирования и сегментации текстовых областей на изображениях и видеозаписях. Определяется обобщенный алгоритм работы систем распознавания текстов. Проводится обзор методов детектирования, определения структуры и сегментации текстовых документов в рамках решения задачи распознавания текстовых областей на изображениях и видеозаписях. Методы, предложенные в течение 30 лет исследований, анализируются с точки зрения точности, скорости и универсальности. В работе затрагиваются современные проблемы, касающиеся детектирования и распознавания текстовых областей на изображениях.

Ключевые слова:
распознавание образов, анализ структурыдокумента, сегментация текстовых изображений, определение угла наклона текста.

Цитирование:
Болотова, Ю.А. Обзор алгоритмов детектирования текстовых областей на изображениях и видеозаписях / Ю.А. Болотова, В.Г. Спицын, П.М. Осина // Компьютерная оптика. – 2017. – Т. 41, № 3. – С. 441-452. – DOI: 10.18287/2412-6179-2017-41-3-441-452.

Литература:

  1. Кузьмицкий, Н.Н. Обнаружение фрагментов текста на изображениях реальных сцен на базе сверточной нейросетевой модели / Н.Н. Кузьмицкий // Информатика. – 2015. – № 2(46). – С. 12-21.
  2. Казанский, Н.Л. Распределённая система технического зрения регистрации железнодорожных составов / Н.Л. Казанский, С.Б. Попов // Компьютерная оптика. – 2012. – Т. 36, № 3.– С. 419-428.
  3. Smith, R.W. Hybrid page layout analysis via tab-stop detection / R.W. Smith // Proceedings of 10th International Conference on Document Analysis and Recognition (ICDAR '09). – 2009. – P. 214-245. – DOI: 10.1109/IC­DAR.2009.257.
  4. Yin, X.-C. Multi-orientation scene text detection with adaptive clustering / X.-C. Yin, W.-Y. Pei, J. Zhang, H.-W. Hao // IEEE Transactions on Pattern Analysis and Machine Intelligence. – 2015. – Vol. 37, Issue 9. – P. 1930-1937. – DOI: 10.1109/TPAMI.2014.2388210.
  5. Zuo, Z.-Y. Multi-strategy tracking based text detection in scene videos / Z.-Y. Zuo, S. Tian, X.-C. Yin // 13th International Conference on Document Analysis and Recognition (ICDAR). – 2015. – P. 66-70. – DOI: 10.1109/IC­DAR.2015.7333727.
  6. Koo, H.I. Scene text detection via connected component clustering and nontext filtering / H.I. Koo, D.H. Kim // IEEE Transactions on Image Processing. – 2013.– Vol. 22, Issue 6. – P. 2296-2305. – DOI: 10.1109/TIP.2013.2249082.
  7. Nagy, G. Twenty years of document image analysis in PAMI / G. Nagy // IEEE Transactions on Pattern Analysis and Machine Intelligence. – 2000. – Vol. 22(1). – P. 38-62. – DOI: 10.1109/34.824820.
  8. Болотова, Ю.А. Распознавание автомобильных номеров на основе метода связных компонент и иерархической временной сети / Ю.А. Болотова, В.Г. Спицын, М.Н. Ру­домёткина // Компьютерная оптика. – 2015. – Т. 39, № 2. – С. 275-280. – DOI: 10.18287/0134-2452-2015-39-2-275-280.
  9. Jaderberg, M. Reading text in the wild with convolutional neural networks / M. Jaderberg, K. Simonyan, A. Vedaldi, A. Zisserman // International Journal of Computer Vision. – 2016. – Vol. 116, Issue 1. – P. 1-20. – DOI: 10.1007/s11263-015-0823-z.
  10. Novikova, T. Large-lexicon attribute-consistent text recognition in natural images / T. Novikova, O. Barinova, P. Kohli, V. Lempitsky // European Conference on Computer Vision. – 2012. – С. 752-765. – DOI: 10.1007/978-3-642-33783-3_54.
  11. Запрягаев, С.А. Распознавание рукописных символов на основе анализа дескрипторов функций длины хорды / С.А. Запрягаев, А.И. Сорокин // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. –2009.– № 2. – С. 49-58.
  12. Глумов, Н.И. Метод быстрой корреляции с использованием тернарных шаблонов при распознавании объектов на изображениях / Н.И. Глумов, Е.В. Мясников, В.Н. Копенков, М.А. Чичёва // Компьютерная оптика. –2008. – Т. 32, № 3. – С. 277-282.
  13. Smith, R.W. History of the Tesseract OCR engine: what worked and what didn’t / R.W. Smith // Proceedings of  SPIE. – 2013. – Vol. 8658. – 865802. – DOI: 10.1117/12.2010051.
  14. Breuel, T.M. The OCRopus open source OCR system / T.M. Breuel // Proceedings of SPIE. – 2008. – Vol. 6815. – 68150F. – DOI: 10.1117/12.783598.
  15. Senior, A.W. Off-line cursive handwriting recognition using recurrent neural networks / A.W. Senior // PhD thesis. – Cambridge: Cambridge University, 1994. – 121 с.
  16. Graves, A. A novel connectionist system for unconstrained handwriting recognition / A. Graves, M. Liwicki, S. Fernán­dez, R. Bertolami, H. Bunke, J. Schmidhuber // IEEE Transactions on Pattern Analysis and Machine Intelligence.– 2008. – Vol. 31, Issue 5. – P. 855-868. – DOI: 10.1109/TPAMI.2008.137.
  17. Srihari, S.N. Document image analysis / S.N. Srihari, G.W. Zack // Proceedings of 8th International Conference on Pattern Recognition. – 1986. – P. 434-436.
  18. Гороховатский, А.В. Детектирование текстовых областей на изображении документа методом слияния / А.В. Гороховатский // Системи обробки інформації. – 2014. – Випуск 1(117). – С. 75-81.
  19. Cattoni, R.Geometric layout analysis techniques for document image understanding: A review [Электронный ресурс] / R. Cattoni, T. Coianiz, S. Messelodi, C.M. Modena // ITC-irst technical report TR#9703-09. – 1998. – URL: http://www.academia.edu/18416548/Geometric_Layout_Ana­lysis_Techniques_for_Document_Image_Understan­ding_a_Review._TR_9703-09. – 68 p.
  20. Negi, A. Localization, extraction and recognition of text in Telugu document images / A. Negi, K.N. Shanker, C.K. Chereddi // Proceedings of the 7-th International Conference on Document Analysis and Recognition. – 2003. – P. 1193-1197. – DOI: 10.1109/ICDAR.2003.1227846.
  21. Bukhari, S.S. High performance layout analysis of Arabic and Urdu document images / S.S. Bukhari, F. Shafait, T.M. Breuel // Proceedings of the 11th International Conference on Document Analysis and Recognition (ICDAR 2011). – 2011. – P. 1275-1279. – DOI: 10.1109/ICDAR.2011.257.
  22. Wong, K.Y. Document analysis system / K.Y. Wong, R.G. Casey, F.M. Wahl // IBM Journal of Research and Development. – 1982. – Vol. 26(6).– P. 647-656. – DOI: 10.1147/rd.266.0647.
  23. Nagy, G. Hierarchical representation of optically scanned documents / G. Nagy, S. Wagle // Proceedings of 7th International Conference on Pattern Recognition. – 1984.– P. 347-349.
  24. Baird, H.S. Image segmentation by shape-directed covers / H.S. Baird, S.E. Jones, S.J. Fortune // Proceedings of 10th International Conference on Pattern Recognition. – 1990. – P. 820-825. – DOI: 10.1109/ICPR.1990.118223.
  25. Oudjemia, S. Segmentation of complex document / S. Oudjemia, Z. Ameur, A. Ouahabi // Carpathian Journal of Electronic and Computer Engineering. – 2014. – Vol. 7(1). – P. 13-18.
  26. Breuel, T.M. An algorithm for finding maximal whitespace rectangles at arbitrary orientations for document layout analysis / T.M. Breuel // Proceedings of the 7th International Conference on Document Analysis and Recognition. – 2003. – Vol. 1. – P. 66-70. – DOI: 10.1109/IC­DAR.2003.1227629.
  27. Winder, A. Extending page segmentation algorithms for mixed-layout document processing / A. Winder, T. Andersen, E.H.B. Smith // Proceedings of International Conference on Document Analysis and Recognition. – 2011. – P. 1245-1249. – DOI: 10.1109/ICDAR.2011.251.
  28. Breuel, T.M. Two geometric algorithms for layout analysis / T.M. Breuel // International Workshop on Document Analysis Systems: DAS V. – 2002. – P. 188-199. – DOI: 10.1007/3-540-45869-7_23.
  29. Shafait, F. Performance comparison of six algorithms for page segmentation / F. Shafait, D. Keysers, T.M. Breuel // International Workshop on Document Analysis Systems: DAS VII. – 2006. – P. 368-379. – DOI: 10.1007/11669487_33.
  30. Baird, H.S. Background structure in document images / H.S. Baird // International Journal of Pattern Recognition and Artificial Intelligence. – 1994. – Vol. 8, Issue 05. – P. 1013-1030. – DOI: 10.1142/S0218001494000516.
  31. O'Gorman, L. The document spectrum for page layout analysis / L. O'Gorman // IEEE Transactions on Pattern Analysis and Machine Intelligence. – 1993. – Vol. 15, Issue 11. – P. 1162-1173. – DOI: 10.1109/34.244677.
  32. Скворцов, А.В. Триангуляция Делоне и её применение / А.В. Скворцов. – Томск: Изд-во Томского ун-та, 2002. – 128 с. – ISBN: 5-7511-1501-5.
  33. Kise, K. Segmentation of page images using the area Voronoi diagram / K. Kise, A. Sato, M. Iwata // Computer Vision and Image Understanding. – 1998. – Vol. 70, Issue 3. – P. 370-382. – DOI: 10.1006/cviu.1998.0684.
  34. Mao, S. Empirical performance evaluation methodology and its application to page segmentation algorithms / S. Mao, T. Kanungo // IEEE Transactions on Pattern Analysis and Machine Intelligence. – 2001. – Vol. 23, Issue 3. – P. 242-256. – DOI: 10.1109/34.910877.
  35. Gather, P. Empirical performance evaluation methodology and its application to page segmentation algorithms: A review / P. Gather, A. Singh // International Journal of Advanced Research in Computer Engineering & Technology. – 2015. – Vol. 4, Issue 4. – P. 1277-1279.
  36. Esposito, F. A knowledge-based approach to the layout analysis / F. Esposito, D. Malerba, G. Semeraro // Proceedings of the 3rd International Conference on Document Analysis and Recognition. – 1995. – Vol. 1. – P. 466-471. – DOI: 10.1109/ICDAR.1995.599037.
  37. Li, L. Multilingual text detection with nonlinear neural network / L. Li, S. Yu, L. Zhong, X. Li // Mathematical Problems in Engineering. – 2015. – Vol. 2015. – 431608 (7 p.). – DOI: 10.1155/2015/431608.
  38. Shih, F.Y. Adaptive document block segmentation and classification / F.Y. Shih, S.S. Chen // IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics. – 1996. – Vol. 26, Issue 5. – P. 797-802. – DOI: 10.1109/3477.537322.
  39. Wang, D. Classification of newspaper image blocks using texture analysis / D. Wang, S.N. Srihari // Computer Vision, Graphics, and Image Processing. – 1989. – Vol. 47, Issue 3. – P. 327-352. – DOI: 10.1016/0734-189X(89)90116-3.
  40. Vil’kin, A.M. Algorithm for segmentation of documents based on texture features / A.M. Vil’kin, I.V. Safonov, M.A. Egorova // Pattern Recognition and Image Analysis. – 2013. – Vol. 23, Issue 1. – P. 153-159. – DOI: 10.1134/S1054661813010136.
  41. Sauvola, J.J. Page segmentation and classification using fast feature extraction and connectivity analysis / J. Sauvola, M. Pietikäinen // Proceedings of the 3rd International Conference on Document Analysis and Recognition (ICDAR '95). – 1995. – Vol. 2. – P. 1127-1131. – DOI: 10.1109/ICDAR.1995.602118.
  42. Scherl, W. Automatic separation of text, graphic and picture segments in printed material / W. Scherl, F. Wahl, H. Fuchsberger // Pattern Recognition in Practice. – 1980. – P. 213-221.
  43. Tsujimoto, S. Major components of a complete text reading system / S. Tsujimoto, H. Asada // Proceedings of the IEEE. – 1992. – Vol. 80, Issue 7. – P. 1133-1149. – DOI: 10.1109/5.156475.
  44. Jain, A.K. Page segmentation using texture analysis / A.K. Jain, Y. Zhong // Pattern Recognition. – 1996. – Vol. 29, Issue 5. – P. 743-770. – DOI: 10.1016/0031-3203(95)00131-X.
  45. Cattoni, R. Geometric layout analysis techniques for document image understanding: A review [Электронный ресурс] / R. Cattoni, T. Coianiz, S. Messelodi, C.M. Modena // ITC-irst technical report TR#9703-09. – 1998. – URL: http://www.academia.edu/18416548/Geometric_Layout_Ana­lysis_Techniques_for_Document_Image_Understan­ding_a_Review._TR_9703-09. – 68 p.
  46. Jain, A.K. Text segmentation using Gabor filters for automatic document processing / A.K. Jain, S. Bhattacharjee // Machine Vision and Applications. – 1992. – Vol. 5, Issue 3. – P. 169-184. – DOI: 10.1007/BF02626996.
  47. Smith, R. A simple and efficient skew detection algorithm via text row accumulation / R. Smith // Proceedings of the 3rd International Conference on Document Analysis and Recognition (ICDAR '95). – 1995. – Vol. 2. – P. 1145-1148. – DOI: 10.1109/ICDAR.1995.602124.
  48. U.S. Patent 3,069,654 G06K9/46, G01T5/02, G01T5/00, 382/281. Method and means for recognizing complex patterns / P.V.C. Hough, filed of March 26, 1960, published of Desember 18, 1962.
  49. Hinds, S.C. A document skew detection method using run-length encoding and the Hough transform / S.C. Hinds, J.L. Fisher, D.P. D'Amato // Proceedings of 10th International Conference on Pattern Recognition. – 1990. – Vol. 1. – P. 464-468. – DOI: 10.1109/ICPR.1990.118147.
  50. Rashid, S.F. Scanning neural network for text line recognition / S.F. Rashid, F. Shafait, T.M. Breuel // 10th IAPR International Workshop on Document Analysis Systems (DAS). – 2012. – P. 105-109. – DOI: 10.1109/DAS.2012.77.
  51. Breuel, T.M. High-performance OCR for printed English and Fraktur using LSTM networks / T.M. Breuel, A. Ul-Hasan, M.A. Al-Azawi // Proceedings of 12th International Conference on Document Analysis and Recognition. – 2013. – P. 683-687. – DOI: 10.1109/ICDAR.2013.140.
  52. Nagy, G. Optical character recognition: An illustrated guide to the frontier / G. Nagy, T.A. Nartker, S.V. Rice // In: Proceedings of the IS&T/SPIE Symposium on Electronic Imaging: Science and Technology. – 1999. – P. 58-69.
  53. Масалович, А. Распрямление текстовых строк на основе непрерывного гранично-скелетного представления изображений [Электронный ресурс] / А. Масалович, Л. Местецкий // Труды Международной конференции «Графикон», Новосибирск. – 2006. – 4 c. – URL: http://graphicon.ru/html/2006/wr34_16_MestetskiyMasalovitch.pdf.
  54. Wang, T. End-to-end text recognition with convolutional neural networks / T. Wang, D.J. Wu, A. Coates, A.Y. Ng, // Proceedings of 21st International Conference on Pattern Recognition (ICPR 2012). – 2012. – P. 3304-3308.
  55. Zhong, Y. Automatic caption localization in compressed video / Y. Zhong, H. Zhang, A.K. Jain // IEEE Transactions on Pattern Analysis and Machine Intelligence. – 2000. – Vol. 22, Issue 4. – P. 385-392. – DOI: 10.1109/34.845381.

© 2009, IPSI RAS
Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: ko@smr.ru ; тел: +7 (846) 242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический редактор), факс: +7 (846) 332-56-20