Выделение признаков


Выделение признаков — это разновидность абстрагирования, процесс снижения размерности, в котором исходный набор исходных переменных сокращается до более управляемых групп (признаков) для дальнейшей обработки, оставаясь при этом достаточным набором для точного и полного описания исходного набора данных. Выделение признаков используется в машинном обучении, распознавании образов и при обработке изображений. Выделение признаков начинает с исходного набора данных, выводит вторичные значения (признаки), для которых предполагается, что они должны быть информативными и не быть избыточными, что способствует последующему процессу обучения машины и обобщению шагов, а в некоторых случаях ведёт и к лучшей человеческой интерпретацией данных.

Когда входные данные алгоритма слишком большие для обработки и есть подозрение, что данные избыточные (например, измерения проведены как в футах, так и в метрах, или повторяемость изображений представлена пикселами), то они могут быть преобразованы в сокращённый набор признаков (называемый вектором признаков). Определение подмножества начальных признаков называется отбором признаков. Отобранные признаки проверяются на содержание необходимой информации во входных данных, так что желаемая задача может быть выполнена с помощью этого сокращённого набора вместо исходных полных данных.

Общий подход

Выделение признаков вовлекает сокращение числа ресурсов, необходимых для описания большого набора данных. Когда осуществляется анализ сложных данных, одна из главных проблем вызывается числом вовлекаемых переменных. Анализ с большим числом переменных в общем случае требует большой памяти и вычислительной мощности, а также это может вызвать для алгоритмов задачи классификации переподгонку относительно тренировочной выборки, что приводит в общем случае к плохим результатам для новых образцов. Выделение признаков является основным термином для методов построения комбинаций переменных, чтобы обойти эти проблемы, тем не менее описывая данные с достаточной точностью. Многие практики обучения машин верят, что должным образом оптимизированное выделение признаков является ключом для построения эффективной модели.

Результаты могут быть улучшены с использованием построенного набора зависящих от приложения признаков, обычно построенных экспертами. Один из таких процессов называется конструированием признаков. Альтернативно, используются техники общего снижения размерности, такие как:

  • Анализ независимых компонент
  • Isomap
  • Ядерный метод главных компонент
  • Латентно-семантический анализ
  • Регрессия частных наименьших квадратов
  • Метод главных компонент
  • Снижение размерности многофакторного пространства
  • Нелинейное снижение размерности
  • Полилинейный метод главных компонент
  • Полилинейное обучение подпространств
  • Полуопределённое вложение
  • Автокодировщик

Обработка изображений

Одна из очень важных областей приложения выделения признаков — обработка изображений, в которой используются алгоритмы для обнаружения и изоляции различных желательных порций или фигур (признаков) цифрового изображения или видеопотока. Одна из важных областей приложения методов — оптическое распознавание символов.

Низкоуровневое

  • Выделение границ
  • Обнаружение углов
  • Обнаружение пятен
  • Обнаружение хребтов
  • Преобразование признаков, инвариантное к масштабу

Кривизна

  • Направление рёбер, изменение интенсивности, автокорреляция.

Движущиеся изображения

  • Обнаружение движения. Зональный и дифференциальный подходы. Оптический поток.

Методы, основанные на форме

  • Пороговая фильтрация
  • Выделение объектов
  • Сравнение с шаблоном
  • Алгоритм для поиска особых точек и их сравнения SIFT
  • Преобразование Хафа
    • Прямые
    • Окружности/эллипсы
    • Произвольные фигуры (обобщённое преобразование Хафа)
    • Работа с любыми параметризуемыми признаками (параметры класса, обнаружение кластеров и т.д..)

Гибкие методы

  • Деформируемые, параметризованные фигуры
  • Активные контуры (извивающиеся)

Выделение признаков в программном обеспечении

Многие пакеты статистической обработки обеспечивают возможность выделения признаков и сокращения размерности. Общие системы численной обработки, такие как MATLAB, Scilab, NumPy и язык R поддерживают некоторые простые техники выделения признаков (например, метод главных компонент) с помощью встроенных команд. Более специфичные алгоритмы часто доступны как общедоступные скрипты или разработки сторонних фирм. Существуют также пакеты, разработанные для конкретных приложений обучения машин специально для выделения признаков.



Имя:*
E-Mail:
Комментарий: