Основные понятия и определения

Основные понятия и определения

Шокуров Антон В.
shokurov.anton.v@yandex.ru
http://машинноезрение.рф

2 марта 2017 г.

Версия: 0.10

Аннотация

Вводятся базовые, традиционные понятия, а точнее принятый в этой области жаргон и его математический эквивалент. В дальнейшем сам жаргон не планируется применятся.

Предварительная версия!

1 Введение

В данной области информатики изучается задача построения прогноза некого явления по неким наперед зафиксированным данным, которые по постановке считаются непосредственно связанными с прогнозируемым явлением. Метод построения прогноза основан на изучении “исторических” полных данных, состоящих как из самих данных, так и правильного результата (явления). С данными необязательно связано время, поэтому историческими данными могут быть просто некие прецеденты.

Пример 1. . Хотим дать прогноз погоды. В самом общем случае никто нас не ограничивает инструментарием.

Пример 2. . Актуальной задачей является прогноз цены ценных бумаг. Необходимо по истории поведения цены ценных бумаг спрогнозировать их стоимость в будущем. В такой постановке предполагается, что изменение цены в будущем определяется в том числе и на основе исторических данных. На самом деле отмеченное предложение уже фактически является частью решения заявленной задачи. Ясно, что например, открытие нового месторождения ископаемых или аварию на шахте мы не спрогнозируем (хотя они окажут резко изменение в цене акций). Но, даже и в таком случае, исторические данные позволят понять, что в обще можно ожидать.

Последний пример может создать впечатление, что для прогноза могут быть использованы только данные связанные с котировками ценных бумаг. На самом деле, для прогноза может пригодится, как ни странно, и решение предыдущего примера. Суть в том, что есть такая вещь как Ла-Нинья/Эль-Ниньо, от которой многое чего зависит. Например, сила ливней и соответственно факт затопления шахт в Австралии. Когда они затоплены цены на уголь обычно уходят в космос. Исторические котировки угля конечно могут схожий результат проследить, но они не смогут предсказать очередное Эль-Ниньо.

Пример 3. . . В качестве контраста приведем не совсем правильный пример. Допустим нужно (преподавателю) запомнить студентов группы. Он не правильный потому что прогноза не будет. Достаточно будет только запомнить.

Если последнею задачу чуть переформулировать, то это уже будет задачей машинного обучения.

Пример 4. . Нужно спрогнозировать оценку которую получить студент.

1.1 Постановка задачи

Перейдем к математическому языку. Задано множество объектов Ω и множество значений Γ, а также искомое отображения γ : Ω Γ. Следует сразу отметить неоднозначность выбора множеств Ω и ϒ даже в зафиксированной и обговоренной задаче (на подобие ранее приведенных примеров). При их фиксации в виде конкретных множеств задача уже будет носить частный характер (т.е. выбор этих множество уже является неким этапом в решении задачи).

Отметим, что в общем случае на Ω никаких тождеств не задано и не выполнено. Например, в теории вероятности требуют выполнения соответствующих аксиом. В рассматриваемом случае никаких таких дополнительных требований нет. Последнее означает, что Ω есть суть множество элементов ω.

Пример 5. . Например, хотим по некий данным дать предсказание погоды на некий день. Много вариантов. Можно спрогнозировать на разные периоды: день, неделя, месяц и тому подобное. Можно спрогнозировать разные явления: температуру, осадки и тому подобное. Можно спрогнозировать среднею температуру, а можно максимум.

Пример 6. . В качестве Ω можно взять исторические котировки (конкретного эмитента), а можно рассматривать и исторические события (отчетности, ключевые новости). Множество Γ также может принимать широкий диапазон: как прогноз конкретной цены на завтра (процентная величина изменения от текущей цены), или просто утверждение о том, что цена не уйдет ниже/выше какого-то значения.

Пусть Ωl Ω. По построению, для ω Ωl можно вычислить значение γ(ω). Следовательно, по Ωl можно построить множество пар

Λl = {(w,γ(w))|w Ωl)}.

Тогда, задачу можно сформулировать следующим образом: необходимо по Λl построить функцию γ̃ приближающую искомую функцию γ, т. е. для ω Ω вычислить приближение к γ(ω). Подчеркну, что саму γ использовать для построения нельзя. Она может быть использована только для оценки итогового качества.

В точки зрения науки машинного обучения традиционно произносится следующее словоблудие (жаргоны): Ωl – множество произвольно выбранных обучающих элементов ω Ω, где l от слова learn (т.е. обучение). Процесс построения функции γ̃ называется обучением. Пара (ω,γ(ω)), где ω Ωl – суть прецедент, а множество пар Λlобучающая выборка, т. е. то, что нам фактически дано для обучения. Последнее предполагает возможность обобщения, т.е. вычисления значения отображения γ̃ в произвольной точке Ω (а не только на самом множестве Ωl).

С практической точки зрения, естественно, часто предполагается, что введенные множества конечны, а именно – Ωl = {ωi}i=1i=l, Λl = {(ωi,γi = γ(ωi))}i=1i=l.

Пример 7. . Данные можно выбирать на тиковые, а можно минутные, а можно и дневные. В зависимости от данного выбора будет зависеть и конкретная частная постановка задачи.

Векторное пространство Для начала рассмотрим крайний случай, а именно – наложим на множество Ω выполнение аксиом векторного пространства. Последнее означает, что на множестве Ω дополнительно (в общем случае никаких операций на Ω не заданы) задана две операции + и . Напомним аксиомы....

Тогда оно есть суть векторное пространства n размерности n.

Пусть также искомая функция γ линейна (опять же в общем случае таких требований не накладывается). Тогда легко восстановить функцию по линейно независимым прецедентам ({ei}i=1i=n). Так, из линейной независимости {ei}i=1i=n следует, что для ω Ω = n,x = ω верно x = 1nxiei, следовательно

γ(x) = γ( 1nx iei) = 1nx iγ(ei).

Таким образом значение на произвольном x определяется значением на базисных элементах (прецедентах).

В общем случае это конечно не так, поэтому приблизимся к такому случаю в следующем подразделе.

1.2 Типы множеств

В общем случае про Ω ничего не известно, в частности, на нем не определены вычислительные операции (как это было в ранее рассмотренном примере векторного пространства). Но, ввиду того, что данный курс предполагает построение некой функции в смысле математики (а также тезиса, что „все есть число“), множества Ω и Γ предполагают некую математическую доработку или, иначе, подкрутку.

Функция от одного аргумента По аналогии с случайными величинами в теории вероятности, пусть существуют функции {φj : Ω Ψ}j=1j=n. Фактически функция φj по сути соответствует искомой задаче, т.е. мы сами строим n вспомогательных функций {φj}j=1j=n схожих функций на γ. Разница в том, что в отличии от γ мы знаем устройство функций φj. Смысл этих функций в том, чтобы представить искомую γ через них.

Дабы это все имело смысл про Ψ уже требуется, что оно является алгебраическим множеством, т. е. фактически множества наделенные операциями +, -, *, /, а иногда и порядковыми <, >. Наиболее традиционными являются числовые множества: , , 2, и тому подобные. Разумеется, что в качестве такого множества может выступить и k: φ́ k. В последнем случае, если не обговорено иное, заменим такую функцию φ́ на множество функций {φ́j : Ω }j=1j=k, перенумеруем их и включим в общих список.

Для множества Γ по аналогии строиться функция ψ : Γ Ψ, где от ψ дополнительно требуют существование обратной функции. Если не обговорено обратного, всюду далее считаем, что Ψ есть суть .

Тогда, фактически, задача поиска значения искомой функции γ в ω будет заменена на приближение значения ψ(γ(ω)) по значениям φi(ω).

С точки зрения науки машинного обучения данный этап один из самых важных при решении конкретной задачи, в частности потому, что считается, что он делается так называемым экспертом. От правильности выбора (им) этих функций (которые на жаргоне называются признаками) фактически зависит успех в решении задачи.

Пример 8. . В качестве признаков можно рассматривать цену в какой-то момент времени, а можно и значение цены за день, час, минуту. От выбора будет зависеть успех выбранного метода. Можно также минимум/максимум, открытие/закрытие.

Так как считается, что функции φi и ψ задаются экспертом, то считается что они зафиксированы. Последнее означает, что их построение как бы не является предметом рассмотрения науки машинного обучения. Считается, что этих значений достаточно для решения поставленной задачи.

Ввиду введенных ограничений часть ранее введенных определений может быть переформулирована следующим образом. Произвольному ω Ω можно сопоставить вектор-строку

φ(ω) = (φ1(ω),,φn(ω)) = (x1,,xn) = x,

называемый на жаргоне признаковым описанием объекта ω. Никто не говорит, что появится смысл в сложении в признаковом пространстве.

Тогда функцию γ̃, которую мы ищем, можно представить в виде: γ̃ = ψ1(f̃(φ)), где, например,

f̃ : n .

Если зафиксировать функции φi и ψ, то первоначальная задача сводится к построению функции f̃, которая зависит от математически понятных величин.

Уравнение также можно переписать в виде ψ(γ̃) = f(φ). Пусть yi = ψ(γ(ωi)), где i = 1,...,i = l.

Можно задавать и неявной функцией, но зачем усложнять...

Отметим, что может сложиться следующая ситуация: ωa,ωb Ω, ωaωb такие что φ(ωa) = φ(ωb), т.е. признаковые описания могут совпадать у не совпадающих элементов. Иначе говоря, в общем случае, функция φ необратима (отметим требование обратимости ψ).

Более того, мы будем предполагать, что на самом деле каждая из φ не обязательно определена на всем множестве Ω, т.е. может ω Ω такое, что значение на каких-то из φ не определено.

Тем самым по Ωl можно построить числовую матрицу данных

X = x11xn1 x1ixni x1lxnl = x1 x i xl = φ(ω1) φ(ωi) φ(ωl) = φ1(ω1)φn(ω1) φ1(ωi)φn(ωi) φ1(ωl)φn(ωl)

и соответственно матрицу значений

Y = y1 y i yl = ψ(γ(ω1)) ψ(γ(ωi)) ψ(γ(ωl)) .

Не все значения Y могут существовать.

У нас есть матрица X и вектор (значений) Y. Можно составить систему линейных уравнений: X𝜃 = Y, где 𝜃 = (𝜃1,...,𝜃n).

Задание. Написать программу которая решает заданную систему в среднеквадратичном смысле. Применить к поиску прямой проходящей через точки лежащие почти на прямой: берем множество точек равномерно распределенных на отрезке [a,b], далее для каждой точки строи значение y, далее добавляем к каждой из точек y на нормальное распределение. Ищем прямую проходящую через эти точки наилучшим образом в среднеквадратичном смысле.

Задание. Все аналогично предыдущему случаю. Но вместо прямой рассмотреть параболу, окружность, эллипс.

Функция от двух аргументов По аналогии экспертом можно ввести функцию и от двух аргументов. Это будет что-то наподобие метрики, т.е. она будет вычислять расстояние между объектами. Тривиальный способ применить метрику в действительных векторных пространствах. ρ(ω0,ω1) = φ(ω0) φ(ω1). Таким образом такую метрику всегда можно задать, но лучше если её построит эксперт исходя из частных соображений об объектах в Ω.

В некоторых из методов обучения мы применим данную функцию. Смысл в не в том, что отсутствует переход в векторное пространство. Функции с большей арности обычно не применяются.

Иерархия признаковых пространств Естественно, что к X и Y можно отнестись как к Ώ и Γ́. Например, в новом признаковом пространстве будет добавлено произведение двух каких-то признаков. Тогда, всю иерархию промежуточных признаковых пространств можно выкинуть.

1.3 Класс задачи

В информатике редко когда удается эффективно/рационально решить задачу в общем случае. Поэтому и в машинном бучение многие методы построены на неких особенностях/частностях формулировки задачи, и поэтому принято выделять/обосабливать определенные типы множеств, относящиеся к определенным типам задач.

Область значения в большей степени определяет класс задачи. Если множество бесконечное, непрерывное, то это задача регрессии (есть понятие близости, можно ошибиться на чуть-чуть.). Если оно конечное, то это классификация/кластеризация (нет понятия близости. ошибиться чуть чуть нельзя.).

Пример 9. Пример о распознавании лиц на изображении...описание сцены...

Физика... трение и притяжение...

Животные ... классовый вид...

Кредит...

Разные типы ошибок: аппроксимация какой-то кривой и проведение кривой приближающей данные.

1.4 Качество восстановления

Функцию можно по разному восстанавливать (т.е. обучать) или продолжать. Необходим способ оценки качества восстановления. В случае фиксации способа оценки качества, решение задачи сводится к поиску функции минимизирующая данную оценку. Последнее означает, что от выбранного способа оценки будет существенно зависеть и метод решения задачи.

В единственной точке Пусть у нас есть две функции кандидата f0 и f1 на приближение искомой функции. Нам нужно понять какая функция лучше приближает. Мы можем проверить какое эти функции дают значение в некой точке x0 = φ(ω0),ω0 Ω и сравнить его с истинным y0 = ψ(γ(ω0)).

В рамках данного обсуждения введем функцию близости:

d : Γ × Γ R+

измеряющая схожесть между двумя значениями из Γ. Она также может быть задана и на Ψ

d : Ψ × Ψ R+.

Будем считать что у нас есть полиморфизм. Также учтем, что зная одно можно построить другое. Так, ψ0,ψ1 можно положить d(ψ0,ψ1) = d(ψ(ψ0),ψ(ψ1)). И наоборот, y0,y1 можно положить d(y0,y1) = d(ψ1(y0),ψ1(y1)).

Заметим, что это функция d не тоже самое, что функция ρ близости задаваемая в Ω.

В качестве d обычно рассматривают:

Пример 10. Индикатор ошибки: d(u,v) = (uv). Фактически является булевским значением. При численных вычислениях может быть представлено либо: 0 и 1 либо: 1 и 1. В завивимости от контекста.

Пример 11. Величина отклонения: d(u,v) = |u v|. Является модулем расстояния между точками.

Пример 12. Квадрат модуля отклонения: d(u,v) = (|u v|)2.

Пример 13. Произвольная степень p модуля ошибки: d(u,v) = (|u v|)p.

Этими расстояниями список не оканчивается. Вообще её можно задавать произвольно. От выбора этой функции зависит успешность численного решения задачи. Например, в некоторых случая квадратическая метрика даст точное решения, тогда как другие метрики потребуют определенного перебора (итеративынй алгоритм), например, последовательное приближение.

Множество точек В общем случае качество восстановления функции хотелось бы проверить на множестве значений, а не в одной точке. Последнее связано с тем, что в реальных задачах важнее то, так функция ведет себя на множестве точек.

Традиционно сравнивают функции в среднем, но можно и экстремальные значения (максимум/минимум) проверить.

Пример 14. . При прогнозе погоды часто бывает, что важна именно средняя температура, а не температура в конкретный день. Точнее даже важны такие вещи как возможность засухи или болота.

Пример 15. . Для фондового рынка важно, что в среднем прибыль есть, а не то, что она в любой сделке имеется.

Интегральная оценка качества задается следующим образом. Сначала задается множество Ωt Ω элементов на которых и будет оценена построенная функция f.

Λ(f̃,f,Ωt) = 1 |Ωt| ωΩtd(f(φ(ωi)),f̃(φ(ωi))).

Замечание. Можно формулу объяснить (усложнить) и посредством вероятностного подхода. Так, появится плотность распределения в качестве множителя. Но мы пока не будет усложнять формулу таким образом.

Опять же из практических соображений обычно отмеченное множество конечно: Ωt = {ωit}i=1i=l,ωi Ω.

тестовых Можно было бы и взять максимум/минимум.

Вопрос выбора тестового множества будет рассмотрен отдельно.

1.5 Обучение

Задается экспертом. Берется некое параметрическое множество функций {g : ΩxΘ ϒ}, т.е. функции вида g𝜃(ω) = g(ω,𝜃). Суть обучения заключается в оптимальном выборе значения 𝜃. Данное семейство задается экспертом и от выбора этого множества существенным образом зависит успех решения задачи.

Гиперпараметр настраивается тестовым множеством.

Обобщающая способность! Не должна быть памятью. Переобучение и недообучение.

Не всему можно обучиться: Что-то с данными: 0)Плохо выбраны признаки. 1)Недостаточно данных. 2)На уровне xi и yi много шума. 3)Неоднозначный ответ.

Что-то с методов обучения. Он не подходит для данной задачи.