The Statement of Learning Problem. Boolean Case

1 Principles of Construction of Inductive Inference Procedures

The statement of learning problem. Boolean case We study the real-world objects or systems on the basis of a finite number of observations. In order to study the complexity of learning problems and efficiency of Bayesian procedures it is necessary to formalize such concepts as the class of problems, the best learning function, the learning procedure and its estimation error, the set of learning samples and its probability distributions.

1 2 I(a)   (a(x)  y) P(x, y). (1) xX y0

The structure of learning sample.

We have the set of objects x1, x2 ,..., xn , f , where x1, x2 ,..., xn – attribute of object , f – is the state (class) of object. In learning sample V the size of each class is given. We assume that sample V consists of three parts: V  (V0 ,V1,V2 ). It is usually to consider that the actual distribution P of the object is not known. 2

… … x1 xn f x1 xn f

m0 m1 V0 0 V1 1

V2 0110……...01011……….101

m2

The last part V2 is a Boolean vector of dimension m2 . Each component of this vector is observed value of attribute f, which is selected in

accordance with the distribution P . All rows of matrices V0 ,V1 and

component of vector V2 are independent random elements.

The inductive step: it is required by observations of x1, x2 ,..., xn and learning sample V  (V0 ,V1,V2 ) to find such procedure which evaluates the state of the next object. The error of procedure. The complexity of class. We assume that the value of f is defined with the help of function a(x), by setting f  a(x). It is well known that the number

n (cardinality) of such functions a(x) is 22 . It is well known that there is the best function a* (x) such that

P(x,a* (x)) = max (P(x,0), P(x,1)). Then the error of the function a(x) for the distribution P is 3  (a, P)   P(x, a (x))  P(x, a(x)). (2) x

One-valued function, which is defined on the set of learning samples V  (V0 ,V1,V2 ) and takes values in the set of a(x), is called the learning procedure Q: a(x)  Q(V , x) . The error of procedure Q for the distribution P is the expression

(Q, P)  (a, P)P1(V ), (3) VW

averaged by V . Here P1(V ) is the probability of the sample V , which depends on distribution P. Класс задач – совокупность всевозможных распределений

вероятностей P, детерминированные числа m0 ,m1,m2 ,n – вход задачи, они определяют размеры выборки.

We shall call the class of problems C  C(m0 , m1, m2 , n) the aggregate of various distributions P together with m0 ,m1,m2 ,n. The error of procedure Q in class C is

(Q,C)  sup(Q, P). PC

Then the complexity of class C is 4 (C)  inf (Q,C)  inf sup(Q, P) . Q Q pC

We must construct such a procedure Q for which the number (Q,C) slightly differs from number (C) .

Bayesian inductive procedures

Let d  (d1, d2 ,..., dn ) is Boolean vector. We assume that the distribution P satisfies condition

n P(x1  d1, x2  d 2 ,..., xn  d n f  i)   j1 P(x j  d j f  i)

, i  0,1,

This expression means independence of attributes x j for each given class of objects. The basis of Bayesian inductive procedure QB is well-known Bayesian formula:

n P(x | f  i)P( f  i)  j1 j P( f  i | x , x ,..., x )  , i  0,1. 1 2 n P(B)

We define the values  (d,i) which depend on d and i as parameters: 5 n (d,i)   j1(k(d j ,i) / mi )ki / m2 ,i  0,1; (4)

where k(d j ,i) is the number of d j in ( j ) column of matrix Vi ; ki is the number of attribute f equal i in vector V2. The recognition function a(x) is equal to

0, если  (d,0)   (d,1), a(d)   (5) 1, если  (d,0)   (d,1).

Bayesian procedure QB is defined by (4), (5). It is shown that the upper bound of error estimation of QB is given by formula

n 1 (QB ,C)  a  . (6) min(m0,m1) m

The lower bound of any other procedure differs from (6) with accuracy to absolute constant:

n 1 (Q, P)  a1  . (7) min(m0,m1) m

In this way the Bayesian procedure QB is suboptimal.

It is interesting to consider the special case, when min(m0 ,m1)  0, i.e. one of the classes is not contained in learning sample. Thus, it is possible to select such probability distribution P that error of any 6 procedure Q is strictly positive. Consequently, Bayesian procedure may work incorrectly at the absence of one of classes in learning sample. As we have already seen, in deduction this property leads to incompleteness theorem.

Interger case. Let we have the set B, where object b B is an integer vector

b  (x1, x2 ,..., xn , f )

x j {0,1,..., g 1}, f {0,1,...,h 1}; g , h are natural numbers, g  2 , h  2 .

The upper bound of error estimation of QB is given by formula

gn h (QB ,C)  a0  , (8) m mh

где m  min mi . 0ih1

7

МЕТОДЫ МИНИМИЗАЦИИ ЭМПИРИЧЕСКОГО РИСКА

Минимизация среднего риска (1) – обобщение классических задач, решаемых на основе метода наименьших квадратов, когда

наблюдению объекта x  (x1, x2 ,..., xn ) соответствует не одно, а несколько состояний объектов y (исходов экспериментов).

I(a)   (a(x)  y)2 P(x, y)dxdy . (1)

Принято считать, что на пространстве векторов X существует неизвестная нам вероятностная мера P(x). В соответствии с P(x) случайно и независимо появляются ситуации x, которые классифицируются с помощью правила p(y | x) , т.е. строится

l l обучающая последовательность X  (xi , yi )i1 .

Средний риск (1) в булевом (дискретном) случае записывается в виде

1 2 I(a)   (a(x)  y) P(x, y). (2) xX y0

В непрерывном случае мощность множества решающих правил составляет величину

n 2  2  , 8 где  - мощность континуума, т.е. эта мощность бесконечна и превосходит мощность континуума. Задается параметрическое множество функциональных зависимостей F(x,) (класс решающих правил). Все функции класса F(x,) – характеристические, т.е. принимают только два значения нуль и единица.

Рассматривается задача минимизации среднего риска

2 I()  P()  (y  F(x,)) P(x, y)dxdy (3)

по эмпирическим данным 1 l x , y1,..., x , yl . (4)

Вместо среднего риска (3) минимизируется эмпирический риск

l 1 i 2 I э ()  ()  (yi  F(x ,)) . (5) l i1

Пусть минимум функционала (5) достигается на функции F(x, э ) . Необходимо установить, в каких случаях найденная функция

F(x, э ) близка к функции F(x, 0 ) , которая минимизирует (3) в классе функций F(x,). В работах В.Н. Вапника эта проблема связывается с проблемой существования равномерной сходимости средних к математическим ожиданиям: близость найденного решения к 9 наилучшему следует из достаточно сильного условия, когда для любого  выполняется равенство

  lim Psup P()  ()     0. (6) l   

Условие равномерной сходимости (6) в реальных задачах распознавания выполнить невозможно, поскольку объем выборки фиксирован, и его нельзя по своему усмотрению увеличивать до бесконечности, так как это связано с выполнением, как правило, дорогостоящих экспериментов. Для булевых задач число различных векторов составляет конечную величину 2n , объем обучающей выборки l составляет лишь небольшую долю от экспоненты 2n . Поэтому операция предельного перехода в (6) не выполнима для дискретных задач. Из неравенства Бернштейна вытекает

  2 Psup P( i )  ( i )     N exp  l. (7)  i 

Теорема 1. Пусть множество решающих правил состоит из N

элементов, и пусть для решающих правил F(x, i ) частоты

ошибок на обучающей последовательности длины l равны  (i ). Тогда с вероятностью 1 можно утверждать, что одновременно для всех решающих правил выполняются неравенства 10

ln N  ln ln N  ln  ( )   P( )  ( )  . (8) i l i i l

Очевидно, что конечное множество решающих правил является слишком бедным множеством для непрерывных задач распознавания. Поэтому В.Н. Вапник делает попытку обобщить эти результаты на случай бесконечного числа решающих правил. Пусть задано множество S решающих правил F(x,) и дана

выборка x1 ,..., xl . Эта выборка может быть разделена на два класса 2l способами. Обозначим число таких способов разделения величиной

s (x1,..., xl ).

Функция mS (l)  max S (x1,..., xl ) 1 l (9) x ,...,x

называется функцией роста системы событий, образованной решающими правилами F(x,) , где максимум берется по всем возможным выборкам длины l. Функция роста вычисляет максимальное число способов разделения l точек на два класса с помощью решающих правил. Определение (9) – ключевой момент теории. Отмечается, что

максимум всегда достигается, так как индекс S (x1,..., xl ) 11 принимает конечное число значений. Однако это может быть не так, если область определения компонент вектора x – вещественная прямая  ,. Согласно определению (9) нужно организовать бесконечное (континуальное) множество выборок длины l, и к каждой выборке применить бесконечное число решающих правил, разделяющих выборку на два класса. Потому в (9) должен быть

указан эффективный алгоритм вычисления mS (l). В противном случае, определение функции роста воспринимается как акт веры, а в математике такие определения считаются некорректными. В.Н. Вапник отмечает: «для функции роста справедлива замечательная теорема, которая позволяет легко ее оценить».

Теорема 2. Функция роста либо тождественно равна 2l , либо при l  h мажорируется функцией l h mS (l)  1,5 , h!

где h+1 – минимальный объем выборки, при котором нарушается

условие mS (l)  2l . Число h служит мерой разнообразия класса решающих правил. Даже если теорема 2 верна, то неясно как определить переход, при котором нарушается условие m S (l)  2l , поскольку мощность множества S решающих правил может превосходить мощность континуума. 12 В качестве примера приводилась оценка функции роста для суммы линейных по параметру решающих правил, этот случай играет важную роль в дальнейшей теории В.Н. Вапника

 n  1, если z  0, F(x,)  ii (x) ;  (z)   . (10)  i1   0, если z  0

Множество параметрических функций (10) образует

континуальный класс функций, так как параметры i  вещественные числа. Как уже отмечалось, функция роста эффективно не вычисляется в точке. В.Н. Вапник прибегает к следующему приему: «Нетрудно найти функцию роста для класса событий, заданных линейными решающими правилами (10). Для этого определяется максимальное число точек h в пространстве размерности n , которые можно с помощью гиперплоскости разбить на два класса всеми 2h способами. Известно, что это число равно n . Поэтому для класса линейных решающих правил функция роста оценивается формулой l n mS (l) 1,5 , (l  n ).» n! Приведенные рассуждения неверны, поскольку функция n ii (x) не является гиперплоскостью, и, кроме того, как легко i1 заметить, при n  2 три точки можно разбить на два класса 23 способами. Налицо явные математические просчеты. 13 Имеет место неравенство 2   s   l  Psup P()  ()     6m (2l) exp  . (11)     4 

Оценка (11) становится содержательной, когда емкость класса решающих правил конечна l h m S (l) 1,5 . h!

В таком случае имеет место следующая теорема.

Теорема 3. Пусть F(x,) – класс решающих правил ограниченной емкости h, и пусть  () – частота ошибок, вычисленная по обучающей последовательности для правила F(x,) . Тогда с вероятностью 1 для всех правил F(x,) вероятность ошибочной классификации заключена в пределах

 2l  ln  2l  ln hln 1  hln 1  h 9 h 9 (12)  ()     P()  ()  2   l l

При выводе свойств функции роста mS (l) и теоремы 3 требовалось неоднократное вычисление этой функции. Поскольку

функцию mS (l) эффективно вычислить невозможно, полученные 14 результаты для бесконечного числа решающих правил нельзя считать обоснованными. В обучающей выборке количества объектов различных классов известны, более того, на практике эти количества часто определяются заранее. Если в выборке отсутствует один из классов объектов, то оценки (8), (12) дают пользователю неверное представление о работе метода. Представим, что медицинская экспертная система строится только на классе больных или здоровых пациентов (или размеры этих классов значительно отличаются друг от друга), понятно, что эффективных процедур распознавания, в таком случае, построить нельзя. Если обучающая выборка содержит только один класс объектов, то можно построить пример, когда эмпирический риск окажется нулевым, в то время как, средний риск (2) будет максимальным. Например, пусть для булевого случая n 1

P(x  0, y  0)  0,1; P(x  0, y  1)  0,3 P(x  1, y  0)  0,2; P(x  1, y  1)  0,4.

Тогда

a1(x  0) 1, a1(x 1) 1;

a2 (x  0) 1, a2 (x 1)  0;

a3 (x  0)  0, a3 (x 1) 1;

a4 (x  0)  0, a4 (x  1)  0. 15

Функция a1 минимизирует риск (2), он равен 0,3. Если обучающая выборка содержит объекты только класса 0, и в ней присутствуют

объекты x  0 и x  1, то функция a4 дает нулевой эмпирический риск, однако у этой функции наблюдается максимальный риск (2), равный 0,7. Наличие такого рода контпримеров показывает, что подобные «плохие» задачи в совокупности могут составлять как раз тот диапазон вероятности  , при котором оценки (8), (12) не выполняются. В этом заключается недостаток вероятностных оценок. Другими словами, в оценки методов распознавания должны входить размеры классов, а не общая длина выборки; в этом случае контпримеры исключаются. Методы минимизации эмпирического риска не рациональны по своему способу построения. В этих методах оптимальные параметры   решающих правил F(x,) определяются путем минимизации эмпирического риска по некоторой случайной

1 l обучающей выборке x , y1,..., x , yl . Очевидно, что для последовательности новых объектов, которые не присутствуют в обучающей выборке, найденные параметры уже могут быть не оптимальними, и их нужно вичислять заново. Другими словами, находить точный минимум эмпирического риска (5) по отдельным обучающим последовательностям не имеет смысла. Поэтому возникает проблема разбиения выборки на обучающую и контрольную. Естественно, что методы, в которых присутствуют трудоемкие процедуры настройки оптимальных параметров по 16 отдельным обучающим выборкам, не имеют ни одного шанса быть применимыми в живой природе, а также при распознавании объектов в быстроменяющейся обстановке.

классов в обучающей выборке, поэтому эти значения входят в приводимые ниже оценки погрешности байесовской процедуры. Для байесовской процедуры проводить разбиение на обучающую и контрольную выборки не надо, поскольку при подсчете погрешности (15) учитывается работа процедуры на всем множестве обучающих выборок. Байесовская процедура (16), (17) строится программным образом, найти ее аналитический вид невозможно. Методы минимизации эмпирического риска работают с известными функциями.

ЭФФЕКТИВНОСТЬ ПРОЦЕДУРЫ РАСПОЗНАВАНИЯ, ПОСТРОЕННОЙ НА ИСПОЛЬЗОВАНИИ ОТДЕЛЯЮЩЕЙ ГИПЕРПЛОСКОСТИ

Для булевого случая можно построить отделяющую гиперплоскость на основе байесовской процедуры распознавания. Рассмотрим процедуру отделяющей гиперплоскоси при условиях двух классов объектов и, когда все признаки объектов принимают значения из множества {0,1}. 17

Байесовская процедура QB на классе C  C(m0 ,m1,m2 ,n)

определяется по формулам (16), (17). Вектор d  (d1,...,dn ) относится к классу объектов 0, если выполняется неравенство

q n p  q n p 0  j1 j0d j 1 j1 j1d j , (21)

k(i) k(d ,i) q  p  j i  0,1; j  1,2,...,n где i , jid j , . Если (21) не m2 mi выполняется, то вектор d относится к классу объектов 1. Процедура отделяющей гиперплоскости (обозначим ее R ) состоит в следующем. Если выполняется неравенство

n  j1 j d j  0  0,

то вектор d относится к классу объектов 0, в противном случае – к

классу объектов 1; здесь  0 ,1,..., n – действительные числа.

Обозначим Ji { j : 0  p ji1 1}, i  0,1; I  {i : 0  qi  1};

max r  0 t  max{max max max | ln p jis |,max | ln qi |}, (здесь k ), i{0,1} jJi s{0,1} iI kØ t0  (n 1)t 1, t1  (n 1)t0 1.

Запишем неравенств процедуры отделяющей гиперплоскости следующим образом 18

n  0 (q0 )   j1[ 0 j ( p j01 )d j  0 j ( p j00 )(1 d j )] 

n 1(q1 )   j1[1 j ( p j11 )d j 1 j ( p j10 )(1 d j )], (22)

ln z, z  0, где  i (z)  ij (z)   i  0,1; j  1,2,...,n.  ti , z  0,

Вещественные числа t0 ,t1 определены таким образом, чтобы (22) оставалось выполнимым, если в левой и правой частях неравенства (21) содержатся нулевые члены. Нетрудно доказать, что неравенства (21) и (22) эквивалентны, т.е. для любого булевого вектора d оба неравенства или одновременно выполняются, или одновременно не выполняются. Докажем этот факт для случая, когда выполняется неравенство

0  qi 1, 0  p ji1 1, i  0,1; j  1,2,...,n. Неравенство (22) принимает вид

n n ln q0   j 1[(ln p j01)d j  (ln p j00 )(1 d j )  ln q1   j 1[(ln p j11)d j  (ln p j10 )(1 d j )

n n  d j 1d j   d j 1d j  или lnq0  p j01 p j00   lnq1 p j11 p j10  .  j1   j1  19

p d j p1d j  p Заметим, что ji1 ji0 jid j , поэтому последнее неравенство эквивалентно (21). В общем случае эквивалентность неравенств

(21) и (22) вытекает из определения чисел t0 ,t1 .

Таким образом, байесовская процедура QB эквивалентна процедуре отделяющей гиперплоскости R . Отсюда вытекает субоптимальность процедуры R на классе C , а также то, что на

классе C процедуры R и QB имеют одинаковую оошибку

 n 1  min1,a  , (R,C) (QB ,C)     min(m0 ,m1) m2 

где a   – абсолютная константа.

Теорема 7. Байесовская процедура QB в булевом случае эквивалентна процедуре распознавания, построенной на использовании отделяющей гиперплоскости R.

БАЙЕСОВСКИЕ ПРОЦЕДУРЫ РАСПОЗНАВАНИЯ НА ЦЕПЯХ МАРКОВА

Анализ литературных текстов. Марков рассмотрел поучительный пример связанных испытаний, совокупность которых, с некоторым приближением, можно рассматривать как простую цепь. Этот пример выясняет, что 20 суммы многих связанных величин могут образовать (почти) независимые величины. Марков взял последовательность 20 000 букв в романе Пушкина “Евгений Онегин”. Она составляет 20 000 зависимых испытаний, каждое из которых дает гласную или согласную букву. Рассмотрим небольшой фрагмент начала поэмы:

Мой дядя самых честных правил когда не в шутку занемог он уважат себя заставил и лучше выдумат не мог его пример другим наука.

Литературный текст поэмы А.С. Пушкина – осмысленная и зависимая последовательность 32 букв русского алфавита. Двухбуквенная последовательность гласных и согласных букв, выделенная из этого фрагмента текста, как мы видим, никакого явного смысла не имеет:

сгг сгсг сгсгс сгсссгс ссгсгс сгссг сг с сгссг сгсгсгс гс гсгсгс сгсг сгссгсгс г сгссг сгсгсгг сг сгс гсс ссгсгс ссгсгс сггсг.

Соответственно этому Марков допускает существование неизвестной постоянной вероятности p – быть букве гласной и приближенную величину числа p он ищет из наблюдений, считая число появившихся гласных и согласных букв. Кроме числа p Марков нашел, также из наблюдений, приближенные величины

двух других чисел p1 и p2, представляющих вероятности:

первое, p1 – гласной букве следовать за гласной, 21

второе, p2 – гласной букве следовать за согласной. Разыскивая число p, Марков сначала нашел 200 приближенных величин, из которых выводится среднее арифметическое. А именно вся последовательность 20 000 букв разбивается на 200 последовательностей по 100 букв; подсчитывается сколько гласных в каждой сотне букв; получаются 200 чисел, которые при делении на 100 дают двести приближенных величин p. Полученное таким способом значение p оказалось равным 0,432.

Вычисление вероятностей p1 и p2 проводится следующим образом: просматривается весь текст из 20 000 букв, подсчитывается, сколько в нем встречается пар гласная, гласная; получается число 1104, которое при делении на число всех гласных

в тексте дает для p1 приближенную величину

1104  0,128. 8638

Подобным образом для p2 получается приближенная величина

7534  0,663. 11362

p2 Подставив, полученные значения в формулу p  , 1 p2  p1 находим число 0,4319, близкое к уже полученному 0,432. Заметим, что поделив число гласных в тексте, равное 8638 на 20000, получим величину 0,4319. 22 Отсюда видно, что вероятность букве быть гласной значительно изменяется в зависимости от того, предшествует ей гласная или согласная. Полученные результаты показывают, что если рассматривать буквы какого-нибудь текста, то вероятность гласной и согласной изменяется в зависимости от характера одной или двух предыдущих букв.

Конечное число состояний цепи. Рассмотрим теперь случай цепи Маркова с конечным числом состояний. Будем предполагать, что

   :  (x0 , x1,..., xn ), xi  X,

где X – некоторое конечное множество состояний. Пусть заданы

также неотрицательные функции p0 (x), p1(x, y),…, pn (x, y) такие, что

 p0 (x)  1, (1) xX p (x, y)  1  k , k 1,...,n , x  X . (2) yX

Для каждого исхода   (x0 , x1,..., xn ) положим

p()  p0 (x0 ) p1(x0 , x1)...pn (xn1, xn ). (3) 23

Нетрудно проверить, что  p()  1 и, следовательно,  набор этих чисел p() вместе с пространством  определяют некоторую вероятностную модель, которую принято называть моделью испытаний, связанных в цепь Маркова. Множество X называется пространством состояний цепи. Набор вероятностей p0 (x), x  X называют начальным распределением, а матрицу

pk (x, y) , x, y  X где pk (x, y)  p(xk  y xk 1  x) – матрицей переходных вероятностей из состояний x в состояния y в момент k 1,...,n . В том случае, когда переходные вероятности pk (x, y) не зависят от k , pk (x, y)  p(x, y), последовательность x0 ,..., xn называется однородной марковской цепью с матрицей

переходных вероятностей p(x, y) . Заметим, что матрица

p(x, y) является стохастической: ее элементы неотрицательны и

p(x, y)  1 сумма элементов любой ее строки равна единице,  , y x  X . Предположим, существует m объектов, которые описываются цепью Маркова. Обозначим времена наблюдений t  0,1,...,T , состояния i  1,..., k , pij (t) (i, j  1,..., k, t 1,...,T ) – вероятность состояния j в момент времени t при заданном состоянии i в момент времени t 1. Далее рассматриваются как

стационарные переходные вероятности такие, что pij (t)  pij для 24 всех t  0,1,...,, так и нестационарные, которые меняются со временем.

Обозначим mij (t) число объектов, находящихся в состоянии i в момент времени t 1 и в состоянии j в момент времени t , ( i, j 1,...,k , t 1,...,T ) . Пусть

k T mi (t 1)   mij (t) , mij   mij (t). (4) j1 t 1

Известно, что для стационарных переходных вероятностей pij оценками максимального правдоподобия являются величины

 mij pij  k . (5) mij j1 Для нестационарных переходных вероятностей такие оценки имеют вид

 mij (t) pij (t)  . (6) mi (t 1)

Основная трудность исследования этих оценок состоит в том, что знаменатель в (6) есть случайная величина, а не фиксированная, как в схеме Бернулли. Например, в булевом случае при переходе по 25 времени от t 1 к t «разыгрываются» две переходные вероятности (всего их четыре, но есть два связывающих уравнения), определяемые соотношениями

p00 (t)  p01(t)  1 и p10 (t)  p11(t)  1. Детерминированной величиной является сумма

m00 (t)  m01(t)  m10 (t)  m11(t)  m. В отличие от схемы Бернулли математические ожидания

оценок (5), (6) не совпадают с их точными значениями pij и pij (t) , т.е. эти оценки являются смещенными. Поэтому нужно исследовать их асимптотическое поведение этих оценок.

Байесовские процедуры распознавания на цепях Маркова.

Рассмотрим случай, когда x1, x2 ,..., xn образуют последовательность зависимых случайных величин, связанных в цепь Маркова с конечным числом состояний. Для модели цепи Маркова первого порядка вероятность

цепочки x1, x2 ,..., xn задается соотношением 26

P(x1, x2 ,..., xn f )  P(x1 | f )  P(x2 | x1, f ) ... P(xn | xn1, f ) (7)

где P(xk xk1, f ) , k  2,...,n – нестационарные переходные вероятности; как и в дискретном случае полагаем, что признаки x j {0,1,..., g 1}, j  1,2,...,n; f {0,1,...,h 1}; g , h – натуральные числа. В численных расчетах используются оценки переходных вероятностей, построенные в виде частот

m(xk 1  i, xk  j, f ) pˆ(xk  j xk 1  i, f )  , (8) m(xk 1  i, f )

где m(xk1  i, xk  j, f ) – число объектов x1, x2 ,...., xn , принадлежащих заданному классу f в обучающей выборке, у

которых признак xk1 принимает значение i, и признак xk –

значение j ; m(xk1  i, f ) – число объектов, для которых признак xk1 принимает значение i .  Величина имеет p(xk xk1, f )  p(xk xk1, f ) асимптотическое нормальное распределение со средним 0 и

1 дисперсией порядка , где m – объем обучающей выборки, при m этом оценки переходных вероятностей (8) асимптотически 27 независимы. Поэтому для больших выборок оценки погрешностей байесовских процедур распознавания на нестационарных цепях Маркова аналогичны оценкам, полученным для независимых признаков в дискретном случае, но они уже носят асимптотический характер. Для обучения и проверки эффективности предложенных процедур использовалась база данных сервера NCBI. Рассматривались модели нестационарных цепей Маркова разных порядков. Для примера приведем результат предсказания вторичной структуры белка CRO, вторая строчка соответствует структуре из базы данных, третья – получена в результате проведенных расчетов, указаны коэффициенты точности.

MEQRITLKDYAMRFGQTKTAKDLGVYQSAINKAIHAGRKIFLTINADGSVYAEEVKPFPSNKKT TA -ssssshhhhhhhh-hhhhhhhh---hhhhhhhhhh--ssssssss- ssssssss------ssssh--h---h-hhhhhhhh----hhhhhhhhh--ssssssss-ssssssss- s------

С: 0.878788 C(alpha): 0.815068 C(beta): 0.92674 28 C(coil): 0.74525