Re: Неспешно делается неторопливый HMM-архиватор.


Сайт о сжатии >> Форум #Компрессор# >> [Ответить] [Ответы]

Автор: Maxim Smirnov, <ms@compression.ru>
SPb, 25 июля 2003 года в 09:41:06

В ответ на : Неспешно делается неторопливый HMM-архиватор. от Олег Набатов в 24 июля 2003 года в 21:55:43:


> HMM это Hidden Markov Model - Марковская модель со скрытым слоем.

> Флейм.
> В ppm-архиве основной вес приходится на ошибки Марковской модели.


Гм. А неосновной?


Если файл содержит текст то наибольшая информация приходится на начало слов. Буквы внутри и особенно в конце слова ppm хорошо прогнозирует, поэтому улучшение сжатия должно быть направлено именно на устранение избыточности в предсказании первой буквы, а не совершенствование предсказания следующих.


Спорно.
Попробуй перевернуть _слова_ ;-)


> Но.
> Если мы знаем правила вроде того что за прилагательным обычно идет существительное то распределение сильно изменится. Основная масса будет по прежнему по 9 бит, а первые слова существительных по 4, плюс мы имеем некоторую поправку к вероятностям суффиксов и окончаний. Думаю общий выигрыш должен быть 10-20%. Это оставит позади все семейство ppm-архиваторов, которые между собой отличаются меньше.


Очень оптимистичная оценка.
Попробуй просто разметить слова
флагами их принадлежности к части
речи и построить смешанную модель.
Например, ---
-.
Может, 2-3% выигрыша и будет.
По крайней мере, никто о большем
не заявлял.


> Идея.
> Пока мне представляется что разница PPM и HMM в том что последний не предсказывает на каждом шаге следующий символ, а иногда должен просто перестраивать распределения. Он должен работать по словам - распаковываемые символы это описание слова во внутренней классификации а не сами буквы, последний символ распакованный из арифметика это, например, число букв. После чего система на автопилоте выдает собственно буквы.


Замечу, что пока HMM ничего
убедительного не продемонстировали,
AFAIK. Покрываются тупым ППМ.


> Алгоритм пока вырисовывается N*N*LogN но возможно может быть оптимизирован до N*LogN*LogN. В моем случае качество результата важнее скорости.


Что-то много.

Ответы:



Ответить на это сообщение

Тема:

Имя (желательно полное):

E-Mail:

URL:

Город:

Страна:

Вежливый и подробный комментарий:
(Форматируйте его, пожалуйста, как почту - короткими строками
Еnter в конце строки, пустая строка между параграфами).

Пожалуйста, заполните все поля.
И не нажимайте по два раза на кнопку! Дождитесь ответа сервера.