32reg |
|
Темы:
29
Сообщения:
526
Участник с: 17 мая 2011
|
Добрый день. Подскажите пожалуйста как из hex-дампа получить нормально отображаемые кириллические символы? Пытаюсь составить парсер ТВ-каналов. В xml-подобном файле присутствуют строки с тегом: <hexVchName>...</hexVchName> в которых закодировано наименование канала, например: С помощью программы xxd из состава vim следующей строкой получаю наименование канала: С латинскими буквами все хорошо. С русскими получаю кракозябры: А должно быть "Россия HD".Думаю что проблема с кодировками, но пока не нашел решения... PS: под винду есть программа для сортировки каналов ТВ: ChanSort. В ней названия каналов отображаются правильно. Можно воспользоваться ею, но хочу для себя разобраться с вопросом кодировок.
www.linux32.ru - новости и статьи о Linux
|
nafanja |
|
Темы:
94
Сообщения:
9252
Участник с: 02 июня 2012
заблокирован
|
32regiconv может поможет
Псевдографический инсталлятор Arch Linux ver. 3.8.2
Благодарности принимаются на ЯД 410012815723874 |
32reg |
|
Темы:
29
Сообщения:
526
Участник с: 17 мая 2011
|
А как определить из какой кодировки конвертировать? iconv требует указывать кодировку на входе и на выходе. Или методом проб и ошибок?
www.linux32.ru - новости и статьи о Linux
|
nafanja |
|
Темы:
94
Сообщения:
9252
Участник с: 02 июня 2012
заблокирован
|
32reg+ но сначала попробуй стандартные виндячьи кодировки. ну там win-1251 и др.
Псевдографический инсталлятор Arch Linux ver. 3.8.2
Благодарности принимаются на ЯД 410012815723874 |
nafanja |
|
Темы:
94
Сообщения:
9252
Участник с: 02 июня 2012
заблокирован
|
норм задачка, я ее решил )))
Псевдографический инсталлятор Arch Linux ver. 3.8.2
Благодарности принимаются на ЯД 410012815723874 |
nafanja |
|
Темы:
94
Сообщения:
9252
Участник с: 02 июня 2012
заблокирован
|
echo '\x01\xc0\xde\xe1\xe1\xd8\xef\x20\x48\x44' | iconv -f 8859_5 Россия HD
Псевдографический инсталлятор Arch Linux ver. 3.8.2
Благодарности принимаются на ЯД 410012815723874 |
32reg |
|
Темы:
29
Сообщения:
526
Участник с: 17 мая 2011
|
nafanja, спасибо огромное! Выходит что для iconv не обязательно указание кодировки на выходе?
www.linux32.ru - новости и статьи о Linux
|
nafanja |
|
Темы:
94
Сообщения:
9252
Участник с: 02 июня 2012
заблокирован
|
32regна выходе текущая кодировка. по умолчанию у всех utf8, главное входящую найти.
Псевдографический инсталлятор Arch Linux ver. 3.8.2
Благодарности принимаются на ЯД 410012815723874 |
nafanja |
|
Темы:
94
Сообщения:
9252
Участник с: 02 июня 2012
заблокирован
|
кстати ответ был найден https://ru.wikipedia.org/wiki/%D0%9E%D1%81%D0%BD%D0%BE%D0%B2%D0%BD%D0%B0%D1%8F_%D0%BA%D0%BE%D0%B4%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0
Псевдографический инсталлятор Arch Linux ver. 3.8.2
Благодарности принимаются на ЯД 410012815723874 |