soulburner Jul 15 2012 at 20:36

Как распознать кракозябры?

1 min

425K

Typography*

+407

Comments 64

ploop Jul 15 2012 at 20:47

Исходник в .docx: здесь.

+73

youROCK Jul 15 2012 at 21:48

Забавно, что даже между разными *nix нет договоренности по поводу кодировки русских букв в zip:

StShadow Jul 15 2012 at 21:55

Это скорее проблема реализации разных стандартов zip. Полноценная поддержка Unicode появилась там где-то с версии 6.1

Power Jul 15 2012 at 23:01

Zip-архивы такого вида правильно распаковывает виндовый 7z, запущенный под wine. Не спрашивайте, как я это узнал.

+12

Frosty Jul 16 2012 at 02:03

PeaZip

Stvad Jul 17 2012 at 11:35

kde-шный Ark тоже без проблемм работает с такими архивами;)

unxed Oct 21 2020 at 06:49

far2l это умеет. Это потребовало некоторых усилий, но да, у нас получилось. В хабростатье по ссылке есть подробности.

unxed Oct 21 2020 at 06:52

Виндовый 7z, запущенный под wine, делает очень простую штуку — выбирает OEM-кодировку для архива по системной локали. Но для этого не нужен целый вайн. Вот табличка, вытащенная прямо из его исходников:
github.com/unxed/oemcp/blob/master/oemcp.txt
А вот скрипт, показывающий, как правильно пользоваться этой табличкой, если вы — автор [раз]архиватора:
github.com/unxed/oemcp/blob/master/ziplist
А вот патчик к p7zip, реализующий эту логику, который не хотят принимать в Дебиан пока, увы:
bugs.debian.org/cgi-bin/bugreport.cgi?bug=965126
А вот .deb с p7zip, собранным с этим патчиком, для тех, кто задолбался ждать, пока его примут в Дебиан (amd64):
github.com/unxed/oemcp/blob/master/p7zip-oemcp.deb

ValdikSS Jul 16 2012 at 07:18

local/unzip-natspec 6.0-1
Unpacks .zip archives with non-latin filenames, using libnatspec patch from AltLinux.

UFO just landed and posted this here

drakulavich Jul 16 2012 at 17:00

Если это скриншот из Ubuntu, можно подключить PPA с пропатченными пакетами.

ploop Jul 16 2012 at 18:22

Да, это Ubuntu, и про решение я знаю. Ставил систему недавно (на днях), в связи с уходящим на покой жёстким диском, так что полностью еще не настроил. Просто совпало так — открыл ссылку, и тут имя файла прямо в тему :)

Nickel3000 Jul 15 2012 at 20:47

Может кто не знает, оставлю ссылку на декодер от Лебедева.

+26

xbreaker Jul 15 2012 at 23:40

Мне еще нравится этот декодер

tyderh Jul 15 2012 at 20:49

Или просто www.artlebedev.ru/tools/decoder/ :)

tyderh Jul 15 2012 at 20:49

Теперь буду обновлять…

+18

Smi1e Jul 15 2012 at 21:02

Кстати, недавно обнаружил в нем неприятную особенность. Когда прогонял через него html-страницы, то заметил, что он к ним добавляет свои секции скриптов и разметки. Был неприятно удивлен.

tyderh Jul 15 2012 at 21:15

Ну, есть аналоги, тысячи их

inscriptor Jul 15 2012 at 22:29

Ага. Вот, например, некий Petko Yotov из Франции сделал аналог (для кириллицы).

mukizu Jul 15 2012 at 20:55

Штирлиц вам поможет.

StShadow Jul 15 2012 at 21:55

Не спортивно

vadimus Jul 15 2012 at 20:59

В печать и на стену.

linuxoid Jul 15 2012 at 21:04

«Вперемешку P и C» — это UTF-8 -> Win1251

BoShurik Jul 15 2012 at 21:06

Аналогично
CP866 -> Win1252 = UTF-8 -> Win1252

soulburner Jul 15 2012 at 21:10

Да, извиняюсь, ошибся.

Спасибо. Fixed.

namespace Jul 15 2012 at 21:06

Спасибо. Наказал вас по всей строгости закона (+ в карму, пост, в избранное, даже распечатал схему).

П.С. Это был я, тот загадочный пользователь, который написал просьб.

+10

acerv Jul 15 2012 at 21:35

�믮�� ஥�� ஥�� ࠧ�襭�� ᨬ��⥩ �� ꥪ⠬�…

Jenkins рисует такое… когда есть время, пытаюсь найти цепочку кодировок:) пока безуспешно.

tyderh Jul 15 2012 at 21:50

Это русский текст? Можно прибегнуть к криптоанализу :)

acerv Jul 15 2012 at 22:32

Да, русский. Как я понял, что-то из cp866 консоли, перегнанное джавой (куда?) судя по настройкам в UTF-8:)

krovatti Jul 16 2012 at 00:43

Извините, это не байткод случаем? Тоже пару раз открыл .class файл в текстовом редакторе :)

acerv Jul 16 2012 at 13:37

Нет, это какое-то сообщение на русском из cmd команды для msbuld-а:)

krovatti Jul 18 2012 at 13:53

Просто очень похоже. Открывал классы скомпилированные в текстовом редакторе и такие же крякозябры былию Один в один. :)

necrofess Jul 17 2012 at 21:21

Google Translate:
襭 — Carry with the front of a robe

Azy Jul 15 2012 at 21:47

+10

UFO just landed and posted this here

braintorch Jul 16 2012 at 00:00

Это-то ладно, фигня. Какой-нибудь enconv довольно сносно справляется. Вот когда два раза перекодировано — вот это ребус.

padlyuck Jul 16 2012 at 02:32

попробуйте enca

braintorch Jul 16 2012 at 03:31

enca и encov — это одно и то же. enconv это просто алиас для вызова enca с опцией конвертации, без которой он просто определяет кодировку файла.

OlegTar Jul 16 2012 at 19:16

может попробовать частотный анализ?

Vokabre Jul 16 2012 at 05:30

бНОПНЯ

destym Jul 16 2012 at 14:30

CyrruS Jul 16 2012 at 11:17

меня всерьез начинает бесит ограничение только на один плюс в карму одному и тому же автору

gasyoun Jul 16 2012 at 15:46

Труд эпохальный.

OlegTar Jul 16 2012 at 19:14

не такой уж эпохальный, в вики есть статья

-1

OlegTar Jul 25 2012 at 00:24

вы минуснули?

-2

janatem Jul 16 2012 at 18:31

Бывает, что по каким-то причинам было применено несколько последовательных конверсий. Например, где-то тупой конвертер неправильно распознал входную кодировку и применил свое преобразование. Тогда, чтобы восстановить сообщение, нужно вначале применить преобразование обратное неправильному, а потом правильное.

А если этих ошибочных преобразований было применено несколько… Тогда диаграмма должна распухнуть экспоненциально по их числу.

EndUser Jul 16 2012 at 19:38

На это есть TCode.exe и Shtirlitz.exe
До трёх перекодировок в разумное время вытягивают. Пять перекодировок уже обычно нереально, потому, что наверняка куча битов посыпалась и восстановить невозможно в принципе.

UFO just landed and posted this here

spiritedflow Jul 16 2012 at 20:33

Вы правы, декодер говорит UTF8 -> iso8859-1

dr56 Jul 17 2012 at 13:57

¶g^ЛЅVa6$•§Ј

єКВ`ЊЛе,°тV–еrй«тЦ є
Euд§юдЧT	QЬКЌЋЛ^nЯM‰'Ю "‰Ћ–qпј l”{
ЂЮё‹+'JыP©ьЌrбuЄ”еюм°љ»Ў¦Р®ТйЬэ“ЪЧ8!mm
К!Ь6„ќn7E.$°љR0ЇЈbс`–Љvb<п«FQ©’ЏЃxђИDыo©жBЩэ:Љyir2ѕ‘¦ыkl,
ћчХ`О¬	,U_HзџewћЏL°ќH$	Ў†,oB±Е95:i|®R4Bпo8‹ћ)O#lЮ)TSХj¶ПBЏNvB|/xhҐг–м&¤$^+›цkhєАК$А“э)uf‰±9RAж“)7Оqeжг1Ѓѕ<>
2ѓњЉ Ї§#й¤“jу

Помогите пожалуйста разобрать, никак не могу. Или это уже не возможно?

m03r Aug 5 2012 at 21:30

похоже, что это бинарник

Woodroof Jul 17 2012 at 16:56

А как же двойные перекодировки?

IbrahimKZ Aug 15 2012 at 16:50

Не хватает Win-1251 → UTF-8. Сегодня столкнулся с такой проблемой.

Русские символы отображаются всегда так: ��

valemak Mar 23 2014 at 21:06

Википи**ры удалили статью «Кракозябры» в Wikipedia.

Столкнулся с неверными кодировками в своём проекте, хотел по быстрому взглянуть в чём проблема (была там удобнейшая таблица)… А теперь шиш… пичалька…