Linux для пользователя


         

сообщает RE, что кодировка исходного


где :
  • <SourceFile> — исходный (нечитаемый) файл;
  • <DestFile> — перекодированный файл;
  • ? — сообщает RE, что кодировка исходного файла не известна и re должна проанализировать файл и самостоятельно определить его кодировку;
  • K — задает кодировку для результирующего файла (в данном случае KOI-8).


Если вы знаете кодировку исходного файла, вы можете указать ее вместо символа "?". Например, если вы хотите перекодировать файл letter.txt, который был создан в Windows, и вы знаете, что файл сохранен в кодировке 1251, то надо дать команду:

[user]$ re letter.txt letter-koi.txt W K

После этого, просмотрев файл letter-koi.txt, вы увидите вполне читаемый русский текст в KOI8-R.

Полный формат вызова перекодировщика:

[user]$ re options filename_from filename_to cp_from cp_to [s/d/f] [u/l/s]

где options: [-v][-E|-R|-N][-e|-s]

  • -v — выдавать информацию о ходе обработки;
  • -n — не выдавать информацию о ходе обработки (задано по умолчанию);
  • -E — преобразовывать все символы p, H из русских в английские;
  • -R — преобразовывать все символы p, H из английских в русские;
  • -N — оставлять все p, H (русские и английские) как в исходном тексте (задано по умолчанию);
  • -e — перекодировать все символы 0x80 — 0xFF;
  • -s — перекодировать только 64 символа русского алфавита (задано по умолчанию),


а cp_from и cp_to — любой из следующих символов, обозначающих возможные кодировки (по умолчанию — W,K).

Таблица 12.1. Обозначение кодировок в программе re.

СимволКодировкаСимволКодировкаWWindows_ (подчеркивание) _xxeDDos % %hexKKOI-8 \\ \'hexLLatin G Graph_winIIso< binhexHHEX+ +UTF7-SShiftKbrd C C_MICMMac Y Y_c16AAFF Z Z_c32OOdd(UTF8_1)F F(UTF8_2)BBase64 P PictEExpress N N_EstlTT-Html V V_Vpp855UUser X X_sp- (тире)uue J J_diff

Как уже было сказано, если cp-from="?", то программа пытается самостоятельно определить кодировку исходного файла.

Если у вас по каким-либо причинам не оказалось ни одной из указанных программ-перекодировщиков, то для просмотра содержимого файла можно воспользоваться одним из браузеров Интернет, которые изначально ориентированы на работу с разными кодировками. Например, сгодится обычный lynx:

[user]$ lynx -assume_local_charset cp866 file.txt

Можно также загрузить "нечитаемый" файл в Netscape Navigator, после чего поменять кодировку через меню View / Character Set.

Содержание  Назад  Вперед