Перекодировки текста.

Поиск по сайту:

Автор: admin

21 января 2011

Если на экране буквы незнакомого вам алфавита, значит пора узнать о том, что такое кодировка. В середине XX века, когда компьютеры использовались только для математических вычислений, появилась идея научить их работать еще и с текстом. Но тогда никто даже не задумывался, что буквы одного алфавита на разных компьютерах будут отображаться по-разному.Как известно, родной язык компьютеров — это язык чисел. Для того чтобы записать текстовую информацию в память вычислительной машины, были придуманы так называемые таблицы кодировок. В них каждой букве конкретного алфавита соответствует определенное число, понятное электронному устройству. Поскольку объем памяти у первых компьютеров был маленьким, то и таблицы кодировок содержали в себе только наиболее часто используемые символы. В то время большинство пользователей говорили на английском. Поэтому в первых таблицах кодировок было отведено место для 127 символов, среди которых — заглавные и строчные буквы латинского алфавита, знаки препинания и некоторые другие служебные символы.

Со временем компьютеры стали все глубже проникать в повседневную жизнь, выполняя все большее число совершенно новых прикладных задач. Настал момент, когда они пришли в дом к пользователям, которые совершенно не знали английский. Тогда и возникла проблема: как научить компьютеры другим языкам?

Решение оказалось довольно простым: размер таблиц кодировок был просто удвоен. Это позволило, сохранив прежние 127 символов на своих местах, закодировать символы любого национального алфавита. Но на тот момент не существовало единого стандарта, устанавливающего правила создания кодировок для разных языков. Даже для одного языка применялись разные таблицы кодировки. Отличие в записи символов в разных таблицах кодировки было настолько велико, что текст, набранный на одном компьютере, не мог быть прочитан на другом. Поэтому до сих пор бывают случаи, когда в каком-нибудь файле или где-нибудь в Интернете вместо привычного текста можно увидеть непонятную абракадабру.

Сегодня для представления кириллических текстов используют такие кодировки:

DOS-866: Применяется в устаревших операционных системах.

ISO-8859-5 С: ней работают пользователи систем, отличных от Windows.

KOI8-R: Установлена в операционных системах, отличных от Windows. Кроме того, часто используется на вэб-сайтах и в электронной корреспонденции.

Windows-1251: Применяется в основном в операционной системе Windows.

Как одно из решений создавшейся проблемы организация Unicode Consortium разработала одноименную кодировку, вместившую в себя целых 65 536 символов! Этого вполне хватит для того, чтобы описать все возможные символы, которые присутствуют в языках народов мира. Однако прежние таблицы кодировок еще достаточно распространены, поэтому окончательный переход на универсальную кодировку — дело будущего. Сегодня же пользователей интересует вопрос, что нужно делать, если в очередной раз в документе вместо необходимой информации отобразилось множество непонятных символов.

Боремся с текстовым беспорядком

Чтобы получить из непонятного набора символов удобоваримый текст, в первую очередь стоит проверить, не содержится ли в программе, с которой вы работаете, встроенных возможностей перекодировки. К примеру, программа Microsoft Word оснащена средствами распознавания кодировки, в которой записан выбранный файл. Чтобы включить этот механизм, выберите пункт меню Сереис\ Параметры… и на закладке Общие отметьте пункт подтверждать преобразование при открытии. После этого при открытии текстового документа, который сохранен в нестандартной кодировке, Word предложит преобразовать текст, подобрав для вас наиболее подходящий набор символов.

Путешествуя по Интернету, пользователи иногда сталкиваются с тем, что какую-нибудь страницу нельзя прочесть. И здесь в первую очередь стоит предположить, что вэб-сайт содержит информацию, записанную в непонятной кодировке, которую в большинстве случаев поможет определить любой современный вэб-браузер. Например, в Internet Explorer нужно отметить пункт Вид Кодировка или выбрать значение Кодировка контекстного меню и переключиться в одну из кодировок кириллицы. Обязательно зайдите и в подменю Дополнительно — в нем можно найти еще несколько кодировок. Полезным окажется также и пункт Автовыбор, его включение даст программе команду самостоятельного определения правильной кодировки. Это возможно, если создатели вэб-страницы дополнили ее соответствующей служебной информацией. В противном случае вэб-браузер «подхватит» первую попавшуюся, чаще всего неправильную, кодировку. Тогда выбор придется делать вам.

Так же, как и в Internet Explorer, происходит переключение кодировок и в почтовой программе Outlook Express. Потому при работе с электронной почтой нужно обязательно помнить об этом.

Если встроенные средства какой-либо программы не позволяют привести текст в читабельный вид, следует воспользоваться так называемыми перекодировщиками. Эти приложения предназначены для того, чтобы на основе определенных правил отобразить полученный текст в нужной кодировке. Причем основная задача перекодировщика — распознать текст, который прошел множественное преобразование. На сегодняшний день разработано несколько программ, предназначенных для работы с документами различных форматов. Наиболее популярные из них — «Штирлиц» и TCode. Эти приложения в любой момент можно бесплатно загрузить с соответствующих сайтов.

Опубликовано 21 Янв 2011 в 15:46. В рубриках: Редактор. Вы можете следить за ответами к этой записи через RSS 2.0. Вы можете оставить отзыв или трекбек со своего сайта.