Сохранение файлов в кодировке utf8

trisch	# 6 лет, 7 месяцев назад
Темы: 28 Сообщения: 119 Участник с: 26 августа 2012	У меня все файлы в которых только латинские символы сохраняются в кодировке us-ascii, притом что в локали задана кодировка utf8. Как заставить файлы всегда сохранятся в кодировке utf8?

vs220	# 6 лет, 7 месяцев назад
Темы: 22 Сообщения: 8070 Участник с: 16 августа 2009	В какой программе файлы сохраняете? Какой DE?

Natrio	# 6 лет, 7 месяцев назад
Темы: 47 Сообщения: 4763 Участник с: 08 января 2011	trisch, UTF8 полностью включает в себя ASCII. Другими словами, если текст содержит только первые 127 символов кодовой таблицы (а именно там находятся все латинские буквы и основные знаки препинания), он абсолютно неотличим от ASCII, потому и индикаторы показывают ASCII. Некоторые программы используют для обозначения юникода специальный маркер в начале файла (так называемый BOM), но другие программы – наоборот, считают его ошибкой, некоторые даже аварийно завершаются, встретив его в файле.

Natrio

# 6 лет, 7 месяцев назад

Темы: 47

Сообщения: 4763

Участник с: 08 января 2011

trisch, UTF8 полностью включает в себя ASCII.
Другими словами, если текст содержит только первые 127 символов кодовой таблицы (а именно там находятся все латинские буквы и основные знаки препинания), он абсолютно неотличим от ASCII, потому и индикаторы показывают ASCII.

Некоторые программы используют для обозначения юникода специальный маркер в начале файла (так называемый BOM), но другие программы – наоборот, считают его ошибкой, некоторые даже аварийно завершаются, встретив его в файле.

trisch	# 6 лет, 7 месяцев назад
Темы: 28 Сообщения: 119 Участник с: 26 августа 2012	vs220 В какой программе файлы сохраняете? Какой DE? пробовал через Geany, vim, emacs, nano. Стоит Gnome 3. Natrio trisch, UTF8 полностью включает в себя ASCII. Другими словами, если текст содержит только первые 127 символов кодовой таблицы (а именно там находятся все латинские буквы и основные знаки препинания), он абсолютно неотличим от ASCII, потому и индикаторы показывают ASCII. Некоторые программы используют для обозначения юникода специальный маркер в начале файла (так называемый BOM), но другие программы – наоборот, считают его ошибкой, некоторые даже аварийно завершаются, встретив его в файле. То есть, я ни как не заставлю систему определять кодировку как utf8?

trisch

# 6 лет, 7 месяцев назад

Темы: 28

Сообщения: 119

Участник с: 26 августа 2012

vs220
В какой программе файлы сохраняете? Какой DE?

пробовал через Geany, vim, emacs, nano. Стоит Gnome 3.

Natrio
trisch, UTF8 полностью включает в себя ASCII.
Другими словами, если текст содержит только первые 127 символов кодовой таблицы (а именно там находятся все латинские буквы и основные знаки препинания), он абсолютно неотличим от ASCII, потому и индикаторы показывают ASCII.

Некоторые программы используют для обозначения юникода специальный маркер в начале файла (так называемый BOM), но другие программы – наоборот, считают его ошибкой, некоторые даже аварийно завершаются, встретив его в файле.

То есть, я ни как не заставлю систему определять кодировку как utf8?

trisch	# 6 лет, 7 месяцев назад
Темы: 28 Сообщения: 119 Участник с: 26 августа 2012	Natrio А перевод строки у этих кодировок тоже одинаковый?

corner	# 6 лет, 7 месяцев назад
Темы: 6 Сообщения: 773 Участник с: 21 июля 2011	Наверное, это поможет пониманию

nafanja	# 6 лет, 7 месяцев назад
Темы: 94 Сообщения: 9252 Участник с: 02 июня 2012 заблокирован	trisch То есть, я ни как не заставлю систему определять кодировку как utf8? В проге выставь кодировку по умолчанию utf8. и она будет определять ASCII как utf8. Псевдографический инсталлятор Arch Linux ver. 3.8.2 Благодарности принимаются на ЯД 410012815723874

nafanja

# 6 лет, 7 месяцев назад

Темы: 94

Сообщения: 9252

Участник с: 02 июня 2012

заблокирован

trisch
То есть, я ни как не заставлю систему определять кодировку как utf8?

В проге выставь кодировку по умолчанию utf8. и она будет определять ASCII как utf8.

Псевдографический инсталлятор Arch Linux ver. 3.8.2
Благодарности принимаются на ЯД 410012815723874

vasek	# 6 лет, 7 месяцев назад (отредактировано 6 лет, 7 месяцев назад)
Темы: 48 Сообщения: 11340 Участник с: 17 февраля 2013	trisch У меня все файлы в которых только латинские символы сохраняются в кодировке us-ascii, притом что в локали задана кодировка utf8. Все написали и объяснили тебе правильно..... но если не веришь теории, то поэкспериментируй (теория теорией, но практика наглядней....) Создай файл и набери в нем всего один 1-но байтный символ, например W , сохрани и проверь кодировку (name - имя файла) $ file -i name ….. получишь … charset=us-ascii В этот же файл добавь один 2-х байтный символ, например, кирилица Ф , сохрани и проверь кодировку $ file -i name ….. получишь … charset=utf-8 Как видишь все делается автоматом и, кроме того, если переконвертировать файл (содержащий только 1-но байтные символы) us-ascii в utf-8 и проверить кодировку нового файла, то на выходе будет тот же us-ascii us-ascii является подмножеством utf-8 и описывает только 1-байтные символы (точнее 7-битные, старший бит выставлен в 0) Ошибки не исчезают с опытом - они просто умнеют

vasek

# 6 лет, 7 месяцев назад (отредактировано 6 лет, 7 месяцев назад)

Темы: 48

Сообщения: 11340

Участник с: 17 февраля 2013

trisch
У меня все файлы в которых только латинские символы сохраняются в кодировке us-ascii, притом что в локали задана кодировка utf8.

Все написали и объяснили тебе правильно..... но если не веришь теории, то поэкспериментируй (теория теорией, но практика наглядней....)
Создай файл и набери в нем всего один 1-но байтный символ, например W , сохрани и проверь кодировку (name - имя файла)
$ file -i name ….. получишь … charset=us-ascii
В этот же файл добавь один 2-х байтный символ, например, кирилица Ф , сохрани и проверь кодировку
$ file -i name ….. получишь … charset=utf-8
Как видишь все делается автоматом и, кроме того, если переконвертировать файл (содержащий только 1-но байтные символы) us-ascii в utf-8 и проверить кодировку нового файла, то на выходе будет тот же us-ascii
us-ascii является подмножеством utf-8 и описывает только 1-байтные символы (точнее 7-битные, старший бит выставлен в 0)

Ошибки не исчезают с опытом - они просто умнеют

trisch	# 6 лет, 7 месяцев назад
Темы: 28 Сообщения: 119 Участник с: 26 августа 2012	Спасибо всем, я уже разобрался.