.:: TheBlackRavan — дневник ::.

Python и Linux это по моему самые прогрессивные программные продукты. Лично я пользуюсь Debian.

Дек 23 2007

Python и письма в непонятных кодировках.

Написал: Евгений Фомин в категорию Python, Python: Статьи

Итак ко мне пришло письмо в непонятной мне кодировке например вот фрагмент полученого сегодня письма:

> &#1047;&#1076;&#1088;&#1072;&#1074;&#1089;&#1090;&#1074;&#1091;&#1081;&#1090;&#1077;
&#1070;&#1083;&#1080;&#1103;!

Я конечно догодался что это письмо написано на русском языке но как его прочитать. Сразу предупреждаю я читаю письма через веб почтовый ящик у меня на yandex. Маленько подумав я понял что это кодировка utf8 надо просто письмо перекодировать. Что я собственно и сделал, с помощью программы на Pythone

"""Convert Cyrillic from iso-8859-1 Unicode-encoded to KOI8-R-encoded
 
This script is used during the build process of the Russian translation
of "Dive Into Python" (http://diveintopython.org/).
 
It takes one argument, which can be either an HTML file or a directory.
If a file, it converts the file in place; if a directory, it converts
every HTML file in the immediate directory (but not recursively).
 
Safe but pointless to run more than once on the same file or directory.
"""
 
__author__ = "Mark Pilgrim (mark@diveintopython.org)"
__version__ = "$Revision: 1.2 $"
__date__ = "$Date: 2004/05/05 21:57:19 $"
__copyright__ = "Copyright (c) 2001 Mark Pilgrim"
__license__ = "Python"
 
import os
import sys
import re
 
unicodeToKOI8R = { \
	'&#1025;': '\xb3',
	'&#1040;': '\xe1',
	'&#1041;': '\xe2',
	'&#1042;': '\xf7',
	'&#1043;': '\xe7',
	'&#1044;': '\xe4',
	'&#1045;': '\xe5',
	'&#1046;': '\xf6',
	'&#1047;': '\xfa',
	'&#1048;': '\xe9',
	'&#1049;': '\xea',
	'&#1050;': '\xeb',
	'&#1051;': '\xec',
	'&#1052;': '\xed',
	'&#1053;': '\xee',
	'&#1054;': '\xef',
	'&#1055;': '\xf0',
	'&#1056;': '\xf2',
	'&#1057;': '\xf3',
	'&#1058;': '\xf4',
	'&#1059;': '\xf5',
	'&#1060;': '\xe6',
	'&#1061;': '\xe8',
	'&#1062;': '\xe3',
	'&#1063;': '\xfe',
	'&#1064;': '\xfb',
	'&#1065;': '\xfd',
	'&#1066;': '\xff',
	'&#1067;': '\xf9',
	'&#1068;': '\xf8',
	'&#1069;': '\xfc',
	'&#1070;': '\xe0',
	'&#1071;': '\xf1',
	'&#1072;': '\xc1',
	'&#1073;': '\xc2',
	'&#1074;': '\xd7',
	'&#1075;': '\xc7',
	'&#1076;': '\xc4',
	'&#1077;': '\xc5',
	'&#1078;': '\xd6',
	'&#1079;': '\xda',
	'&#1080;': '\xc9',
	'&#1081;': '\xca',
	'&#1082;': '\xcb',
	'&#1083;': '\xcc',
	'&#1084;': '\xcd',
	'&#1085;': '\xce',
	'&#1086;': '\xcf',
	'&#1087;': '\xd0',
	'&#1088;': '\xd2',
	'&#1089;': '\xd3',
	'&#1090;': '\xd4',
	'&#1091;': '\xd5',
	'&#1092;': '\xc6',
	'&#1093;': '\xc8',
	'&#1094;': '\xc3',
	'&#1095;': '\xde',
	'&#1096;': '\xdb',
	'&#1097;': '\xdd',
	'&#1098;': '\xdf',
	'&#1099;': '\xd9',
	'&#1100;': '\xd8',
	'&#1101;': '\xdc',
	'&#1102;': '\xc0',
	'&#1103;': '\xd1',
	'&#1105;': '\xa3' }
 
unicodePattern = re.compile(r'&#[0-9]{4,4};')
charsetPattern = re.compile(r'ISO-8859-1', re.IGNORECASE)
 
def translateMatch(match):
	unicode = match.group(0)
	if unicodeToKOI8R.has_key(unicode):
		return unicodeToKOI8R[unicode]
	else:
		return unicode
 
def translateBuffer(buffer):
	buffer = unicodePattern.sub(translateMatch, buffer)
	buffer = charsetPattern.sub('KOI8-R', buffer)
	return buffer
 
def translateFile(filename, outfilename=None):
	if not outfilename:
		outfilename = filename
	fsock = open(filename)
	buffer = fsock.read()
	fsock.close()
	buffer = translateBuffer(buffer)
	fsock = open(outfilename, 'wb')
	fsock.write(buffer)
	fsock.close()
 
def htmlFilter(filename):
	return os.path.splitext(filename)[1] == '.html'
 
def translateDirectory(directoryname, filterFunc=htmlFilter):
	fileList = [os.path.join(directoryname, f) for f in os.listdir(directoryname)]
	fileList = filter(filterFunc, fileList)
	map(translateFile, fileList)
 
if __name__ == "__main__":
	name = sys.argv[1]
	if os.path.isdir(name):
		translateDirectory(name)
	else:
		translateFile(name)

А результат был такой:
> Здравствуйте Юлия!

Это сообщение было написано Воскресенье 23 Декабрь 2007 в 15:50 Вы можете следить за последующими комментариями посредством RSS 2.0. Комментарии и функия pinging на данный момент запрещены.

Комментарии закрыты.

Рубрики
- 1С (6)
- C# (1)
- Linux & Игры (43)
  - Mangos (19)
  - Online (2)
  - WoW (16)
- Linux Дистрибутивы (81)
  - Debian (27)
  - Linux: Blender (3)
  - Linux: Драйвера (14)
  - Linux: настройка (18)
  - Suse (16)
  - Ubuntu (2)
  - Без рубрики (16)
- Python (29)
  - Python: Интсрументы (13)
  - Python: Статьи (11)
- windows 10 (2)
- Windows 7 (9)
- Windows 8 (7)
- Windows XP (5)
- Xerox (1)
- Анимэ (6)
- АС Смета (2)
- Жизнь реальная (26)
Blender
- Blender3D-RUS
Blogroll
Python
Иногда читаю
Архивы
- Март 2019 (1)
- Май 2018 (1)
- Декабрь 2017 (1)
- Февраль 2017 (1)
- Декабрь 2016 (1)
- Май 2016 (1)
- Ноябрь 2015 (1)
- Октябрь 2015 (2)
- Сентябрь 2015 (2)
- Июнь 2015 (3)
- Февраль 2015 (3)
- Январь 2015 (1)
- Декабрь 2014 (2)
- Июль 2014 (1)
- Май 2014 (1)
- Февраль 2014 (1)
- Январь 2014 (1)
- Декабрь 2013 (1)
- Ноябрь 2011 (1)
- Октябрь 2011 (1)
- Сентябрь 2011 (1)
- Август 2011 (1)
- Апрель 2011 (1)
- Март 2011 (1)
- Январь 2011 (1)
- Декабрь 2010 (2)
- Ноябрь 2010 (1)
- Сентябрь 2010 (1)
- Май 2010 (1)
- Апрель 2010 (1)
- Февраль 2010 (1)
- Январь 2010 (1)
- Октябрь 2009 (1)
- Сентябрь 2009 (1)
- Май 2009 (1)
- Апрель 2009 (1)
- Март 2009 (1)
- Февраль 2009 (3)
- Январь 2009 (1)
- Ноябрь 2008 (7)
- Октябрь 2008 (4)
- Сентябрь 2008 (5)
- Август 2008 (4)
- Июль 2008 (6)
- Июнь 2008 (8)
- Май 2008 (13)
- Апрель 2008 (3)
- Март 2008 (3)
- Февраль 2008 (4)
- Январь 2008 (6)
- Декабрь 2007 (10)
- Ноябрь 2007 (4)
- Октябрь 2007 (7)
- Сентябрь 2007 (1)
- Август 2007 (3)
- Июль 2007 (16)
- Июнь 2007 (2)
- Май 2007 (3)
- Апрель 2007 (13)
- Март 2007 (14)
- Февраль 2007 (2)
Мета

Теперь у меня есть персональная страница на Я.ру — theblackravan!

Я.ру - это новый сервис Яндекса, на котором делятся с друзьями самым интересным, знакомятся, дружат или ссорятся, вывешивают фотки, комментируют свои, чужие записи, обмениваются ссылками и рассказывают о своем настроении.

Работает на движке WordPress, Mandigo theme by tom.
Записи (RSS) и Комментарии (RSS).

.:: TheBlackRavan — дневник ::.

Python и Linux это по моему самые прогрессивные программные продукты. Лично я пользуюсь Debian.

Python и письма в непонятных кодировках.

Статистика

Поиск

Поддержка — 10 р

Популярные посты

Рубрики

Blender

Blogroll

Python

Иногда читаю

Архивы

Мета