Алексей Паутов - MySQL: руководство профессионала
Объединения koi8u (KOI8-U Ukrainian):
koi8u_bin
koi8u_general_ci (значение по умолчанию)
10.10.7. Азиатские наборы символов
Азиатские наборы символов, которые поддерживает пакет, включают Chinese, Japanese, Korean и Thai. Они могут быть усложнены. Например, китайские наборы должны учесть тысячи различных символов.
Объединения big5 (Big5 Traditional Chinese):
big5_bin
big5_chinese_ci (значение по умолчанию)
Объединения cp932 (SJIS for Windows Japanese):
cp932_bin
cp932_japanese_ci (значение по умолчанию)
Объединения eucjpms (UJIS for Windows Japanese):
eucjpms_bin
eucjpms_japanese_ci (значение по умолчанию)
Объединения euckr (EUC-KR Korean):
euckr_bin
euckr_korean_ci (значение по умолчанию)
Объединения gb2312 (GB2312 Simplified Chinese):
gb2312_bin
gb2312_chinese_ci (значение по умолчанию)
Объединения gbk (GBK Simplified Chinese):
gbk_bin
gbk_chinese_ci (значение по умолчанию)
Объединения sjis (Shift-JIS Japanese):
sjis_bin
sjis_japanese_ci (значение по умолчанию)
Объединения tis620 (TIS620 Thai):
tis620_bin
tis620_thai_ci (значение по умолчанию)
Объединения ujis (EUC-JP Japanese):
ujis_bin
ujis_japanese_ci (значение по умолчанию)
10.10.7.1. Набор символов cp932
А на кой вообще нужен cp932?
В MySQL набор символов sjis соответствует Shift_JIS определенному IANA, который поддерживает символы JIS X0201 и JIS X0208 (см. http://www.iana.org/assignments/character-sets).
Однако, значение SHIFT JIS как описательный термин стало очень неопределенным, и это часто включает расширения Shift_JIS, которые определены различными поставщиками. Короче, больше стандартов, хороших и разных!
Например, SHIFT JIS, использованный в Japanese Windows, представляет расширение Shift_JIS от Microsoft, и его точное название Microsoft Windows Codepage: 932 или cp932. В дополнение к символам, обеспечиваемым Shift_JIS, cp932 поддерживает символы расширения типа специальных и изюранных символов NEC и расширенных символов IBM.
Много японских пользователей испытали проблемы при использовании этих символов расширения. Эта проблема складывается из следующих факторов:
MySQL автоматически преобразовывает наборы символов.
Наборы символов преобразованы через Unicode (ucs2).
Набор символов sjis не поддерживает преобразование этих символов расширения.
Имеются несколько правил преобразования из так называемого SHIFT JIS в Unicode, и некоторые символы преобразованы в Unicode по-другому, в зависимости от правила преобразования. MySQL поддерживает только одно из этих правил.
Набор символов MySQL cp932 разработан, чтобы решить эти проблемы.
Поскольку MySQL поддерживает преобразование набора символов, важно отделить IANA Shift_JIS от cp932: это два различных набора символов, потому что они обеспечивают разные правила преобразования.
А в чем разница между cp932 и sjis?
Набор символов cp932 отличается от sjis следующим:
cp932 поддерживает специальные и избранные символы NEC, а также расширенные символы от IBM.
Некоторые символы в cp932 имеют два различных кода, оба из которых преобразовываются в ту же самую Unicode-метку. При преобразовании из Unicode обратно в cp932 один из кодов должен быть выбран. Для этого используется правило, рекомендуемое Microsoft (подробности на http://support.microsoft.com/kb/170559/EN-US/).
Правило преобразования работает примерно так:
Если символ находится в JIS X 0208 и в специальных символах NEC, применяется код из JIS X 0208.
Если символ находится в специальных символах NEC и в расширенных символах IBM, применяется код из специальных символов NEC.
Если символ находится в избранных символах IBM и в расширенных символах IBM, применяется код из расширенных символов IBM.
Таблица, показанная на http://www.microsoft.com/globaldev/reference/dbcs/932.htm обеспечивает информацию относительно значений Unicode символов cp932. Для входов таблицы с символами cp932, под которыми появляется четырехразрядный код, он представляет соответствующий код из Unicode (ucs2). Для входов таблицы с подчеркнутым значением с двумя цифрами имеется диапазон символьных значений cp932, которые начинаются с тех двух цифр. Щелчок на таком входе таблицы отправит Вас к странице, которая отображает значение Unicode для каждого из символов cp932, которые начинаются с тех цифр.
Следующие ссылки имеют особый интерес. Они соответствуют кодированию для следующих наборов символов:
Преобразование в ucs2:
sjis /cp932Значение
sjis -> ucs2 преобразование
cp932 ->ucs2 преобразование
5C
005C
005C
7E
007E
007E
815C
2015
2015
815F
005C
FF3C
8160
301C
FF5E
8161
2016
2225
817C
2212
FF0D
8191
00A2
FFE0
8192
00A3
FFE1
81CA
00AC
FFE2
Преобразование из ucs2:
ucs2 значение
ucs2 -> sjis преобразование
ucs2 -> cp932 преобразование
005C
815F
5C
007E
7E
7E
00A2
8191
3F
00A3
8192
3F
00AC
81CA
3F
2015
815C
815C
2016
8161
3F
2212
817C
3F
2225
3F
8161
301C
8160
3F
FF0D
3F
817C
FF3C
3F
815F
FF5E
3F
8160
FFE0
3F
8191
FFE1
3F
8192
FFE2
3F
81CA
Пользователи любых японских наборов символов должны знать, что использование опций --character-set-client-handshake (или --skip-character-set-client-handshake) имеет важный эффект.
10.11. MySQL 5 FAQ: поддержка наборов символов CJK
Этот набор вопросов происходит из опыта поддержки MySQL в обработке запросов относительно проблем кириллицы и CJK (Chinese-Japanese-Korean).
10.11.1: Я вставил символы CJK в мою таблицу. Почему SELECT отображает их как символы ??
Эта проблема обычно из-за установки в MySQL, который не соответствует параметрам настройки для прикладной программы или операционной системы. Имеются некоторые общие шаги для исправления этих типов проблем:
Определите версию MySQL . Используйте инструкцию SELECT VERSION(); для этого.
Проверьте, что база данных фактически использует желательный набор символов..
Люди часто думают, что набор символов пользователя всегда такой же, как набор символов сервера используемый для целей отображения. Однако, оба эти предположения неправильны. Вы можете удостовериться в этом, проверяя результат SHOW CREATE TABLE tablename, а лучше используя эту инструкцию:
SELECT character_set_name, collation_name FROM information_schema.columns
WHERE table_schema = your_database_name AND
table_name = your_table_name AND column_name = your_column_name;
Определите шестнадцатеричное значение символа или символов, которые не отображаются правильно..
Вы можете получать эту информацию для столбца column_name в таблице table_name, используя следующий запрос:
SELECT HEX(column_name)
FROM table_name;
3F кодирует символ ?. Это означает, что ? является символом, фактически сохраненным в столбце. Это наиболее часто случается из-за проблемы при преобразовании специфического символа от Вашего набора символов пользователя до целевого набора символов.
Удостоверьтесь, что возможное путешествие туда и обратно, то есть когда Вы выбираете literal (или _introducer hexadecimal-value), Вы получаете в результате именно literal.
Например, японский символ Katakana Pe (уГЪ') существует во всех CJK наборах символов, и имеет значение 0x30da. Чтобы проверять путешествие туда и обратно для этого символа, используйте этот запрос:
SELECT 'уГЪ' AS `уГЪ`; /* or SELECT _ucs2 0x30da; */
Если результат не такой, путешествие туда и обратно потерпело неудачу.
Удостоверьтесь, что проблема не с окном просмотра или другой прикладной программой, а именно с MySQL.
Используйте программу пользователя mysql (в Windows: mysql.exe), чтобы выполнить эту задачу. Если mysql отображает все правильно, но Ваша прикладная программа этого не делает, то проблема, вероятно, из-за параметров настройки системы.
Чтобы выяснять, каковы Ваши параметры настройки, используйте инструкцию SHOW VARIABLES вывод которой должен походить на то, что показывается здесь: