Назад Вперед Зміст

Кодування символів. Кодувальні таблиці

Кожен символ займає два байти та кодується певним числом. У C# використовується кодування Unicode.

Всього у двох байтах можна закодувати 65536 символів.

Коди всіх символів містяться у спеціальних кодувальних таблицях і збігаються з їх порядковими номерами у цих таблицях.

Коди в стандарті Unicode зазвичай записують у шістнадцятковому форматі. Вони поділені на кілька областей.

Область з кодами від U+0000 до U+007F містить символи набору ASCII, і коди цих символів збігаються з їх кодами в ASCII.

Таблиця символів ASCII

Код Символ Код Символ Код Символ Код Символ
032 64@96-
133!65A97a
234"66B98b
335#67C99c
436$68D100d
537%69E101e
638&70F102f
739'71G103g
840(72H104h
941)73I105i
1042*74J106j
1143+75K107k
1244,76L108l
1345-77M109m
1446.78N110n
1547/79O111o
1648080P112p
1749181Q113q
1850282R114r
19!!51383S115s
2052484T116t
21§53585U117u
2254686V118v
2355787W119w
2456888X120x
2557989Y121y
2658:90Z122z
27<59;91[123{
2860<92\124|
29< >61=93]125}
3062>94^126~
3163?95_127

Далі розташовані області символів інших систем письма та технічні символи. Частина кодів зарезервована для використання у майбутньому.

Під символи кирилиці виділені області знаків з кодами: від U+0400 до U+052F, від U+2DE0 до U+2DFF, від U+A640 до U+A69F

У кодуванні Unicode як латиниця, так і кирилиця розташовані компактно. Малі літери в кодуванні безпосередньо слідують за великими літерами.

Unicode має кілька форм подання: UTF-8, UTF-16 та UTF-32

Таке подання Unicode забезпечує компактність і сумісність із системою ASCII. Текст, що складається лише з символів з номерами менше 128, при записі, наприклад, у UTF-8 перетворюється на звичайний текст, тобто кожен символ займає 1 байт, що економить пам'ять.

Назад Вперед Зміст