UTF-8: универсальная кодировка для записи текстов
UTF-8 - это стандарт кодировки символов, который используется для представления текста в формате Unicode.
Он использует переменную длину кодовых точек и может кодировать все возможные символы Unicode.
Каждый символ кодируется байтовой последовательностью фиксированной длины от одного до четырех байтов.
Это позволяет использовать один и тот же набор символов для разных языков и писем.
Пример кода для работы с UTF-8 в Python:
message = 'Привет, мир!'
encoded_message = message.encode('utf-8') # после кодирования строка становится байтовой последовательностью
print(encoded_message) # результат: b'\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82, \xd0\xbc\xd0\xb8\xd1\x80!'
decoded_message = encoded_message.decode('utf-8') # декодируем байтовую последовательность
print(decoded_message) # результат: 'Привет, мир!'
В этом примере мы создаем строку на русском языке и кодируем ее в UTF-8 байтовую последовательность. Затем мы декодируем эту байтовую последовательность и выводим результат на экран.
Таким образом, UTF-8 прекрасно подходит для хранения и передачи разных языков и символов.