Php заменить символы кодами

Содержание

htmlentities
Список параметров
Возвращаемые значения
Список изменений
Примеры
Смотрите также
htmlspecialchars_decode
Список параметров
Возвращаемые значения
Список изменений
Примеры
Смотрите также
User Contributed Notes 8 notes

htmlentities

Эта функция идентична htmlspecialchars() за исключением того, что htmlentities() преобразует все символы в соответствющие HTML-сущности (для тех символов, для которых HTML сущности существуют).

Если же вы хотите раскодировать строку (наоборот), используйте html_entity_decode() .

Список параметров

Битовая маска из нижеуказанных флагов, определяющих режим обработки кавычек, некорректных кодовых последовательностей и используемый тип документа. По умолчанию используется ENT_COMPAT | ENT_HTML401.

Доступные значения параметра flags

Название константы	Описание
ENT_COMPAT	Преобразует двойные кавычки, одинарные кавычки не изменяются.
ENT_QUOTES	Преобразует как двойные, так и одинарные кавычки.
ENT_NOQUOTES	Оставляет без изменения как двойные, так и одинарные кавычки.
ENT_IGNORE	Молча отбрасывает некорректные кодовые последовательности вместо возврата пустой строки. Использование этого флага не рекомендуется, так как это » может внести уязвимости в ваш код.
ENT_SUBSTITUTE	Заменяет некорректные кодовые последовательности символом замены Юникода U+FFFD в случае использования UTF-8 и &#FFFD; при использовании другой кодировки, вместо возврата пустой строки.
ENT_DISALLOWED	Заменяет неверные коды символов для заданного типа документа символом замены юникода U+FFFD (UTF-8) или &#FFFD; (при использовании другой кодировки) вместо того, чтобы оставлять все как есть. Это может быть полезно, например, для того, чтобы убедиться в формальной правильности XML-документов со встроенным внешним контентом.
ENT_HTML401	Обработка кода в соответствии с HTML 4.01.
ENT_XML1	Обработка кода в соответствии с XML 1.
ENT_XHTML	Обработка кода в соответствии с XHTML.
ENT_HTML5	Обработка кода в соответствии с HTML 5.

Необязательный аргумент определяющий кодировку, используемую при конвертации симоволов.

Если не указан, то значением по умолчанию для encoding зависит от используемой версии PHP. В PHP 5.6 и старше, для значения по умолчанию используется конфигурационная опция default_charset. В PHP 5.4 и 5.5 используется UTF-8 по умолчанию. Более ранние версии PHP используют ISO-8859-1.

Хотя этот аргумент является технически необязательным, настоятельно рекомендуется указать правильное значение для вашего кода, если вы используете PHP 5.5 или выше, или если ваша опция конфигурации default_charset может быть задана неверно для входных данных.

Поддерживаются следующие кодировки:

Поддерживаемые кодировки

Кодировка	Псевдонимы	Описание
ISO-8859-1	ISO8859-1	Западно-европейская Latin-1.
ISO-8859-5	ISO8859-5	Редко используемая кириллическая кодировка (Latin/Cyrillic).
ISO-8859-15	ISO8859-15	Западно-европейская Latin-9. Добавляет знак евро, французские и финские буквы к кодировке Latin-1(ISO-8859-1).
UTF-8	8-битная Unicode, совместимая с ASCII.
cp866	ibm866, 866	Кириллическая кодировка, применяемая в DOS.
cp1251	Windows-1251, win-1251, 1251	Кириллическая кодировка, применяемая в Windows.
cp1252	Windows-1252, 1252	Западно-европейская кодировка, применяемая в Windows.
KOI8-R	koi8-ru, koi8r	Русская кодировка.
BIG5	950	Традиционный китайский, применяется в основном на Тайване.
GB2312	936	Упрощенный китайский, стандартная национальная кодировка.
BIG5-HKSCS	Расширенная Big5, применяемая в Гонг-Конге.
Shift_JIS	SJIS, SJIS-win, cp932, 932	Японская кодировка.
EUC-JP	EUCJP, eucJP-win	Японская кодировка.
MacRoman	Кодировка, используемая в Mac OS.
»	Пустая строка активирует режим определения кодировки из файла скрипта (Zend multibyte), default_charset и текущей локали (см. nl_langinfo() и setlocale() ), в указанном порядке. Не рекомендуется к использованию.

Замечание: Остальные кодировки не поддерживаются, вместо них будет применена кодировка по умолчанию и сгенерировано предупреждение.

При выключении параметра double_encode PHP не будет преобразовывать существующие html-сущности. По умолчанию преобразуется все без ограничений.

Возвращаемые значения

Возвращает преобразованную строку.

При наличии во входном параметре string недопустимой последовательности символов в заданной кодировке encoding будет возвращена пустая строка, если не установлены флаги ENT_IGNORE или ENT_SUBSTITUTE .

Список изменений

Версия	Описание
5.6.0	Значение по умолчанию для параметра encoding было изменено на значение конфигурационной опции default_charset.
5.4.0	Значение по умолчанию для параметра encoding было изменено на UTF-8.
5.4.0	The constants ENT_SUBSTITUTE , ENT_DISALLOWED , ENT_HTML401 , ENT_XML1 , ENT_XHTML и ENT_HTML5 .
5.3.0	Добавлена константа ENT_IGNORE .
5.2.3	Добавлен параметр double_encode .

Примеры

Пример #1 Пример использования htmlentities()

// выводит: A ‘quote’ is <b>bold</b>
echo htmlentities ( $str );

// выводит: A 'quote' is <b>bold</b>
echo htmlentities ( $str , ENT_QUOTES );
?>

Пример #2 Использование ENT_IGNORE

// Выводит пустую строку
echo htmlentities ( $str , ENT_QUOTES , «UTF-8» );

// Выводит «. »
echo htmlentities ( $str , ENT_QUOTES | ENT_IGNORE , «UTF-8» );
?>

Смотрите также

html_entity_decode() — Преобразует все HTML-сущности в соответствующие символы
get_html_translation_table() — Возвращает таблицу преобразований, используемую функциями htmlspecialchars и htmlentities
htmlspecialchars() — Преобразует специальные символы в HTML-сущности
nl2br() — Вставляет HTML-код разрыва строки перед каждым переводом строки
urlencode() — URL-кодирование строки

Источник

htmlspecialchars_decode

Эта функция является антиподом htmlspecialchars() . Она преобразует специальные HTML-сущности обратно в соответствующие символы.

Конвертируемые сущности: & , " (когда ENT_NOQUOTES не установлена), ' (когда ENT_QUOTES установлена), < и > .

Список параметров

Строка, которую надо преобразовать.

Битовая маска из одного или нескольких следующих флагов, которые указывают как обрабатывать кавычки и какие типы документов использовать. Значением по умолчанию является ENT_QUOTES | ENT_SUBSTITUTE | ENT_HTML401 .

Доступные константы, используемые в качестве параметра flags

Имя константы	Описание
ENT_COMPAT	Преобразует двойные кавычки и пропускает одинарные.
ENT_QUOTES	Преобразует и двойные, и одинарные кавычки.
ENT_NOQUOTES	Не преобразует ни двойные, ни одинарные кавычки.
ENT_SUBSTITUTE	Заменяет некорректные кодовые последовательности символом замены Юникода U+FFFD в случае использования UTF-8 и &#FFFD; при использовании другой кодировки, вместо возврата пустой строки.
ENT_HTML401	Обрабатывать код как HTML 4.01.
ENT_XML1	Обрабатывать код как XML 1.
ENT_XHTML	Обрабатывать код как XHTML.
ENT_HTML5	Обрабатывать код как HTML 5.

Возвращаемые значения

Возвращает преобразованную строку.

Список изменений

Версия	Описание
8.1.0	Значение по умолчанию параметра flags изменено с ENT_COMPAT на ENT_QUOTES \| ENT_SUBSTITUTE \| ENT_HTML401 .

Примеры

Пример #1 Пример использования функции htmlspecialchars_decode()

echo htmlspecialchars_decode ( $str );

// обратите внимание, что в данном случае кавычки не будут преобразованы
echo htmlspecialchars_decode ( $str , ENT_NOQUOTES );
?>

Результат выполнения данного примера:

Смотрите также

htmlspecialchars() — Преобразует специальные символы в HTML-сущности
html_entity_decode() — Преобразует HTML-сущности в соответствующие им символы
get_html_translation_table() — Возвращает таблицу преобразований, используемую функциями htmlspecialchars и htmlentities

User Contributed Notes 8 notes

The example for «htmlspecialchars_decode()» below sadly does not work for all PHP4 versions.

Quote from the PHP manual:
«get_html_translation_table() will return the translation table that is used internally for htmlspecialchars() and htmlentities().»

But it does NOT! At least not for PHP version 4.4.2.
This was already reported in a bug report (http://bugs.php.net/bug.php?id=25927), but it was marked as BOGUS.

Proof:
Code:
———————
var_dump ( get_html_translation_table ( HTML_SPECIALCHARS , ENT_QUOTES ));
var_dump ( htmlspecialchars ( ‘\» , ENT_QUOTES ));
?>
———————

This comment now is not to report this bug again (though I really believe it is one), but to complete the example and warn people of this pitfall.

To make sure your htmlspecialchars_decode fake for PHP4 works, you should do something like this:

function htmlspecialchars_decode ( $string , $style = ENT_COMPAT )
$translation = array_flip ( get_html_translation_table ( HTML_SPECIALCHARS , $style ));
if( $style === ENT_QUOTES )< $translation [ ''' ] = '\'' ; >
return strtr ( $string , $translation );
>
?>

Br, Thomas

that works also with ä and " and so on.
get_html_translation_table(HTML_ENTITIES) => offers more characters than HTML_SPECIALCHARS

function htmlspecialchars_decode_PHP4($uSTR)
return strtr($uSTR, array_flip(get_html_translation_table(HTML_ENTITIES, ENT_QUOTES)));
>

This should be the best way to do it.
(Reposted because the other one seems a bit slower and because those who used the code under called it htmlspecialchars_decode_php4)

if ( ! function_exists ( ‘htmlspecialchars_decode’ ) )
function htmlspecialchars_decode ( $text )
return strtr ( $text , array_flip ( get_html_translation_table ( HTML_SPECIALCHARS )));
>
>

Keep in mind that you should never trust user input — particularly for «mixed-bag» input containing a combination of plain text and markup or scripting code.

Well, consider someone sending ‘&‘ to your PHP script:

$var = «&» ;
$var = ( htmlspecialchars_decode ( $var ) == $var ) ? htmlspecialchars ( $var ) : $var ;
echo $var ;
?>

Since ‘&’ decodes into ‘&’, (htmlspecialchars_decode($var) == $var) will be -false-, thus returning $var without that it’s escaped. In consequence, the script-tags are untouched, and you’ve just opened yourself to XSS.

There is, unfortunately, no reliable way to determine whether HTML is escaped or not that does not come with this caveat that I know of. Rather than try and catch the case ‘I’ve already encoded this’, you are better off avoiding double-escaping by simply escaping the HTML as close to the actual output as you can muster, e.g. in the view in an MVC development structure.

If you use `htmlspecialchars()` to change things like the ampersand (&) into it’s HTML equivalent (&), you might run into a situation where you mistakenly pass the same string to the function twice, resulting in things appearing on your website like, as I call it, the ampersanded amp; «&». Clearly nobody want’s «&» on his or her web page where there is supposed to be just an ampersand. Here’s a quick and easy trick to make sure this doesn’t happen:

$var = «This is a string that could be passed to htmlspecialchars multiple times.» ;

if ( htmlspecialchars_decode ( $var ) == $var ) $var = htmlspecialchars ( $var );
>

Now, if your dealing with text that is a mixed bag (has HTML entities and non-HTML entities) you’re on your own.

Источник