Php обрезать строку сначала

mb_substr

Корректно выполняет substr() для многобайтовых кодировок, учитывая количество символов. Позиция отсчитывается от начала string . Позиция первого символа — 0, второго — 1 и т.д.

Список параметров

Исходная строка для получения подстроки.

Если start неотрицательный, возвращённая строка начнётся с позиции start от начала строки string , начальный символ имеет индекс 0. К примеру, в строке ‘ abcdef ‘, символ в позиции 0 — это ‘ a ‘, символ в позиции 2 — ‘ c ‘ и т.д.

Если start отрицательный, возвращаемая строка начнётся отсчитывая start символов с конца string .

Максимальное количество символов возвращаемой из string подстроки. Если не указан или равен NULL — извлекаются все символы до конца строки.

Параметр encoding представляет собой символьную кодировку. Если он опущен или равен null , вместо него будет использовано значение внутренней кодировки.

Возвращаемые значения

mb_substr() возвращает часть строки string , заданную параметрами start и length .

Список изменений

Смотрите также

User Contributed Notes 8 notes

As you often need to iterate over UTF-8 characters inside a string, you might be tempted to use mb_substr($text,$i,1).
The problem with this is that there is no «magic» way to find $i-th character inside UTF-8 string, other than reading it byte by byte from the begining. Thus a loop which calls mb_substr($text,$i,1) N times for all possible N values of $i, will take much longer than expected. The larger the $i gets, the longer is the search for $i-th letter. As characters are between 1 to 6 bytes long, one can convince oneself, that the execution time of such loop is actually Theta(N^2), which can be really slow even for moderately long texts.
One way to work around it is to first split your text into an array of letters using some smart preprocessing, and only then iterate over the array.
Here is the idea:
class Strings
public static function len ( $a ) return mb_strlen ( $a , ‘UTF-8’ );
>
public static function charAt ( $a , $i ) return self :: substr ( $a , $i , 1 );
>
public static function substr ( $a , $x , $y = null ) if( $y === NULL ) $y = self :: len ( $a );
>
return mb_substr ( $a , $x , $y , ‘UTF-8’ );
>
public static function letters ( $a ) $len = self :: len ( $a );
if( $len == 0 ) return array();
>else if( $len == 1 ) return array( $a );
>else return Arrays :: concat (
self :: letters ( self :: substr ( $a , 0 , $len >> 1 )),
self :: letters ( self :: substr ( $a , $len >> 1 ))
);
>
>
?>
As you can see, the Strings::letters($text) split the text recursively into two parts. Each level of the recursion requires time linear in the length of the string, and there is logarithmic number of levels, so the total runtime is O(N log N), which is still more than theoretically optimal O(N), but sadly this is the best idea I’ve got.

Читайте также:  Java development kit for oracle

Note: If borders are out of string — mb_string() returns empty _string_, when function substr() returns _boolean_ false in this case.
Keep this in mind when using «== default»>

var_dump ( substr ( ‘abc’ , 5 , 2 ) ); // returns «false»
var_dump ( mb_substr ( ‘abc’ , 5 , 2 ) ); // returns «»

?>

It’s especially confusing when using mbstring with function overloading turned on.

Thanks Darien from /freenode #php for the following example (a little bit changed).

It just prints the 6th character of $string.
You can replace the digits by the same in japanese, chinese or whatever language to make a test, it works perfect.

mb_internal_encoding ( «UTF-8» );
$string = «0123456789» ;
$mystring = mb_substr ( $string , 5 , 1 );
echo $mystring ;
?>

(I couldn’t replace 0123456789 by chinese numbers for example here, because it’s automatically converted into latin digits on this website, look :
零一二三四
五六七八九)

I’m trying to capitalize only the first character of the string and tried some of the examples above but they didn’t work. It seems mb_substr() cannot calculate the length of the string in multi-byte encoding (UTF-8) and it should be set explicitly. Here is the corrected version:

function mb_ucfirst ( $str , $enc = ‘utf-8’ ) <
return mb_strtoupper ( mb_substr ( $str , 0 , 1 , $enc ), $enc ). mb_substr ( $str , 1 , mb_strlen ( $str , $enc ), $enc );
>
?>

cheers!

quick and dirty loop through multibyte string
function get_character_classes ( $string , $encoding = «UTF-8» ) $current_encoding = mb_internal_encoding ();
mb_internal_encoding ( $encoding );
$has = array();
$stringlength = mb_strlen ( $string , $encoding );
for ( $i = 0 ; $i < $stringlength ; $i ++) $c = mb_substr ( $string , $i , 1 );
if (( $c >= «0» ) && ( $c <= "9" )) $has [ 'numeric' ] = "numeric" ;
> else if (( $c >= «a» ) && ( $c <= "z" )) $has [ 'alpha' ] = "alpha" ;
$has [ ‘alphalower’ ] = ‘alphalower’ ;
> else if (( $c >= «A» ) && ( $c <= "Z" )) $has [ 'alpha' ] = "alpha" ;
$has [ ‘alphaupper’ ] = «alphaupper» ;
> else if (( $c == «$» ) || ( $c == «£» )) $has [ ‘currency’ ] = «currency» ;
> else if (( $c == «.» ) && ( $has [ ‘decimal’ ])) $has [ ‘decimals’ ] = «decimals» ;
> else if ( $c == «.» ) $has [ ‘decimal’ ] = «decimal» ;
> else if ( $c == «,» ) $has [ ‘comma’ ] = «comma» ;
> else if ( $c == «-» ) $has [ ‘dash’ ] = «dash» ;
> else if ( $c == » » ) $has [ ‘space’ ] = «space» ;
> else if ( $c == «/» ) $has [ ‘slash’ ] = «slash» ;
> else if ( $c == «:» ) $has [ ‘colon’ ] = «colon» ;
> else if (( $c >= » » ) && ( $c <= "~" )) $has [ 'ascii' ] = "ascii" ;
> else $has [ ‘binary’ ] = «binary» ;
>
>
mb_internal_encoding ( $current_encoding );

$string = «1234asdfA£^_<>|>~žščř» ;
echo print_r ( get_character_classes ( $string ), true );
?>

Array
(
[numeric] => numeric
[alpha] => alpha
[alphalower] => alphalower
[alphaupper] => alphaupper
[currency] => currency
[ascii] => ascii
[binary] => binary
)

Источник

PHP: substr и мощные альтернативы, чтобы вырезать часть строки

Поговорим о том, как обрезать строку в PHP. Функция substr в предназначена для получения части строки. Она выделяет подстроку из переданной строки и возвращает её. Для этого нужно указать строку, порядковый номер символа, начиная с которого нужно вырезать строку, порядковый номер символа, до которого мы верезаем подстроку.

Обратите внимание, что substr неправильно работает с многобайтовыми кодировками, поэтому мы будем использовать mb_substr, которая работает с ними корректно. Об этой проблеме немного ниже.

mb_substr( string $string, int $start, int|null $length = null, string|null $encoding = null ): string
  • $string — строка, из которой мы будем вырезать подстроку
  • $start — символ, с которого мы будем вырезать подстроку
  • $length — сколько символов мы будем вырезать (по умолчанию будем вырезать все оставшиеся)
  • $encoding — кодировка

Теперь перейдем к примерам.

Получаем строку начиная с определенного символа

$url = 'https://phpstack.ru/admin/'; $result = mb_substr($url, 8); echo $result; // результат: phpstack.ru/admin/

Мы вырезали первые 8 символов из строки, содержащей URL адрес.

Получаем определенное количество символов

Теперь давайте вырежем еще и «/admin/» в конце.

Мы бы могли сделать это указав количество символов, которое нужно взять, оно равно количеству символов в домене, их 11

$url = 'https://phpstack.ru/admin/'; $result = mb_substr($url, 8, 11); // возьмем 11 символов начиная с 8-го echo $result; // результат: phpstack.ru

Вырезаем символы с конца

Что если мы не знаем количества символов в домене, но знаем что нужно вырезать строку «/admin/», длина которой составляет 7 символов? Иными словами нам нужно вырезать с конца.

В таком случае нужно указать отрицательное число:

$url = 'https://phpstack.ru/admin/'; $result = mb_substr($url, 8, -7); // удаляем 8 символов с начала и 7 символов с конца echo $result; // результат: phpstack.ru

Получаем несколько последних символов

Что если нам нужно вернуть наоборот только 7 последних символов? Тогда код будет следующим:

$url = 'https://phpstack.ru/admin/'; $result = mb_substr($url, -7); // Получаем 7 символов с конца, остальное удаляем echo $result; // результат: /admin/

Получаем первый символ строки

$url = 'https://phpstack.ru/admin/'; $result = mb_substr($url, 0, 1); // Начиная с 0 берем 1 символ echo $result; // результат: h

Получаем последний символ строки

$url = 'https://phpstack.ru/admin/'; $result = mb_substr($url, -1); // начинаем на 1 символ относительно конца echo $result; // результат: /

Получение подстроки по регулярному выражению

Если вам не хватает возможностей substr, возможно вам необходим более мощный инструмент: preg_match — эта функция позволяет получить подстроки по регулярному выражению.

Проблема при работе с многобайтовыми кодировками.

$url = 'привет'; $result1 = mb_substr($url, 3); // удаляем 3 символа с начала $result2 = substr($url, 3); // удаляем 3 символа с начала var_dump($result1); // вет var_dump($result2); // �ивет

Что случилось? Почему в первом случае, где мы использовали mb_substr все сработало хорошо, а во втором случае вернулся какой-то битый символ?

Дело в том, что в UTF-8 кириллица кодируется 2 байтам, вместо одного. substr считает, что символ равен байту и поэтому вырезает 3 байта с начала. Таким образом она вырезала букву «П», и только половину буквы «Р». В общем вы поняли: всегда используйте mb_substr когда работаете с текстом, который потенциально может содержать многобайтовые символы.

Продвинутая работа со строками

Если вы часто работаете со строками, вам пригодится это расширение: symfony/string

С его помощью вы сможете легко вырезать строки. Взгляните на несколько примеров:

// returns a substring which starts at the first argument and has the length of the // second optional argument (negative values have the same meaning as in PHP functions) u('Symfony is great')->slice(0, 7); // 'Symfony' u('Symfony is great')->slice(0, -6); // 'Symfony is' u('Symfony is great')->slice(11); // 'great' u('Symfony is great')->slice(-5); // 'great' // reduces the string to the length given as argument (if it's longer) u('Lorem Ipsum')->truncate(3); // 'Lor' u('Lorem Ipsum')->truncate(80); // 'Lorem Ipsum' // the second argument is the character(s) added when a string is cut // (the total length includes the length of this character(s)) u('Lorem Ipsum')->truncate(8, '…'); // 'Lorem I…' // if the third argument is false, the last word before the cut is kept // even if that generates a string longer than the desired length u('Lorem Ipsum')->truncate(8, '…', false); // 'Lorem Ipsum'

Источник

Оцените статью