PHP – Удаление повторяющихся знаков препинания?
Предположим, у вас есть следующая строка: Hello. how are you. I’m bored!! Hello. how are you. I’m bored!!
Я хочу, чтобы везде, где это было возможно, удалялась пунктуация «спина к спине», а вопросительные знаки сохранялись в случае ситуации, подобной «!?». Отфильтрованная строка должна выглядеть следующим образом:
Hello. how are you? I’m bored!
Лучший ответ – самое сжатое решение, которое решает эту проблему. Я ожидаю, что регулярные выражения будут лучшим способом решения этого вопроса, но мои знания о регулярных выражениях очень, очень ограничены в лучшем случае, и я не знаю, как это решить. Однако я более чем умею с решениями, не относящимися к регулярному выражению. Объяснение любого кода, который вы предоставляете, – если только не дьявольски прост – тоже будет приятным.
$str = preg_replace('~[?!]~', '?', preg_replace('~([. ])(\\1+)~', '\\1', $str));
или в одном вызове preg_replace (благодаря Alix Axel)
$str = preg_replace(array('~([. ])(\\1+)~', '~[?!]~'), array('\\1', '?'), $str);
Просто перечислите всю пунктуацию, о которой вы заботитесь в фигурных скобках
UPD : обрабатывать !? просто вложите его в другое регулярное выражение
Объяснение того, что все это означает:
Выражение ([. ])(\\1+) означает – найти любое из . только если ему предшествует хотя бы один и тот же символ \\1+ , где \\1 – ссылка на предыдущий матч, а + – at least one .
И замените все это только одним символом.
Внешнее выражение [?!] означает find all ? or ! if they are at least 2 in a row find all ? or ! if they are at least 2 in a row find all ? or ! if they are at least 2 in a row и заменить его ?
вы можете использовать preg_replace:
$a="Hello. how are you. Im bored. "; echo preg_replace("/([. ])+/iS","$1",$a); => Hello. how are you? Im bored!
$string = "Hello. how are you. I'm bored!!" $new_string = $string; foreach(array('.',',','?','!') as $value) < $i = ; do < $prev_string = $new_string; $string = str_replace($value . $value,$value,$string; $i++; >while ($string !== $prev_string && $i
Это избавляет от дубликатов, но не.
Я думаю, что это второе решение будет работать, сохраняя FIRST из ваших «bad_chars». Если вы хотите сохранить ПОСЛЕДНИЙ, есть решения для этого.
$char) < echo 'Processing: ' . $char . '
'; $prev_key = $key - 1; $prev_char = $string[$prev_key]; if($i!== 0) < if(in_array($char,$bad_chars) && in_array($prev_char,$bad_chars) ) < // do nothing >else < $new_string[] = $char; >> else < $prev_char = $char; $new_string[] = $prev_char; >$i++; > $string = implode('',$string); $new_string = implode('',$new_string); ?>
как убрать пунктуацию в php
Вероятно, было бы проще просто сохранить нужные символы. Вы просто хотите сохранить az (верхний и нижний) 0-9 и символы, которые вы перечислили? Кроме того, что такое «phpr»?
6 ответов
Поскольку вам нужно сопоставить некоторые символы Unicode ( € ), было бы разумно использовать регулярное выражение. Шаблон \p соответствует любой известной пунктуации, и это утверждение исключает исчезновение желаемых специальных символов:
$text = preg_replace("/(?![.=$'€%-])\p/u", "", $text);
Не могли бы вы объяснить этот паттерн, я новичок в PCRE, и я впервые вижу (?!) Который не является предвидением или что-то, чего я просто не понимаю. Кроме того, я не понимаю \p
@AlexanderMP: Негативное предположение (. ) лучше всего объяснить здесь: регулярные выражения.info/lookaround.html. И \p несколько загадочно, но здесь также есть хороший обзор: regular-expressions.info/unicode.html
Вот аккуратный способ сделать это:
preg_replace("#[[:punct:]]#", "", $target);
Это не может быть правильным ответом, поскольку он удаляет все знаки препинания, но в исходном вопросе указаны исключения.
$test = str_replace(array("?","!",",",";"), "", $test);
хотя было бы правильнее и легко указать символы, которые вы хотите разбить, вместо символов (из неизвестного набора), которые вы не хотите снимать.
Вам не нужно экранировать $ внутри класса символов — но AFAIK — должен быть первым или последним элементом.
Может быть. Я просто чувствую себя более комфортно, избегая всех специальных символов, которые используются в PCRE. Но спасибо за подсказку.
Необходимо сохранить строку как alphaNum с определенной пунктуацией и не хотите полностью отбрасывать символы с помощью специальной пунктуации.
class ClassName < protected static $cleanChars = array( '<' =>'', '>' => '', ''' => '', '&' => '', '"' => '', 'À' => 'A', 'Á' => 'A', 'Â' => 'A', 'Ã' => 'A', 'Ä' => 'Ae', 'Ä' => 'A', 'Å' => 'A', 'Ā' => 'A', 'Ą' => 'A', 'Ă' => 'A', 'Æ' => 'Ae', 'Ç' => 'C', 'Ć' => 'C', 'Č' => 'C', 'Ĉ' => 'C', 'Ċ' => 'C', 'Ď' => 'D', 'Đ' => 'D', 'Ð' => 'D', 'È' => 'E', 'É' => 'E', 'Ê' => 'E', 'Ë' => 'E', 'Ē' => 'E', 'Ę' => 'E', 'Ě' => 'E', 'Ĕ' => 'E', 'Ė' => 'E', 'Ĝ' => 'G', 'Ğ' => 'G', 'Ġ' => 'G', 'Ģ' => 'G', 'Ĥ' => 'H', 'Ħ' => 'H', 'Ì' => 'I', 'Í' => 'I', 'Î' => 'I', 'Ï' => 'I', 'Ī' => 'I', 'Ĩ' => 'I', 'Ĭ' => 'I', 'Į' => 'I', 'İ' => 'I', 'IJ' => 'IJ', 'Ĵ' => 'J', 'Ķ' => 'K','Ł' => 'K', 'Ľ' => 'K', 'Ĺ' => 'K', 'Ļ' => 'K', 'Ŀ' => 'K', 'Ñ' => 'N', 'Ń' => 'N', 'Ň' => 'N', 'Ņ' => 'N', 'Ŋ' => 'N', 'Ò' => 'O', 'Ó' => 'O', 'Ô' => 'O', 'Õ' => 'O', 'Ö' => 'Oe', 'Ö' => 'Oe', 'Ø' => 'O', 'Ō' => 'O', 'Ő' => 'O', 'Ŏ' => 'O', 'Œ' => 'OE', 'Ŕ' => 'R', 'Ř' => 'R', 'Ŗ' => 'R', 'Ś' => 'S', 'Š' => 'S', 'Ş' => 'S', 'Ŝ' => 'S', 'Ș' => 'S', 'Ť' => 'T', 'Ţ' => 'T', 'Ŧ' => 'T', 'Ț' => 'T', 'Ù' => 'U', 'Ú' => 'U', 'Û' => 'U', 'Ü' => 'Ue', 'Ū' => 'U', 'Ü' => 'Ue', 'Ů' => 'U', 'Ű' => 'U', 'Ŭ' => 'U', 'Ũ' => 'U', 'Ų' => 'U', 'Ŵ' => 'W', 'Ý' => 'Y', 'Ŷ' => 'Y', 'Ÿ' => 'Y', 'Ź' => 'Z', 'Ž' => 'Z', 'Ż' => 'Z', 'Þ' => 'T', 'à' => 'a', 'á' => 'a', 'â' => 'a', 'ã' => 'a', 'ä' => 'ae', 'ä' => 'ae', 'å' => 'a', 'ā' => 'a', 'ą' => 'a', 'ă' => 'a', 'æ' => 'ae', 'ç' => 'c', 'ć' => 'c', 'č' => 'c', 'ĉ' => 'c', 'ċ' => 'c', 'ď' => 'd', 'đ' => 'd', 'ð' => 'd', 'è' => 'e', 'é' => 'e', 'ê' => 'e', 'ë' => 'e', 'ē' => 'e', 'ę' => 'e', 'ě' => 'e', 'ĕ' => 'e', 'ė' => 'e', 'ƒ' => 'f', 'ĝ' => 'g', 'ğ' => 'g', 'ġ' => 'g', 'ģ' => 'g', 'ĥ' => 'h', 'ħ' => 'h', 'ì' => 'i', 'í' => 'i', 'î' => 'i', 'ï' => 'i', 'ī' => 'i', 'ĩ' => 'i', 'ĭ' => 'i', 'į' => 'i', 'ı' => 'i', 'ij' => 'ij', 'ĵ' => 'j', 'ķ' => 'k', 'ĸ' => 'k', 'ł' => 'l', 'ľ' => 'l', 'ĺ' => 'l', 'ļ' => 'l', 'ŀ' => 'l', 'ñ' => 'n', 'ń' => 'n', 'ň' => 'n', 'ņ' => 'n', 'ʼn' => 'n', 'ŋ' => 'n', 'ò' => 'o', 'ó' => 'o', 'ô' => 'o', 'õ' => 'o', 'ö' => 'oe', 'ö' => 'oe', 'ø' => 'o', 'ō' => 'o', 'ő' => 'o', 'ŏ' => 'o', 'œ' => 'oe', 'ŕ' => 'r', 'ř' => 'r', 'ŗ' => 'r', 'š' => 's', 'ù' => 'u', 'ú' => 'u', 'û' => 'u', 'ü' => 'ue', 'ū' => 'u', 'ü' => 'ue', 'ů' => 'u', 'ű' => 'u', 'ŭ' => 'u', 'ũ' => 'u', 'ų' => 'u', 'ŵ' => 'w', 'ý' => 'y', 'ÿ' => 'y', 'ŷ' => 'y', 'ž' => 'z', 'ż' => 'z', 'ź' => 'z', 'þ' => 't', 'ß' => 'ss', 'ſ' => 'ss', 'ый' => 'iy', 'А' => 'A', 'Б' => 'B', 'В' => 'V', 'Г' => 'G', 'Д' => 'D', 'Е' => 'E', 'Ё' => 'YO', 'Ж' => 'ZH', 'З' => 'Z', 'И' => 'I', 'Й' => 'Y', 'К' => 'K', 'Л' => 'L', 'М' => 'M', 'Н' => 'N', 'О' => 'O', 'П' => 'P', 'Р' => 'R', 'С' => 'S', 'Т' => 'T', 'У' => 'U', 'Ф' => 'F', 'Х' => 'H', 'Ц' => 'C', 'Ч' => 'CH', 'Ш' => 'SH', 'Щ' => 'SCH', 'Ъ' => '', 'Ы' => 'Y', 'Ь' => '', 'Э' => 'E', 'Ю' => 'YU', 'Я' => 'YA', 'а' => 'a', 'б' => 'b', 'в' => 'v', 'г' => 'g', 'д' => 'd', 'е' => 'e', 'ё' => 'yo', 'ж' => 'zh', 'з' => 'z', 'и' => 'i', 'й' => 'y', 'к' => 'k', 'л' => 'l', 'м' => 'm', 'н' => 'n', 'о' => 'o', 'п' => 'p', 'р' => 'r', 'с' => 's', 'т' => 't', 'у' => 'u', 'ф' => 'f', 'х' => 'h', 'ц' => 'c', 'ч' => 'ch', 'ш' => 'sh', 'щ' => 'sch', 'ъ' => '', 'ы' => 'y', 'ь' => '', 'э' => 'e', 'ю' => 'yu', 'я' => 'ya' ); public static function clean($string, $allowed=array(), $base="a-zA-Z0-9 ") < if(empty($allowed) && !$base)< return false; >$ignore = ""; if(is_array($allowed)) < foreach($allowed as $a)< $ignore .= preg_quote($a); >> return preg_replace( "/[^\s]/", "", $string ); > public static function alphaNum($string, $allowed=array(), $convert=false) < if($convert)< $string = strtr($string, self::$cleanChars); >return self::clean($string, $allowed, 'a-zA-Z0-9 '); > >
Сбросьте все знаки препинания:
ИмяКласса:: alpaNum ($ строка);
Разделите все знаки препинания, но преобразуйте специальные символы:
ClassName:: alphaNum ($ string, null, true);
Alpha Num + дополнительная пунктуация:
ClassName:: alphaNum ($ string, array (‘_’, ‘-‘, ‘,’, ‘.’));
Alpha Num + дополнительная пунктуация и преобразование:
ClassName:: alphaNum ($ string, array (‘_’, ‘-‘, ‘,’, ‘.’), true);
Вывод: Если вы ожидаете специальных символов и не хотите их полностью отбрасывать, вы можете конвертировать их перед проверкой alphaNum. (например, при дезинфекции имен файлов и т.д.)
Если отбрасывание специальных символов не имеет никакого реального эффекта и на самом деле не ожидается в системе, вы можете вызвать его без преобразования знаков препинания, чтобы сохранить вычислительную мощность. (например, при установке ключей для больших массивов из строк)