Удалить все эмодзи python

Удаление всех эмодзи из текста

Этот вопрос был задан здесь Python: как удалить все смайлы Без решения, у меня есть шаг к решению. Но нужна помощь, чтобы закончить это.

Я пошел и получил все шестнадцатеричные коды смайликов с сайта смайликов: https://www.unicode.org/emoji/charts/emoji-ordering.txt

Затем я прочитал в файле так:

file = open('emoji-ordering.txt') temp = file.readline() final_list = [] while temp != '': #print(temp) if not temp[0] == '#' : utf_8_values = ((temp.split(';')[0]).rstrip()).split(' ') values = ["u\\"+(word[0]+((8 - len(word[2:]))*'0' + word[2:]).rstrip()) for word in utf_8_values] #print(values[0]) final_list = final_list + values temp = file.readline() print(final_list) 

Я надеялся, что это даст мне литералы Unicode. Это не так, моя цель — получить литералы Unicode, чтобы я мог использовать часть решения из последнего вопроса и иметь возможность исключить все смайлы. Есть идеи, что нам нужно, чтобы получить решение?

Оператор pass в Python — это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Python — самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science.

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Ответы 2

Сначала установите смайлики:

Итак, сделайте это:

import emoji def give_emoji_free_text(self, text): allchars = [str for str in text] emoji_list = [c for c in allchars if c in emoji.UNICODE_EMOJI] clean_text = ' '.join([str for str in text.split() if not any(i in str for i in emoji_list)]) return clean_text text = give_emoji_free_text(text) 

Или вы можете попробовать:

emoji_pattern = re.compile("[" u"\U0001F600-\U0001F64F" # emoticons u"\U0001F300-\U0001F5FF" # symbols & pictographs u"\U0001F680-\U0001F6FF" # transport & map symbols u"\U0001F1E0-\U0001F1FF" # flags (iOS) u"\U0001F1F2-\U0001F1F4" # Macau flag u"\U0001F1E6-\U0001F1FF" # flags u"\U0001F600-\U0001F64F" u"\U00002702-\U000027B0" u"\U000024C2-\U0001F251" u"\U0001f926-\U0001f937" u"\U0001F1F2" u"\U0001F1F4" u"\U0001F620" u"\u200d" u"\u2640-\u2642" "]+", flags=re.UNICODE) text = emoji_pattern.sub(r'', text) 

Вот сценарий Python, который использует get_emoji_regexp() библиотеки эмодзи.

Он считывает текст из файла и записывает текст без смайлов в другой файл.

import emoji import re def strip_emoji(text): print(emoji.emoji_count(text)) new_text = re.sub(emoji.get_emoji_regexp(), r"", text) return new_text with open("my_file.md", "r") as file: old_text = file.read() no_emoji_text = strip_emoji(old_text) with open("file.md", "w+") as new_file: new_file.write(no_emoji_text) 

Другие вопросы по теме

Назначение нового значения столбца из списка значений, предупреждение для больших наборов данных — Pandas

Источник

demoji

Accurately find or remove emojis from a blob of text using data from the Unicode Consortium’s emoji code repository.

Major Changes in Version 1.x

Version 1.x of demoji now bundles Unicode data in the package at install time rather than requiring a download of the codes from unicode.org at runtime. Please see the CHANGELOG.md for detail and be familiar with the changes before updating from 0.x to 1.x.

Command-line Use

You can use demoji or python -m demoji to replace emojis in file(s) or stdin with their :code: equivalents:

Reference

Find emojis within string . Return a mapping of .
Find emojis within string . Return a list (with possible duplicates).

If desc is True, the list contains description codes. If desc is False, the list contains emojis.

Replace emojis in string with repl .
Replace emojis in string with their description codes. The codes are surrounded by sep .
Show the timestamp of last download for the emoji data bundled with the package.

Footnote: Emoji Sequences

Numerous emojis that look like single Unicode characters are actually multi-character sequences. Examples:

  • The keycap 2️⃣ is actually 3 characters, U+0032 (the ASCII digit 2), U+FE0F (variation selector), and U+20E3 (combining enclosing keycap).
  • The flag of Scotland 7 component characters, b’\\U0001f3f4\\U000e0067\\U000e0062\\U000e0073\\U000e0063\\U000e0074\\U000e007f’ in full esaped notation.

(You can see any of these through s.encode(«unicode-escape») .)

demoji is careful to handle this and should find the full sequences rather than their incomplete subcomponents.

The way it does this it to sort emoji codes by their length, and then compile a concatenated regular expression that will greedily search for longer emojis first, falling back to shorter ones if not found. This is not by any means a super-optimized way of searching as it has O(N 2 ) properties, but the focus is on accuracy and completeness.

1.0.0

This is a backwards-incompatible release with several substantial changes.

The largest change is that demoji now bundles a static copy of Unicode emoji data with the package at install time, rather than requiring a runtime download of the codes from unicode.org.

Changes below are grouped by their corresponding Semantic Versioning identifier.

Оцените статью