Прочитать zip файл python

Прочитать zip файл python

Zip представляет наиболее популярный формат архивации и сжатия файлов. И язык Python имеет встроенный модуль для работы с ними — zipfile . С помощью этого модуля можно создавать, считывать, записывать zip-файлы, получать их содержимое и добавлять в них файлы. Также поддерживается шифрование, но не поддерживается дешифрование.

Для представления zip-файла в этом модуле определен класс ZipFile . Он имеет следующий конструктор:

ZipFile(file, mode='r', compression=ZIP_STORED, allowZip64=True, compresslevel=None, *, strict_timestamps=True, metadata_encoding=None)
  • file : путь к zip-файлу
  • mode : режим открытия файла. Может принимать следующие значения:
    • r : применяется для чтения существующего файла
    • w : применяется для записи нового файла
    • a : применяется для добавления в файл
    • ZIP_STORED : архивация без сжатия (значение по умолчанию)
    • ZIP_DEFLATED : стандартный тип сжатия при архивации в zip
    • ZIP_BZIP2 : сжатие с помощью способа BZIP2
    • ZIP_LZMA : сжатие с помощью способа LZMA

    Для работы с файлами этот класс предоставляет ряд методов:

    • close() : закрывает zip-файл
    • getinfo() : возвращает информацию об одном файле из архива в виде объекта ZipInfo
    • namelist() : возвращает список файлов архива
    • infolist() : возвращает информацию обо всех файлах из архива в виде списока объектов ZipInfo
    • open() : предоставляет доступ к одному из файлов в архиве
    • read() : считывает файл из архива в набор байтов
    • extract() : извлекает из архива один файл
    • extractall() : извлекает все элементы из архива
    • setpassword() : устанавливает пароль для zip-файла
    • printdir() : выводит на консоль содержимое архива

    Создание и закрытие файла

    Для создания архивного файла в конструктор ZipFile передается режим «w» или «a»:

    from zipfile import ZipFile myzip = ZipFile("metanit.zip", "w")

    После выполнения кода в текущей папке будет создаваться пустой архивный файл «metanit.zip».

    После окончания работы с архивом для его закрытия применяется метод close() :

    from zipfile import ZipFile myzip = ZipFile("metanit.zip", "w") myzip.close()

    Но так как ZipFile также представляет менеджер контекста, то он поддерживает выражение with , которое определяет контекст и автоматически закрывает файл по завершению контекста:

    from zipfile import ZipFile with ZipFile("metanit.zip", "w") as myzip: pass

    Запись файлов в архив

    Для записи файлов в архив применяется файл write() :

    write(filename, arcname=None, compress_type=None, compresslevel=None)

    Первый параметр представляет файл, который записиывается в архив. Второй параметр — arcname устанавливает произвольное имя для файла внутри архива (по умолчанию это само имя файла). Третий параметр — compress_type представляет тип сжатия, а параметр compresslevel — уровень сжатия.

    Например, запишем в архив «metanit.zip» файл «hello.txt» (который, как предполагается, находится в той же папке, где и текущий скрипт python):

    from zipfile import ZipFile with ZipFile("metanit.zip", "w") as myzip: myzip.write("hello.txt")

    Стоит учитывать, что при открытии файла в режиме «w» при всех последующих записях текущее содержимое будет затираться, то есть фактически архивный файл будет создаваться заново. Если нам необходимо добавить, то необходимо определять zip-файл в режиме «a»:

    from zipfile import ZipFile with ZipFile("metanit.zip", "a") as myzip: myzip.write("hello2.txt") myzip.write("forest.jpg")

    Стоит отметить, что по умолчанию сжатие не применяется. Но при необходимости можно применить какой-нибудь способ сжатия и уровень сжатия»

    from zipfile import ZipFile, ZIP_DEFLATED with ZipFile("metanit.zip", "w", compression=ZIP_DEFLATED, compresslevel=3) as myzip: myzip.write("hello.txt")

    Необходимо учитывать, что если мы попробуем добавить в архив файлы с уже имеющимися именами, то консоль выведет предупреждение. Чтобы избежать наличия файлов с дублирующимися именами можно через второй папаметр метода write явным образом определить для них уникальное имя внутри архива:

    from zipfile import ZipFile with ZipFile("metanit.zip", "a") as myzip: myzip.write("hello.txt", "hello1.txt") myzip.write("hello.txt", "hello2.txt") myzip.write("hello.txt", "hello3.txt")

    Получение информации о файлах в архиве

    Метод infolist() возвращает информацию о файлах в архиве с виде списка, где каждый отдельный файл представлен объектом ZipInfo:

    from zipfile import ZipFile with ZipFile("metanit.zip", "a") as myzip: print(myzip.infolist())

    Класс ZipInfo предоставляет ряд атрибутов для хранения информации о файле. Основные из них:

    • filename : название файла
    • date_time : дата и время последнего изменения файла в виде кортежа в формате (год, месяц, день, час, минута, секунда)
    • compress_type : тип сжатия
    • compress_size : размер после сжатия
    • file_size : оригинальный размер файла до сжатия

    Получим эти данные по каждому отдельному файлу в архиве:

    from zipfile import ZipFile with ZipFile("metanit.zip", "r") as myzip: for item in myzip.infolist(): print(f"File Name: Date: Size: ")

    Примерный консольный вывод:

    File Name: hello.txt Date: (2022, 11, 23, 20, 21, 34) Size: 18 File Name: forest.jpg Date: (2022, 11, 19, 20, 46, 52) Size: 103956 File Name: hello1.txt Date: (2022, 11, 23, 20, 21, 34) Size: 18 File Name: hello2.txt Date: (2022, 11, 23, 20, 21, 34) Size: 18 File Name: hello3.txt Date: (2022, 11, 23, 20, 21, 34) Size: 18

    С помощью метода is_dir() можно проверить, является ли элемент в архиве папкой:

    from zipfile import ZipFile with ZipFile("metanit.zip", "r") as myzip: for item in myzip.infolist(): if(item.is_dir()): print(f"Папка: ") else: print(f"Файл: ")

    Если надо получить только список имен входящих в архив файлов, то применяется метод namelist() :

    from zipfile import ZipFile with ZipFile("metanit.zip", "r") as myzip: for item in myzip.namelist(): print(item)

    Консольный вывод в моем случае:

    hello.txt forest.jpg hello1.txt hello2.txt hello3.txt

    С помощью метода getinfo() можно получить данные по одному из архивированных файлов, передав в метод его имя в архиве. Результат метода — объект ZipInfo:

    from zipfile import ZipFile with ZipFile("metanit.zip", "r") as myzip: try: hello_file = myzip.getinfo("hello.txt") print(hello_file.file_size) except KeyError: print("Указанный файл отсутствует")

    Если в архиве не окажется элемента с указанным именем, то метод сгенерирует ошибку KeyError.

    Извлечение файлов из архива

    Для извлечения всех файлов из архива применяется метод extractall() :

    extractall(path=None, members=None, pwd=None)

    Первый параметр метода устанавливает каталог для извлечения архива (по умолчанию извлечение идет в текущий каталог). Параметр members представляет список строк — список названий файлов, которые надо извлечт из архива. И третий параметр — pwd представляет пароль, в случае если архив закрыт паролем.

    Например, извлечем все файлы из архива:

    from zipfile import ZipFile with ZipFile("metanit.zip", "r") as myzip: myzip.extractall()

    Извлечение в определенную папку:

    myzip.extractall(path="metanit")
    # извлекаем файлы "hello.txt", "forest.jpg" в папку "metanit2" myzip.extractall(path="metanit2", members=["hello.txt", "forest.jpg"])

    Для извлечения одного файла применяется метод extract() , в который в качестве обязательного параметра передается имя извлекаемого файла:

    Считывание файла

    Метод read() позволяет считать содержимое файла из архива в набор байтов:

    from zipfile import ZipFile with ZipFile("metanit.zip", "r") as myzip: content = myzip.read("hello5.txt") print(content)

    Открытие файла

    Метод open() позволяет открывать отдельные файлы из архива без непосредственного их извлечения:

    open(name, mode='r', pwd=None, *, force_zip64=False)

    В качестве первого обязательного параметра передается имя файла внутри архива. Второй параметр — mode устанавливает режим открытия. Параметр pwd задает пароль, если файл защищен паролем. И параметр force_zip64 при значении True позволяет открывать файлы больше 4 Гб.

    Этот файл может быть полезен для манипулирования файлом, например, для считывания его содержимого или, наоборот, для записи в него. Например, откроем файл и считаем его содержимое:

    from zipfile import ZipFile with ZipFile("metanit.zip", "a") as myzip: # записываем в архив новый файл "hello5.txt" with myzip.open("hello5.txt", "w") as hello_file: encoded_str = bytes("Python. ", "UTF-8") hello_file.write(encoded_str)

    Источник

    Модуль zipfile в Python

    Модуль zipfile в Python помогает нам в работе с zip файлами. Сегодня мы узнаем, как читать детали zip-архива, создавать и распаковывать с помощью модуля zipfile.

    Модуль zipfile важен даже для промышленного приложения. Это связано с тем, что на серверах файлы, загружаемые через веб-приложения, часто архивируются, а затем сохраняются для экономии места на сервере. Начнем с примеров модуля zipfile. Этот модуль также похож на модуль tarfile.

    Обратите внимание, что в демонстрационных целях у нас есть ZIP-файл с именем Archive.zip с некоторыми текстовыми файлами, и этот ZIP-файл находится в каталоге, в котором мы запускаем программы.

    Чтение ZIP-файла

    Мы начнем с перечисления файлов, находящихся в ZIP-архиве. Вот пример программы:

    import zipfile zip_archive = zipfile.ZipFile("Archive.zip", "r") # list file information for file_info in zip_archive.infolist(): print(file_info.filename, file_info.date_time, file_info.file_size)

    Посмотрим на результат этой программы:

    Чтение ZIP-файла

    Мы смогли перечислить файлы, присутствующие в архиве, а также некоторые метаданные для файлов. Обратите внимание, что процесс выполняется очень быстро, так как нам не нужно было распаковывать файл, прежде чем мы могли его прочитать.

    Создание ZIP-файла

    Далее мы начнем с того, что посмотрим, как можно создать ZIP-файл. Чтобы создать новый архив, мы создадим экземпляр ZipFile с режимом w. Обратите внимание: если файл с таким же именем существует, он будет полностью усечен. Итак, убедитесь, что имя вашего файла уникально.

    Давайте посмотрим на фрагмент кода для создания zip-файла с помощью модуля zipfile:

    import zipfile archive = zipfile.ZipFile('Archive.zip', mode='w') try: archive.write('hello.txt') archive.write('second.txt') print('Files added.') finally: print('Reading files now.') archive.close() zip_archive = zipfile.ZipFile("Archive.zip", "r") # list file information for file_info in zip_archive.infolist(): print(file_info.filename, file_info.date_time, file_info.file_size)

    Посмотрим на результат этой программы:

    Источник

    Распаковка файлов из архивов zip или tar.gz с помощью Python

    cat box1

    Из этой статьи вы узнаете, как распаковать один или несколько архивов zip и tar.gz и получить информацию о них средствами языка Python. Мы рассмотрим извлечение одного или нескольких файлов из архива.

    Шаг 1: получить информацию из архива zip или tar.gz

    Сперва мы просмотрим содержимое zip-файла с помощью этого фрагмента кода:

    from zipfile import ZipFile zipfile = 'file.zip' z = ZipFile(zipfile) z.infolist()

    Таким образом мы сможем узнать размеры и имена двух файлов:

    Шаг 2: перечислить и прочитать все файлы из архива

    Теперь мы можем получить список всех файлов в архиве:

    from zipfile import ZipFile archive = 'file.zip' zip_file = ZipFile(archive) [text_file.filename for text_file in zip_file.infolist() ]
    ['pandas-dataframe-background-color-based-condition-value-python.png', 'text1.txt']

    Если вам нужно отсортировать файлы – например, получить только json – или прочитать их в формате датафреймов Pandas, можно сделать это следующим образом:

    from zipfile import ZipFile archive = 'file.zip' zip_file = ZipFile(archive) dfs = dfs

    Шаг 3: извлечь файлы из zip-архива

    Пакет zipfile можно использовать для извлечения файлов из zip-архивов. Базовый пример:

    import zipfile archive = 'file.zip' with zipfile.ZipFile(archive, 'r') as zip_file: zip_file.extractall(directory_to_extract_to)

    Шаг 4: извлечь файлы из tar/tar.gz

    Чтобы извлечь файлы из архивов tar/tar.gz , можно воспользоваться кодом, приведенным ниже. Он использует модуль tarfile и разделяет эти два типа, чтобы применить подходящий режим распаковки:

    import tarfile zipfile = 'file.zip' if zipfile.endswith("tar.gz"): tar = tarfile.open(zipfile, "r:gz") elif zipfile.endswith("tar"): tar = tarfile.open(zipfile, "r:") tar.extractall() tar.close()

    Примечание: все файлы из архива будут распакованы в текущей для данного скрипта рабочей директории.

    Шаг 5: извлечь один файл из архива

    Если вам нужно получить только один файл из архива, можно использовать метод zipObject.extract(fileName, ‘temp_py’) . Простой пример:

    import zipfile archive = 'file.zip' with zipfile.ZipFile(archive, 'r') as zip_file: zip_file.extract('text1.txt', '.')

    В этом примере мы извлечём файл ‘text1.txt’ в текущую рабочую директорию. Если вам нужно извлечь файл в другую директорию, можете изменить второй параметр — ‘.’

    Заключение

    В этом уроке мы выяснили, как с помощью Python извлечь один или несколько файлов из различных архивов, а также — как вывести список запакованных файлов и получить из них информацию. Мы затронули работу с двумя пакетами: zipfile и tarfile.

    Источник

    Читайте также:  Python yield and return
Оцените статью