Big Data Analysis with Python
Processing big data in real time is challenging due to scalability, information inconsistency, and fault tolerance. Big Data Analysis with Python teaches you how to use tools that can control this data avalanche for you. With this book, you’ll learn practical techniques to aggregate data into useful dimensions for posterior analysis, extract statistical measurements, and transform datasets into features for other systems.
The book begins with an introduction to data manipulation in Python using pandas. You’ll then get familiar with statistical analysis and plotting techniques. With multiple hands-on activities in store, you’ll be able to analyze data that is distributed on several computers by using Dask. As you progress, you’ll study how to aggregate data for plots when the entire data cannot be accommodated in memory. You’ll also explore Hadoop (HDFS and YARN), which will help you tackle larger datasets. The book also covers Spark and explains how it interacts with other tools.
By the end of this book, you’ll be able to bootstrap your own Python environment, process large files, and manipulate data to generate statistics, metrics, and graphs.
What you will learn
- Use Python to read and transform data into different formats
- Generate basic statistics and metrics using data on disk
- Work with computing tasks distributed over a cluster
- Convert data from various sources into storage or querying formats
- Prepare data for statistical analysis, visualization, and machine learning
- Present data in the form of effective visuals
Who this book is for
Big Data Analysis with Python is designed for Python developers, data analysts, and data scientists who want to get hands-on with methods to control data and transform it into impactful insights. Basic knowledge of statistical measurements and relational databases will help you to understand various concepts explained in this book.
Основы Data Science и Big Data, Python и наука о данных, Силен Д., Мейсман А., Али М., 2017
По кнопке выше «Купить бумажную книгу» можно купить эту книгу с доставкой по всей России и похожие книги по самой лучшей цене в бумажном виде на сайтах официальных интернет магазинов Лабиринт, Озон, Буквоед, Читай-город, Литрес, My-shop, Book24, Books.ru.
По кнопке «Купить и скачать электронную книгу» можно купить эту книгу в электронном виде в официальном интернет магазине «ЛитРес» , и потом ее скачать на сайте Литреса.
По кнопке «Найти похожие материалы на других сайтах» можно искать похожие материалы на других сайтах.
On the buttons above you can buy the book in official online stores Labirint, Ozon and others. Also you can search related and similar materials on other sites.
Основы Data Science и Big Data, Python и наука о данных, Силен Д., Мейсман А., Али М., 2017.
Data Science — это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных.
Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.
Обработка и анализ данных — одна из самых горячих областей ГГ, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем. Надеемся, книг а станет отправной точкой для вашего путешествия в увлекательный мир Data Science.
Data science в мире больших данных.
Нод обобщающим термином «большие данные» принято понимать любые наборы данных, достаточно большие и сложные для того, чтобы их можно было обработать традиционными средствами работы с данными (например, РСУБД — реляционными системами управления базами данных). Широко распространенные РСУБД давно считаются универсальным инструментом, но спрос на обработку больших данных показывает иное. В концепцию data science входит использование методов анализа огромных объемов данных и извлечения содержащейся в них информации. Связь между большими данными и data science такая же, как между сырой нефтью и нефтеперерабатывающим заводом. Data science и большие данные развивались на базе статистики и традиционного управления данными, но сейчас считаются разными дисциплинами.
Data science — это расширение статистики, способное справляться с огромными объемами данных, производимыми в наши дни. Data science добавляет методы из computer science в репертуар статистики. В аналитической заметке Лейни и Карта «Emerging Role of the Data Scientist and the Art of Data Science» были проработаны сотни описаний рабочих обязанностей специалистов data science, статистиков и аналитиков бизнес-данных, чтобы выявить различия между этими должностями. Главное, что отличает специалиста data science от статистика, — это умение работать с большими данными и подготовка в области машинного обучения, организации вычислений и построения алгоритмов. Их инструментарии обычно тоже различаются; в описаниях работы специалистов data science чаще упоминается умение использовать Hadoop, Pig, Spark, R, Python и Java (среди прочего). He огорчайтесь, если вас устрашило это перечисление; многие пункты будут постепенно раскрыты в этой книге, хотя основное внимание будет уделено Python. Python — замечательный язык для data science, потому что для него написано много библиотек data science и он широко поддерживается специализированными программами. Например, почти в каждой популярной базе данных NoSL существует программный интерфейс (API) для Python. Из-за этих особенностей, а также из-за возможности быстро строить прототипы на языке Python с сохранением приемлемой производительности его популярность в мире data science быстро растет.
СОДЕРЖАНИЕ.
Предисловие.
Благодарности.
О книге.
Структура книги.
Для кого написана эта книга.
Условные обозначения и загружаемые файлы.
Об авторах.
От издательства.
Глава 1. Data science в мире больших данных.
Глава 2. Процесс data science.
Глава 3. Машинное обучение.
Глава 4. Работа с большими данными на одном компьютере.
Глава 5. Первые шаги в области больших данных.
Глава б. Присоединяйтесь к движению NoSQL.
Глава 7. Графовые базы данных.
Глава 8. Глубокий анализ текста.
Глава 9. Визуализация данных для конечного пользователя.
Приложение А. Настройка Elasticsearch.
А.1. Установка в Linux.
A.2. Установка в Windows.
Приложение Б. Установка Neo4j.
Б.1. Установка в Linux.
Б.2. Установка в Windows.
Приложение В. Установка сервера MySQL.
B.1. Установка в Windows.
В.2. Установка в Linux.
Приложение Г. Установка Anaconda в виртуальной среде.
Г.1. Установка в Linux.
Г.2. Установка в Windows.
Г.3. Настройка среды.
Основы Data Science и Big Data, Python и наука о данных, Силен Д., Мейсман А., Али М., 2017
К сожалению, на данный момент у нас невозможно бесплатно скачать полный вариант книги.
Но вы можете попробовать скачать полный вариант, купив у наших партнеров электронную книгу здесь, если она у них есть наличии в данный момент.
Также можно купить бумажную версию книги здесь.
Основы Data Science и Big Data, Python и наука о данных, Силен Д., Мейсман А., Али М., 2017.
Data Science — это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных.
Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.
Обработка и анализ данных — одна из самых горячих областей ГГ, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем. Надеемся, книг а станет отправной точкой для вашего путешествия в увлекательный мир Data Science.
Data science в мире больших данных.
Нод обобщающим термином «большие данные» принято понимать любые наборы данных, достаточно большие и сложные для того, чтобы их можно было обработать традиционными средствами работы с данными (например, РСУБД — реляционными системами управления базами данных). Широко распространенные РСУБД давно считаются универсальным инструментом, но спрос на обработку больших данных показывает иное. В концепцию data science входит использование методов анализа огромных объемов данных и извлечения содержащейся в них информации. Связь между большими данными и data science такая же, как между сырой нефтью и нефтеперерабатывающим заводом. Data science и большие данные развивались на базе статистики и традиционного управления данными, но сейчас считаются разными дисциплинами.
Data science — это расширение статистики, способное справляться с огромными объемами данных, производимыми в наши дни. Data science добавляет методы из computer science в репертуар статистики. В аналитической заметке Лейни и Карта «Emerging Role of the Data Scientist and the Art of Data Science» были проработаны сотни описаний рабочих обязанностей специалистов data science, статистиков и аналитиков бизнес-данных, чтобы выявить различия между этими должностями. Главное, что отличает специалиста data science от статистика, — это умение работать с большими данными и подготовка в области машинного обучения, организации вычислений и построения алгоритмов. Их инструментарии обычно тоже различаются; в описаниях работы специалистов data science чаще упоминается умение использовать Hadoop, Pig, Spark, R, Python и Java (среди прочего). He огорчайтесь, если вас устрашило это перечисление; многие пункты будут постепенно раскрыты в этой книге, хотя основное внимание будет уделено Python. Python — замечательный язык для data science, потому что для него написано много библиотек data science и он широко поддерживается специализированными программами. Например, почти в каждой популярной базе данных NoSL существует программный интерфейс (API) для Python. Из-за этих особенностей, а также из-за возможности быстро строить прототипы на языке Python с сохранением приемлемой производительности его популярность в мире data science быстро растет.
СОДЕРЖАНИЕ.
Предисловие.
Благодарности.
О книге.
Структура книги.
Для кого написана эта книга.
Условные обозначения и загружаемые файлы.
Об авторах.
От издательства.
Глава 1. Data science в мире больших данных.
Глава 2. Процесс data science.
Глава 3. Машинное обучение.
Глава 4. Работа с большими данными на одном компьютере.
Глава 5. Первые шаги в области больших данных.
Глава б. Присоединяйтесь к движению NoSQL.
Глава 7. Графовые базы данных.
Глава 8. Глубокий анализ текста.
Глава 9. Визуализация данных для конечного пользователя.
Приложение А. Настройка Elasticsearch.
А.1. Установка в Linux.
A.2. Установка в Windows.
Приложение Б. Установка Neo4j.
Б.1. Установка в Linux.
Б.2. Установка в Windows.
Приложение В. Установка сервера MySQL.
B.1. Установка в Windows.
В.2. Установка в Linux.
Приложение Г. Установка Anaconda в виртуальной среде.
Г.1. Установка в Linux.
Г.2. Установка в Windows.
Г.3. Настройка среды.
По кнопкам выше и ниже «Купить бумажную книгу» и по ссылке «Купить» можно купить эту книгу с доставкой по всей России и похожие книги по самой лучшей цене в бумажном виде на сайтах официальных интернет магазинов Лабиринт, Озон, Буквоед, Читай-город, Литрес, My-shop, Book24, Books.ru.
По кнопке «Купить и скачать электронную книгу» можно купить эту книгу в электронном виде в официальном интернет магазине «ЛитРес» , и потом ее скачать на сайте Литреса.
По кнопке «Найти похожие материалы на других сайтах» можно найти похожие материалы на других сайтах.
On the buttons above and below you can buy the book in official online stores Labirint, Ozon and others. Also you can search related and similar materials on other sites.