Рубрики
Без рубрики

Как читать файлы .data в Python?

Работая с приведением данных и сбором данных для моделей обучения, мы столкнулись с файлами .data.

Автор оригинала: Pankaj Kumar.

Как читать файлы .data в Python?

Работая с входом в данные и сбор данных для моделей обучения, мы столкнулись с .данные файлы Отказ

Это расширение файла, используемое несколькими программами для хранения данных, один из таких примеров будет Анализ студии , специализирующийся на Статистический анализ и Добыча данных Отказ

Работа с .дата Расширение файла довольно простое и более или менее идентифицировано так, как данные отсортированы, а затем с помощью команд Python для соответственно доступа к файлу.

Что такое файл .data?

.дата Файлы были разработаны как средство для хранения данных.

Много времени, данные в этом формате либо размещены в Comma разделенная стоимость Формат или вкладка разделенная стоимость формат.

Наряду с этим вариантом файл также может быть в формате текстового файла или в двоичном. В этом случае нам будет нуждаться в доступе к нему в другом методе.

Мы будем работать с .csv Файлы для этой статьи, но давайте сначала определим, будет ли содержание файла в тексте или в двоичном режиме.

Определение данных внутри файлов .data

.дата Файлы проходят два разных варианта, а сам файл либо в виде текста, либо в двоичном порядке.

Для того, чтобы выяснить, какой он принадлежит, нам нужно будет загрузить его и проверить его для себя.

Давайте начнем!

1. Тестирование: текстовый файл

Файлы .data могут в основном существовать в качестве текстовых файлов, и доступ к файлам в Python довольно прост.

Будучи предварительно построенным в качестве функции, включенной в Python, нам не нужно импортировать любой модуль, чтобы работать с обработкой файлов.

Что говорят, как сказал, как открыть, читать и писать в файл в Python как таковой:

# reading from the file
file = open("biscuits.data", "r")
file.read()
file.close()

# writing to the file
file = open("biscuits.data", "w")
file.write("Chocolate Chip")
file.close()

2. Тестирование: двоичный файл

Файлы .data также могут быть в форме двоичных файлов. Это означает, что то, как мы должны получить доступ к файлу, также необходимо изменить.

Мы будем работать с двоичным способом Чтение и запись в файл В этом случае режим – RB или Читать двоичные Отказ

# reading from the file
file = open("biscuits.data", "rb")
file.read()
file.close()

# writing to the file
file = open("biscuits.data", "wb")
file.write("Oreos")
file.close()

Файловые операции относительно легко понять в Python, и стоит посмотреть, если вы хотите увидеть различные режимы доступа к файлу и методы для доступа к ним.

Либо один из этих подходов должен работать, и должен предоставить вам метод для получения информации относительно содержимого, хранящегося внутри .дата файл.

Теперь, когда мы знаем, в каком формате присутствует файл, мы можем работать с Pands для создания DataFrame для CSV файл.

3. Используя Pandas для чтения файлов .data

Простой метод для извлечения информации из этих файлов после проверки приведенного типа содержимого будет просто использовать функцию Read_CSV (), предоставленную Pands.

import pandas as pd
# reading csv files
data =  pd.read_csv('file.data', sep=",")
print(data)

# reading tsv files
data = pd.read_csv('otherfile.data', sep="\t")
print(data)

Этот метод также автоматически преобразует данные в DataFrame.

Ниже используется Образец файла CSV , который был переформатирован в .дата файл и доступ с использованием того же кода, как указано выше.

   Series reference                                        Description   Period  Previously published  Revised
0    PPIQ.SQU900000                 PPI output index - All industries   2020.06                  1183     1184
1    PPIQ.SQU900001         PPI output index - All industries excl OOD  2020.06                  1180     1181
2    PPIQ.SQUC76745  PPI published output commodity - Transport sup...  2020.06                  1400     1603
3    PPIQ.SQUCC3100  PPI output index level 3 - Wood product manufa...  2020.06                  1169     1170
4    PPIQ.SQUCC3110  PPI output index level 4 - Wood product manufa...  2020.06                  1169     1170
..              ...                                                ...      ...                   ...      ...
73   PPIQ.SQNMN2100  PPI input index level 3 - Administrative and s...  2020.06                  1194     1195
74   PPIQ.SQNRS211X     PPI input index level 4 - Repair & maintenance  2020.06                  1126     1127
75       FPIQ.SEC14  Farm expenses price index - Dairy farms - Freight  2020.06                  1102     1120
76       FPIQ.SEC99  Farm expenses price index - Dairy farms - All ...  2020.06                  1067     1068
77       FPIQ.SEH14    Farm expenses price index - All farms - Freight  2020.06                  1102     1110

[78 rows x 5 columns]

Как видите, он действительно дал нам dataframe в качестве вывода.

Каковы другие виды форматов для хранения данных?

Иногда метод по умолчанию для хранения данных просто не разрезает его. Итак, какие альтернативы работают с хранилищем файлов?

1. JSON FILES.

Как способ хранения информации, JSON это замечательная структура данных для работы, а огромная поддержка для JSON Модуль в Python Имеет ли интеграцию, казалось бы, безупречным.

Однако для того, чтобы работать с ним в Python, вам нужно импортировать JSON модуль в скрипте.

import json

Теперь после построения JSON Совместимая структура, метод хранения это простая операция файла с JSON DUMPS Отказ

# dumping the structure in the form of a JSON object in the file.
with open("file.json", "w") as f:
    json.dumps(['foo', {'bar': ('baz', None, 1.0, 2)}], f)
# you can also sort the keys, and pretty print the input using this module
with open("file.json", "w") as f:
    json.dumps(['foo', {'bar': ('baz', None, 1.0, 2)}], f, indent=4,  sort_keys=True)

Обратите внимание, что мы выпадаем в файл, используя переменную f .

Эквивалентная функция для извлечения информации от JSON Файл называется нагрузка Отказ

with open('file.json') as f:
    data = json.load(f)

Это дает нам структуру и информацию о JSON объект внутри файла.

2. сортиал

Обычно, когда вы храните информацию, информация сохраняется в формате необработанного строка, заставляя объект потерять его свойства, и нам нужно будет восстановить объект из строки через Python.

Модуль раскладки используется для борьбы с этой проблемой и был сделан для сериализации и десериализации структур объектов Python, так что его можно сохранить в файле.

Это означает, что вы можете хранить список через сортировку, и когда он загружен модулем сокола в следующий раз, вы не потеряете какие-либо свойства объекта списка.

Для того, чтобы использовать его, нам нужно импортировать Парил Модуль, нет необходимости устанавливать его, так как это часть стандартной библиотеки Python.

import pickle

Давайте создадим словарь для работы со всеми нашими файлами до сих пор.

apple = {"name": "Apple", "price": 40}
banana = {"name": "Banana", "price": 60}
orange = {"name": "Orange", "price": 30}

fruitShop = {}
fruitShop["apple"] = apple
fruitShop["banana"] = banana
fruitShop["orange"] = orange

Работа с модулем сокола, так же просто, как работает с JSON.

file = open('fruitPickles', 'ab') 
# the 'ab' mode allows for us to append to the file  
# in a binary format

# the dump method appends to the file
# in a secure serialized format.
pickle.dump(fruitShop, file)                      
file.close()

file = open('fruitPickles', 'rb')
# now, we can read from the file through the loads function.
fruitShop = pickle.load(file)
file.close()

Заключение

Теперь вы знаете, что .дата Файлы есть и как работать с ними. Наряду с этим вы также знаете другие варианты, доступные для проверки, чтобы хранить и получать данные.

Посмотрите на наши другие статьи для углубленного учебника по каждому из этих модулей – обработка файлов, рассол и JSON.

использованная литература