Автор оригинала: Pankaj Kumar.
Как читать файлы .data в Python?
Работая с входом в данные и сбор данных для моделей обучения, мы столкнулись с .данные файлы Отказ
Это расширение файла, используемое несколькими программами для хранения данных, один из таких примеров будет Анализ студии , специализирующийся на Статистический анализ и Добыча данных Отказ
Работа с .дата Расширение файла довольно простое и более или менее идентифицировано так, как данные отсортированы, а затем с помощью команд Python для соответственно доступа к файлу.
Что такое файл .data?
.дата Файлы были разработаны как средство для хранения данных.
Много времени, данные в этом формате либо размещены в Comma разделенная стоимость Формат или вкладка разделенная стоимость формат.
Наряду с этим вариантом файл также может быть в формате текстового файла или в двоичном. В этом случае нам будет нуждаться в доступе к нему в другом методе.
Мы будем работать с .csv Файлы для этой статьи, но давайте сначала определим, будет ли содержание файла в тексте или в двоичном режиме.
Определение данных внутри файлов .data
.дата Файлы проходят два разных варианта, а сам файл либо в виде текста, либо в двоичном порядке.
Для того, чтобы выяснить, какой он принадлежит, нам нужно будет загрузить его и проверить его для себя.
Давайте начнем!
1. Тестирование: текстовый файл
Файлы .data могут в основном существовать в качестве текстовых файлов, и доступ к файлам в Python довольно прост.
Будучи предварительно построенным в качестве функции, включенной в Python, нам не нужно импортировать любой модуль, чтобы работать с обработкой файлов.
Что говорят, как сказал, как открыть, читать и писать в файл в Python как таковой:
# reading from the file file = open("biscuits.data", "r") file.read() file.close() # writing to the file file = open("biscuits.data", "w") file.write("Chocolate Chip") file.close()
2. Тестирование: двоичный файл
Файлы .data также могут быть в форме двоичных файлов. Это означает, что то, как мы должны получить доступ к файлу, также необходимо изменить.
Мы будем работать с двоичным способом Чтение и запись в файл В этом случае режим – RB или Читать двоичные Отказ
# reading from the file file = open("biscuits.data", "rb") file.read() file.close() # writing to the file file = open("biscuits.data", "wb") file.write("Oreos") file.close()
Файловые операции относительно легко понять в Python, и стоит посмотреть, если вы хотите увидеть различные режимы доступа к файлу и методы для доступа к ним.
Либо один из этих подходов должен работать, и должен предоставить вам метод для получения информации относительно содержимого, хранящегося внутри .дата файл.
Теперь, когда мы знаем, в каком формате присутствует файл, мы можем работать с Pands для создания DataFrame для CSV файл.
3. Используя Pandas для чтения файлов .data
Простой метод для извлечения информации из этих файлов после проверки приведенного типа содержимого будет просто использовать функцию Read_CSV (), предоставленную Pands.
import pandas as pd # reading csv files data = pd.read_csv('file.data', sep=",") print(data) # reading tsv files data = pd.read_csv('otherfile.data', sep="\t") print(data)
Этот метод также автоматически преобразует данные в DataFrame.
Ниже используется Образец файла CSV , который был переформатирован в .дата файл и доступ с использованием того же кода, как указано выше.
Series reference Description Period Previously published Revised 0 PPIQ.SQU900000 PPI output index - All industries 2020.06 1183 1184 1 PPIQ.SQU900001 PPI output index - All industries excl OOD 2020.06 1180 1181 2 PPIQ.SQUC76745 PPI published output commodity - Transport sup... 2020.06 1400 1603 3 PPIQ.SQUCC3100 PPI output index level 3 - Wood product manufa... 2020.06 1169 1170 4 PPIQ.SQUCC3110 PPI output index level 4 - Wood product manufa... 2020.06 1169 1170 .. ... ... ... ... ... 73 PPIQ.SQNMN2100 PPI input index level 3 - Administrative and s... 2020.06 1194 1195 74 PPIQ.SQNRS211X PPI input index level 4 - Repair & maintenance 2020.06 1126 1127 75 FPIQ.SEC14 Farm expenses price index - Dairy farms - Freight 2020.06 1102 1120 76 FPIQ.SEC99 Farm expenses price index - Dairy farms - All ... 2020.06 1067 1068 77 FPIQ.SEH14 Farm expenses price index - All farms - Freight 2020.06 1102 1110 [78 rows x 5 columns]
Как видите, он действительно дал нам dataframe в качестве вывода.
Каковы другие виды форматов для хранения данных?
Иногда метод по умолчанию для хранения данных просто не разрезает его. Итак, какие альтернативы работают с хранилищем файлов?
1. JSON FILES.
Как способ хранения информации, JSON это замечательная структура данных для работы, а огромная поддержка для JSON Модуль в Python Имеет ли интеграцию, казалось бы, безупречным.
Однако для того, чтобы работать с ним в Python, вам нужно импортировать JSON
модуль в скрипте.
import json
Теперь после построения JSON Совместимая структура, метод хранения это простая операция файла с JSON DUMPS
Отказ
# dumping the structure in the form of a JSON object in the file. with open("file.json", "w") as f: json.dumps(['foo', {'bar': ('baz', None, 1.0, 2)}], f) # you can also sort the keys, and pretty print the input using this module with open("file.json", "w") as f: json.dumps(['foo', {'bar': ('baz', None, 1.0, 2)}], f, indent=4, sort_keys=True)
Обратите внимание, что мы выпадаем в файл, используя переменную f .
Эквивалентная функция для извлечения информации от JSON Файл называется нагрузка
Отказ
with open('file.json') as f: data = json.load(f)
Это дает нам структуру и информацию о JSON объект внутри файла.
2. сортиал
Обычно, когда вы храните информацию, информация сохраняется в формате необработанного строка, заставляя объект потерять его свойства, и нам нужно будет восстановить объект из строки через Python.
Модуль раскладки используется для борьбы с этой проблемой и был сделан для сериализации и десериализации структур объектов Python, так что его можно сохранить в файле.
Это означает, что вы можете хранить список через сортировку, и когда он загружен модулем сокола в следующий раз, вы не потеряете какие-либо свойства объекта списка.
Для того, чтобы использовать его, нам нужно импортировать Парил
Модуль, нет необходимости устанавливать его, так как это часть стандартной библиотеки Python.
import pickle
Давайте создадим словарь для работы со всеми нашими файлами до сих пор.
apple = {"name": "Apple", "price": 40} banana = {"name": "Banana", "price": 60} orange = {"name": "Orange", "price": 30} fruitShop = {} fruitShop["apple"] = apple fruitShop["banana"] = banana fruitShop["orange"] = orange
Работа с модулем сокола, так же просто, как работает с JSON.
file = open('fruitPickles', 'ab') # the 'ab' mode allows for us to append to the file # in a binary format # the dump method appends to the file # in a secure serialized format. pickle.dump(fruitShop, file) file.close() file = open('fruitPickles', 'rb') # now, we can read from the file through the loads function. fruitShop = pickle.load(file) file.close()
Заключение
Теперь вы знаете, что .дата Файлы есть и как работать с ними. Наряду с этим вы также знаете другие варианты, доступные для проверки, чтобы хранить и получать данные.
Посмотрите на наши другие статьи для углубленного учебника по каждому из этих модулей – обработка файлов, рассол и JSON.