Рубрики
Без рубрики

XML, делая все немного сложнее.

Итак, вот забавное упражнение в XML, стандартах и каталогах данных. Я работаю над тем, чтобы пригласить кучу … с меткой Python, XML, стандартами.

Итак, вот забавное упражнение в XML, стандартах и каталогах данных.

Я работаю над тем, чтобы пригласить кучу записей из различных каталогов данных, различных типов. Один, на который я сейчас смотрю, использует Oai-pmh Анкет К счастью, есть хорошая маленькая библиотека Python под названием Серп Это абстрагирует большую часть боли. Пока вы не будете иметь дело с не Дублинными наборами данных.

Серп действительно позволяет вам Подключите анализатор Для других типов (о, hi xpath, я не скучал по тебе вообще )

Набор данных, который я использую, использует Anzlic Profile Для OAI-PMH (забавная примечание, официальное репо для информации имела сломанную ссылку , потому что BitRot даже приходит для комитетов ISO.) Это более выгодное имя «AS/NZS ISO 19115.1: 2015 Метаданные».

Поэтому мне нужно написать пользовательский анализатор для этого.

Затем я нажимаю это, когда ищу ключевые слова в записи данных.


  
    
      040104
    
    
      
        
          Australian and New Zealand Standard Research Classification
        
        
          ANZSRC
        
        
          
            
              2008
            
            
              creation
            
          
        
      
    
  

Что на Земля Это чепуха? Таким образом, мы можем игнорировать бит кода даты (Fun Sidenote, домен asdd.ga.gov.au больше не существует, к счастью, это не важно – я считаю, что я могу интерпретировать «2008» как дата без файла XSD)

Так очевидно 040104 это ссылка на что -то.

Куча гугливых и уставившихся на стену, наконец, привела меня к Австралийскому бюро статистики, в частности, к стандартному 1297.0 Австралийская и новозеландская стандартная классификация (2008) текущая версия.

Оттуда вы можете перейти на вкладку загрузки и найти таблицу, где она отображает коды 2008 года на коды 2020 года. В 1,5 МБ файл Excel. Поэтому я экспортировал соответствующие биты кодов 2008 года, бросаю их в небольшой DB SQLite и в конечном итоге с 040104, процессы изменения климата

Итак, все это XML выше? Это могло быть просто

< Ключевое слово> процессы изменения климата

Но нет.

Оригинал: “https://dev.to/anthonyb/xml-making-everything-just-a-little-bit-harder-nna”