Рубрики
Без рубрики

Как я использовал грубую силу, где я меньше всего, ожидал

Существует очень старая проблема в отношении «обнаружения кодирования» в текстовом файле, который был частично резолью … Теги с Python, Challenge.

Есть очень старый Выпуск Что касается «обнаружения кодирования» в текстовом файле, который был частично решен программой, такой как Chardet Отказ Мне не понравилась идея одного пробировщика в таблице кодирования, которые могут привести к жестким характеристикам кодирования.

Я хотел бросить вызов существующим методам открытия исходного кодирования.

Вы могли бы рассмотреть этот вопрос как устаревшие из-за текущих норм:

Вы должны указать использованный кодировку Charset, как описано в стандартах

Но реальность отличается, огромная часть Интернета все еще имеет контент с неизвестным кодировкой. (Можно было указать на экземпляре подкропа субтитров (SRT))

Вот почему популярный пакет, как Запросы встроить Chardet, чтобы угадать очевидное кодирование на удаленных ресурсах.

Ты должен знать что:

  • Вам не следует заботиться о исходном кодировании Charset, что, поскольку две разные таблицы могут производить два одинаковых файла.
  • BOM ( BYTE MARK MARK ) не универсален и касается только крошечного количества кодировков и не только Unicode!

Я грубо принудительный на три помещения (в этом порядке):

  • Бинарные файлы подходят для кодирования таблицы
  • Хаос
  • Когерентность

Хаос: Я открыл сотни текстовых файлов, написанных людьми, с неправильной таблицей кодирования. Я заметил, что я установил некоторые основные правила о том, что очевидно, когда кажется беспорядком. Я знаю, что моя интерпретация того, что такое хаотично, очень субъективно, не стесняйтесь способствовать улучшению или переписанию.

Когерентность: Для каждого языка на земле есть на Земле (лучшее, что мы можем), мы вычислили вступившие в эксплуатации письма. Поэтому я думал, что эти Intel стоят чего-то здесь. Поэтому я использую эти записи против декодированного текста, чтобы проверить, смогу ли я обнаружить интеллектуальную конструкцию.

Так что я представляю тебе Обратный нормализатор Отказ Настоящий первый универсальный детектор Charset.

Не стесняйтесь помочь через тестирование или способствовать.

Оригинал: “https://dev.to/ousret/how-i-used-brute-force-where-i-least-expected-it-3c3l”