Есть очень старый Выпуск Что касается «обнаружения кодирования» в текстовом файле, который был частично решен программой, такой как Chardet Отказ Мне не понравилась идея одного пробировщика в таблице кодирования, которые могут привести к жестким характеристикам кодирования.
Я хотел бросить вызов существующим методам открытия исходного кодирования.
Вы могли бы рассмотреть этот вопрос как устаревшие из-за текущих норм:
Вы должны указать использованный кодировку Charset, как описано в стандартах
Но реальность отличается, огромная часть Интернета все еще имеет контент с неизвестным кодировкой. (Можно было указать на экземпляре подкропа субтитров (SRT))
Вот почему популярный пакет, как Запросы встроить Chardet, чтобы угадать очевидное кодирование на удаленных ресурсах.
Ты должен знать что:
- Вам не следует заботиться о исходном кодировании Charset, что, поскольку две разные таблицы могут производить два одинаковых файла.
- BOM ( BYTE MARK MARK ) не универсален и касается только крошечного количества кодировков и не только Unicode!
Я грубо принудительный на три помещения (в этом порядке):
- Бинарные файлы подходят для кодирования таблицы
- Хаос
- Когерентность
Хаос: Я открыл сотни текстовых файлов, написанных людьми, с неправильной таблицей кодирования. Я заметил, что я установил некоторые основные правила о том, что очевидно, когда кажется беспорядком. Я знаю, что моя интерпретация того, что такое хаотично, очень субъективно, не стесняйтесь способствовать улучшению или переписанию.
Когерентность: Для каждого языка на земле есть на Земле (лучшее, что мы можем), мы вычислили вступившие в эксплуатации письма. Поэтому я думал, что эти Intel стоят чего-то здесь. Поэтому я использую эти записи против декодированного текста, чтобы проверить, смогу ли я обнаружить интеллектуальную конструкцию.
Так что я представляю тебе Обратный нормализатор Отказ Настоящий первый универсальный детектор Charset.
Не стесняйтесь помочь через тестирование или способствовать.
Оригинал: “https://dev.to/ousret/how-i-used-brute-force-where-i-least-expected-it-3c3l”