Как часть моего проекта Самоустановленная альтернатива Zapier ; Мне приходится иметь дело с поиском Regex на трех японских письменных формах, Канзи, Хирагане и Катакане.
К счастью, это общая проблема. Поэтому я нашел некоторые ссылки на это. Также один из моих любимых инструментов для разработки выражений Regex, Regex101 , также предлагает поддержку в этой области.
Я нашел это полезное Github Суть. Примечание: Вы также должны проверить глотку напрямую, так как есть некоторые комментарии и дополнения. Посмотреть здесь
Использование Regex101. Я смог придумать следующее выражение.
r" ^「(?P[一-龯]\d{1,2})\s (?P [一-龯]+)行き・ (?P [一-龯]+)」 "
Это успешно сопоставит такую строку, как: 「渋 11 渋谷 駅 行き · 駒沢 大学 駅 前」 タッチ し まし ましまし.
В результате следующих трех групп. busname назначения награда
Если вы работаете в PHP, вы также можете использовать следующее: \ p {han}
(Используя китайский, чтобы соответствовать кандзи) \ p {hiragana}
\ p {Катакана}
Вы также можете оформить заказ моих экспериментов Regex: V1 PHP v2 Python3.
Оригинал: “https://dev.to/basman/working-with-double-byte-regex-expressions-with-python3-3888”