Прочитайте это в моем блоге
Задний план
После моя последняя визуализация данных Гарри Поттера Я решил использовать некоторые другие данные для создания облачных слов. Я огромный вентилятор Skyrim и всегда хотел научиться использовать скрипты XEDIT. В результате здесь я с другим облаком слова.
Отказ от ответственности: Много кода совместно между мой предыдущий проект и Вот этот
Визуализация
Получать данные
Мне не нравится открывать мою установку Windows (у меня есть двойная установка загрузки, и используйте Manjaro в основном) и оглянулся в Интернете для каких-либо данных Dump из диалогов Skyrim. К сожалению, я не мог найти никого, а затем решил извлечь данные сами. Я недавно отформатировал свой раздел Windows, поэтому пришлось переустановить игру. Он также предоставил преимущество, что никакие моды не загрязняют данные. (У меня было более 150 модов до формата). Я скачал последние Xedit и использовал Экспорт диалогов.PAS
Сценарий, который поставляется с ним, чтобы экспортировать все диалоги. (Мне потребовалось 22:05 минут).
Я собираюсь посмотреть в другие данные, которые я могу извлечь так, и, возможно, сделать некоторые другие вещи.
Обработка данных
В CSV было два столбца данных, которые меня интересуют Ответ текста & Тема текста Отказ Текст ответа был более крупным, с более 40 тысяч уникальных диалогов. Тема текст имел только около 5,5 тыс. Уникальных диалогов, а также необходима дополнительная обработка. Текст текста содержал некоторые игровые константы, такие как Сторона
, HorseCost
и другие цены, которые должны были быть отфильтровываться. Я сделал все это в csv_to_json.py
Отказ
Подсчитывать слова
Как Предыдущая визуализация Я использовал NLTK ‘ S Stopwords Corpus, наряду с модифицированной версией 20К самые распространенные слова от Google Отказ Интересно, что модификации, которые я сделал для Гарри Поттера, также действителен для Skyrim, потому что нет диалога с именами, такими как Гарри, Рон, Артур и т. Д., И они делятся словами, такими как вампиры, магия и т. Д.
Я подсчитал как текстовые данные и тема и тема темы отдельно, а затем объединил их в единый файл Count.json
Дополнительный совет: прогресс Это отличный пакет Python, чтобы показать прогресс в ваших сценариях.
Сделать WordCloud
Я использовал в значительной степени того же процесса, что и Последняя визуализация Отказ Я изменил максимальный размер шрифта, чтобы правильно изобразить вариант и использовал пользовательский шрифт на этот раз.
Чтобы сделать WordCloud, я использовал WordCloud упаковка. Для маски я использовал Skyrim logo вектор Отказ Для шрифта я использовал Совнгарде шрифт.
Сделать график
Я изначально планировал сделать набор графов из данных, но не смог по двум причинам:
- Некоторые из данных были странными. Аргеир имел самый высокий доступный диалог из-за диалогов многих NPC (в том числе General Tullius, думаю) назначен ему.
- Некоторые из данных не; производить интересные визуализации. Nords имеют наибольшее количество диалога, и после разницы между первыми несколькими гонками и оставшимися настолько огромны, что многие гонки не видны.
Поскольку я уже сделал это, я подумал об этом здесь, если кто-то заинтересован в образе или его коде.
Планы на будущее
Я посмотрю в создание пользовательских сценариев (если у кого-то уже есть их, делитесь со мной), чтобы извлечь другие интересные данные из Скайрима и посмотрим, что я могу сделать с ними.
Использованная литература:
- Ссылка на репозиторий
- Инструментарий натурального языка
- WordCloud упаковка
- Skyrim логотип вектор
- Советчик
- XEDIT.
- Гарри Поттер Книги и фанфик – анализ слов
Оригинал: “https://dev.to/haideralipunjabi/the-elder-scrolls-v-skyrim-special-edition-analysis-of-dialogues-2d1c”