Старейшины Scrolls V: Skyrim Специальное издание - Анализ диалогов

Прочитайте это в моем блоге

Задний план

После моя последняя визуализация данных Гарри Поттера Я решил использовать некоторые другие данные для создания облачных слов. Я огромный вентилятор Skyrim и всегда хотел научиться использовать скрипты XEDIT. В результате здесь я с другим облаком слова.

Отказ от ответственности: Много кода совместно между мой предыдущий проект и Вот этот

Визуализация

Получать данные

Мне не нравится открывать мою установку Windows (у меня есть двойная установка загрузки, и используйте Manjaro в основном) и оглянулся в Интернете для каких-либо данных Dump из диалогов Skyrim. К сожалению, я не мог найти никого, а затем решил извлечь данные сами. Я недавно отформатировал свой раздел Windows, поэтому пришлось переустановить игру. Он также предоставил преимущество, что никакие моды не загрязняют данные. (У меня было более 150 модов до формата). Я скачал последние Xedit и использовал Экспорт диалогов.PAS Сценарий, который поставляется с ним, чтобы экспортировать все диалоги. (Мне потребовалось 22:05 минут).

Я собираюсь посмотреть в другие данные, которые я могу извлечь так, и, возможно, сделать некоторые другие вещи.

Обработка данных

В CSV было два столбца данных, которые меня интересуют Ответ текста & Тема текста Отказ Текст ответа был более крупным, с более 40 тысяч уникальных диалогов. Тема текст имел только около 5,5 тыс. Уникальных диалогов, а также необходима дополнительная обработка. Текст текста содержал некоторые игровые константы, такие как Сторона , HorseCost и другие цены, которые должны были быть отфильтровываться. Я сделал все это в csv_to_json.py Отказ

Подсчитывать слова

Как Предыдущая визуализация Я использовал NLTK ‘ S Stopwords Corpus, наряду с модифицированной версией 20К самые распространенные слова от Google Отказ Интересно, что модификации, которые я сделал для Гарри Поттера, также действителен для Skyrim, потому что нет диалога с именами, такими как Гарри, Рон, Артур и т. Д., И они делятся словами, такими как вампиры, магия и т. Д.

Я подсчитал как текстовые данные и тема и тема темы отдельно, а затем объединил их в единый файл Count.json

Дополнительный совет: прогресс Это отличный пакет Python, чтобы показать прогресс в ваших сценариях.

Сделать WordCloud

Я использовал в значительной степени того же процесса, что и Последняя визуализация Отказ Я изменил максимальный размер шрифта, чтобы правильно изобразить вариант и использовал пользовательский шрифт на этот раз.

Чтобы сделать WordCloud, я использовал WordCloud упаковка. Для маски я использовал Skyrim logo вектор Отказ Для шрифта я использовал Совнгарде шрифт.

Сделать график

Я изначально планировал сделать набор графов из данных, но не смог по двум причинам:

Некоторые из данных были странными. Аргеир имел самый высокий доступный диалог из-за диалогов многих NPC (в том числе General Tullius, думаю) назначен ему.
Некоторые из данных не; производить интересные визуализации. Nords имеют наибольшее количество диалога, и после разницы между первыми несколькими гонками и оставшимися настолько огромны, что многие гонки не видны.

Поскольку я уже сделал это, я подумал об этом здесь, если кто-то заинтересован в образе или его коде.

Планы на будущее

Я посмотрю в создание пользовательских сценариев (если у кого-то уже есть их, делитесь со мной), чтобы извлечь другие интересные данные из Скайрима и посмотрим, что я могу сделать с ними.

Использованная литература:

Оригинал: “https://dev.to/haideralipunjabi/the-elder-scrolls-v-skyrim-special-edition-analysis-of-dialogues-2d1c”