Рубрики
Без рубрики

Недавно выпущенные наборы данных для ML/DL 💻

Ранее опубликовано в моем личном кредите в блоге: Рынок Все знают о наборах данных от … Tagged с помощью Data Science, Show Dev, Open Source, Python.

Ранее опубликовано на моем личный блог

Кредит: Рынок

Все знают о наборах данных из Kaggle и другие источники, такие как UCI , но сейчас у вас есть тройки данных, о которых вы можете не знать!

Тот, с которым вы, вероятно, не знаком, – это Обмен активами данных который представляет собой репо открытых наборов данных, недавно опубликованных в исследовательских группах предприятия. В этом году выпущено более 30 наборов данных с тонкой!

Люди, стоящие за этим усилием, от Центр данных с открытым исходным кодом и технологий AI (Codait) Организация, группа ученых данных и разработчики с открытым исходным кодом, посвященные облегчению использования с открытым исходным кодом. 🤗

Поразительная лама, изображенная в 4 стилях, доступных из ‘ Модель быстрого переноса нервного стиля ‘ Кодайт. Кредит: Ник Кастен

Где наборы данных?

Вы можете найти все наборы данных с открытым исходным кодом здесь.

Как их скачать?

Перейдите по ссылке выше и нажмите на набор данных. Затем, когда вы находитесь на целевой странице, нажмите Получите этот набор данных Анкет

Это все, что нужно!

Продолжайте читать, если вы хотите предварительно просмотреть свои данные перед загрузкой! Всегда разумно видеть, что вы загружаете в первую очередь.

Какие форматы данных?

Они приходят в CSV, JSON, WAV, JPG, PNG, IOB, HDF5 и другие в зависимости от того, для чего собираются данные.

Кредит: Винс МакКелви

Могу ли я посмотреть данные перед загрузкой?

Конечно! Здесь есть предварительные просмотра данных для всех наборов данных, где вы можете исследовать их перед загрузкой.

Давайте сосредоточимся на одном наборе данных в качестве примера, чтобы проверить это!

  1. Перейти к Наборы данных , затем нажмите на набор данных, который вас интересует. Это приведет вас на целевую страницу для определенного набора данных, например, этот набор данных, через который я собираюсь пройти: «IBM Debater® Wikipedia ориентированная родственность».

Смотрите синий прямоугольник на изображении, которое подчеркивает текст Предварительный просмотр данных и ноутбуков ?

  1. Нажмите на эту кнопку, которая приведет вас на такую страницу для набора данных:

Теперь вы можете просмотреть каждую вкладку, чтобы проверить это!

Я проймлю здесь каждую из этих 3 вкладок здесь, чтобы вы могли понять, почему они предоставлены для вас. Кредит: Квази -кристаллы

Метаданные набора данных

Метаданные набора данных Раздел показывает вам, для чего используется набор данных (домен), авторов и откуда он, а также для бизнеса о том, как вы можете использовать этот набор данных.

С набором данных IBM Debater® Wikipedia, ориентированным на родственность, бизнес -кейс:

Автоматизированное обслуживание клиентов: тренируйте чат -бот для маркировки и сравните тип концепции пользователя с списком доступных концепций, на которые может обсуждать чат -бот.

Предварительный просмотр набора данных

В Предварительный просмотр набора данных Вкладка, вы на самом деле видите значения набора данных такими, какие они есть, будь то изображения, POS (части речи), концепция происхождения и другие аспекты самого данных.

Глоссарий набора данных

И последнее, но не менее важное, Глоссарий набора данных Вкладка! Это для того, чтобы, если вы понятия не имеете, что означают определенные слова в наборе данных, глоссарий поможет вам более тщательно понимать термины. Я думаю, что это круто, потому что я склонен быть одним из тех людей. 🙃 Например, спрашивая кого -то, что такое «POS» во время анализа NGRAM.

Есть ли примеры, как использовать данные?

Это был мой вопрос! Да, я обнаружил, что есть пример записных книг Юпитера, представленные для каждого набора данных, в котором показан анализ с использованием ядра Python.

Вернитесь на главную страницу со всеми наборами данных здесь.

Затем нажмите на набор данных, который приведет его к целевой странице и пройдет процесс нажатия на Предварительный просмотр данных и ноутбуков Кнопка в правом верхнем праве страницы.

Затем вы увидите в навигационной панели окна эти кнопки:

Нажмите на Предварительный просмотр ноутбука Анкет

Это приведет вас прямо к ноутбуке, которая показывает, как начать или использовать набор данных в полном объеме!

Довольно круто, а?

Спасибо, что просмотрели этот короткий учебник по тому, что, где и как вы можете начать с наборов данных обмена активами данных через Codait.org команда!

3 любимые наборы данных DAX

«Набор данных состоит из 100 обсуждений, заполненных дискуссиями на форумах Ubuntu. Каждому сообщению в каждом отдельном потоке присваивается диалоговая метка из следующих восьми классов: вопрос, повторный вопрос, разъяснение, дополнительная информация, решение, положительная обратная связь, отрицательная обратная связь, мусор ».

«VTC содержит 7920 образцов, каждый из которых состоит из пары инструкций видео-текста и метки соблюдения/несоблюдения. Набор данных имеет более 1,2 миллиона кадров. Мы используем уникальный подход в сборе данных, чтобы набор данных мог быть автоматически дополнен из набора основных видео. Чтобы ответить на растущие проблемы в отношении конфиденциальности данных, мы тщательно следили за конфиденциальностью, сохраняя безопасные охраны в генерации набора данных VTC ».

” Набор данных Wikitext-103 представляет собой коллекцию из более чем 100 миллионов токенов, извлеченных из набора проверенных «хороших» и «представленных» статей о Википедии ».

Надеюсь, вам понравилась эта статья, прокомментируйте, если у вас есть какие -либо вопросы! 🐬

Кредит: Реблог

Оригинал: “https://dev.to/ibmdeveloper/newly-released-datasets-from-r-d-for-ml-dl-51d7”