Рубрики
Без рубрики

Запустите рабочие процессы с помощью машинного обучения для преобразования данных и создания текстовых индексов с AI с помощью txtai

txtai выполняет рабочие процессы машинного обучения для преобразования данных и создания текстовых индексов с AI для PE … Tagged MachineLearning, NLP, Python, Showdev.

txtai Выполняет рабочие процессы машинного обучения для преобразования данных и создания текстовых индексов с AI, чтобы выполнить поиск сходства. TXTAI поддерживает индексацию текстовых фрагментов, документов, аудио и изображений. Трубопроводы и рабочие процессы позволяют трансформировать данные с помощью моделей машинного обучения. Введение в TXTAI доступно в статье ниже.

Представляем txtai, Поисковая система с AI, основанная на трансформаторах

С момента первоначального выпуска TXTAI в августе 2020 года Txtai значительно вырос. В дополнение к индексам встраивания построения, TXTAI теперь поддерживает преобразования для подготовки данных для индексации через трубопроводы, рабочие процессы для объединения трубопроводов, привязки API для JavaScript/Java/Rust/Go и возможность масштабировать обработку. Эта статья будет охватывать методы для вектора данных, машинного обучения и рабочих процессов.

Векторные данные

Txtai первоначально поддерживал строительные индексы над разделами текста. Txtai теперь поддерживает документы, аудио и изображения. Документы и аудио будут показаны ниже в разделах трубопроводов. В этом разделе будет показано, как векторизировать изображения и запустить поиск сходства.

ПРЕДЛОЖЕНИЯ Трансформаторы Недавно добавлена поддержка Openai Clip Model . Эта модель встраивает текст и изображения в одно и то же пространство, что позволяет поиску сходства изображений. txtai может напрямую использовать эти модели.

код Выше строит индекс сходства каталога изображений и поиска с использованием запроса. Запустите его на своих собственных изображениях и изучите результаты!

Трубопроводы

Txtai имеет растущий список моделей, доступных через его трубопровод. Трубопроводы обертывают модель машинного обучения и преобразуют данные. В настоящее время трубопроводы могут обернуть модели трансформаторов обнимающегося лица, обнимать конвейеры с трансформаторами лица или модели Pytorch (поддержка Tensorflow находится в отставании).

Ниже приведен список реализованных в настоящее время трубопроводов.

  • Вопросы – Ответьте на вопросы, используя текстовый контекст

  • Ярлыки – Примените этикетки к тексту, используя модель классификации с нулевым выстрелом. Также поддерживает сравнения сходства.

  • Резюме – Абстрактное текстовое обобщение

  • Textractor – Извлечь текст из документов

  • Транскрипция – транскрибировать звук в текст

  • Перевод – Машинный перевод

Трубопроводы принимают входные данные, применяют преобразования NLP и результаты возврата. Следующие ноутбуки проходят примеры каждого из приведенных выше трубопроводов.

Абстрактная суммирование

Абстрактная суммирование использует модели обработки естественного языка (NLP) для создания преобразующих резюме текста. Это похоже на то, что человек прочитал статью и спрашивает, о чем это было. Человек не просто даст словесное чтение текста. Давайте посмотрим на пример.

Раздел выше отпечатки:

Search is the foundation of the internet

Полный пример можно найти в ноутбуке, связанном ниже.

Создайте абстрактные текстовые резюме

Извлечение текста

В этом разделе показано, как документы могут получить текст, извлеченный для наилучшего поиска сходства.

Раздел выше отпечатки:

Introducing txtai, an AI-powered search engine built on Transformers Add Natural Language Understanding to any application Search is the base of many applications. Once data starts to pile up, users want to be able to find it. It's the foundation.....

Полный пример можно найти в ноутбуке, связанном ниже. В этом примере показано, как текст может быть разделен/сегментирован, чтобы помочь в строительстве разделов текста для индекса.

Извлечь текст из документов

Аудио транскрипция

Объятие Transformers предоставляет ряд моделей, которые могут выполнять аудио транскрипцию (аудио в текст).

Раздел выше отпечатки:

Make huge profits without working make up to one hundred thousand dollars a day

Полный пример можно найти в ноутбуке, связанном ниже.

Транскрибировать аудио по тексту

Перевести текст между языками

Этот раздел охватывает машинный перевод, поддерживаемый моделями трансформаторов лица. Качество машинного перевода с помощью облачных сервисов прошло очень долгий путь и дает высококачественные результаты. Следующее показывает, как местные модели могут дать разработчикам разумную альтернативу.

Раздел выше отпечатки:

Esta es una traducción de prueba al español

Полный пример можно найти в ноутбуке, связанном ниже.

Транскрибировать текст между языками

Рабочие процессы

Трубопроводы великолепны и облегчают использование различных моделей машинного обучения. Но что, если мы хотим вместе приклеить результаты различных трубопроводов? Например, извлечь текст, суммируйте его, переведите его на английский язык и загрузите в индекс встраивания. Это потребовало бы кода для эффективного объединения этих операций.

Введите рабочие процессы. Рабочие процессы – это простая, но мощная конструкция, которая принимает вызов и возвращает элементы. Рабочие процессы не знают, что они работают с трубопроводами, но обеспечивают эффективную обработку данных трубопровода. Рабочие процессы транслируются по своей природе и работают над данными партий, что позволяет эффективно обрабатывать большие объемы данных.

Пример выше транскрибирует аудио в текст, а затем переводит текст на французский.

["Les cas de virus U sont en tête d'un million",
 "La dernière plate-forme de glace entièrement intacte du Canada s'est soudainement effondrée en formant un berge de glace de taille manhatten",
 "Bagage mobilise les embarcations d'invasion le long des côtes à mesure que les tensions tiwaniennes s'intensifient",
 "Le service des parcs nationaux met en garde contre le sacrifice d'amis plus lents dans une attaque nue",
 "L'homme principal gagne du billet de loterie",
 "Faire d'énormes profits sans travailler faire jusqu'à cent mille dollars par jour"]

Этот пример и дополнительные примеры, включая сложный рабочий процесс, который суммирует текст, переводит текст на французский язык, а затем создает индекс встраивания, можно найти в ноутбуке ниже.

Запустите рабочие процессы трубопровода

Завершая

Все обсуждаемые функции теперь доступны в основной ветви на GitHub и будут в предстоящем выпуске V3.0. Txtai продолжает быстро развиваться, и будет продолжаться продолжение добавления новых трубопроводов. Способность горизонтально масштабироваться на уровне трубопровода и рабочего процесса также является постоянной областью развития.

Цель TXTAI – быть достаточно простой, чтобы работать на ноутбуке, но способность масштабироваться в кластерных/облачных системах.

Оригинал: “https://dev.to/neuml/run-machine-learning-workflows-to-transform-data-and-build-ai-powered-text-indices-with-txtai-14o”