Функции SMAIPL.RU: Работа с аудио и видео

Сообщество

Обучение

Поддержка

I'm available for business trips to other cities for projects lasting a month or longer.

Работа с аудио и видео

№38 Получение транскрипции видео с YouTube

Функция позволяет боту иметь доступ к тексту транскрипции видео на Youtube и работать с ним. Это может быть полезно для анализа содержания видео или создания заметок.
Параметры, которые можно передать в функцию get_youtube_transcript:

url - URL видео на YouTube, для которого вы хотите получить транскрипт.
Примеры использования:

"Мне нужен текст расшифровки для видео с URL: https://www.youtube.com/watch?v=abcdefghijk."

№89 Статистика видео на YouTube

Функция по ссылке на ролик YouTube возвращает статистику: "Статистика видео - Просмотры: 3347, Лайки: 410, Дизлайки: 0, Комментарии: 120".
Параметры, которые можно передать в функцию get_youtube_stats:

video_url - URL видео на YouTube, для которого нужно получить статистику.
Примеры использования:

"Пожалуйста, получи статистику для видео по URL https://www.youtube.com/watch?v=dQw4w9WgXcQ."

"Скажи мне, сколько просмотров и лайков у видео на YouTube с URL https://www.youtube.com/watch?v=abcdefghijk."

№90 Распознавание MP3

Функция получает ссылку на MP3 файл и с помощью методов асинхронного распознавания Яндекса возвращает текстовый файл с результатом.
Параметры, которые можно передать в функцию yandex_transcribe_audio:

audioURL - URL аудиофайла, который нужно распознать.
languageCode - код языка, по умолчанию ru-RU. Пример: languageCode: "en-US".
audio_model - модель распознавания, по умолчанию general. Доступные варианты: ["general"].
profanityFilter - фильтр ненормативной лексики, по умолчанию False.
literature_text - включает режим нормализации, по умолчанию False.
audioEncoding - формат аудиофайла, по умолчанию MP3. Доступные варианты: ["LINEAR16_PCM", "OGG_OPUS", "MP3"].
sampleRateHertz - частота дискретизации аудио. Этот параметр обязателен, если значение audioEncoding равно LINEAR16_PCM. Пример: sampleRateHertz: 16000.
audioChannelCount - количество аудиоканалов, по умолчанию равно 1.
Примеры использования:

Если ты получишь ссылку на файл .mp3, то сразу вызови функцию распознавания с параметрами:
{
'languageCode' : '',
'model' : 'general',
'profanityFilter' : False,
'literature_text' : False,
'audioEncoding' : 'MP3',
'audioChannelCount' : 1,
'rawResults' : False,
}
bucket_name = 'protalkstt'

№131 Скачивание аудио с YouTube

Функция позволяет получить аудио дорожку из видео на YouTube, используя ссылку на ролик. Это может быть полезно для извлечения музыки или звукового контента из видео.
Параметры, которые можно передать в функцию download_youtube_audio:

video_url - ссылка на ролик на YouTube.
Примеры использования:

"Cкачай аудио дорожку из видео по ссылке 'https://www.youtube.com/watch?v=dQw4w9WgXcQ'."

№159 Озвучивание файлов ElevenLabs

Функция позволяет озвучивать текст из файлов различных форматов PDF, DOCX, XLSX, PPTX с использованием API ElevenLabs. Это может быть полезно для создания аудиоверсий документов.
Параметры, которые можно передать в функцию file_to_speach:

file_url - ссылка на файл в формате PDF, DOCX, XLSX, PPTX.
elevellabs_api_key - API ключ от ElevenLabs, необходимый для доступа к сервису.
voice_id - ID голоса ElevenLabs, который будет использоваться для озвучивания.
limit - количество символов для озвучивания. По умолчанию равно 200.
stability - стабильность голоса. По умолчанию равно 5.
similarity_boost - похожесть голоса. По умолчанию равно 5.
Примеры использования:

"Пожалуйста, озвучь файл по ссылке 'https://example.com/document.pdf' с использованием API ключа 'your_api_key_here', голосом с ID 'voice_123', ограничением в 300 символов, стабильностью 7 и похожестью 6."

"Создай аудиоверсию документа по ссылке 'https://example.com/presentation.pptx' с API ключом 'your_api_key_here' и голосом 'voice_456', используя стандартные параметры для лимита, стабильности и похожести."

№160 Озвучивание текста ElevenLabs

Функция позволяет озвучивать текст с использованием API ElevenLabs. Это может быть полезно для создания аудиоверсий текстов, таких как статьи, сообщения или любые другие текстовые данные.
Параметры, которые можно передать в функцию text_to_speach_elevenlabs:

text - текст для озвучки.
elevellabs_api_key - API ключ от ElevenLabs, необходимый для доступа к сервису.
voice_id - ID голоса ElevenLabs, который будет использоваться для озвучивания.
limit - количество символов для озвучивания. По умолчанию равно 200.
stability - стабильность голоса. По умолчанию равно 5.
similarity_boost - похожесть голоса. По умолчанию равно 5.
Примеры использования:

"Озвучь текст: 'Добро пожаловать в наш сервис!' с использованием API ключа 'your_api_key_here', голосом с ID 'voice_123', ограничением в 150 символов, стабильностью 6 и похожестью 7."
"Создай аудиоверсию текста: 'Сегодня прекрасный день для прогулки.' с API ключом 'your_api_key_here' и голосом 'voice_456', используя стандартные параметры для лимита, стабильности и похожести."

№180 Задать вопрос к видео на YouTube

Функция позволяет отправить вопрос к видео на YouTube и получить ответ, используя модель OpenAI. Это полезно для получения информации или анализа содержимого видео.
Параметры, которые можно передать в функцию question_youtube_video:

openai_api_key - API ключ OpenAI. Это строка, необходимая для аутентификации при использовании API OpenAI. Она передается автоматически.
model - модель OpenAI для обработки запроса. Она передается автоматически.
video_url - URL видео на YouTube. Это адрес видео, к которому вы хотите задать вопрос.
question - вопрос к видео. Это текст, который вы хотите задать относительно содержимого видео.
Примеры использования:

"Мне нужно получить ответ на вопрос 'Что происходит в этом видео?' 'https://www.youtube.com/watch?v=abcdefghijk'"

№261 Создания 3D аватара от HedraAI

Функция позволяет создать говорящего персонажа, используя изображение и текст, который он будет произносить. Это может быть полезно для создания анимаций, презентаций или интерактивных приложений.
Параметры, которые можно передать в функцию hedera_generate_talking_character:

image_url - URL изображения для персонажа. Указывает ссылку на изображение, которое будет использоваться для создания персонажа.
text - текст, который персонаж будет произносить. Указывает, что именно нужно сказать персонажу.
api_key - API ключ для аутентификации. Указывает ключ, необходимый для доступа к API.
voice_id - ID голоса для персонажа. Указывает, какой голос будет использоваться. По умолчанию: "Mg1264PmwVoIedxsF9nu" для мужского голоса и "LcfcDJNUP1GQjkzn1xUU" для женского голоса.
Примеры использования:

"Пожалуйста, создайте говорящего персонажа с изображением по ссылке 'https://example.com/character.png', который скажет 'Привет, я ваш виртуальный помощник!' с использованием мужского голоса."

"Сгенерируйте персонажа с изображением 'https://example.com/avatar.jpg', который произнесет 'Добро пожаловать!' с женским голосом."

№282 Генерация видео из текста

Функция позволяет генерировать видео на основе предоставленного текста. Генерация видео по тексту. Нужен свой ключ. Доступные ИИ модели:
1. Kling Standart Text-to-Video
2. Kling Pro V1.5 Text-to-Video
3. Haiper 2.0 Text-to-Video.
Параметры, которые можно передать в функцию vsegpt_text_to_video:

text - текст для генерации видео. Это строка, представляющая содержание, на основе которого будет создано видео.
aspect_ratio - соотношение сторон. Это строка, указывающая желаемое соотношение сторон видео. Доступные варианты: "16:9" по умолчанию и "9:16".
ai_model - ИИ модель для генерации. Это строка, указывающая, какую модель ИИ использовать для создания видео. Доступные варианты: "txt2vid-haiper-video-v2" по умолчанию , "txt2vid-kling/standart".
Примеры использования:

"Создай видео на основе текста 'Как приготовить пасту' с соотношением сторон 16:9, используя модель 'txt2vid-haiper-video-v2'."

Задайте нам вопрос

Укажите ваше имя, тему вопроса

Отправить сообщение

Мы ответим на все ваши вопросы и поможем с настройкой бота