Работа с документами и текстом

Функция позволяет отправив боту ссылку на страницу сайта попросить его проанализировать содержание и например выдать какой-то анализ или краткое содержание или написать пост об этом.
Параметры, которые можно передать в функцию get_text_from_url:

url - адрес сайта. Указывает полный URL, с которого будет извлекаться информация.
Примеры использования:

"Пожалуйста, получи текст с сайта https://example.com."
Функция переводит файлы форматов PDF, DOC, XLS, PPT в текст. Функция позволяет читать файл по указанному URL и извлекать текст с поддержкой кириллицы.
Параметры, которые можно передать в функцию read_file_from_url:

url - URL файла. Это строка, указывающая на местоположение файла в интернете.
file_type - тип файла для чтения. Это строка, которая указывает на формат файла. Возможные значения: "PDF", "DOC", "DOCX", "XLS", "XLSX", "PPT", "PPTX".
Примеры использования в тексте промпта:

"Мне нужно извлечь текст из файла по ссылке 'https://example.com/presentation.pptx', тип файла 'PPTX'."
Функция проводит анализ документа по URL ссылке методом суммаризации. Допустимые форматы: PDF, DOC, DOCX, XLS, XLSX, PPTX и ссылка на документ Google. Анализ документа по URL с использованием OpenAI API. Вы можете задать вопрос к документу и получить краткий ответ в заданном лимите символов.
Параметры, которые можно передать в функцию ai_doc_summarize:

url - URL документа, который нужно проанализировать. Пример: url: "https://example.com/document.pdf".
limit - максимальная длина текста в символах в итоговом результате. По умолчанию 2000 символов. Пример: limit: 1500.
user_question - дословный вопрос пользователя к документу.
Примеры использования:

"Пожалуйста, проанализируй документ по URL https://example.com/document.pdf и ответь на вопрос: 'Каковы основные выводы документа?'"
"Сделай краткий обзор документа с URL https://example.com/report.pdf, ответив на вопрос: 'Что нового в этом отчете?'"
Данная функция позволит построчно пройти большой документ блоками и обработать каждый блок вашим запросом. Затем этот вопрос будет задан всему документу целиком.
Параметры, которые можно передать в функцию ai_doc_analyze:

url - URL документа, который вы хотите проанализировать.
role - роль ИИ для оптимального выполнения поставленной пользователем задачи. user_question - дословная формулировка задачи от пользователя относительно данного документа. Если задача не понятна, требуется уточнить её у пользователя. answer_in_dialog - вернуть ответ в диалог. По умолчанию значение False.
Примеры использования:

"Проанализируй документ по URL 'https://example.com/document.pdf', установи роль 'Ты - переводчик текстов' и задай вопрос: 'Какова основная идея этого документа?'. Верни ответ в диалог."
Функция позволяет распознавать рукописный текст из изображения или файла, используя URL, по которому доступен этот файл.
Параметры, которые можно передать в функцию handwriting_recognition:

file_url - ссылка на файл URL файла или изображение URL фото с рукописным текстом. Формат файла в ссылке не важен.
Примеры использования:

"Распознай рукописный текст из изображения по ссылке 'https://example.com/image_with_handwriting.jpg'."
Функция позволяет попросить бота сформировать PDF файл из любой переданной ему или сгенерированной им самим информации. При этом если вы хотите оформить файл красиво с разметкой, то используйте такую инструкцию: "Если я попрошу сделать PDF, то оформи текст в соответствии с заданием в формате HTML и сформируй из этого файл PDF".
Параметры, которые можно передать в функцию generate_pdf_from_html:

title - заголовок HTML-документа.
body_content - содержимое тела HTML-документа.
styles - CSS-стили для HTML-документа. Пример: styles: "h1 { color: blue; } p { font-size: 12px; }".
filename - имя файла на выходе. Не обязательный параметр.
Примеры использования:

"Сгенерируй PDF документ с заголовком 'Мой PDF документ', содержимым 'Привет, мир!Это мой первый PDF документ.' и стилями 'h1 { color: blue; }'."

"Пожалуйста, создай PDF файл с заголовком 'Отчет', содержимым 'Это отчет за 2023 год.' и стилями 'p { font-size: 14px; }', сохрани его как 'report.pdf'."
Функция позволяет преобразовать страницу из Notion в формат Markdown. Это полезно для экспорта содержимого страниц Notion в удобный текстовый формат, который можно использовать в других приложениях или системах.
Параметры, которые можно передать в функцию notion_to_markdown:

token - токен для доступа к Notion. Это строка, которая позволяет аутентифицироваться и получать доступ к API Notion.
page_url - URL страницы в Notion. Это адрес страницы, которую вы хотите преобразовать в Markdown.
Примеры использования:

"Преобразуй страницу Notion с URL 'https://www.notion.so/your-page-url' в формат Markdown, используя токен 'secret_1234567890abcdef'."
Функция позволяет добавить текст в конец указанного Google Документа. Это может быть полезно для автоматизации обновления содержимого документов.
Параметры, которые можно передать в функцию append_text_to_google_doc:

url - URL Google Документа. Это адрес документа, в который вы хотите добавить текст, не забудьте предоставить доступ на редактирование всем пользователям.
text_to_append - текст, который нужно добавить в конец Google Документа. Это строка, содержащая текст, который вы хотите вставить.
Примеры использования:

"Мне нужно вставить текст 'Обновление информации.' в конец документа по ссылке 'https://docs.google.com/document/d/abcdefghijk/edit'."

Функция позволяет задать вопрос к PDF-документу, извлекая текст и изображения из него с помощью API OpenAI. Это полезно для анализа содержимого PDF и получения ответов на конкретные вопросы.
Параметры, которые можно передать в функцию omni_question_pdf:

ai_model - модель OpenAI для обработки запроса. Доступные варианты:
"gpt-4o-mini" по умолчанию
"gpt-4o-2024-08-06"
pdf_url - URL PDF-документа для извлечения текста и изображений. Это адрес PDF-файла, к которому вы хотите задать вопрос.
question - вопрос, который нужно задать на основе содержимого PDF. Это текст, который вы хотите задать относительно содержимого документа.
Примеры использования:

"Пожалуйста, задай вопрос 'Какова основная тема этого документа?' к PDF-документу по адресу 'https://example.com/document.pdf'"

Функция позволяет получить текст из указанного документа Google по его URL. Это может быть полезно для извлечения информации из документов для дальнейшего анализа или обработки.
Параметры, которые можно передать в функцию get_google_doc_text:


url - URL документа Google. Это адрес документа, из которого вы хотите извлечь текст. Не забудьте открыть доступ к таблице для чтения всем пользователям.
limit - максимально количество букв в ответе, по умолчанию 8000. Это целое число, определяющее максимальный объем текста, который вы хотите получить.
Примеры использования:

"Пожалуйста, получи текст из документа Google по адресу 'https://docs.google.com/document/d/1A2B3C4D5E6F7G8H9I0J/edit' с лимитом 8000 символов."
Функция позволяет составить подробную оценку каждой страницы PDF-документа, извлекая текст и изображения с помощью модели OpenAI. Это полезно для глубокого анализа содержимого документа.
Параметры, которые можно передать в функцию omni_question_pdf_detalied:

ai_model - модель OpenAI для обработки запроса. Доступные варианты:
"gpt-4o-mini" по умолчанию
"gpt-4o-2024-08-06"
pdf_url - URL PDF-документа для извлечения текста и изображений. Это адрес PDF-файла, который вы хотите проанализировать.
role - формулировка роли ИИ, которая будет проводить анализ PDF. Это текст, описывающий, какую роль будет выполнять ИИ при анализе документа.
Примеры использования:

"Пожалуйста, составь подробную оценку каждой страницы PDF-документа по адресу 'https://example.com/document.pdf', используя модель 'gpt-4o-2024-08-06' и роль 'Анализатор, который предоставляет подробные комментарии к каждой странице'."
Функция позволяет создать презентацию PowerPoint, используя HTML-код в качестве источника контента. Вы можете передать HTML-код, который будет преобразован в слайды презентации.
Параметры, которые можно передать в функцию generate_pptx:

html_content - HTML-код, который будет использован для создания презентации.
Пример инструкции в роли бота:

1. Для создание презентации ты должна создать сначала HTML страницу на которой каждый заголовок `<h1>` становится заголовком слайда, а соответствующий текст разбивай на блоки с тегом `<p>`.
2. В одном теге `<p>` не должно быть больше 100 символов.
3. Картинки добавляй отдельно, используя тег `<img>`.

Функция позволяет редактировать существующий PPTX файл, указанный по URL. Вы можете задать задачу редактирования и выбрать формат результата.
Параметры, которые можно передать в функцию ai_edit_pptx:

pptx_url - URL PPTX файла, который вы хотите редактировать.
task - задача редактирования, которую необходимо выполнить.
pdf_result - параметр, указывающий, в каком формате вы хотите получить результат: 1 - в формате PDF, 0 - в формате PPTX. По умолчанию равно 0.
Пример инструкции в роли бота:

1. Запроси ссылку на презентацию в PPTX.
2. Спроси что нужно изменить в презентации.
3. Запусти функцию редактирования PPTX и покажи ответ функции.

Функция позволяет создать презентацию PowerPoint, используя текстовое описание для каждого слайда. Вы можете передать текст, который будет преобразован в слайды.
Параметры, которые можно передать в функцию create_pptx_yandex:

description - текстовое описание для каждого слайда презентации.
Пример инструкции в роли бота:

Вот шаблон описания слайдов:
description = """
# Слайд 1
title: "Заголовок слайда"
title_color: "0000FF"
title_size: 48
text: "Ваш текст здесь"
text_color: "FF0000"
text_size: 24
image: "красивый пейзаж"
image_position: right
background: "абстрактный фон"

# Слайд 2
title: "Слайд с маркированным списком"
title_color: "008000"
bullet_points: Первый пункт; Второй пункт; Третий пункт
text_color: "800080"
text_size: 20
image: "бизнес график"
image_position: top

# Слайд 3
title: "Слайд с центральным изображением"
text: "Текст вокруг центрального изображения"
image: "логотип компании"
image_position: center
"""
Функция позволяет заменить текстовые метки в презентации Google Slides на указанные значения. Это может быть полезно для автоматизации процесса редактирования презентаций.
Параметры, которые можно передать в функцию replace_in_google_slides:

url - URL презентации Google Slides. Указывает ссылку на документ, который вы хотите изменить.
format - формат возвращаемой ссылки. Доступные варианты:
"link" - ссылка на презентацию,
"pdf" - PDF файл,
"pptx" - PowerPoint файл,
"docx" - Word файл.
text - необязательная фраза для выдачи пользователю.
Примеры использования:

Получить информацию от пользователя и измени только эти значения:
###company_name### — замените на новое название компании.
###pres_name### — замените на название презентации.
###about_us### — замените на текст “О компании”.
###about_us_2### — замените на дополнительный текст “О компании”.
###product_1### — замените на описание первого продукта/услуги.
При выполнении функциии результат верни в формате pdf.

Функция позволяет создавать и редактировать HTML код в различных режимах. Это может быть полезно для веб-разработчиков и дизайнеров, которые хотят быстро генерировать или изменять HTML-код.
Параметры, которые можно передать в функцию html_builder:

mode - режим работы функции.
Доступные варианты:
"blank_html" - создание нового HTML кода,
"edit" - редактирование существующего HTML кода,
"from_url" - загрузка HTML кода с указанного URL.

edit_replacements - замены для обновления HTML. Указывает старый и новый код в формате: старый_код_1:::новый_код_1;;;старый_код_2:::новый_код_2.

from_url - адрес страницы, с которой нужно загрузить HTML.
blank_html - HTML код новой страницы.
Примеры использования:

Ты создаешь HTML страницу по моим задачам.
Вот тут текущий код страницы:
##dynamic_data##

Функция позволяет заменять текстовые метки в указанном Google Document. Это может быть полезно для автоматизации обновления содержимого документа с использованием заранее определенных замен.
Параметры, которые можно передать в функцию replace_in_google_doc:

url - URL документа Google. Это адрес документа, в котором вы хотите заменить текстовые метки. Не забудьте предоставить доступ на редактирование документа всем пользователям у кого ссылка.
replacements - строка замен строго в формате: метка1->значение1||метка2->значение2. Это строка, содержащая пары меток и значений, которые нужно заменить. Разделитель "->" обязателен.
format - формат возвращаемой ссылки. Это строка, определяющая, в каком формате вы хотите получить ссылку на документ после замены. Доступные варианты:
"link" - ссылка на документ
"pdf" - документ в формате PDF
"docx" - документ в формате DOCX
Примеры использования:

Получить информацию от пользователя и измени только эти значения:
###company_name### — замените на новое название компании.
###pres_name### — замените на название документа.
###about_us### — замените на текст “О компании”.
###about_us_2### — замените на дополнительный текст “О компании”.
###product_1### — замените на описание первого продукта/услуги.

Функция предназначена для распознавания текста и шаблонных документов с использованием различных моделей.
Параметры, которые можно передать в функцию osr_combine:

page (по умолчанию) — подходит для изображений с любым количеством строк текста, сверстанного в одну колонку.
page-column-sort — для распознавания многоколоночного текста.
handwritten — для распознавания произвольного сочетания печатного и рукописного текста на русском и английском языках.
table — для распознавания таблиц на русском и английском языках.
passport — основной разворот паспорта.
driver-license-front — водительское удостоверение, лицевая сторона.
driver-license-back — водительское удостоверение, обратная сторона.
vehicle-registration-front — свидетельство о регистрации транспортного средства, лицевая сторона.
vehicle-registration-back — свидетельство о регистрации транспортного средства, обратная сторона.
license-plates — все регистрационные номера автомобилей на изображении.
file_url - URL изображения или PDF файла для распознавания. Пример: "https://example.com/document.pdf".
Примеры использования:

"Распознай текст на изображении с URL: https://example.com/photo.jpg, используя модель 'handwritten'."

"Мне нужно извлечь информацию из PDF файла по ссылке https://example.com/document.pdf, используя модель 'table'."

Функция позволяет загружать, создавать или обновлять HTML-код с использованием искусственного интеллекта. Это может быть полезно для автоматизации процесса разработки веб-страниц. Просто скажите что вам нужно создать используя HTML+CSS+JavaScript.
Параметры, которые можно передать в функцию html_ai_builder:

task - текущая задача. Заполняется только в режиме run_task. Это строка, представляющая описание задачи, которую необходимо выполнить.
ai_model - модель ИИ. По умолчанию используется "gpt-4o-mini". Это строка, указывающая, какую модель ИИ использовать для выполнения задачи. Доступные варианты: "gpt-4o-mini", "gpt-4o", "o1-mini".
url_source - взять содержание из внешней ссылки на страницу. Это строка, представляющая URL, откуда будет загружено содержимое.
mode - режимы работы функции:
run_task - выполнение поставленной задачи,
save - сохранение кода в GitHub,
load - загрузка кода из GitHub,
blank_page - очистка и создание пустой страницы.
Это строка, указывающая режим работы функции. Доступные варианты: "run_task", "save", "load", "blank_page".
repo_name - имя репозитория на GitHub. Это строка, представляющая название репозитория, с которым будет работать функция.
username - имя пользователя GitHub. Это строка, представляющая имя пользователя, которому принадлежит репозиторий.
file_path - путь к файлу в репозитории. Это строка, указывающая местоположение файла, который будет загружен или сохранен.
branch - имя ветки для загрузки. Это строка, указывающая, из какой ветки загружать файл. По умолчанию используется ветка "main".
token - персональный токен доступа для аутентификации. Это строка, необходимая для доступа к приватным репозиториям или для выполнения операций, требующих аутентификации.
Примеры использования:

Подробнее читайте в статье: https://habr.com/ru/articles/861770/

Задайте нам вопрос
Укажите ваше имя, тему вопроса
Отправить сообщение
Мы ответим на все ваши вопросы и поможем с настройкой бота