Національний корпус кримськотатарської мови

AI engineer

Вакансію зараз переглядає 1 шукач. Відгукніться першим!
  • MS Word
  • Користувач ChatGPT
  • OpenAI
  • Gemini
Показати всі навичкиЗгорнути навички

Опис вакансії

Опис проєкту:

Шукаємо фахівця для виконання проєкту з конвертації двомовного словника добруджанської говірки кримськотатарської мови з документа Word у формат Name-Value Hierarchy (NVH), придатний для імпорту в лексикографічну систему Lexonomy.

Завдання:

  • Розробити скрипт (наприклад, на Python), який:
    • Парсить напівструктурований текстовий документ Word, використовуючи візуальні ознаки форматування (колір, шрифт, дужки, символи).
    • Розпізнає та структурує заголовні слова, вимову, переклади, приклади, скорочення, ідіоми, прислів'я, етимології тощо.
    • Розкриває скорочення (наприклад, tr_pos: is. → isim., ro_pos: s. → substantiv).
    • Генерує текстовий файл у форматі .nvh (UTF-8) з ієрархією за відступами.
  • За потреби — інтегрувати в роботу LLM (наприклад, OpenAI GPT-4 або Anthropic Claude 3) через API для точного розпізнавання контексту та структури статей.

Очікуваний результат:

  • Повний .nvh-файл зі структурованими словниковими статтями.
  • (Бажано) Скрипт або інструкція, що дозволить відтворити конвертацію.

Вимоги:

  • Досвід роботи з обробкою тексту (наприклад, python-docx, re, BeautifulSoup, pandas).
  • Досвід парсингу напівструктурованих документів Word або PDF.
  • Розуміння принципів форматів словників, ієрархічних структур типу NVH або YAML.
  • Бажано: досвід роботи з LLM через API.
  • Вітається досвід у лінгвістиці, лексикографії, опрацюванні багатомовних корпусів.

Терміни:

  • Бажаний термін виконання: 2 тижні.
  • Максимально допустимий термін: 1 місяць.
  • Передбачається 1 раунд правок після перевірки результату.

Оплата:

  • Вкажіть вашу комерційну пропозицію.
  • Вартість API-запитів до LLM покривається в межах бюджету 800 євро — прохання надати приблизну оцінку або деталізацію.

Зв’язок:


Національний корпус кримськотатарської мови

Послуги для населення та бізнесу, 10–50 співробітників

Більше про компанію

Схожі вакансії

Усі схожі вакансії

Статистика зарплат