Казкуєме из автором языкового модела, што бесідує по-лемкувськы
Архівноє інтервю з Петром Ориничом, автором языкового модела, котрый приказує по-лемкувськы.
Исе архівна статя, опублікована 17. апріля 2021. року, и обновлена 11. юнія 2026. року. Удповіді Петра Оринича подані лемкувськым языком у ориґіналнум виді.
Не так давно сьме повідали за сього молодого хлопа, што ся трудит над спеціалным софтвером — языковым моделом (LLM, уд анґл. large language model) — котрый бы быв валовшен приказовати по-русинськы, а конкретно лемкувськов бесідов. Звати го Петьо Оринич.
When #training #AI #models, the cleaner the #data, the better. Here, a 70,000 word #street #Lemko (#rue-#pl) #corpus is ready for action. For #endangered #language #revitalization, #NLP #DataCleaning best practices make every word count. #Rusyn #Poland #DataScience #TensorFlow pic.twitter.com/pw3eZNt9Bp
— OG Petya🇭🇺🇺🇸 (@realOGPete) August 20, 2020
— Розкажи нам накурто як ся так стало ож жиєш у Штатох, а знаєш приказовати по-лемкувськы? Такоє нечасто стрітиш.
— В великым скорочыню, я — Лемко, котрий скінчыл студиі в Кракові (Польща) а вродил ся на чужыні в Гамериці, як Енді Варголь — Питтсбурґ, Підкарпатя, і Меджелабірці репрезент!
— Як давно проґрамуєш, чом исе діло любиш?
— Проґрамую з перервами од девятдесятых років і люблю тото за то, же подабат ся мі тото, же мож завтоматызувати інтелєктуальну роботу попрез елімінацию єй барже монотонных аспектів жебы принести вартіст соспільности.
— Як взникла ідея учинити акорат лемкувського чат-бота?
— Певной суботы пришло мі на мысель, жебы змодифікувати лемківско-анґлицкій систем невронового машынового тлумачыня над котрым єм працувал так, жебы одповідал на лемківскы звіданя по лемківскы заміст по анґлицкы.
— Яка была ціль проєкта, куды из сим дале?
— Єдным словом — цілю проєкту єст ревітализация языка. Што дале? Будеш впроваджати цілы речыня по анґлицкы и доставати докладны, ґраматычні правильны тлумачыня на лемківскій язык. Каждий, хто знат польскій, ческій, або анґлицкій язык буде міг не лем чытати, але аж і писати по нашому при помочы мого опроґрамуваня.
— Уже пару рокув ходит така думка, ож переклад/товмачіня скоро никому не треба буде, бо сякі LLM будут тото робити автоматично. Як на тото никаш? Ци близко тото є ид правді?
— Для більшости люди, тото є не лем недалеко од правды, так уж є. Штучна інтеліґенция уж може выконати роботу меньше досвідченых людскых тлумачів. Уж тепер, людскы тлумачы сут возваны лем для специяльных проєктів о высокій вартости. Ци вартат возвати людского тлумача жебы скоментувати з головы по росийсксы або по анґлицкы на фейсбуку? Правдоподібні ні, хыбаль же провадиш бриґаду тролів. Ци вартат платити пару тисячы долярів за професийональне тлумачыня вельомілийонового договору або інформацийной кампаніі? Напевно.
— Кедь кажеш, ож сесь модел буде аж так шіковный, ож буде нам выдавати цілі речіня по-лемкувськы, та як нам теперь докажеш, же пишеш теперь нам сам, а не хоснуєш го на переклад из анґліцької бесіды?
— Ніт способу бы того довести. Працую для проєкту Google Translate. В тій бранжы, часом імаме ошустів, котры корыстают зо штучной інтеліґенциі жебы фальшыво твердити, же сут специялистами з обшыри росийского языка. Ци єс виділ фільм Blade Runner (pol. "Łowca androidów", укр. “Той, хто біжить по лезу”)? Найліпша сцена є коли Гаррисон Форд провадит інтервю з молодом дівчом, жебы справдити ци она є чловеком, а не штучном інтеліґенцийом. Но так, Мигаль, ци єм здал Твій тест Войта-Кампфа? Я — чловек ци русиньскій робот?
— Раз ми буде ліпше думати, ож обадва сьме люди :)
Репорт ЮНЕСКО (UNESCO) розказує нам, же ид кунцьови сього стороча годни пропасти, заникнути, до половкы днешньых бесід, довшытка маєме їх у світови пиля 6,000. Главно тото грозит малым бесідам, котрі не мавут пуддержкы інституцій. Діло, котроє чинит Петьо, дає нам мотивацію тай віру, ож руснацька бесіда у тот испис не трафит.
Коментарї () • Правила коментованя