Ци буде ChatGPT говорити по-русинськы?

Як ся так стало, ож языкові моделі не валовшні говорити меншиновыми языками?

Ци буде ChatGPT говорити по-русинськы?

На зачаток попробуєме порозуміти як проґрамы гикой ChatGPT домак фунґувут, обы порозуміти чого нам ся раз не дочекати, обы ся бот из нами поклонив «серус!».

Языковый модел

ChatGPT, уєдно из другыма подобныма ботами, є аплікаційов, котра хоснує ги датабазу великый языковый модел (large language model, LLM накурто). Што вто значит? Языковый модел ото не є дашто гет новоє, сякоє ся давно хоснує такой у вашӯм телефонови на автопродовжіня слӯв у клавешници, наприклад. Можете собі представити го гикой актівного читача бібліотекы, котрый перечитав абсолутно ушытко, што маєте на полицьох. Завто можете попросити ChatGPT перечинити вашоє речіня пуд стіл Шекспіра, наприклад, бо вӯн перечитав ушыткого Шекспіра сперед тым.

Можеме так уповісти, ож языковый модел, ото сістем, котрый пробує научити ся бисїду по текстох, котрі аналізує. Айбо туй, ясноє дїло, ушытко буде залежати на тот комплект текста, котрый му даме, гикой матеріалы на науку.

Приступнӯсть на інтернетови

Майвеликым дарабом інформації, котрый запхали у языковый модел GPT, як матеріал на науку, была інформація из інтернета, просто хоть-які публично доступні сторӯнкы, тот набор інформації ся кличе Common Crawl. Туй всьо гибы ясно, бӯлшина тої інформації, хоть так, хоть сяк, буде по-анґліцькы.

Туй си можете гадати: «Но, та хоть даякі шансы трафити у тот модел маєме, але є у нас даже Русинська Вікіпедія, вже не кажеме за другоє!». Айбо, ачий ся поскоро радуєме.

Побзераєме як ото из другыми языками.

Дістрібуція лексікы помежи языками у моделови ChatGPT

На образчикови высше видиме, ож дістрібуція податкӯв помежи языками была домак не єднака у исписови матеріалӯв, по якым ся "учив" ChatGPT. Знаєме ож пиля 55% інтернета типирька є по-анґліцькы, а по-нїмицькы – 7.7%. Но, ги видиме, тренованя чат-бота не зодповідат сьому роздїленьови. Бӯлше того, многі «менші» бисїды домак были вылишені. Каталонська бисїда, хоть має доста інтернетної репрезентації, гикой на такый непошыреный язык, зайняла лишек 0.01% датабазы ChatGPT.

Самі говорячі каталонського языка кажут, ож даже не позиравучи на таку мінімалну репрезентацію, чат-бот валовшен лоґічно удповісти по-каталонськы в бӯлшости припадӯв.

Чом дістрібуція не єднака?

Кидь тямите, та на зачатку сьме руняли языковый модел из читачом бібліотекы, де бібліотека є нашым інтернетом, в котрому публично доступна дораз ушытка інформація, котра была записана тай оціфрована. Айбо ChatGPT — продукт пріватної фірмы, руно так само гикой його конкуренты, такі ги Bard выд Google, тай другі. А значит лишек тота фірма рїшат ож на котрых «книгах» учити сього юного бібліотекаря, бо чат-бот буде ся хосновати в комерційных цїлях. А такі фірмы гикой Google, Meta, Microsoft, тай подобні техно-ґіґанты не берут Каталонцюв, авадь Карпатськых Русинӯв, гикой свою цїльову авдіторію. Ба де там, даже Словацька бисїда часто має проблемы из локалізаційов ціфровых продуктӯв, а сесе далеко не меншинова бисїда.

Ипен фірма-ґазда чат-бота выбират котрі бисїды буде, а котрі не буде знати будучный чат-бот. Та удповідавучи на звіданя из самого зачатку, ци уповість нам ChatGPT «серус!» ближчым часом, мусиме уповісти, ож бизӯвно нє.

Но на сьому не кониць.

Куды из сим дале?

Розподїленя жерел інформації на тренованя чат-бота ChatGPT

Не ушыткі компанії идут єднакым путьом. Гикой приклад можеме спомнити за проєкт BLOOM, котрый має удпертый код тай дуже чотко указує выдкі бере ся інформація на тренованя. Проєкт гордо каже, ож може аналізовати тай розуміти текст на дрӯбных афріканськых языках, лиш дякувучи тому, ож дані были приступні на інтернетови, тай были волонтеры, котрі хотїли помочи из тестованьом.

Подобні проєкты давут перспектіву и Русинському языкови, бо не сут контроловані великыми компаніями, котрі замісто вас будут рїшати, ож які языкы будут приступні у проґрамному продуктови.

Ушытко, што можете учинити уже днись— пишіт на інтернет по-нашому, давайте нашому языкови репрезентацію у діґіталному світови. Не ганьбіт ся свого! Бо не чути лиш того, тко ниґда не говорит (у нашӯм припадї — тко не пише на інтернетови).

Жерело: