"Google prevoditelj" za dijalekte - Stranica 2

eutow · 03.01.2024., 02:59

Quote:

Al dente kaže:

A nije ni ljudski jezik ne znam kakva neosvojiva, stroju neshvatljiva apstrakcija koju stroj neće - ako već nije - svladati bolje od najboljih, kao što se to već dogodilo šahu i gou. Ne bih previše romantizirao ljudske intelektualne kapacitete.

Usporedba je loša. Šah i go se mogu istrenirati kroz reinforcement learning, za koji načelno nije potreban nikakav vanjski input osim pravila igre. Program nedvosmisleno zna kada je pobijedio, kakve poteze treba vući da to postigne, i onda to može uvježbavati i rafinirati igrajući sam protiv sebe milijun puta. S druge strane, ne postoji šah-mat u jeziku, ne postoji nekakvo objektivno mjerilo kada je jezični iskaz uspio ili neuspio, osim na osnovnoj razini - nema gramatičkih grešaka (u pravom smislu riječi, naravno, ne mislim na "da li" tip pseudo-grešaka). A to je već postignuto.

Quote:

Al dente kaže:

Stroj koji ne "razumije" Marulića (ili staroarmenski ili navajo ili što već) nije ništa drugačiji od čovjeka koji ne "razumije" Marulića; nije stvar općenite nemogućnosti nego jednostavno nedostatka treninga.

Razumijevanje nekog jezičnog iskaza podrazumijeva uspostavljanje odnosa između označitelja i označenog. Time stroj po definiciji ne barata. Dakle i čovjek koji slabo razumije Marulića razumije ga bolje nego ijedan stroj, koji samo uspostavlja odnose između različitih tokena (riječi). Uz to, da stroj ovlada nekim jezikom, potrebne su mu količine teksta kakve ljudsko biće možda ni u cijelom životu neće vidjeti. Ljudsko je učenje jezika daleko fleksibilnije.

Preporuka za čitanje: Why Linguistics Will Thrive in the 21st Century: A Reply to Piantadosi (2023), osobito 2.2 Small Language Models are Anything but Inevitable.

Quote:

Hekatonhir kaže:

Izvedivo je to. Marulić, Držić, pa i vulgarne dubrovačke komedije iz 17. i 18. stoljeća (Kate Kapuralica i slične) dolaze s opsežnim komentarima, rječnikom, kazalom pojmova... Naši su stari urednici i redaktori doista uzorno pripremali ta izdanja (Pet stoljeća hrvatske književnosti, Stari pisci hrvatski i druge biblioteke). Tako se knjige nažalost više ne priređuju, akribično i studiozno. A postoje i upravo genijalne monografije (Frano Čale, Mirko Tomasović itd.).

Dalo bi se dakle učiniti, samo treba čitav korpus ubaciti u bazu podataka. Samo.

To je sve beskorisno za LLM-ove, oni ne "uče" iz baze (npr. rječnika, popisa sinonima i sl.) nego iz jezične prakse (NLP = natural language processing), baš zato su toliko moćni.

Možda ovo sve treba prebaciti u thread o AI-ju, LLM-ovima...

Didi · 03.01.2024., 08:23

Quote:

eutow kaže:

Možda ovo sve treba prebaciti u thread o AI-ju, LLM-ovima...

Imamo li takvu temu? Ako ne, mogla bi se ova preimenovati...

Didi · 06.01.2024., 10:26

Dok se ne otvori tema ili ova ne preimenuje, pišem ovdje. YugoGPT: link. Slovenski i makedonski izostavljeni su, dakako.

A ovo "pričati" (umjesto "razgovarati") valjda dugujemo nepis... pardon, uljudnosti Mateja Bevčića.