Natrag   Forum.hr > Društvo > Društvene znanosti > Jezikoslovlje

Jezikoslovlje Za pravopiždžije i jezikolomce

Odgovor
 
Tematski alati Opcije prikaza
Old 01.12.2023., 22:34   #1
"Google prevoditelj" za dijalekte

Pozdrav!
Zanima me postoji li kakav alat za izradu programske aplikacije (tipa Google translate) koja bi prevodila sa hrvatskog standardnog jezika na neki od hrvatskih dijalekata.
Dakle, gdje se aplikacija može razvijati unošenjem leksika nekog dijalekta, njegovih fonoloških osobitosti, naglasnih paradigmi, sintaktičkih osobitosti itd.
Mislim da bi potrebe za tim bilo jer poneki dijalekti (i mjesni govori) polako odumiru, a mlađe generacije ih koriste samo u posebnim prigodama (razne tradicijske manifestacije i sl.). Pri tome ih već sada nema tko u tome do kraja podučiti jer pojedine govore znaju samo najstariji ljudi, a za mnogo govora nisu načinjeni niti gramatički opisi niti rječnici.
Kad bi apikacija bila dovršena, korištenje bi bilo jednostavno: upiše se tekst na standardnom jeziku, a aplikacija to prevede na dijalekt (s naznačenim naglascima), a po potrebi se može čuti i zvučni zapis toga prijevoda.
Pretpostavljam da bi razvoj tako nečega bio zahtjevan projekt i trajao možda godinama, no ako se nađe volje...
Ellie. is offline  
Odgovori s citatom
Old 02.12.2023., 07:51   #2
prijevod na bednjanski bi bio skroz fora

ili neki pirotski "Kvo?" -Te

i torlački

kak bi se napravile razlike između zagorsko-međimurskog dijalekta i turopoljsko-posavskog dijalekta ?

osjećam puno truda u pozadini ideje. ali podržavam

ChatGPT mi zvuči da ima potencijala. nek netko proba

izvučeno iz konteksta (vic)
Pirocansko-Niško-Vranjanska verzija
Beše svadba u Banat. Tamo sam išao kod svastike na spavanje, takoj da ništa nesam plateo. Piće ponesoh što ga dobih od doktor Nestorović, takoj da ni tuj neka ženska ti zakači ovoličnu grančicu i moraš da gi davaš pari!!! Mame im ga nemadoh dve po pet, inače bih spasiv peticu! JOOOOJJJJJ! Sedoh za sto, muzika na uvce, eve što ću da gi dam dinar! Ama, ovaj sa harmoniku me gleda k'o siroma' slaninu! Šta sam mu skriveo? Ništa! Nego, 'oće pari, bato! Ko da gi berem sa komšija Tošinu kajsiju! A hrana, ubavaaaaaaaa! I to, meso, bre! Sve džaba! Izeo sam deset parce, stomak sam napuneo do grlce! I jagnjetina, bre, to ni Draža nije imao takoj! Al' me zaklaše načisto sa njihovi običaji! Mnogo bre ovi severnjaci rastrošni! Kad naiđe mladina kecelja, pa mladina pogača, LELEEEEEEE! Samo gu davaš pari! Ode mi sto dinari, neće se oporavim pet godine! A, mladoženja, da gu li jebem, gu ne poznavam! Mršavoooooo, bre! Koj li ga 'rani, ne znavam! A, mlada, lepa, ima šta da zagrliš! I kuva, bre! Kad se vračav u Pirot, umal' me šlog ne zavati! Poskupeše železnicu, u jeba' ti ja budale! Ko sa metro da se vračav Pirot! Če razmislim sledeći put da idem!
__________________
Can Upload Images for Signature
mali is offline  
Odgovori s citatom
Old 02.12.2023., 09:19   #3
Quote:
Ellie. kaže: Pogledaj post
Pretpostavljam da bi razvoj tako nečega bio zahtjevan projekt i trajao možda godinama, no ako se nađe volje...
GT nije baš nešto ni za standardne jezike, bar ne u odnosu na hrvatski. Volja nije dovoljna: takav bi projekt ponajprije zahtijevao popis riječi (da ne kažem rječnik) za pojedina narječja i dijalekte. O morfologiji i sintaksi da se i ne govori. Muku mučimo već i sa standardom, a što misliš kako bi tek ovakvo što izgledalo.

ChatGPT samo je zgodna igračka, bar što se jezika itče. Kao i svi internetski jezični alati, oslanja se na engleski, a dalje pojma nema. Bar ne što se jezika tiče.
Didi is offline  
Odgovori s citatom
Old 02.12.2023., 16:28   #4
Quote:
Didi kaže: Pogledaj post
GT nije baš nešto ni za standardne jezike, bar ne u odnosu na hrvatski. Volja nije dovoljna: takav bi projekt ponajprije zahtijevao popis riječi (da ne kažem rječnik) za pojedina narječja i dijalekte. O morfologiji i sintaksi da se i ne govori. Muku mučimo već i sa standardom, a što misliš kako bi tek ovakvo što izgledalo.

ChatGPT samo je zgodna igračka, bar što se jezika itče. Kao i svi internetski jezični alati, oslanja se na engleski, a dalje pojma nema. Bar ne što se jezika tiče.
OK, nekakvu bazu recimo da imam: istraživala sam govor svog mjesta te napisala gramatički opis (fonologija, naglasci, morgologija, leksik, sintaksa, tvorba riječi, fraze, primjeri govora) i rječnik (s naglascima i potrebnim gramatičkim podacima za svaku natuknicu). Moram priznati da sam to radila nekoliko godina.
No, može li se neki jezik/govor naučiti samo iz gramatičkog opisa i rječnika, bez slušanja govornika? Imam, doduše i zvučne zapise kazivanja izvornih govornika, ali oni se odnose samo na određene životne situacije i ne pokrivaju sav leksik i ostale osobine govora.
Zato, voljela bih kada bi, recimo u 22. stoljeću, postojao kakav virtualni "bać Iva" (ja sam iz Slavonije) koji bi na kakav tekstualni upit na hrvatskom standardu progovorio "po šokački". Jer tada tim govorom sigurno neće nitko govoriti (barem ne aktivno).
Ellie. is offline  
Odgovori s citatom
Old 16.12.2023., 00:54   #5
Google Translate se, koliko mi se čini, danas u velikoj mjeri temelji na velikim paralelnim korpusima, dakle to su isti tekstovi na dva ili više jezika, na temelju kojih GT uspostavlja veze između ekvivalentnih riječi, fraza i struktura. Da takva metoda prevođenja bude uspješna, potrebne su goleme količine tekstualne građe, kakve ti zasigurno nemaš. Znači da bi za tvoj dijalekt bilo potrebno sastaviti nešto puno specijaliziranije, rigidan kontrastivni opis standarda i dijalekta, koji svaku standardnu pojavu može pouzdano konvertirati u dijalektalnu. Evo banalni problem koji bi trebalo riješiti unaprijed: ako dijalekt razlikuje DL sg. i/ili DLI pl., neće ih moći prevesti iz "golog" standardnog oblika u kojem su oni jednaki, nego bi trebalo promatrati i rečenični kontekst. A na kraju, do 22. st. lako je moguće da će bilo koji program napisan danas biti jedva moguće pokrenuti, i standard iz kojeg bi se prevodilo bi se u međuvremenu također promijenio.
Ako tvoj opis valja, bio bi korisniji i praktičniji za konzultiranje u pisanom obliku. Tako će moći biti koristan i lingvistima, koji će, makar to ružno zvuči, vjerojatno biti više zainteresirani za tvoju građu nego ljudi koji su vlastiti dijalekt zaboravili. Dakako, takav opis neće biti dovoljan za tečno naučiti dijalekt, ali ne bi niti neki dijalektalni Google Translate bio puno uspješniji.
eutow is offline  
Odgovori s citatom
Old 16.12.2023., 21:07   #6
Usput budi rečeno, ChatGPT - po mom iskustvu - daleko bolje vlada hrvatskim od Googleovog Prevoditelja.



Ono...

Quote:
Didi kaže: Pogledaj post
(...) ChatGPT samo je zgodna igračka, bar što se jezika itče. Kao i svi internetski jezični alati, oslanja se na engleski, a dalje pojma nema. Bar ne što se jezika tiče.
Daleko je Google Prevoditelj od "igračke koja pojma nema" za one koji se njime znaju služiti i izbjegavati minska polja, a kamoli ChatGPT. A nije ni ljudski jezik ne znam kakva neosvojiva, stroju neshvatljiva apstrakcija koju stroj neće - ako već nije - svladati bolje od najboljih, kao što se to već dogodilo šahu i gou. Ne bih previše romantizirao ljudske intelektualne kapacitete.
Al dente is offline  
Odgovori s citatom
Old 16.12.2023., 21:29   #7
Jezik je u neprestanoj mijeni jer se ne oslanja samo na standard i u njegovoj cjelokupnosti nikakva ga UI neće baš tako skoro svladati.
pronađena is offline  
Odgovori s citatom
Old 16.12.2023., 21:44   #8
Quote:
pronađena kaže: Pogledaj post
Jezik je u neprestanoj mijeni jer se ne oslanja samo na standard i u njegovoj cjelokupnosti nikakva ga UI neće baš tako skoro svladati.
... a sljedeća linija obrane može biti, recimo, "pa jezik ne shvaćaju ni ljudi, kako će onda stroj!" ... Opet, ne bih romantizirao previše tu neku kakti apstraktnu, neshvatljivu i neuhvatljivu dimenziju jezika, niti mi je - meni osobno - ispod časti da nakupina poluvodiča i algoritama jednako ili bolje od moje malenkosti (o)vlada jezikom.
Al dente is offline  
Odgovori s citatom
Old 16.12.2023., 21:48   #9
Uzmi samo glagol brijati.
Što znači u standardu, što je značio u slengu prije trideset godina, a što znači u slengu današnje mladeži.
Pa neka neki algoritam to poprati.
pronađena is offline  
Odgovori s citatom
Old 16.12.2023., 22:00   #10
Quote:
pronađena kaže: Pogledaj post
Uzmi samo glagol brijati.

Što znači u standardu, što je značio u slengu prije trideset godina, a što znači u slengu današnje mladeži.

Pa neka neki algoritam to poprati.
... I eto, upravo si istrenirala ChatGPT - da radiš na njemu - za pojam brijanja, samo mu još malo pojasniš značenja u tim kontekstima. Čas posla. Dalje? Ne velim da jezik nije kompleksan, daleko od toga, ali kapaciteti strojne pohrane i obrade su praktički bezgranični... Bilo bi jako štosno kad bi netko pratio - po unaprijed utvrđenim objektivnim kriterijima, koliko je već moguće - kakvoću strojnog prevođenja iz godine u godinu. Onako, kako se ChatGPT nosio s Marulićem u 2022. a kako u 2025.
Al dente is offline  
Odgovori s citatom
Old 16.12.2023., 22:07   #11
Quote:
Al dente kaže: Pogledaj post
... I eto, upravo si istrenirala ChatGPT - da radiš na njemu - za pojam brijanja, samo mu još malo pojasniš značenja u tim kontekstima. Čas posla. Dalje? Ne velim da jezik nije kompleksan, daleko od toga, ali kapaciteti strojne pohrane i obrade su praktički bezgranični... Bilo bi jako štosno kad bi netko pratio - po unaprijed utvrđenim objektivnim kriterijima, koliko je već moguće - kakvoću strojnog prevođenja iz godine u godinu. Onako, kako se ChatGPT nosio s Marulićem u 2022. a kako u 2025.
ChatGPT se zasada može nositi s Marulićem samo ako mu uneseš čitave njegove tekstove i sukladne prijevode na standard.
I hrvatski je premali jezik tako da sumnjam da će se to ikad promijeniti.
pronađena is offline  
Odgovori s citatom
Old 17.12.2023., 02:02   #12
Stroj koji ne "razumije" Marulića (ili staroarmenski ili navajo ili što već) nije ništa drugačiji od čovjeka koji ne "razumije" Marulića; nije stvar općenite nemogućnosti nego jednostavno nedostatka treninga. No bez obzira i na Marulića i na hrvatski jezik, moja tvrdnja je samo to da AI strahovito napreduje s jezikom i da romantika i ezoterija tipa "ma neće stroj nikada savladati ljudski jezik kak' se spada jer (umetni razlog po volji)" ne drži vodu. Porazgovaraj se s ChatGPT-jem, priupitaj ga ovo ili ono, zamoli ga usput tu i tamo za neki prijevod pa vidi je li to smislenije ili manje smisleno od onoga što ćeš čuti od velike većine jedinka od krvi i mesa.
Al dente is offline  
Odgovori s citatom
Old 17.12.2023., 05:12   #13
Quote:
pronađena kaže: Pogledaj post
ChatGPT se zasada može nositi s Marulićem samo ako mu uneseš čitave njegove tekstove i sukladne prijevode na standard.
Izvedivo je to. Marulić, Držić, pa i vulgarne dubrovačke komedije iz 17. i 18. stoljeća (Kate Kapuralica i slične) dolaze s opsežnim komentarima, rječnikom, kazalom pojmova... Naši su stari urednici i redaktori doista uzorno pripremali ta izdanja (Pet stoljeća hrvatske književnosti, Stari pisci hrvatski i druge biblioteke). Tako se knjige nažalost više ne priređuju, akribično i studiozno. A postoje i upravo genijalne monografije (Frano Čale, Mirko Tomasović itd.).

Dalo bi se dakle učiniti, samo treba čitav korpus ubaciti u bazu podataka. Samo.
__________________
What the heck, Hek?!
Hekatonhir is offline  
Odgovori s citatom
Old 17.12.2023., 20:38   #14
Quote:
Hekatonhir kaže: Pogledaj post
Izvedivo je to. Marulić, Držić, pa i vulgarne dubrovačke komedije iz 17. i 18. stoljeća (Kate Kapuralica i slične) dolaze s opsežnim komentarima, rječnikom, kazalom pojmova... Naši su stari urednici i redaktori doista uzorno pripremali ta izdanja (Pet stoljeća hrvatske književnosti, Stari pisci hrvatski i druge biblioteke). Tako se knjige nažalost više ne priređuju, akribično i studiozno. A postoje i upravo genijalne monografije (Frano Čale, Mirko Tomasović itd.).

Dalo bi se dakle učiniti, samo treba čitav korpus ubaciti u bazu podataka. Samo.
Baš samo.
Kad se nađe ekipica koja će to besplatno na dobrovoljnoj bazi učiniti financirajući pritom i eventualne troškove.
Isplatilo bi se iskoristiti mlade i nadobudne doktorande.
pronađena is offline  
Odgovori s citatom
Old 19.12.2023., 20:17   #15
Budući da se kanim pozvati na primjer koji imam kod kuće u papirnatom obliku, trebalo mi je vremena da prelistam tisuću stranica, kao i svoju ljudsku memoriju koja po brzini zaostaje za kompjuterskom.

Quote:
Al dente kaže: Pogledaj post
Usput budi rečeno, ChatGPT - po mom iskustvu - daleko bolje vlada hrvatskim od Googleovog Prevoditelja.
ChatGPT, bar ona prva verzija s kojom su se svi na Fejsu igrali, komunicirao je na svojevrsnoj kombinaciji hrvatskog i srpskog. Je li se što popravio, ne znam. Kao drugo, za Wackernagela, čini se, nije čuo, a kamoli da bi se obazirao na redoslijed enklitika. Žao mi je što nisam pospremila primjere, ali napokon sam shvatila da ga zeza engleski, to jest da mu pojmovi "enklitika" i "proklitika" uopće nisu poznati odnosno da zna samo za englesko clitic.

Quote:
Daleko je Google Prevoditelj od "igračke koja pojma nema" za one koji se njime znaju služiti i izbjegavati minska polja, a kamoli ChatGPT. A nije ni ljudski jezik ne znam kakva neosvojiva, stroju neshvatljiva apstrakcija koju stroj neće - ako već nije - svladati bolje od najboljih, kao što se to već dogodilo šahu i gou. Ne bih previše romantizirao ljudske intelektualne kapacitete.
Ljudski je jezik kreacija, biće koje se neprestano mijenja i obnavlja. Ni šah ni go to nisu.

Quote:
pronađena kaže: Pogledaj post
Jezik je u neprestanoj mijeni jer se ne oslanja samo na standard i u njegovoj cjelokupnosti nikakva ga UI neće baš tako skoro svladati.
I ne mijenja se sam, nego ga mi mijenjamo, baš kao što on nas mijenja. Mijenja našu misao.

Primjer je iz 15. poglavlja u Rabelaisovoj Četvrtoj knjizi (Le Quart Livre), a slijedi nakon opće tuče: cachant l’œil guausche avecque son mouchouoir, & monstrant son tabourin defoncé d’un cousté (to jest, cachant son œil gauche et montrant son tambourin défoncé d'un côté). Na engleski je to prevedeno kao hiding his left eye with his kerchief, and showing his tabor cracked on one side, falabogu na Gutebergu. Maras je pak posegnuo za Stullijem pa njegov prijevod glasi: "krijući lijevo oko rupcem i pokazujući bubanj odadnjen s jedne strane". Da, nije morao. Mogao je napisati "razbijen / napuknut s jedne strane" ili "s izbijenim dnom", ali nije. A zašto? Zato što je to Rabelaisov tekst. Napisan u 16. stoljeću, u doba kada se francuski jezik intenzivno stvarao, i to doslovce, kada su ga stvarali pisci, filozofi, znanstvenici... Zato što im francuski jezik duguje svu silu riječi, zato što se pisana riječ intezivno tiskala, širila, zabranjivala pa se zbog nje čak i gorjelo na lomači. Sve je to utkano u Rabelaisova djela, a Marasov je prijevod time nadahnut. Kompjuter ne zna niti može znati što je nadahnuće.

P. S. Negdje imam ne znam koliko prijevoda jednog te istog Shakespeareova soneta - pa ti biraj!
Didi is offline  
Odgovori s citatom
Old 19.12.2023., 21:16   #16
I to ne bilo kakva kreacija.
Jedna nevjerojatno promiskuitetna kreacija.
pronađena is offline  
Odgovori s citatom
Old 19.12.2023., 22:45   #17
Quote:
Didi kaže: Pogledaj post

"krijući lijevo oko rupcem i pokazujući bubanj odadnjen s jedne strane". Da, nije morao. Mogao je napisati "razbijen / napuknut s jedne strane" ili "s izbijenim dnom", ali nije.
Vidi stvarno, i Putanec na prvom mjestu veli odadniti bačvu. Nego, od dosjetljivih prijevoda na pamet mi padaju „seke hoćke” iz Velikanovićevog Don Quijotea: A da ti tako nešto padne na pamet moraš bit' pravi Šokac
joe.banks is offline  
Odgovori s citatom
Old 20.12.2023., 15:42   #18
Quote:
joe.banks kaže: Pogledaj post
Vidi stvarno, i Putanec na prvom mjestu veli odadniti bačvu. Nego, od dosjetljivih prijevoda na pamet mi padaju „seke hoćke” iz Velikanovićevog Don Quijotea: A da ti tako nešto padne na pamet moraš bit' pravi Šokac
Zapravo mi je na umu bilo nešto drugo, a ne hvalospjev Rabelaisu, francuskoj renesansi i Marasu pa me ova tvoja napomena vraća na to. Tnx!

Odavno nisam zavirila u Putanca pa nisam ni znala da je naveo tu mogućnost, a sad i ne moram kad si ti to učinio, no nisam se s time nikada prije srela. U francuskom glagolu ja, dakako, automatski iščitavam le fond, ali isto tako iščitavam i dno u odadnjen. GT to ne povezuje tako. Točnije, predložiš li mu riječ odadnjen, prepoznaje ono što mu se čini najsličnijim - loyal (fr. i eng.) odnosno leale (it.) ili leal (sp.), a ponudiš li mu cijeli ovaj dio rečenice, jednostavno će izostaviti odadnjen.

Voljela bih da netko tko je još uvijek u dobrim odnosima s Geppettom provjeri njegovo poznavanje problema.
Didi is offline  
Odgovori s citatom
Old 20.12.2023., 18:44   #19
Quote:
eutow kaže: Pogledaj post
Google Translate se, koliko mi se čini, danas u velikoj mjeri temelji na velikim paralelnim korpusima, dakle to su isti tekstovi na dva ili više jezika, na temelju kojih GT uspostavlja veze između ekvivalentnih riječi, fraza i struktura. Da takva metoda prevođenja bude uspješna, potrebne su goleme količine tekstualne građe, kakve ti zasigurno nemaš. Znači da bi za tvoj dijalekt bilo potrebno sastaviti nešto puno specijaliziranije, rigidan kontrastivni opis standarda i dijalekta, koji svaku standardnu pojavu može pouzdano konvertirati u dijalektalnu. Evo banalni problem koji bi trebalo riješiti unaprijed: ako dijalekt razlikuje DL sg. i/ili DLI pl., neće ih moći prevesti iz "golog" standardnog oblika u kojem su oni jednaki, nego bi trebalo promatrati i rečenični kontekst. A na kraju, do 22. st. lako je moguće da će bilo koji program napisan danas biti jedva moguće pokrenuti, i standard iz kojeg bi se prevodilo bi se u međuvremenu također promijenio.
Ako tvoj opis valja, bio bi korisniji i praktičniji za konzultiranje u pisanom obliku. Tako će moći biti koristan i lingvistima, koji će, makar to ružno zvuči, vjerojatno biti više zainteresirani za tvoju građu nego ljudi koji su vlastiti dijalekt zaboravili. Dakako, takav opis neće biti dovoljan za tečno naučiti dijalekt, ali ne bi niti neki dijalektalni Google Translate bio puno uspješniji.
Pisani oblik (gramatički opis i razlikovni rječnik) sam nedavno objavila. Tako da je barem u tom obliku nadam se dosta toga sačuvano. Samo, nitko se nije naučio govoriti neki jezik/dijalekt samo čitajući gramatiku ili rječnik... Ali učiniti više od toga, čini mi se da ipak prelazi moje mogućnosti (mislim ponajviše na uloženo vrijeme).
Ellie. is offline  
Odgovori s citatom
Old 20.12.2023., 23:04   #20
Quote:
Ellie. kaže: Pogledaj post
Ali učiniti više od toga, čini mi se da ipak prelazi moje mogućnosti
Kad smo već spomenuli Putanca, on svoj francusko-hrvatski rječnik počinje stihovima francuskog erudita J. J. Scaligera (1549.-1609.) (u prijevodu Stjepana Musulina):

Kome presudom strogom sudac dosudi jednoć
Kazna da zada jad, glavu da skine smrt,
Njega kinjiti neće robija s preteškim maljem,
Ni ruke morit mu trud, ni kopanjem rude rov:
Rječnik nek gradi; tȁ, trebali da duljim dalje:
Drugih svih muka lik taj jedan sadržava rad.


Krvav je leksikografski posao... No, kako je ovih dana ponovno popularan Napoleon da završim njegovom slavnom: „impossible n’est pas français”.
Pa ako Francuzima ništa nije nemoguće, ne bi trebala biti niti ova tvoja ideja.
joe.banks is offline  
Odgovori s citatom
Odgovor



Kreni na podforum




Sva vremena su GMT +2. Trenutno vrijeme je: 01:33.