Jezikoslovlje Za pravopiždžije i jezikolomce |
|
|
01.12.2023., 22:34
|
#1
|
Registrirani korisnik
Registracija: Jul 2011.
Lokacija: Hrvatska
Postova: 31
|
"Google prevoditelj" za dijalekte
Pozdrav!
Zanima me postoji li kakav alat za izradu programske aplikacije (tipa Google translate) koja bi prevodila sa hrvatskog standardnog jezika na neki od hrvatskih dijalekata.
Dakle, gdje se aplikacija može razvijati unošenjem leksika nekog dijalekta, njegovih fonoloških osobitosti, naglasnih paradigmi, sintaktičkih osobitosti itd.
Mislim da bi potrebe za tim bilo jer poneki dijalekti (i mjesni govori) polako odumiru, a mlađe generacije ih koriste samo u posebnim prigodama (razne tradicijske manifestacije i sl.). Pri tome ih već sada nema tko u tome do kraja podučiti jer pojedine govore znaju samo najstariji ljudi, a za mnogo govora nisu načinjeni niti gramatički opisi niti rječnici.
Kad bi apikacija bila dovršena, korištenje bi bilo jednostavno: upiše se tekst na standardnom jeziku, a aplikacija to prevede na dijalekt (s naznačenim naglascima), a po potrebi se može čuti i zvučni zapis toga prijevoda.
Pretpostavljam da bi razvoj tako nečega bio zahtjevan projekt i trajao možda godinama, no ako se nađe volje...
|
|
|
02.12.2023., 07:51
|
#2
|
corpse without soul
Registracija: May 2018.
Lokacija: Biboca garagem favela
Postova: 2,923
|
prijevod na bednjanski bi bio skroz fora
ili neki pirotski "Kvo?" -Te
i torlački
kak bi se napravile razlike između zagorsko-međimurskog dijalekta i turopoljsko-posavskog dijalekta ?
osjećam puno truda u pozadini ideje. ali podržavam
ChatGPT mi zvuči da ima potencijala. nek netko proba
izvučeno iz konteksta (vic)
Pirocansko-Niško-Vranjanska verzija
Beše svadba u Banat. Tamo sam išao kod svastike na spavanje, takoj da ništa nesam plateo. Piće ponesoh što ga dobih od doktor Nestorović, takoj da ni tuj neka ženska ti zakači ovoličnu grančicu i moraš da gi davaš pari!!! Mame im ga nemadoh dve po pet, inače bih spasiv peticu! JOOOOJJJJJ! Sedoh za sto, muzika na uvce, eve što ću da gi dam dinar! Ama, ovaj sa harmoniku me gleda k'o siroma' slaninu! Šta sam mu skriveo? Ništa! Nego, 'oće pari, bato! Ko da gi berem sa komšija Tošinu kajsiju! A hrana, ubavaaaaaaaa! I to, meso, bre! Sve džaba! Izeo sam deset parce, stomak sam napuneo do grlce! I jagnjetina, bre, to ni Draža nije imao takoj! Al' me zaklaše načisto sa njihovi običaji! Mnogo bre ovi severnjaci rastrošni! Kad naiđe mladina kecelja, pa mladina pogača, LELEEEEEEE! Samo gu davaš pari! Ode mi sto dinari, neće se oporavim pet godine! A, mladoženja, da gu li jebem, gu ne poznavam! Mršavoooooo, bre! Koj li ga 'rani, ne znavam! A, mlada, lepa, ima šta da zagrliš! I kuva, bre! Kad se vračav u Pirot, umal' me šlog ne zavati! Poskupeše železnicu, u jeba' ti ja budale! Ko sa metro da se vračav Pirot! Če razmislim sledeći put da idem!
__________________
Can Upload Images for Signature
|
|
|
02.12.2023., 09:19
|
#3
|
spameričina prijateljica
Registracija: Nov 2002.
Postova: 24,045
|
Quote:
Ellie. kaže:
Pretpostavljam da bi razvoj tako nečega bio zahtjevan projekt i trajao možda godinama, no ako se nađe volje...
|
GT nije baš nešto ni za standardne jezike, bar ne u odnosu na hrvatski. Volja nije dovoljna: takav bi projekt ponajprije zahtijevao popis riječi (da ne kažem rječnik) za pojedina narječja i dijalekte. O morfologiji i sintaksi da se i ne govori. Muku mučimo već i sa standardom, a što misliš kako bi tek ovakvo što izgledalo.
ChatGPT samo je zgodna igračka, bar što se jezika itče. Kao i svi internetski jezični alati, oslanja se na engleski, a dalje pojma nema. Bar ne što se jezika tiče.
|
|
|
02.12.2023., 16:28
|
#4
|
Registrirani korisnik
Registracija: Jul 2011.
Lokacija: Hrvatska
Postova: 31
|
Quote:
Didi kaže:
GT nije baš nešto ni za standardne jezike, bar ne u odnosu na hrvatski. Volja nije dovoljna: takav bi projekt ponajprije zahtijevao popis riječi (da ne kažem rječnik) za pojedina narječja i dijalekte. O morfologiji i sintaksi da se i ne govori. Muku mučimo već i sa standardom, a što misliš kako bi tek ovakvo što izgledalo.
ChatGPT samo je zgodna igračka, bar što se jezika itče. Kao i svi internetski jezični alati, oslanja se na engleski, a dalje pojma nema. Bar ne što se jezika tiče.
|
OK, nekakvu bazu recimo da imam: istraživala sam govor svog mjesta te napisala gramatički opis (fonologija, naglasci, morgologija, leksik, sintaksa, tvorba riječi, fraze, primjeri govora) i rječnik (s naglascima i potrebnim gramatičkim podacima za svaku natuknicu). Moram priznati da sam to radila nekoliko godina.
No, može li se neki jezik/govor naučiti samo iz gramatičkog opisa i rječnika, bez slušanja govornika? Imam, doduše i zvučne zapise kazivanja izvornih govornika, ali oni se odnose samo na određene životne situacije i ne pokrivaju sav leksik i ostale osobine govora.
Zato, voljela bih kada bi, recimo u 22. stoljeću, postojao kakav virtualni "bać Iva" (ja sam iz Slavonije) koji bi na kakav tekstualni upit na hrvatskom standardu progovorio "po šokački". Jer tada tim govorom sigurno neće nitko govoriti (barem ne aktivno).
|
|
|
16.12.2023., 00:54
|
#5
|
Mudorator
Registracija: Mar 2017.
Postova: 802
|
Google Translate se, koliko mi se čini, danas u velikoj mjeri temelji na velikim paralelnim korpusima, dakle to su isti tekstovi na dva ili više jezika, na temelju kojih GT uspostavlja veze između ekvivalentnih riječi, fraza i struktura. Da takva metoda prevođenja bude uspješna, potrebne su goleme količine tekstualne građe, kakve ti zasigurno nemaš. Znači da bi za tvoj dijalekt bilo potrebno sastaviti nešto puno specijaliziranije, rigidan kontrastivni opis standarda i dijalekta, koji svaku standardnu pojavu može pouzdano konvertirati u dijalektalnu. Evo banalni problem koji bi trebalo riješiti unaprijed: ako dijalekt razlikuje DL sg. i/ili DLI pl., neće ih moći prevesti iz "golog" standardnog oblika u kojem su oni jednaki, nego bi trebalo promatrati i rečenični kontekst. A na kraju, do 22. st. lako je moguće da će bilo koji program napisan danas biti jedva moguće pokrenuti, i standard iz kojeg bi se prevodilo bi se u međuvremenu također promijenio.
Ako tvoj opis valja, bio bi korisniji i praktičniji za konzultiranje u pisanom obliku. Tako će moći biti koristan i lingvistima, koji će, makar to ružno zvuči, vjerojatno biti više zainteresirani za tvoju građu nego ljudi koji su vlastiti dijalekt zaboravili. Dakako, takav opis neće biti dovoljan za tečno naučiti dijalekt, ali ne bi niti neki dijalektalni Google Translate bio puno uspješniji.
|
|
|
16.12.2023., 21:07
|
#6
|
Registrirani korisnik
Registracija: Feb 2018.
Postova: 5,106
|
Usput budi rečeno, ChatGPT - po mom iskustvu - daleko bolje vlada hrvatskim od Googleovog Prevoditelja.
Ono...
Quote:
Didi kaže:
(...) ChatGPT samo je zgodna igračka, bar što se jezika itče. Kao i svi internetski jezični alati, oslanja se na engleski, a dalje pojma nema. Bar ne što se jezika tiče.
|
Daleko je Google Prevoditelj od "igračke koja pojma nema" za one koji se njime znaju služiti i izbjegavati minska polja, a kamoli ChatGPT. A nije ni ljudski jezik ne znam kakva neosvojiva, stroju neshvatljiva apstrakcija koju stroj neće - ako već nije - svladati bolje od najboljih, kao što se to već dogodilo šahu i gou. Ne bih previše romantizirao ljudske intelektualne kapacitete.
|
|
|
16.12.2023., 21:29
|
#7
|
Registrirani korisnik
Registracija: May 2012.
Postova: 4,838
|
Jezik je u neprestanoj mijeni jer se ne oslanja samo na standard i u njegovoj cjelokupnosti nikakva ga UI neće baš tako skoro svladati.
|
|
|
16.12.2023., 21:44
|
#8
|
Registrirani korisnik
Registracija: Feb 2018.
Postova: 5,106
|
Quote:
pronađena kaže:
Jezik je u neprestanoj mijeni jer se ne oslanja samo na standard i u njegovoj cjelokupnosti nikakva ga UI neće baš tako skoro svladati.
|
... a sljedeća linija obrane može biti, recimo, "pa jezik ne shvaćaju ni ljudi, kako će onda stroj!" ... Opet, ne bih romantizirao previše tu neku kakti apstraktnu, neshvatljivu i neuhvatljivu dimenziju jezika, niti mi je - meni osobno - ispod časti da nakupina poluvodiča i algoritama jednako ili bolje od moje malenkosti (o)vlada jezikom.
|
|
|
16.12.2023., 21:48
|
#9
|
Registrirani korisnik
Registracija: May 2012.
Postova: 4,838
|
Uzmi samo glagol brijati.
Što znači u standardu, što je značio u slengu prije trideset godina, a što znači u slengu današnje mladeži.
Pa neka neki algoritam to poprati.
|
|
|
16.12.2023., 22:00
|
#10
|
Registrirani korisnik
Registracija: Feb 2018.
Postova: 5,106
|
Quote:
pronađena kaže:
Uzmi samo glagol brijati.
Što znači u standardu, što je značio u slengu prije trideset godina, a što znači u slengu današnje mladeži.
Pa neka neki algoritam to poprati.
|
... I eto, upravo si istrenirala ChatGPT - da radiš na njemu - za pojam brijanja, samo mu još malo pojasniš značenja u tim kontekstima. Čas posla. Dalje? Ne velim da jezik nije kompleksan, daleko od toga, ali kapaciteti strojne pohrane i obrade su praktički bezgranični... Bilo bi jako štosno kad bi netko pratio - po unaprijed utvrđenim objektivnim kriterijima, koliko je već moguće - kakvoću strojnog prevođenja iz godine u godinu. Onako, kako se ChatGPT nosio s Marulićem u 2022. a kako u 2025.
|
|
|
16.12.2023., 22:07
|
#11
|
Registrirani korisnik
Registracija: May 2012.
Postova: 4,838
|
Quote:
Al dente kaže:
... I eto, upravo si istrenirala ChatGPT - da radiš na njemu - za pojam brijanja, samo mu još malo pojasniš značenja u tim kontekstima. Čas posla. Dalje? Ne velim da jezik nije kompleksan, daleko od toga, ali kapaciteti strojne pohrane i obrade su praktički bezgranični... Bilo bi jako štosno kad bi netko pratio - po unaprijed utvrđenim objektivnim kriterijima, koliko je već moguće - kakvoću strojnog prevođenja iz godine u godinu. Onako, kako se ChatGPT nosio s Marulićem u 2022. a kako u 2025.
|
ChatGPT se zasada može nositi s Marulićem samo ako mu uneseš čitave njegove tekstove i sukladne prijevode na standard.
I hrvatski je premali jezik tako da sumnjam da će se to ikad promijeniti.
|
|
|
17.12.2023., 02:02
|
#12
|
Registrirani korisnik
Registracija: Feb 2018.
Postova: 5,106
|
Stroj koji ne "razumije" Marulića (ili staroarmenski ili navajo ili što već) nije ništa drugačiji od čovjeka koji ne "razumije" Marulića; nije stvar općenite nemogućnosti nego jednostavno nedostatka treninga. No bez obzira i na Marulića i na hrvatski jezik, moja tvrdnja je samo to da AI strahovito napreduje s jezikom i da romantika i ezoterija tipa "ma neće stroj nikada savladati ljudski jezik kak' se spada jer (umetni razlog po volji)" ne drži vodu. Porazgovaraj se s ChatGPT-jem, priupitaj ga ovo ili ono, zamoli ga usput tu i tamo za neki prijevod pa vidi je li to smislenije ili manje smisleno od onoga što ćeš čuti od velike većine jedinka od krvi i mesa.
|
|
|
17.12.2023., 05:12
|
#13
|
Četvrti Storuki
Registracija: May 2009.
Lokacija: Tartar, gdje drugdje?
Postova: 15,543
|
Quote:
pronađena kaže:
ChatGPT se zasada može nositi s Marulićem samo ako mu uneseš čitave njegove tekstove i sukladne prijevode na standard.
|
Izvedivo je to. Marulić, Držić, pa i vulgarne dubrovačke komedije iz 17. i 18. stoljeća (Kate Kapuralica i slične) dolaze s opsežnim komentarima, rječnikom, kazalom pojmova... Naši su stari urednici i redaktori doista uzorno pripremali ta izdanja (Pet stoljeća hrvatske književnosti, Stari pisci hrvatski i druge biblioteke). Tako se knjige nažalost više ne priređuju, akribično i studiozno. A postoje i upravo genijalne monografije (Frano Čale, Mirko Tomasović itd.).
Dalo bi se dakle učiniti, samo treba čitav korpus ubaciti u bazu podataka. Samo.
__________________
What the heck, Hek?!
|
|
|
17.12.2023., 20:38
|
#14
|
Registrirani korisnik
Registracija: May 2012.
Postova: 4,838
|
Quote:
Hekatonhir kaže:
Izvedivo je to. Marulić, Držić, pa i vulgarne dubrovačke komedije iz 17. i 18. stoljeća (Kate Kapuralica i slične) dolaze s opsežnim komentarima, rječnikom, kazalom pojmova... Naši su stari urednici i redaktori doista uzorno pripremali ta izdanja (Pet stoljeća hrvatske književnosti, Stari pisci hrvatski i druge biblioteke). Tako se knjige nažalost više ne priređuju, akribično i studiozno. A postoje i upravo genijalne monografije (Frano Čale, Mirko Tomasović itd.).
Dalo bi se dakle učiniti, samo treba čitav korpus ubaciti u bazu podataka. Samo.
|
Baš samo.
Kad se nađe ekipica koja će to besplatno na dobrovoljnoj bazi učiniti financirajući pritom i eventualne troškove.
Isplatilo bi se iskoristiti mlade i nadobudne doktorande.
|
|
|
19.12.2023., 20:17
|
#15
|
spameričina prijateljica
Registracija: Nov 2002.
Postova: 24,045
|
Budući da se kanim pozvati na primjer koji imam kod kuće u papirnatom obliku, trebalo mi je vremena da prelistam tisuću stranica, kao i svoju ljudsku memoriju koja po brzini zaostaje za kompjuterskom.
Quote:
Al dente kaže:
Usput budi rečeno, ChatGPT - po mom iskustvu - daleko bolje vlada hrvatskim od Googleovog Prevoditelja.
|
ChatGPT, bar ona prva verzija s kojom su se svi na Fejsu igrali, komunicirao je na svojevrsnoj kombinaciji hrvatskog i srpskog. Je li se što popravio, ne znam. Kao drugo, za Wackernagela, čini se, nije čuo, a kamoli da bi se obazirao na redoslijed enklitika. Žao mi je što nisam pospremila primjere, ali napokon sam shvatila da ga zeza engleski, to jest da mu pojmovi "enklitika" i "proklitika" uopće nisu poznati odnosno da zna samo za englesko clitic.
Quote:
Daleko je Google Prevoditelj od "igračke koja pojma nema" za one koji se njime znaju služiti i izbjegavati minska polja, a kamoli ChatGPT. A nije ni ljudski jezik ne znam kakva neosvojiva, stroju neshvatljiva apstrakcija koju stroj neće - ako već nije - svladati bolje od najboljih, kao što se to već dogodilo šahu i gou. Ne bih previše romantizirao ljudske intelektualne kapacitete.
|
Ljudski je jezik kreacija, biće koje se neprestano mijenja i obnavlja. Ni šah ni go to nisu.
Quote:
pronađena kaže:
Jezik je u neprestanoj mijeni jer se ne oslanja samo na standard i u njegovoj cjelokupnosti nikakva ga UI neće baš tako skoro svladati.
|
I ne mijenja se sam, nego ga mi mijenjamo, baš kao što on nas mijenja. Mijenja našu misao.
Primjer je iz 15. poglavlja u Rabelaisovoj Četvrtoj knjizi ( Le Quart Livre), a slijedi nakon opće tuče: cachant l’œil guausche avecque son mouchouoir, & monstrant son tabourin defoncé d’un cousté (to jest, cachant son œil gauche et montrant son tambourin défoncé d'un côté). Na engleski je to prevedeno kao hiding his left eye with his kerchief, and showing his tabor cracked on one side, falabogu na Gutebergu. Maras je pak posegnuo za Stullijem pa njegov prijevod glasi: "krijući lijevo oko rupcem i pokazujući bubanj odadnjen s jedne strane". Da, nije morao. Mogao je napisati "razbijen / napuknut s jedne strane" ili "s izbijenim dnom", ali nije. A zašto? Zato što je to Rabelaisov tekst. Napisan u 16. stoljeću, u doba kada se francuski jezik intenzivno stvarao, i to doslovce, kada su ga stvarali pisci, filozofi, znanstvenici... Zato što im francuski jezik duguje svu silu riječi, zato što se pisana riječ intezivno tiskala, širila, zabranjivala pa se zbog nje čak i gorjelo na lomači. Sve je to utkano u Rabelaisova djela, a Marasov je prijevod time nadahnut. Kompjuter ne zna niti može znati što je nadahnuće.
P. S. Negdje imam ne znam koliko prijevoda jednog te istog Shakespeareova soneta - pa ti biraj!
|
|
|
19.12.2023., 21:16
|
#16
|
Registrirani korisnik
Registracija: May 2012.
Postova: 4,838
|
I to ne bilo kakva kreacija.
Jedna nevjerojatno promiskuitetna kreacija.
|
|
|
19.12.2023., 22:45
|
#17
|
Registrirani korisnik
Registracija: Oct 2023.
Postova: 122
|
Quote:
Didi kaže:
"krijući lijevo oko rupcem i pokazujući bubanj odadnjen s jedne strane". Da, nije morao. Mogao je napisati "razbijen / napuknut s jedne strane" ili "s izbijenim dnom", ali nije.
|
Vidi stvarno, i Putanec na prvom mjestu veli odadniti bačvu. Nego, od dosjetljivih prijevoda na pamet mi padaju „ seke hoćke” iz Velikanovićevog Don Quijotea: A da ti tako nešto padne na pamet moraš bit' pravi Šokac
|
|
|
20.12.2023., 15:42
|
#18
|
spameričina prijateljica
Registracija: Nov 2002.
Postova: 24,045
|
Quote:
joe.banks kaže:
Vidi stvarno, i Putanec na prvom mjestu veli odadniti bačvu. Nego, od dosjetljivih prijevoda na pamet mi padaju „ seke hoćke” iz Velikanovićevog Don Quijotea: A da ti tako nešto padne na pamet moraš bit' pravi Šokac
|
Zapravo mi je na umu bilo nešto drugo, a ne hvalospjev Rabelaisu, francuskoj renesansi i Marasu pa me ova tvoja napomena vraća na to. Tnx!
Odavno nisam zavirila u Putanca pa nisam ni znala da je naveo tu mogućnost, a sad i ne moram kad si ti to učinio, no nisam se s time nikada prije srela. U francuskom glagolu ja, dakako, automatski iščitavam le fond, ali isto tako iščitavam i dno u odadnjen. GT to ne povezuje tako. Točnije, predložiš li mu riječ odadnjen, prepoznaje ono što mu se čini najsličnijim - loyal (fr. i eng.) odnosno leale (it.) ili leal (sp.), a ponudiš li mu cijeli ovaj dio rečenice, jednostavno će izostaviti odadnjen.
Voljela bih da netko tko je još uvijek u dobrim odnosima s Geppettom provjeri njegovo poznavanje problema.
|
|
|
20.12.2023., 18:44
|
#19
|
Registrirani korisnik
Registracija: Jul 2011.
Lokacija: Hrvatska
Postova: 31
|
Quote:
eutow kaže:
Google Translate se, koliko mi se čini, danas u velikoj mjeri temelji na velikim paralelnim korpusima, dakle to su isti tekstovi na dva ili više jezika, na temelju kojih GT uspostavlja veze između ekvivalentnih riječi, fraza i struktura. Da takva metoda prevođenja bude uspješna, potrebne su goleme količine tekstualne građe, kakve ti zasigurno nemaš. Znači da bi za tvoj dijalekt bilo potrebno sastaviti nešto puno specijaliziranije, rigidan kontrastivni opis standarda i dijalekta, koji svaku standardnu pojavu može pouzdano konvertirati u dijalektalnu. Evo banalni problem koji bi trebalo riješiti unaprijed: ako dijalekt razlikuje DL sg. i/ili DLI pl., neće ih moći prevesti iz "golog" standardnog oblika u kojem su oni jednaki, nego bi trebalo promatrati i rečenični kontekst. A na kraju, do 22. st. lako je moguće da će bilo koji program napisan danas biti jedva moguće pokrenuti, i standard iz kojeg bi se prevodilo bi se u međuvremenu također promijenio.
Ako tvoj opis valja, bio bi korisniji i praktičniji za konzultiranje u pisanom obliku. Tako će moći biti koristan i lingvistima, koji će, makar to ružno zvuči, vjerojatno biti više zainteresirani za tvoju građu nego ljudi koji su vlastiti dijalekt zaboravili. Dakako, takav opis neće biti dovoljan za tečno naučiti dijalekt, ali ne bi niti neki dijalektalni Google Translate bio puno uspješniji.
|
Pisani oblik (gramatički opis i razlikovni rječnik) sam nedavno objavila. Tako da je barem u tom obliku nadam se dosta toga sačuvano. Samo, nitko se nije naučio govoriti neki jezik/dijalekt samo čitajući gramatiku ili rječnik... Ali učiniti više od toga, čini mi se da ipak prelazi moje mogućnosti (mislim ponajviše na uloženo vrijeme).
|
|
|
20.12.2023., 23:04
|
#20
|
Registrirani korisnik
Registracija: Oct 2023.
Postova: 122
|
Quote:
Ellie. kaže:
Ali učiniti više od toga, čini mi se da ipak prelazi moje mogućnosti
|
Kad smo već spomenuli Putanca, on svoj francusko-hrvatski rječnik počinje stihovima francuskog erudita J. J. Scaligera (1549.-1609.) (u prijevodu Stjepana Musulina):
Kome presudom strogom sudac dosudi jednoć
Kazna da zada jad, glavu da skine smrt,
Njega kinjiti neće robija s preteškim maljem,
Ni ruke morit mu trud, ni kopanjem rude rov:
Rječnik nek gradi; tȁ, trebali da duljim dalje:
Drugih svih muka lik taj jedan sadržava rad.
Krvav je leksikografski posao... No, kako je ovih dana ponovno popularan Napoleon da završim njegovom slavnom: „ impossible n’est pas français”.
Pa ako Francuzima ništa nije nemoguće, ne bi trebala biti niti ova tvoja ideja.
|
|
|
|
|
Sva vremena su GMT +2. Trenutno vrijeme je: 01:33.
|
|
|
|