17. 08. 2007. | #1 |
Predrag Supurović
Grand Master
Datum učlanjenja: 24.01.2006
Lokacija: Užice
Poruke: 791
Hvala: 3
200 "Hvala" u 12 poruka
|
Parsiranje po lang atributu
Zaglavio sam se oko ovoga i ne umem da se iskobeljam. Odavno sam napravio Universal Language Tool (http://ult.datavoyage.com/) koji omogucava da se dosta jednostavno ugradi visejezicna podrska na sajt.
Radi to dosta fino ividim da ima ljudi koji korsite biblioteku. Naime, bibloteka sada jednostavno parsira ceo HTML kod i zamenjuje predefinisane makroe ili vec radi obradu kakvu treba dabi taj dokument "prevela" na trazeni jezik. Sad sam namerio da je malo unapredim. Hteo bih da iskorsiti lang atribut da izdvojim delove dokumenta koji su na razlicitim jezicima i da te delove tretiram odvojeno. Primer: biblioteka lako prevodi cirilicni dokument u latinicni, ali se javljaju situacije kada je potrebno da se neki delovi cirilicnog dokumenta zadrze u cirilici a da seostatak prevede na latinicu. Na primer, dokument koji sadrzi: <div>Ово је текст написан ћирилицом: <span lang="sr">Дошла маца на вратанца</span></div> ...bi u latinicnoj varijati trebalo a izgleda ovako: <div>Ovo je tekst napisan ćirilicom: <span lang="sr">Дошла маца на вратанца</span></div> Nemam pojma kako ovo da isparsiram, s obzirom da: - lang atribut može da se dodeli mnogim tagovima i - lang atribut može da se ponavlja po dubini u hijerarhiji HTML objekata Moja ideja je da nekako iseckam HTML dokument na delove tako da dobijem više delova koji više ne sadrže nijedan lang atribut i da za svaki imam informaciju koji jezik je važeći za taj deo dokumenta. Moje poznavanje regularnih izraza je inferiorno u odnosu na ovakvu potrebu Da li je neko radio nesto slicno ili bar ima kakvu korisnu sugestiju?
__________________
Peđina beležnica (blog) - www.uzice.net - wireless.uzice.net - www.vokabular.org - www.vodic.net - forum.uzice.net |
17. 08. 2007. | #2 |
VD IT Direktora
Invented the damn thing
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
|
Ja bih se usuđivao da tako nešto radim jedino ako bih mogao da koristim neki X(HT)ML parser, ali bojim se u tom slučaju ne bih mogao da garantujem da će rezultujući HTML 100% odgovarati početnom.
|
17. 08. 2007. | #3 |
Predrag Supurović
Grand Master
Datum učlanjenja: 24.01.2006
Lokacija: Užice
Poruke: 791
Hvala: 3
200 "Hvala" u 12 poruka
|
To sam i ja prvo zakljucio ali sve nekako imam utisak da bi moglo da se resi, a da se ne parsira ceo dokument.
To sto se lang atribut moze naci u mnogo tagova jeste komplikacija, ali je i to ipak sablon. Ako se radi pojednostavljenja umesto lang atributa uzeo neki neki izmisljeni tag, recimo, <L></L> i ako bi se napravilo parsiranje dokument akoje ce da isecka sve delove izmeju i oko ovih tagova, onda se da napraviti da se umeto tog izmisljenog taga parsira bilo koji tag koji ima lang atribut... princip je isti samo je dodatna kompliakcija sto se mora izvuci koji je tag u pitanju.
__________________
Peđina beležnica (blog) - www.uzice.net - wireless.uzice.net - www.vokabular.org - www.vodic.net - forum.uzice.net |
17. 08. 2007. | #4 |
VD IT Direktora
Invented the damn thing
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
|
Poenta je što mogu da postoje ugnježdeni L tagovi, tako da ne možeš da znaš kom početnom tagu odgovara neki završni tag, sem ako ozbiljnije ne proparsiraš dokument.
|
17. 08. 2007. | #5 |
Predrag Supurović
Grand Master
Datum učlanjenja: 24.01.2006
Lokacija: Užice
Poruke: 791
Hvala: 3
200 "Hvala" u 12 poruka
|
Naravno, ono sto mislim je da uemsto da se parsira ceo HTML, parsiraju se samo L tagovi, jer su oni jedini bitni. To bi trebalo da je ipak debelo pojednostavljenje.
__________________
Peđina beležnica (blog) - www.uzice.net - wireless.uzice.net - www.vokabular.org - www.vodic.net - forum.uzice.net |
17. 08. 2007. | #6 |
Ivan Dilber
Sir Write-a-Lot
|
pogledaj preg_replace_callback() funkciju, postoji i primer za rekurzivno parsiranje BB coda, time bi mogao da pokrijes manje vise sve, ukoliko je html validan (svi tagovi pravilno ugnjezdeni i zatvoreni)
__________________
Leadership is the art of getting people to want to do what you know must be done. |
17. 08. 2007. | #7 |
Predrag Supurović
Grand Master
Datum učlanjenja: 24.01.2006
Lokacija: Užice
Poruke: 791
Hvala: 3
200 "Hvala" u 12 poruka
|
preg_replace_callback() je prvo sa cim sam probao ali je logika te funkcije upravo obrnuta onome sto mi treba.
__________________
Peđina beležnica (blog) - www.uzice.net - wireless.uzice.net - www.vokabular.org - www.vodic.net - forum.uzice.net |
18. 08. 2007. | #8 |
Predrag Supurović
Grand Master
Datum učlanjenja: 24.01.2006
Lokacija: Užice
Poruke: 791
Hvala: 3
200 "Hvala" u 12 poruka
|
Uspeo sam da napravim parsiranje. RAdi sve kako treba ako korsitim <lang></lang> i to mi cak radi posao posto se ti pomocni tagovi nece pojavljivati u izlaznom dokumentu. Medjutim imam problem, taj tag bi u svtvati reba da izgleda ovako:
nekitekst<lang id="en">nekitekst</lang> U prvoj liniji prilozenog koda je regext koji match-uje <lang id="en"> ali mi ne uspeva da na isti nacin namestim da radi izraz za pretragu koji je definisan u promenljivoj $regex. Trebalo bi da parsisa sa ovim id="en" (gde en moze biti bilo koja oznaka jezika) i da tu oznaku jezika mogu da procitam kako bih parsiranom segmentu naznacio da je u tom jeziku. U prilozenom kodu, promenljivoj $m_cur_lang treba da se dodeli procitana oznaka jezika. Al' nece pa nece... Kôd:
<pre> <?php echo preg_match ('#\<lang( (.)*)*\>#', ' <lang id="sr"> '); $input = "nivo1<lang>nivo2<lang>nivo3<lang>nivo4</lang></lang>nivo2</lang>nivo1<lang>nivo2</lang>nivo1"; echo "input = $input\n"; $parsed = parseLang ($input, 'sr'); print_r ($parsed); echo "result = " . joinLang ($parsed); function parseLang ($p_input, $p_def_lang) { $regex = '#\<lang\>((?:[^<]|\<(?!/?lang\>)|(?R))+)\</lang\>#'; if (preg_match ($regex, $p_input)) { $split = preg_split ($regex, $p_input,2); //tekuci nivo, prefiks unset ($m_out); $m_out['lang'] = $p_def_lang; $m_out['value'] = $split[0]; $out[0] = $m_out; // sledeci nivo po dubini $m_input = $p_input; if (strlen ($split[0]) > 0) $m_input = substr ($m_input, strlen ($split[0])); if (strlen ($split[1]) > 0) $m_input = substr ($m_input, 0, - strlen ($split[1])); $m_cur_lang = $p_def_lang; // ovde treba izvuci vrednost iz lang taga $m_input = preg_replace ($regex, '$1', $m_input); unset ($m_out); $m_out[0] = parseLang ($m_input, $m_cur_lang); $out[1] = $m_out; // tekuci nivo, sufiks unset ($m_out); $m_out['lang'] = $p_def_lang; $m_out = parseLang ($split[1], $m_out['lang']); $out[2] = $m_out; $m_result = $out; } else { $m_result['lang'] = $p_def_lang; $m_result['value'] = $p_input; } return ($m_result); } function joinLang ($p_input) { $m_result = ''; foreach ($p_input as $m_item) { if (isset ($m_item['value'])) { if (! empty ($m_item['value'])) { $m_result .= '<lang' /* id="' . $m_item['lang'] . '"'*/ . '>' . $m_item['value']; } } else { $m_result .= joinLang ($m_item); } } $m_result .= '</lang>'; return ($m_result); } ?> </pre>
__________________
Peđina beležnica (blog) - www.uzice.net - wireless.uzice.net - www.vokabular.org - www.vodic.net - forum.uzice.net |
|
|
Slične teme | ||||
Tema | Početna poruka teme | Forum | Odgovori | Poslednja poruka |
RSS parsiranje | nikolam | (X)HTML, JavaScript, DHTML, XML, CSS | 4 | 02. 10. 2009. 21:27 |
ASP/ASP.NET parsiranje RSS feeda | NeonDragon | Programiranje | 2 | 23. 09. 2008. 19:52 |
Problem smarty i poseban lang fajl sa latinicnim prevodom i nasim slovima? | MojNalog | Sva početnička pitanja | 7 | 06. 06. 2008. 14:13 |
Dva razlicita lang fajla - merge | pcigre | PHP | 8 | 09. 04. 2007. 22:31 |
Ruby-Lang.org | crews_adder | Linkovi | 0 | 19. 09. 2006. 17:23 |