Parsiranje po lang atributu

Pedja · 17. 08. 2007.

Zaglavio sam se oko ovoga i ne umem da se iskobeljam. Odavno sam napravio Universal Language Tool (http://ult.datavoyage.com/) koji omogucava da se dosta jednostavno ugradi visejezicna podrska na sajt.

Radi to dosta fino ividim da ima ljudi koji korsite biblioteku.

Naime, bibloteka sada jednostavno parsira ceo HTML kod i zamenjuje predefinisane makroe ili vec radi obradu kakvu treba dabi taj dokument "prevela" na trazeni jezik.

Sad sam namerio da je malo unapredim. Hteo bih da iskorsiti lang atribut da izdvojim delove dokumenta koji su na razlicitim jezicima i da te delove tretiram odvojeno.

Primer: biblioteka lako prevodi cirilicni dokument u latinicni, ali se javljaju situacije kada je potrebno da se neki delovi cirilicnog dokumenta zadrze u cirilici a da seostatak prevede na latinicu.

Na primer, dokument koji sadrzi:

<div>Ово је текст написан ћирилицом: <span lang="sr">Дошла маца на вратанца</span></div>

...bi u latinicnoj varijati trebalo a izgleda ovako:

<div>Ovo je tekst napisan ćirilicom: <span lang="sr">Дошла маца на вратанца</span></div>

Nemam pojma kako ovo da isparsiram, s obzirom da:

- lang atribut može da se dodeli mnogim tagovima i

- lang atribut može da se ponavlja po dubini u hijerarhiji HTML objekata

Moja ideja je da nekako iseckam HTML dokument na delove tako da dobijem više delova koji više ne sadrže nijedan lang atribut i da za svaki imam informaciju koji jezik je važeći za taj deo dokumenta. Moje poznavanje regularnih izraza je inferiorno u odnosu na ovakvu potrebu

Da li je neko radio nesto slicno ili bar ima kakvu korisnu sugestiju?

jablan · 17. 08. 2007.

Ja bih se usuđivao da tako nešto radim jedino ako bih mogao da koristim neki X(HT)ML parser, ali bojim se u tom slučaju ne bih mogao da garantujem da će rezultujući HTML 100% odgovarati početnom.

Pedja · 17. 08. 2007.

To sam i ja prvo zakljucio ali sve nekako imam utisak da bi moglo da se resi, a da se ne parsira ceo dokument.

To sto se lang atribut moze naci u mnogo tagova jeste komplikacija, ali je i to ipak sablon.

Ako se radi pojednostavljenja umesto lang atributa uzeo neki neki izmisljeni tag, recimo, <L></L> i ako bi se napravilo parsiranje dokument akoje ce da isecka sve delove izmeju i oko ovih tagova, onda se da napraviti da se umeto tog izmisljenog taga parsira bilo koji tag koji ima lang atribut... princip je isti samo je dodatna kompliakcija sto se mora izvuci koji je tag u pitanju.

jablan · 17. 08. 2007.

Poenta je što mogu da postoje ugnježdeni L tagovi, tako da ne možeš da znaš kom početnom tagu odgovara neki završni tag, sem ako ozbiljnije ne proparsiraš dokument.

Pedja · 17. 08. 2007.

Naravno, ono sto mislim je da uemsto da se parsira ceo HTML, parsiraju se samo L tagovi, jer su oni jedini bitni. To bi trebalo da je ipak debelo pojednostavljenje.

ivanhoe · 17. 08. 2007.

pogledaj preg_replace_callback() funkciju, postoji i primer za rekurzivno parsiranje BB coda, time bi mogao da pokrijes manje vise sve, ukoliko je html validan (svi tagovi pravilno ugnjezdeni i zatvoreni)

Pedja · 17. 08. 2007.

preg_replace_callback() je prvo sa cim sam probao ali je logika te funkcije upravo obrnuta onome sto mi treba.

Pedja · 18. 08. 2007.

Uspeo sam da napravim parsiranje. RAdi sve kako treba ako korsitim <lang></lang> i to mi cak radi posao posto se ti pomocni tagovi nece pojavljivati u izlaznom dokumentu. Medjutim imam problem, taj tag bi u svtvati reba da izgleda ovako:

nekitekst<lang id="en">nekitekst</lang>

U prvoj liniji prilozenog koda je regext koji match-uje <lang id="en"> ali mi ne uspeva da na isti nacin namestim da radi izraz za pretragu koji je definisan u promenljivoj $regex.

Trebalo bi da parsisa sa ovim id="en" (gde en moze biti bilo koja oznaka jezika) i da tu oznaku jezika mogu da procitam kako bih parsiranom segmentu naznacio da je u tom jeziku. U prilozenom kodu, promenljivoj $m_cur_lang treba da se dodeli procitana oznaka jezika.

Al' nece pa nece...

Kôd:

<pre>
<?php

echo preg_match ('#\<lang( (.)*)*\>#', '   <lang id="sr">   ');

$input = "nivo1<lang>nivo2<lang>nivo3<lang>nivo4</lang></lang>nivo2</lang>nivo1<lang>nivo2</lang>nivo1";

echo "input = $input\n";

$parsed = parseLang ($input, 'sr');

print_r ($parsed);

echo "result = " . joinLang ($parsed);

function parseLang ($p_input, $p_def_lang) {
	$regex = '#\<lang\>((?:[^<]|\<(?!/?lang\>)|(?R))+)\</lang\>#';
	
	if (preg_match ($regex, $p_input)) {
		$split = preg_split ($regex, $p_input,2);

		//tekuci nivo, prefiks
		unset ($m_out);
		$m_out['lang'] = $p_def_lang;
		$m_out['value'] = $split[0];
		$out[0] = $m_out;

		// sledeci nivo po dubini
		$m_input = $p_input;
		if (strlen ($split[0]) > 0) $m_input = substr ($m_input, strlen ($split[0]));
		if (strlen ($split[1]) > 0) $m_input = substr ($m_input, 0, - strlen ($split[1]));
		
		$m_cur_lang = $p_def_lang; // ovde treba izvuci vrednost iz lang taga
		
		$m_input = preg_replace ($regex, '$1', $m_input);		

		unset ($m_out);
		$m_out[0] = parseLang ($m_input, $m_cur_lang);
		$out[1] = $m_out;
		
		// tekuci nivo, sufiks
		unset ($m_out);
		$m_out['lang'] = $p_def_lang;
		$m_out = parseLang ($split[1], $m_out['lang']);
		$out[2] = $m_out;
			
		$m_result = $out;
	} else {
		$m_result['lang'] = $p_def_lang;
		$m_result['value'] = $p_input;
	}
	return ($m_result);
}

function joinLang ($p_input) {
	$m_result = '';
	foreach ($p_input as $m_item) {
		if (isset ($m_item['value'])) {
			if (! empty ($m_item['value'])) {
				$m_result .= '<lang' /* id="' . $m_item['lang'] . '"'*/ . '>' . $m_item['value'];
			}
		} else {
			$m_result .= joinLang ($m_item);
		}
	}
	$m_result .= '</lang>';
	return ($m_result);
}

?> 
</pre>

17. 08. 2007.	#1
Pedja Predrag Supurović Grand Master Datum učlanjenja: 24.01.2006 Lokacija: Užice Poruke: 791 Hvala: 3 200 "Hvala" u 12 poruka	Parsiranje po lang atributu Zaglavio sam se oko ovoga i ne umem da se iskobeljam. Odavno sam napravio Universal Language Tool (http://ult.datavoyage.com/) koji omogucava da se dosta jednostavno ugradi visejezicna podrska na sajt. Radi to dosta fino ividim da ima ljudi koji korsite biblioteku. Naime, bibloteka sada jednostavno parsira ceo HTML kod i zamenjuje predefinisane makroe ili vec radi obradu kakvu treba dabi taj dokument "prevela" na trazeni jezik. Sad sam namerio da je malo unapredim. Hteo bih da iskorsiti lang atribut da izdvojim delove dokumenta koji su na razlicitim jezicima i da te delove tretiram odvojeno. Primer: biblioteka lako prevodi cirilicni dokument u latinicni, ali se javljaju situacije kada je potrebno da se neki delovi cirilicnog dokumenta zadrze u cirilici a da seostatak prevede na latinicu. Na primer, dokument koji sadrzi: <div>Ово је текст написан ћирилицом: <span lang="sr">Дошла маца на вратанца</span></div> ...bi u latinicnoj varijati trebalo a izgleda ovako: <div>Ovo je tekst napisan ćirilicom: <span lang="sr">Дошла маца на вратанца</span></div> Nemam pojma kako ovo da isparsiram, s obzirom da: - lang atribut može da se dodeli mnogim tagovima i - lang atribut može da se ponavlja po dubini u hijerarhiji HTML objekata Moja ideja je da nekako iseckam HTML dokument na delove tako da dobijem više delova koji više ne sadrže nijedan lang atribut i da za svaki imam informaciju koji jezik je važeći za taj deo dokumenta. Moje poznavanje regularnih izraza je inferiorno u odnosu na ovakvu potrebu Da li je neko radio nesto slicno ili bar ima kakvu korisnu sugestiju? __________________ Peđina beležnica (blog) - www.uzice.net - wireless.uzice.net - www.vokabular.org - www.vodic.net - forum.uzice.net

17. 08. 2007.	#3
Pedja Predrag Supurović Grand Master Datum učlanjenja: 24.01.2006 Lokacija: Užice Poruke: 791 Hvala: 3 200 "Hvala" u 12 poruka	To sam i ja prvo zakljucio ali sve nekako imam utisak da bi moglo da se resi, a da se ne parsira ceo dokument. To sto se lang atribut moze naci u mnogo tagova jeste komplikacija, ali je i to ipak sablon. Ako se radi pojednostavljenja umesto lang atributa uzeo neki neki izmisljeni tag, recimo, <L></L> i ako bi se napravilo parsiranje dokument akoje ce da isecka sve delove izmeju i oko ovih tagova, onda se da napraviti da se umeto tog izmisljenog taga parsira bilo koji tag koji ima lang atribut... princip je isti samo je dodatna kompliakcija sto se mora izvuci koji je tag u pitanju. __________________ Peđina beležnica (blog) - www.uzice.net - wireless.uzice.net - www.vokabular.org - www.vodic.net - forum.uzice.net

17. 08. 2007.	#5
Pedja Predrag Supurović Grand Master Datum učlanjenja: 24.01.2006 Lokacija: Užice Poruke: 791 Hvala: 3 200 "Hvala" u 12 poruka	Naravno, ono sto mislim je da uemsto da se parsira ceo HTML, parsiraju se samo L tagovi, jer su oni jedini bitni. To bi trebalo da je ipak debelo pojednostavljenje. __________________ Peđina beležnica (blog) - www.uzice.net - wireless.uzice.net - www.vokabular.org - www.vodic.net - forum.uzice.net

17. 08. 2007.	#6
ivanhoe Ivan Dilber Sir Write-a-Lot Datum učlanjenja: 18.10.2005 Lokacija: Bgd Poruke: 5.320 Hvala: 104 2.344 "Hvala" u 583 poruka	pogledaj preg_replace_callback() funkciju, postoji i primer za rekurzivno parsiranje BB coda, time bi mogao da pokrijes manje vise sve, ukoliko je html validan (svi tagovi pravilno ugnjezdeni i zatvoreni) __________________ Leadership is the art of getting people to want to do what you know must be done.

17. 08. 2007.	#7
Pedja Predrag Supurović Grand Master Datum učlanjenja: 24.01.2006 Lokacija: Užice Poruke: 791 Hvala: 3 200 "Hvala" u 12 poruka	preg_replace_callback() je prvo sa cim sam probao ali je logika te funkcije upravo obrnuta onome sto mi treba. __________________ Peđina beležnica (blog) - www.uzice.net - wireless.uzice.net - www.vokabular.org - www.vodic.net - forum.uzice.net

17. 08. 2007.	#2
jablan VD IT Direktora Invented the damn thing Datum učlanjenja: 08.06.2005 Lokacija: Beograd Poruke: 2.118 Hvala: 503 1.307 "Hvala" u 282 poruka	Ja bih se usuđivao da tako nešto radim jedino ako bih mogao da koristim neki X(HT)ML parser, ali bojim se u tom slučaju ne bih mogao da garantujem da će rezultujući HTML 100% odgovarati početnom.

Slične teme
Tema	Početna poruka teme	Forum	Odgovori	Poslednja poruka
RSS parsiranje	nikolam	(X)HTML, JavaScript, DHTML, XML, CSS	4	02. 10. 2009. 21:27
ASP/ASP.NET parsiranje RSS feeda	NeonDragon	Programiranje	2	23. 09. 2008. 19:52
Problem smarty i poseban lang fajl sa latinicnim prevodom i nasim slovima?	MojNalog	Sva početnička pitanja	7	06. 06. 2008. 14:13
Dva razlicita lang fajla - merge	pcigre	PHP	8	09. 04. 2007. 22:31
Ruby-Lang.org	crews_adder	Linkovi	0	19. 09. 2006. 17:23