algoritam kljucnih reci ili ... - Strana 3

AdriaMart · 29. 10. 2011.

Pronasao sam jedan nacin a Vi kazite da li moze da bude koristan za kategorisanje... Imam jeda nstring koji je ustvari opis proizvoda/usluge i druge stringove koji sadrze karakteristicne reci za tu kategoriju npr. String za restoran (restoran,hrana,pizza,desert,rostilj) e sad uporedjivanjem opisa sa svim stringovima dobijam procenat podudarnosti i naravno opis koji se najvise podudara je najverovatnije i kategorija... e sad neznam da li da koristim za uporedjivanje i dobijanje procenta funciju similar_text() ili mozda JaroWinkler , Levenshtein algoritam ?

ivanhoe · 30. 10. 2011.

@jablan: i onda ti dodje srpska agencija i da oglas za prodaju stana i za cenu napise 10e da bi se pojavili prvi u listingu na vecini sajtova

Glavni problem kod svih spajderovanja i machine-learning sistema je sto skup pravila, tj. logika mora da bude otporna na izuzetke, kojih uvek ima.. pogresno spelovana rec, namerno ili slucajno upisana pogresna cena, itd., masinska obrada texta sa neta je ****in nocna mora.. deo toga moze da se zanemari, ali nekad (cesto) tih izuzetaka ima toliko da na kraju rezultat ni na sta ne lici...

Najbolje resenje po meni je da se pravi hibridni sistem, koji ce da delimicno sortira rezultate, a onda posao preuzmu ljudi. Napravi im se dodatni alat koji ce sluziti da brzo prekontrolisu polu-sredjene rezultate, uz eventualno neku logiku za flag-ovanje cudnih situacija (tipa mala cena stana, kao za izdavanje, a u oglasu pise da je stan uknjizen, kao da je prodaja, i tako neke fore).. mnogo je to lakse nego praviti super pametni sistem koji ce da pokrije jos tih dodatnih 10% "cudnih" slucajeva...

BraMom · 30. 10. 2011.

@ivanhoe Do sličnog zaključka smo i došli u diskusiji, ako je verovatnoća koju da algoritam (naive bayes) iznad nekog praga onda automatika, ako ne onda na ručno moderiranje. Naravno algoritam može i "samo" da da predloge i da čeka da ti klikćeš "approve". Cenim da bi AdriaMart rado pristao na ručno isrpavljanje ukoliko agencije počnu da šteluju podatke po njegovom algoritmu

@AdriaMart Poenta je da na osnovu podataka koje imaš, znači već kategorisanih proizvoda, zaključiš da kolika je korelacija između (ne)pojavljivanja ključne reči i pripadnosti nekoj kategoriji. Npr. ako se u opisima 5 proizvoda pojavljuje fraza "teleća glava", od toga su 4 restorani, a jedno moj data mining algoritam. Možeš da zaključiš da pojavljivanje fraze "teleća glava" sa 80% određuje da je u pitanju "restoran". Prođeš isto za sve ključne reči/fraze i onda sračunaš bajesa i to je to... Kako ti baza raste ti radiš update svog modela, i tako povećavaš preciznost na osnovu već klasifikovanih "proizvoda".
Znači model, tj. verovatnoće korelacije pojavljivanja neke ključne reči i pripadnosti određenoj kategoriji ne određuješ "od oka", nego na osnovu postojećih klasifikovanih podataka.

AdriaMart · 30. 10. 2011.

Hvala svima... Mislim da cu nakraju jednostavno bodovati ako se koren kljucnih reci nalazi u recima teksta pa gde dobijem najvise bodova to je i verovatno kategorija...

29. 10. 2011.	#21
AdriaMart expert Expert Datum učlanjenja: 15.03.2011 Poruke: 518 Hvala: 16 20 "Hvala" u 17 poruka	Pronasao sam jedan nacin a Vi kazite da li moze da bude koristan za kategorisanje... Imam jeda nstring koji je ustvari opis proizvoda/usluge i druge stringove koji sadrze karakteristicne reci za tu kategoriju npr. String za restoran (restoran,hrana,pizza,desert,rostilj) e sad uporedjivanjem opisa sa svim stringovima dobijam procenat podudarnosti i naravno opis koji se najvise podudara je najverovatnije i kategorija... e sad neznam da li da koristim za uporedjivanje i dobijanje procenta funciju similar_text() ili mozda JaroWinkler , Levenshtein algoritam ? __________________ I'm not sexy and I know IT!

30. 10. 2011.	#22
ivanhoe Ivan Dilber Sir Write-a-Lot Datum učlanjenja: 18.10.2005 Lokacija: Bgd Poruke: 5.320 Hvala: 104 2.344 "Hvala" u 583 poruka	@jablan: i onda ti dodje srpska agencija i da oglas za prodaju stana i za cenu napise 10e da bi se pojavili prvi u listingu na vecini sajtova Glavni problem kod svih spajderovanja i machine-learning sistema je sto skup pravila, tj. logika mora da bude otporna na izuzetke, kojih uvek ima.. pogresno spelovana rec, namerno ili slucajno upisana pogresna cena, itd., masinska obrada texta sa neta je ****in nocna mora.. deo toga moze da se zanemari, ali nekad (cesto) tih izuzetaka ima toliko da na kraju rezultat ni na sta ne lici... Najbolje resenje po meni je da se pravi hibridni sistem, koji ce da delimicno sortira rezultate, a onda posao preuzmu ljudi. Napravi im se dodatni alat koji ce sluziti da brzo prekontrolisu polu-sredjene rezultate, uz eventualno neku logiku za flag-ovanje cudnih situacija (tipa mala cena stana, kao za izdavanje, a u oglasu pise da je stan uknjizen, kao da je prodaja, i tako neke fore).. mnogo je to lakse nego praviti super pametni sistem koji ce da pokrije jos tih dodatnih 10% "cudnih" slucajeva... __________________ Leadership is the art of getting people to want to do what you know must be done.

30. 10. 2011.	#23
BraMom Branimir Momcilovic Qualified Datum učlanjenja: 15.02.2006 Lokacija: Beograd Poruke: 167 Hvala: 47 25 "Hvala" u 8 poruka	@ivanhoe Do sličnog zaključka smo i došli u diskusiji, ako je verovatnoća koju da algoritam (naive bayes) iznad nekog praga onda automatika, ako ne onda na ručno moderiranje. Naravno algoritam može i "samo" da da predloge i da čeka da ti klikćeš "approve". Cenim da bi AdriaMart rado pristao na ručno isrpavljanje ukoliko agencije počnu da šteluju podatke po njegovom algoritmu @AdriaMart Poenta je da na osnovu podataka koje imaš, znači već kategorisanih proizvoda, zaključiš da kolika je korelacija između (ne)pojavljivanja ključne reči i pripadnosti nekoj kategoriji. Npr. ako se u opisima 5 proizvoda pojavljuje fraza "teleća glava", od toga su 4 restorani, a jedno moj data mining algoritam. Možeš da zaključiš da pojavljivanje fraze "teleća glava" sa 80% određuje da je u pitanju "restoran". Prođeš isto za sve ključne reči/fraze i onda sračunaš bajesa i to je to... Kako ti baza raste ti radiš update svog modela, i tako povećavaš preciznost na osnovu već klasifikovanih "proizvoda". Znači model, tj. verovatnoće korelacije pojavljivanja neke ključne reči i pripadnosti određenoj kategoriji ne određuješ "od oka", nego na osnovu postojećih klasifikovanih podataka. __________________ Važnije je biti ljubazan, nego biti u pravu.

30. 10. 2011.	#24
AdriaMart expert Expert Datum učlanjenja: 15.03.2011 Poruke: 518 Hvala: 16 20 "Hvala" u 17 poruka	Hvala svima... Mislim da cu nakraju jednostavno bodovati ako se koren kljucnih reci nalazi u recima teksta pa gde dobijem najvise bodova to je i verovatno kategorija... __________________ I'm not sexy and I know IT!