15. 05. 2007. | #21 |
Ivan Dilber
Sir Write-a-Lot
|
ta vasa ideja zvuci kao nesto gde bi se mogao uklopiti Bayesov filtar, kao za spam sto se koristi. Nadju se verovatnoce da se neka rec nalazi na odredjenoj poziciji u recenici i verovatnoca da bude u istoj recenici sa drugim recima, pa onda preko toga mogu da se nadju slicne recenice...
e a kad to neko isprogramira da actually radi, onda sjebemo google, postignemo svetsku dominaciju na trzistu SE i otkupimo donesi.com za 2 milijarde dolara...
__________________
Leadership is the art of getting people to want to do what you know must be done. |
15. 05. 2007. | #22 |
Igor Marinović
Expert
|
Pre obradjivanja recenica dobro je recenicu (ako je na engleskom) provuci kroz Porter Stemming algoritam, koji reci 'oslobadja' nastavaka i mnozine.
Odredjivanje semantike reci koje se koriste je vrlo tezak problem, nesto se moze postici koristeci WordNet, ali pitanje koliko. Mislim da je najpametnije da pustite da 'raja' radi za vas, tagovanje je popularno, iz nekog razloga svi vole da taguju.
__________________
marinowski.com |
|
|
Slične teme | ||||
Tema | Početna poruka teme | Forum | Odgovori | Poslednja poruka |
Budućnost Interneta | vidak | e-Business | 15 | 15. 03. 2011. 21:08 |
Etičnost u marketingu, again | mileusna | Marketing i SEO | 9 | 22. 02. 2008. 23:48 |