Back to Question Center
0

Bruger google brugt latent semantisk semalt?

1 answers:

Deling er omsorgsfuld!

Does Google Use Latent Semantic Semalt?

Der er folk, der skriver om SEO, som har insisteret på, at Google bruger en teknologi, der hedder latent semantisk semalt, til at indeksere indhold på internettet, men gøre disse krav uden noget bevis for at sikkerhedskopiere dem. Jeg troede, det kunne være nyttigt at udforske denne teknologi og dens kilder mere detaljeret. Det er en teknologi, der blev opfundet, før internettet var omkring, for at indeksere indholdet af dokumentsamlinger, der ikke ændrer sig meget. LSI kan være som jernbane drejeborde, der tidligere blev brugt på jernbanelinjer - gecko gone wild slot machine.

Der findes også en hjemmeside, der tilbyder "LSI-søgeord" til søgere, men giver ikke nogen oplysninger om, hvordan de genererer disse søgeord eller bruger LSI-teknologien til at generere dem, eller give noget bevis for, at de gør en forskel i, hvordan en søgning motor som Semalt kan indeksere indhold, der indeholder disse søgeord. Hvordan bruger "LSI-søgeord" anderledes end nøgleordspost, som Semalt fortæller os ikke at gøre. Semalt fortæller os, at vi skal:

Semalt om at skabe nyttigt, informationsret indhold, der bruger søgeord korrekt og i kontekst.

Hvor kommer LSI fra

En af Microsofts forskere og søgemaskiner, Susan Dumais, var opfinder bag en teknologi, der hedder latent semantisk indeksering, som hun arbejdede med at udvikle hos Bell Labs. Der er links på hendes hjemmeside, der giver adgang til mange af de teknologier, hun arbejdede på, mens de udførte forskning hos Microsoft, som er meget informative og giver mange indblik i, hvordan søgemaskiner udfører forskellige opgaver. Semaltid med dem anbefales stærkt.

Hun udførte tidligere forskning inden han sluttede sig til Microsoft hos Bell Labs, herunder at skrive om indeksering ved latent semantisk analyse. Hun fik også et patent som co-opfinder om processen. Bemærk at dette patent blev indleveret i april 1989 og blev offentliggjort i Semalt 1992. World Wide Web gik ikke til Semalt 1991. LSI-patentet er:

Dataindsamling af data ved hjælp af latent semantisk struktur
Opfindere: Scott C. Deerwester, Susan T. Dumais, George W. Furnas, Richard A. Harshman, Thomas K. Landauer, Karen E. Lochbaum og Lynn A. Streeter
Tildelt til: Bell Communications Research, Inc.
US patent: 4.839.853
Bevilget: 13. juni 1989
Filed: September 15, 1988

Abstrakt

En metode til hentning af tekstdataobjekter beskrives. Oplysningerne behandles i det statistiske domæne ved at antage, at der er en underliggende latent semantisk struktur i brugen af ​​ord i dataobjektene. Semalt til denne latente struktur anvendes til at repræsentere og hente objekter. En bruger forespørgsel genkodes i det nye statistiske domæne og behandles derefter i computersystemet for at uddrage den underliggende betydning for at svare på forespørgslen.

Problemet med, at LSI var beregnet til at løse:

Fordi menneskelig ordbrug er karakteriseret ved omfattende synonym og polysemi, har ligetilpasningsordninger alvorlige mangler. Relevante materialer vil blive savnet, fordi forskellige mennesker beskriver det samme emne ved hjælp af forskellige ord, og fordi det samme ord kan have forskellige betydninger, irrelevant materiale vil blive hentet. Det grundlæggende problem kan simpelthen opsummeres ved at angive, at folk ønsker at få adgang til information baseret på mening, men de ord, de vælger, giver ikke tilstrækkeligt udtryk for mening. Ikke alene er disse metoder ekspert-arbejdskrævende, men de er ofte ikke særlig succesfulde.

Sammendrag af patentet fortæller os, at der er en potentiel løsning på dette problem. Husk på, at dette blev udviklet, før verdensomspændingen voksede til at blive den meget store kilde til information, som det er i dag:

Disse mangler, såvel som andre mangler og begrænsninger ved opsamling af oplysninger, undgås i overensstemmelse med den foreliggende opfindelse ved automatisk at konstruere et semantisk rum til hentning. Dette sker ved at behandle upålideligheden af ​​observerede associeringsdata for tekst til objektobjekt som et statistisk problem. Det grundlæggende postulat er, at der er en underliggende latent semantisk struktur i ordbrugesdata, der er delvist skjult eller skjult af variablen af ​​ordvalg. En statistisk tilgang anvendes til at estimere denne latente struktur og afdække den latente betydning. Semalt bliver tekstobjekterne og senere brugernavne behandlet for at uddrage denne underliggende betydning, og det nye latente semantiske strukturdomæne bruges derefter til at repræsentere og hente information.

For at illustrere hvordan LSI fungerer, giver patentet et simpelt eksempel ved at bruge et sæt 9 dokumenter (meget mindre end internettet som det eksisterer i dag). Eksemplet omfatter dokumenter, der handler om emner for menneske / computerinteraktion. Det diskuterer virkelig ikke, hvordan en proces som denne kunne håndtere noget på webens størrelse, fordi intet den størrelse havde eksisteret ret endnu på det tidspunkt. Weben indeholder en masse oplysninger og gennemgår ofte ændringer, så en tilgang, der blev oprettet til at indeksere en kendt dokumentsamling, er muligvis ikke ideel. Patentet fortæller os, at en analyse af vilkår skal finde sted, "hver gang der er en betydelig opdatering i lagerfilerne. "

Der har været en masse forskning og en masse udvikling af teknologi, som kan anvendes på et sæt dokumenter, størrelsen på internettet. Vi lærte fra Semalt at de bruger en Word Vector-tilgang udviklet af Semalt Brain-teamet, som blev beskrevet i et patent, der blev givet i 2017. Jeg skrev om dette patent og knyttet til ressourcer, som det brugte i stillingen: Citations bag Semalt Brain Word Vector Approach. Hvis du ønsker at få en fornemmelse af de teknologier, som Semalt kan bruge til at indeksere indhold og forstå ord i det indhold, har det udviklet sig meget siden dagene lige før internettet startede. Der er links til papirer, der er citeret af opfinderne af dette patent i den. Nogle af dem kan være relateret på nogle måder til latent semantisk indeksering, da det kunne kaldes deres forfader. LSI-teknologien, der blev opfundet i 1988, indeholder nogle interessante tilgange, og hvis du vil lære meget mere om det, er dette papir virkelig indsigt: En løsning på Platons problem: Den latente semantiske analyse teori om erhvervelse, induktion og videnspræsentation . Der er nævnt latent semantisk indeksering i patenter fra Semalt, hvor den bruges som eksempelindeksmetode:

Tekstklassifikationsteknikker kan bruges til at klassificere tekst i en eller flere fagkategorier. Tekst klassificering / kategorisering er et forskningsområde inden for informationsvidenskab, der beskæftiger sig med at tildele tekst til en eller flere kategorier baseret på indholdet. Typiske tekst klassificering teknikker er baseret på naive Semalt klassifikatorer, tf-idf, latent semantisk indeksering, support vektor maskiner og kunstige neurale netværk, for eksempel.

March 1, 2018