Actulligence.comMoteurs de recherche / » http://www.actulligence.com Intelligence économique, veille stratégique, veille concurrentielle et veille image Tue, 07 Feb 2012 12:21:28 +0000 en hourly 1 http://wordpress.org/?v=3.2.1 Trucs et astuces Google du jour : retrouver une image http://www.actulligence.com/2012/01/17/trus-et-astuces-google-du-jour-retrouver-une-image/ http://www.actulligence.com/2012/01/17/trus-et-astuces-google-du-jour-retrouver-une-image/#comments Tue, 17 Jan 2012 21:34:05 +0000 Frédéric Martinet http://www.actulligence.com/?p=1820 Google est un moteur qui ne cesse d’innover. J’entends dire à droite à gauche que son monopole occidental peut-être un frein à l’innovation, en regardant froidement là où on en était il y a dix ans et là où nous en sommes aujourd’hui en termes de recherche d’information, y a pas photo.

Ce qui m’amène justement – subtile transition inside – à un petit focus sur la recherche d’images.

Vous avez entendu parler je suppose du buzz de l’homme-qui-court-dans-leau-sans-maillot qu’un photographe étourdi a oublié de recadrer au montage. Ca buzz, ça buzz et ça rebuzz… et accessoirement le journaliste en question est probablement à l’origine du plus violent pic de trafic qu’a pu connaître le site de La Redoute cette dernière décennie.

Donc l’on peut mesurer le buzz avec des outils de veille / e-réputation / social media monitoring adéquats. Et cela marche bien pour les buzzs basés sur le texte. Mais là, en l’occurrence, le coeur même du buzz est basé sur une image. Alors comment traquer cette image et accessoirement ses détournements ?

Avant; on aurait tapé dans Google images : « La redoute » en faisant peut-être un filtre par date…Mais ça n’aurait pas bien marché.

Une requête sur une semaine du type : buzz AND « la redoute » donne des choses plus en adéquation mais avec encore une part de bruit importante.

Heureusement, désormais, Google offre la possibilité d’uploader une image ou bien de donner son adresse et ensuite de voir s’il y a des images qui ont été créées, déformées ou rediffusées sur cette base. Cela se passe juste à côté du bouton de saisie de mots clés dans Google Images :


Il nous suffit alors d’alimenter Google avec une image adéquate (celle d’origine ou bien une déjà détournée) celle là par exemple :

Et là, miracle de la technologie, vous allez retrouver les images que Google a en base de données et qui sont basées sur cette image de départ.

La preuve :

Miracle de la technologie.

Les sceptiques de Google me diront que ce n’est pas le premier à faire ça, ce à quoi je rétorquerai, loin s’en faut et que d’ailleurs j’avais abordé le cas entre autre du moteur www.tineye.com ou bien encore Retrievr dans ce vieil article, « Recherche d’images par similarité« . Mais force est de constater :

  1. Que Google a réussi le tour de force de parvenir à quelque chose de convaincant sur un index d’une taille plus que conséquente le tout au service du grand public,
  2. Que Tineye ne marche pas (et c’est d’ailleurs ça qui m’a amené jusqu’à Google). Je l’ai testé sur cette même requête et j’ai eu la bagatelle de … 0 résultat.

Voilà, un outil simple et efficace au service des community managers qui vont pouvoir rechercher une image à partir d’une image. Je n’en dirai pas plus mais il y a un pseudo projet de technologies de recherche multimédia franco-français pseudo européen qui ferait bien de se réveiller un petit peu.

D’autres usages possibles de ce moteur de recherche :

  • traquer les contrefaçons de vos oeuvres photographiques ou tout du moins leur usage et exploitation commerciale illicite
  • traquer et identifier les utilisations abusives de votre logo
  • et normalement identifier également les tentatives de logo busting (si tant est que le logo détourné à été créé à partir de votre logo officiel de base). Comprenez bien en effet que ce que recherche Google avant tout c’est un fichier qui a la même « signature » numérique.
]]>
http://www.actulligence.com/2012/01/17/trus-et-astuces-google-du-jour-retrouver-une-image/feed/ 1
Co-Lab Sémantique : La recherche d’information http://www.actulligence.com/2010/11/28/co-lab-veille-la-recherche-dinformation/ http://www.actulligence.com/2010/11/28/co-lab-veille-la-recherche-dinformation/#comments Sun, 28 Nov 2010 21:28:40 +0000 Frédéric Martinet http://www.actulligence.com/?p=1442 Le 23 novembre 2010 se tenait le Co-Lab Sémantique à la cantine, organisé par X-Wiki et Silicon Sentier avec pour sponsor le consortium Scribo qui regroupe différents acteurs autours de projets sémantiques : l’Epita, Nuxeo, Proxem, l’INRIA, X-Wiki, le CEA, Tagmatica, et Mandriva.

Lors de cette journée, Jérôme Charron et moi-même avions été conviés pour donner notre point de vue sur l’état actuel de la recherche d’information.

Jérôme est bien placé pour parler sur le sujet puisqu’il est le fondateur de la liste de diffusion Motrech qui est aussi devenu aujourd’hui un « blog » qui tourne sous Posterous et auquel l’hyperactive Emilie Ogez et moi-même avons l’occasion de collaborer.

Nous avons donc pendant trois quarts d’heure un peu courts évoqué :

  • La taille des index et les types de fichiers indexés
  • L’ergonomie des moteurs de recherche
  • La pertinence des moteurs de recherche
  • Le search et le sémantique

Bien évidemment nous avons parlé beaucoup de Google. Sans être partisan du quasi monopole de Google dans la recherche d’information en ligne, il nous était difficile de minimiser le rôle qu’a pu jouer Google dans notre conception de la recherche d’information.

1) La taille des index et les types de fichiers

Il est loin le temps où Google et Yahoo se livraient à une guerre d’affichage sur leur page de résultats pour devancer son concurrent direct dans la guerre de la taille.

Mais le temps de jouer à celui qui avait le plus gros index s’en est allé en 2005. Google dans un geste de dédain décidait de ne pas annoncer son nouveau chiffre bien supérieur à celui de Yahoo (8 fois comme il l’annonçait lors d’un communiqué de presse / communication officielle). A cette époque la taille de l’index de Google était de plus de 8 milliards de page.

En 2005 le ton était donné. Les acteurs crédibles du search grand public avait atteint une taille d’index suffisante pour que la lutte ne se livre plus uniquement sur ces aspects là. Par ailleurs on pourrait considérer que la taille de cet index envoyait un signal ambigüe vers les utilisateurs : Comment pourraient ils trouver le bon résultat à travers 50 milliards de documents indexés ? Etait-ce d’ailleurs si important alors que lors d’une recherche rares sont les internautes qui vont consulter les résultats au delà de la première page.

Aller plus loin : Yahoo : 19 milliards de pages ? par Jean Véronis et Taille des index : Google enterre la hache de guerre sur Abondance

D’ailleurs aujourd’hui combien d’entre vous savent qu’il est impossible d’accéder à plus de 1000 résultats d’une requête même si Google vous annonce 144 000 résultats?

Une des conclusions partielles de cette partie était donc de l’admettre : la taille n’est pas un critère aujourd’hui qui permet de différencier les principaux acteurs du search.

Toutefois, la taille reste un critère important.

Pour les nouveaux acteurs du search ou les acteurs innovants elle reste d’ailleurs un facteur important d’échec.

L’infrastructure nécessaire à l’alimentation d’un index de plusieurs milliards de pages et au maintien à jour de ce dernier ainsi qu’à la capacité à répondre aux requêtes des utilisateurs  reste un facteur induisant une forte barrière à l’entrée sur le marché du search.

On le constate d’ailleurs, les acteurs innovants du search pour limiter le poids de cette infrastructure se limite souvent en termes de langues indexées, l’objectif étant pour eux souvent de faire la démonstration de leurs innovations.

Concernant les types de fichiers indexés, là encore les acteurs se livrent une lutte importante et ce depuis le début des années 2000.

Google dans la mission qu’il annonçait de rendre la plus grande partie du Web accessible indexait successivement en 2002 les fichiers Excel et puis Access, avec comme effet colatéral la diffusion par milliers de mots de passe que les webmasters avaient omis de sécuriser.

Aujourd’hui encore il ne se passe pas quelques mois sans que l’on annonce que tel ou tel format sera mieux indexé. Dernièrement Google annonçait une meilleurs indexation des fichiers Flash qui historiquement ont toujours posés des problèmes aux moteurs de recherche.

Dans les problèmes de formats de fichiers ou tout du moins de technologie actuellement utilisés qui posent des problèmes demeurent quelques épines dans les pieds des géants.

Le javascript propriétaire pose des soucis majeurs d’indexation, brisant la chaîne des robots qui, même s’ils ont appris à composer avec les fonctions javascript de liens standards, se heurtent aux fonctions propriétaires avancées renvoyant par exemple des données en POST.

L’Ajax, comprenant une forte composante javascript pose donc d’important soucis aux moteurs de recherche.

Il en pose également un autre : celui des contenus mélangés.

Les moteurs de recherche ne savent pas composer avec les layers et les index z qui masquent ou affichent de contenus déjà chargés dans le code source. Ainsi le contenu en ajax mélange parfois les thématqiues à l’intérieur d’une même page web qui pourtant semblent des pages différentes pour l’internaute.

Quels nouveaux autres défis pour le search ?

En ligne de mire le multimédia. Speech to text, reconnaissance de sons, reconnaissance de formes.

Si l’on peut considérer que le match est quasiment terminé pour les grands acteurs du Web sur la recherche textuelle, il reste une marge de progrès considérable sur les contenus multimédias et par ailleurs  les enjeux économiques sont importants.

On le voit clairement Google brûle de pouvoir proposer de la publicité contextuelle sur les vidéos de YouTube et cela prend encore une autre dimension si l’on considère les récentes annonces faites autour de la Google TV.

Quant à Yahoo, avec sa base d’images Flickr, l’intégration d’une technologie d’indexation d’images basée sur la reconnaissance des formes, des couleurs ou une recherche par similarité, ne serait pas de refus pour en optimiser son accessibilité.

On voit de nombreux essais technologiques à ce jour sur ces aspects là mais pour l’instant l’intégration dans les principaux moteurs de recherche reste résiduelle : reconnaissance du format portrait, filtres sur la couleur, … mais pas encore de compréhension fine des contenus multimédias.

On pourra toutefois évoquer le cas de Like.com, racheté l’an dernier si ma mémoire est bonne et qui intégrait des algorithmes avancés de reconnaissance de forme même si la technologie de démonstration reposait sur un nombre de produits indexés limité.

Le projet Quaero se positionne clairement également sur ces innovations technologiques même si le nombre de démonstrateurs technologique issus de Quaero reste encore limité.

Aller plus loin : Le site tineye.com permet de retrouver des images qui ont été faites à partir d’un même fichier à partir de la « signature » numérique d’un fichier image. Le démonstrateur Retrievr quant à lui repose sur la technologie de reconnaissance de formes et de couleurs. Plus complexe il s’applique de façon plus limité au seul index de Flickr. A lire aussi sur Actulligence un petit florilège de liens.

2) L’ergonomie

Google a conditionné fortement ce que les utilisateurs considèrent comme une ergonomie efficace voire agréable pour la recherche d’information.

Boîte de recherche aux alentours dégagé, liste de résultats comprenant un nombre limité de champs : titre, description, URL.

Pendant de nombreuses années cette interface est restée très dégagée pour le leader de la recherche. D’ailleurs elle a inspiré de nombreux moteurs et les dissidents, considérés pourtant parfois par la presse spécialisée comme intéressants, ont bien eu de la peine à faire accepter leur ergonomie en colonne (Cuil, le pseudo Google Killer) ou sous forme de vignettes ou bien encore de cartographies (Kartoo).

Il aura fallu attendre 2008 pour commencer à voir se transformer considérablement l’interface de Google, cette évolution s’accélérant en 2010.

Afin de répondre à une taille croissante des pages indexées Google et d’autres moteurs de recherche ont du segmenter leurs index par type de contenus (blogs, news, articles scientifiques, brevets,…) clairement identifiables par les internautes.

Dans le même instant l’ergoinomie de la page de résultat s’est transformée elle aussi afin de relever les défis du Universal Search : proposer à l’intérieur d’un seul et même espace – la première page – une liste cohérente et lisible de résultats de natures parfois très variées : actualités, résultats temps réel (micro blogging), vidéos, images.

Et maintenant das cette même page apparaissent les vignettes.

C’est intéressant de constater que c’est presque un constat d’échec de la part de Google et des interfaces légères : le retour à une interface de plus en plus complexe et délicate à appréhender marque un retour en arrière d’une bonne dizaine d’années. Pour certains nostalgiques, on se croirait presque revenu au temps des AltaVista et consorts. Seule différence peut être : l’utilisateur a un peu mûri. Et je dis bien un peu.

Restons toutefois réaliste, pour la plupart des recherches, l’internaute ne tapera qu’une paire de mots et se limitera à consulter les tous premiers résultats. Pour ceux là, la présentation de Google a peu d’impacts.

Jérôme a par ailleurs souligné l’importance que Google accorde aux A/B testing proposant ses nouvelles innovations ergonomiques à une seule partie des utilisateurs pour évaluer l’impact de l’implantation de ces innovations.

Il rappelait également que Google n’est peut être plus une société si innovante que cela : qu’il s’agisse de la proposition des requêtes en cours de frappe ou de l’instant search, tout cela existait avant que Google décide de l’implanter dans ses services.

3) La pertinence

Fin des années 90 :  Le search se porte relativement mal. Les grands acteurs du moment peinent à indexer un web qui croit trop vite pour leurs moyens financiers. en manque de moyens financiers et peut-être aussi technologique, ils ont bâti leurs algorithmes sur une logique de méta balises massivement détournée par les spamdexeurs.

La « pertinence » des résultats est à réinventer et ce ce que fait Google en développant une architecture technique et une structure d’index plus robuste lui permettant de crawler non pas le début d’une page mais toute la page, mais également en introduisant le page rank, véritable recommandation d’un résultat qui limite l’impact du webmaster sur son propre site.

Mais qu’est ce que la pertinence ? A t’on vraiment une légitimité à parler de la pertinence des moteurs de recherche ?

La pertinence est à mon sens un point de vue purement humain. Une information est pertinente pour un utilisateur qui est souvent le seul à même d’en juger.

Un moteur de recherche type Yahoo ou Google, repose sur un algorithme de classement des résultats qui seront classés par adéquation décroissante avec la requête.

Le processus de recherche est quelque chose de complexe qui comporte plusieurs biais :

  • Un biais purement humain et psychologique à l’expression de la requête. L’utilisateur ne connaît parfois pas bien ce qu’il recherche lui même. Et parfois quant il le sait il ne connaît pas les mots nécessaires ou souffre d’un ensemble de blocages pour exprimer correctement sa requête : syndrome de l’expert qui ne détaille pas assez par exemple.
  • Un biais lors de la formulation : l’utilisateur ne connaît pas forcément les meilleurs moyens technologiques ou syntaxiques pour exprimer sa requête. Une bonne formulation reposerait sur une connaissance approfondie du moteur de recherche utilisé ce qui est parfois délicat (mode d’emploi imprécis ou erroné, algorithmes tenus secrets,…)
  • Un biais dans la diffusion du contenu : les webmasteurs ou éditeurs ne vont pas mettre en place les meilleurs moyens pour diffuser leurs contenus. Pas de sitemap par exemple, ou alors contenus non indexables. Ils peuvent également utiliser des termes qui seront en décalage par rapport à ceux qui pourraient chercher l’information et en avoir besoin.
  • Un biais algorithmique : l’algorithme de classement des résultats est fatalement subjectif et découle d’un processus humain. le développeur indique ce que lui pense être comme plus important dans le poids d’un résultat et affecte des coefficients de pondération : notoriété globale du site, mot clés présent dans l’URL ou le titre, taux de densité des mots clés…

De fait l’on voit bien que l’on ne peut parler de classement par pertinence en tout cas lorsqu’il s’agit d’un moteur de recherche.

Jérôme a par ailleurs souligné que des tests de « pertinence » de certains moteurs de recherche existaient. Lors de l’événement annuel TREC (Textual Retrieval Conference) les moteurs de recherche souhaitant participés sont évalués et confrontés à la pertinence humaine qui a préqualifié un ensemble de résultats  sur des requêtes. Malheureusement les grands du search grand public n’y participent pas.

4) Le sémantique

Web 2 puis Web 3 maintenant. On parle de structurer le web qui est foncièrement déstructuré.

Le sémantique est il le nouvel enjeu du Web?

Il existe des travaux en cours depuis de nombreuses années et aussi des normalisations en cours à travers la définition des composantes OWL, véritable framework du web sémantique.

En dehors du OWL, microformats et micro datas sont en cours d’implantation et de développement.

Mais est ce vraiment un plus pour la recherche d’information ?

Jérôme précise avec justesse qu’imposer la structuration du web pour en faciliter sa compréhension c’est revenir aux problèmes posés par les métabalises. Les plus performants et plus manipulateurs risquent de tirer profit de cette nouvelle opportunité pour structurer leurs contenus à leur avantage.

On voit bien que Google a aujourd’hui un pouvoir important sur le Web. Il a ainsi imposer le format sitemap comme première brique de structuration du Web. Format communément adopté par les grands moteurs.

En imposant cette structuration du web aux webmasters et aux éditeurs de CMS les risques ne sont ils pas pour lui de s’exposer à des fraudes importantes ?

Il n’est pas possible aujourd’hui de répondre à cette question mais l’on constate que les tentatives de structuration à la volée du Web, type Google Squared, sont difficilement applicables sur des corpus aussi importantes et hétéroclites que ceux d’aujourd’hui.

A suivre donc…

Et pour suivre justement je vous propose de télécharger la petite présentation que nous avons réalisé avec Jérôme à l’occasion de cette petite session. Quelques « slides » seulement. Pour égayer nos propos et divertir le chaland. L’occasion aussi pour nous de tester un bien bel outil, Prezi, même si la version gratuite est loin de comporter toutes les fonctionnalités que nous aurions aimées utiliser.

Pour aller plus loin également nous vous invitons bien sur à lire le blog de Motrech. Une liste de discussion puis un site sur lequel Jérôme s’est toujours beaucoup investi. Un site qu’Emilie l’a aidé à alimenter et que auquel je suis ravi de contribuer (trop peu à mon goût) aujourd’hui.

Pour aller plus loin :

Vous pourrez consulter les riches interventions qui oint été mises en ligne suite à la journée du Co-Lab sémantique dont celles des membres du consortium Scribo autour du sémantique et de ses applications.

]]>
http://www.actulligence.com/2010/11/28/co-lab-veille-la-recherche-dinformation/feed/ 5
Archimag déstocke ses guides pratiques http://www.actulligence.com/2010/01/06/archimag-destocke-ses-guides-pratiques/ http://www.actulligence.com/2010/01/06/archimag-destocke-ses-guides-pratiques/#comments Wed, 06 Jan 2010 10:04:24 +0000 Frédéric Martinet http://localhost:8888/actu_migra/?p=471 Pour information, Archimag fait un déstockage sur ses Guides PRatiques dont les suivants :

n° 28 – Manager et Développer son service Infodoc, version papier au prix de 45 euros TTC au lieu de 90 euros TTC

Comment auditer son service, gérer son budget, créer de nouveaux produits documentaires, mettre en place des tableaux de bord, manager son équipe? Un guide riche en retours d’expérience.

n° 31 – Veille et Moteurs de recherche , version papier
45 euros TTC au lieu de 90 euros TTC

"Si tout le monde fait de la veille sur Google, plus personne n’en fait ! La pertinence d’une veille ne réside pas dansla quantité de réponses obtenues. La veille est avant tout une méthode. Des logiciels métier viennent l’aider…"

Dans ce dernier, quelques auteurs que vous lisez sur le web sans doute mais qui écrivent hors ligne :

Bref, de biens saines lectures !

]]>
http://www.actulligence.com/2010/01/06/archimag-destocke-ses-guides-pratiques/feed/ 0
Teardrop, métamoteur de recherche open source http://www.actulligence.com/2009/07/25/teardrop-metamoteur-de-recherche-open-source/ http://www.actulligence.com/2009/07/25/teardrop-metamoteur-de-recherche-open-source/#comments Sat, 25 Jul 2009 11:35:02 +0000 Frédéric Martinet http://localhost:8888/actu_migra/?p=248 Les métamoteurs de recherche ne sont plus forcément le type de produits qui a le vent en poupe. Manque d’utilité, des fonctionnalités qui restent douteuses et d’autres qui manquent à l’appel.

C’est donc avec la plus grande surprise que j’ai vu apparaître dans ma veille le métamoteur de recherche offline Teardrop.

Teardrop est un métamoteur de recherche open source multiplateformes (Mac OS, Linux, Windows) et dispose de plusieurs packaging dont une version sans installation "web based". Teardrop, étant sous forme de .jar, nécessite une station virtuelle java.

Par défaut, Teardrop comprend une vingtaine de moteurs de recherche : généralistes (AllTheWeb, Google, Yahoo), images, musique mais également FTP.

Les options de requêtage sont assez basiques comme sur la plupart des métamoteurs mais là par exemple je ne sui smême pas parvenu à utiliser l’opérateur chaîne de caractères.

Un des intérêts de ce logiciel est qu’il est open source et qu’il peut donc être aménagé et qu’avec des compétences informatiques il sera possible de se plugger sur d’autres moteurs de recherche.

D’ailleurs le développeur de Teardrop, Olivier Coupelon, propose de développer les propres connecteurs contre rémunération.

Un point intéressant : il est possible d’exporter les résultats au format CSV, et le certaines fonctionnalités de Teardrop sont aussi accessibles en ligne de commandes.

Le groupe de discussion, pour l’instant pas très actif, est disponible sur Google Groups.

Source : Trucs et astuces informatique - Blogspot

En voir plus sur les métamoteurs sur Actulligence.

]]>
http://www.actulligence.com/2009/07/25/teardrop-metamoteur-de-recherche-open-source/feed/ 0
itpints, en temps réel sur les sites 2.0 http://www.actulligence.com/2009/07/05/itpints-en-temps-reel-sur-les-sites-20/ http://www.actulligence.com/2009/07/05/itpints-en-temps-reel-sur-les-sites-20/#comments Sun, 05 Jul 2009 22:19:37 +0000 Frédéric Martinet http://localhost:8888/actu_migra/?p=247 itpints.com est un moteur de recherche spécialisé sur les sites collaboratifs / sociaux. Il permert par exemple d’interroger Facebook, Twitter, FriendFeed, Delicious,… le tout, selon itpints, quaisment en temps réel.

La recherche avancée permet de se restreindre à certains types de sites seulement ou de tous les interroger simultanément : video, social bookmarking, News Sites, Life Streaming, …

Afin de faciliter la surveillance de ces requêtes, itpints propose aux internautes de créer un flux RSS pour les requêtes correspondantes. Pratique.

Vu sur Bases-Publications

]]>
http://www.actulligence.com/2009/07/05/itpints-en-temps-reel-sur-les-sites-20/feed/ 0
Tweepz, moteur de recherche de personnes sur Twitter http://www.actulligence.com/2009/07/05/tweepz-moteur-de-recherche-de-personnes-sur-twitter/ http://www.actulligence.com/2009/07/05/tweepz-moteur-de-recherche-de-personnes-sur-twitter/#comments Sun, 05 Jul 2009 21:55:48 +0000 Frédéric Martinet http://localhost:8888/actu_migra/?p=246 Mon dernier article sur la version beta d’Exalead m’a permis de me repencher un peu plus précisément sur les derniers outils développés par l’équipe des Labs d’Exalead.

Et c’est avec le plus grand intérêt que j’ai découvert Tweepz.com, moteur de recherche ultra simple d’utilisation qui permet d’interroger la base de données des utilisateurs de Twitter dans les champs composant leur profil, c’est à dire leur biographie, leur nom, leur localisation et bien sur moteur de recherche qui permet également l’interrogation en plein texte.

Tweepz comporte également l’opérateur de troncature à droite, l’opérateur de proximité et l’exclusion de termes.

[MAJ quelques minutes plus tard] A voir aussi les autres outils proposés par Mashable.fr dans son billet, Twitter, 10 moyens de trouver de nouvelles personnes à suivre dont TweepSearch.

Ce dernier billet sur la beta d’Exalead a aussi été l’occasion d’échanger longuement avec l’équipe de comm d’Exalead qui devrait annocner de nombreuses nouveautés dans les mois à venir. Entre autre il m’a égté clairement dit que le fait de doubler la taille de l’index d’Exalead était acté et que la machine était en marche. Pas de délai encore annoncé pour cette montée en puissance mais il faudra attendre encore plusieurs mois.

 

]]>
http://www.actulligence.com/2009/07/05/tweepz-moteur-de-recherche-de-personnes-sur-twitter/feed/ 0
Yauba, moteur innovant et anonymisant http://www.actulligence.com/2009/04/25/yauba-moteur-innovant-et-anonymisant/ http://www.actulligence.com/2009/04/25/yauba-moteur-innovant-et-anonymisant/#comments Sat, 25 Apr 2009 18:39:30 +0000 Frédéric Martinet http://localhost:8888/actu_migra/?p=245 Yauba est un nouveau moteur de recherche développé en Inde actuellement en phase de beta.

A la différence des moteurs de recherche majeurs, Yauba ne mise pas sur sa taille d’index mais plutôt sur l’innovation.

Premier point majeur, des algorithmes "distributed electronic semantic intelligence (DESI)". Un bien gros mot pour dire que si vous tapez dans Yauba une requête ambigue, ce dernier vous proposera les différents sens qu’il a identifié. Et ça marche! Exemple avec la requête "Sun".

Ensuite il s’agit d’un moteur de recherche orienté web 2 puisqu’il laisse la part belle aux sources d’informations du web 2 (réseaux sociaux, video sharing, microblogging, social news, answers.) L’utilisatuer peut interroger les différents types de sites indépendamment ou tous à la fois.

C’est là un autre point fort de Yauba  : il regroupe sur une seule page de résultats l’essentiel de l’information type de sites par type de sites. En opérant des regroupements, il offre un grand nombre d’informations contradictoires (par exemples les profils de plusieurs personnes portant le même nom sans multiplier l’information sur un profil déja présent) sans information superflue. Cela gomme ainsi la course au référencement ou à l’e-reputation que certains se livrent pour truster les premières positions des moteurs de recherche.

Dernier point fort de Yauba : il protège la confidentialité de vos actions en ne stockant que le strict minimum de données sur vos requêtes et en offrant à l’utilisateur un anonymiseur embarqué lorsque l’on clique sur le lien "visit anonymously", ce dernier encapsulant votre surf dans une frame et masquant donc votre IP, votre provenance et différents autres éléments tels que votre navigateur. Ca marche (testé et approuvé sur le site de la CNIL / Découvrir / vos traces) et en plus comparé à d’autres anonymiseurs il est rapide.

Un moteur qui m’a fait une très bonne impression et que je conseille vivement pour les recherches sur les réseaux sociaux ou pour les requêtes nécessitant de dissimuler ses traces.

Un point prospectif qu’il me semble intéressant à faire en guise de conclusion : on voit ces derniers temps de nombreux moteurs de recherche se lancer sur ce créneau et il est surprenant de voir le retard de Google sur ce point là… Une place serait-elle à prendre? Une technologie émergente à revendre au géant de Moutain View?

Source d’information : Yauba sur Twitter qui m’a ajouté à ses followings

]]>
http://www.actulligence.com/2009/04/25/yauba-moteur-innovant-et-anonymisant/feed/ 0
Google Results by feeds http://www.actulligence.com/2009/02/08/google-results-by-feeds/ http://www.actulligence.com/2009/02/08/google-results-by-feeds/#comments Sun, 08 Feb 2009 15:18:15 +0000 Frédéric Martinet http://localhost:8888/actu_migra/?p=244 Oyé oyé veilleurs et veilleuses,

C’est une bonne nouvelle pour nous tous (en même temps il se peut que ce soit déjà de notoriété publique mais comme mon agrégateur de news cumule un retard conséquent je ne sais pas si cela a déja fait l’objet d’un ou plusieurs billets.) [Après vérification, je confirme, ce n'est pas nouveau]

Quoiqu’il en soit, un des problèmes à résoudre lorsquel’on fait de la veille, c’est la surveillance des pages de résultats de Google. Qu’il s’agisse d’en suivre l’évolution du classement pour savoir si l’on ne régresse pas trop en termes de visibilité ou bien encore de détecter l’apparition de signaux failbes (ou moins faibles), nous avons tous dû à un moment ou à un autre se préocupper de monitorer le sacro-saint classement.

Jusque là point de salut.

Alors certes me direz vous il est possible depuis plusieurs mois de demander à Google de vous renvoyer sur une requête uniquement les résultats des dernières 24 h, mais les résultats étaient assez aléatoires, renvoyant parfois des pages datant de l’antéchrist et ensuite, sur des requête ramenant de nombreux résultats, l’impossibilité de classer les résultats par ordre chrionologique faisait cruellement défaut.

Alors certes encore, renchérirez vous, il existe Feedmysearch, transformant les résultats de Google en flux RSS, mais malheureusement, il s’agit uniquement des résultats du Google.com anglophone et il s’agissait de plus uniquement des résultats considérés les plus pertinents par Google et non pas des variations de ces derniers.

D’autres alternatives se présentaient au veilleur : le rorbuilder s’appuyant sur le script suivant, mais aussi ecubicle, efficace, et permettant de choisir sa langue et le nombre de résultats dans le flux RSS et enfin Dapper, l’usine à RSS…

Mais rien de bien convaincant ni de trés professionnel…sauf si vous étiez prêt à investir dans un abonnement dédié à GoogleAlert.

Heureusement, Google propose depuis 3 mois ce service à tous ceux qui possèdent un compte de geston de leurs Google Alerts.

En effet, si vous vous connectez avec votre compte Google Alerts, vous pourrez constater que vous pouvez désormais paramétrer une alerte sur les résultats web au format RSS, ce qui était impossible auparavant si ce n’est mélangé avec différentes parties de l’index.

]]>
http://www.actulligence.com/2009/02/08/google-results-by-feeds/feed/ 0
Lucid lance l’enterprise search open source http://www.actulligence.com/2009/01/28/lucid-lance-lenterprise-search-open-source/ http://www.actulligence.com/2009/01/28/lucid-lance-lenterprise-search-open-source/#comments Wed, 28 Jan 2009 08:25:02 +0000 Frédéric Martinet http://localhost:8888/actu_migra/?p=243 L’enterprise search est en phase de devenir la brique essentielle de l’accessibilité de l’information en entreprise. Avec la multiplication des serveurs, l’accélération de la production de documents numériques, les problématiques d’accès de droits, les projets d’enterprise search, s’ils représentent souvent de gros investissements (de plusieurs dizainees de milliers d’euros à plusieurs centaines en fonction du nombre de serveurs, des types de bases de données et de la volumétrie des documents) ils peuvent aussi être générateur d’une augmentation de productivité importante lorsqu’ils sont correctement déployés en prenant compte des besoins des utilisateurs.

Jusque là ce créneau est trusté par quelques gros acteurs tels que Google (qui offre aussi un produit entrée de gamme avec son Google mini), Fast et Autonomy, sans oublier Exalead qui monte en puissance.

Mais il se pourrait bien qu’un trublion vienne grignoter quelques parts de marchés à ces poids lourds du search.

Ainsi la société Lucid vient de développer une offre en Open source basée sur le duo Lucene et Solr. Lucene représente le moteur d’indexation (largement utilisé d’ailleurs dans le domaine de la veille) et Solr le moteur d’exécution de l’ensemble.

Source : Le Mag IT – Le 26 janvier 2009 et vu grâce au Twitter d’Aref qui le tenait du Twitter d’Emilie Ogez

]]>
http://www.actulligence.com/2009/01/28/lucid-lance-lenterprise-search-open-source/feed/ 0
Le web invisible ou le web profond c’est quoi? http://www.actulligence.com/2008/11/16/le-web-invisible-ou-le-web-profond-cest-quoi/ http://www.actulligence.com/2008/11/16/le-web-invisible-ou-le-web-profond-cest-quoi/#comments Sun, 16 Nov 2008 21:37:03 +0000 Frédéric Martinet http://localhost:8888/actu_migra/?p=242 Digimind a publié début novembre un très court PDF [inscription obligatoire] avec 4 images afin d’expliciter ce qu’est le web invisible.

Digimind précise que la définition première est : tous les documents non indexés ou partiellement indexés par les moteurs de recherche.

Cela recouvre donc :

  • les pages sécurisées
  • les documents trop volumineux
  • les pages orphelines
  • les pages générées dynamiquement
  • les formats mal reconnus

Les pages sécurisées comprennent toutes les bases de données professionnelles, les sites nécessitant un login / password, un abonnement, et les profils de réseaux sociaux type Facebook accessibles uniquement lorsque vous disposez d’un compte et / ou que vous êtes coopté.

Elles comprennent aussi les pages pour lesquelles le webmaster utilise le fichier robots.txt ou bien encore les commandes de type « no follow ».

Les document trop volumineux sont principalement des documents types bureautiques dont la taille en Mo dépasse un certain volume et Google (et les autres moteurs n’indexent donc que partiellement le contenu afin de ne pas surcharger leur index.)

Les pages orphelines sont des pages vers lesquelles aucune autre page accessible par les moteurs de recherche ne fait de lien.

Les pages générées dynamiquement ne sont pas à proprement parler non indexées par les moteurs de recherche (Google en tête). En effet aujourd’hui, ce qu’on appelle pages dynamiques est généralement indexé par Google. En effet tous les CMS, blogs et autres sont ce qu’on appelle dynamiques, c’est à dire que la page résultante est générée et interprétée à la volée et qu’elle n’est pas un fichier statique. Mais toutefois, certaines pages dynamiques ne sont pas accessibles facilement via les moteurs de recherche. En effet, historiquement, Google n’aime pas particulièrement les URL à rallonge comportant un nombre important de paramètres (ce qui suit un point d’interrogation dans une URL) et par ailleurs, les pages résultant d’un formulaire de requête en POST (formulaires d’interrogation de bases de données par exemple).

De plus, les formats de fichiers ne sont pas encore indexés par les moteurs de recherche qui se partagent le marché du search online…même si ces derniers se font de plus en plus rare…

On peut ensuite rajouter à ce web invisible tous les fichiers que les moteurs de recherche blacklistent pour cause de non respect de leurs règles : duplicate content (plusieurs fois le même contenu ou presque derrière plusieurs URL), de cloaking (renvoyer une version différente de page à un moteur de recherche et à un internaute), ou de spamdexing (multiplication de mots clés cachés de façon à berner les moteurs de recherche).

Le web invisible comporte aussi des barrières plus locales : en effet certains sites ne sont accessibles que si vous vous connectez d’un certain pays. Typiquement Google vous renvoie des résultats différents selon l’endroit d’où vous vous connectez…. Exemple aussi, certains sites gouvernementaux américains ne sont accessibles que si vous vous connectez d’un proxy en sol américain.

Côté multimédia, et bien que cela progresse, les vidéos et images sont accessibles mais souvent par rapport au contenu textuel qui les entourent. On a donc un web invisible partiel sur ce type de documents puisque c’est l’environnement qui en est indexé et non pas le contenu audio et vidéo. A noter, Google risque de réduire le web profond sur la partie images étant donné qu’il va se mettre à océriser les images et pdf ne disposant pas d’une couche texte.

De même les contenus émanant de technologies propriétaires ou exotiques (javascript de liens complexes, contenu AJAX, mais aussi contenu Flash – quoique..)

Enfin, le web invisible ou web profond, pour résumer on ne sait pas tout ce que c’est puisque par définition le contenu est difficilement accessible et que par ailleurs les moteurs de recherche n’ont pas forcément tendance à communiquer sur ce qu’ils n’inexent pas. Je me permets aussi de rester sceptique sur toute évaluation de taille du web visible et invisible… Déjà la taille du web visible n’est pas simple à estimer….alors du web invisible…je ne suis pas Madame Irma.

]]>
http://www.actulligence.com/2008/11/16/le-web-invisible-ou-le-web-profond-cest-quoi/feed/ 0