• Comprendre ChatGPT (avec DefendIntelligence)
    https://www.youtube.com/watch?v=j3fvoM5Er2k

    Mieux comprendre ChatGPT, sans pour autant l’excuser pour ses fakes éhontés. Pour tout comprendre aux IA génératives.
    __________________________
    00:00 Introduction
    03:45 Un peu de contexte
    05:06 Les modèles de langage
    05:37 L’énigme
    06:45 La chambre chinoise
    12:05 Comment ça fonctionne ?
    17:12 L’exposition médiatique
    22:50 Bien interroger ChatGPT
    26:39 Bien vérifier ce que dit ChatGPT
    28:01 Détecter des textes générés par IA
    33:45 Problématiques sur les données
    39:24 À venir dans les moteurs de recherche
    46:43 Conclusion

    ___________________________
    ERREURS SIGNALEES
    – à 13min : selon OpenAI le modèle GPT3 a été entraîné à partir de 570 Go de textes, pas juste 50Go (ça c’est la taille des données Wikipedia)
    – à 48min : la citation n’est pas de Saint Thomas d’Aquin, mais bien de Saint-Thomas, l’apôtre.

    #IA #ChatGPT

  • Reims expérimente une intelligence artificielle de Thalès pour surveiller ses habitants, et personne n’est au courant | StreetPress
    https://www.streetpress.com/sujet/1674664403-reims-intelligence-artificielle-camera-surveillance-police-d

    StreetPress révèle la collaboration entre Reims et le géant français de la défense, Thalès. À partir de 2021, la police municipale a utilisé un algorithme vidéo utilisant l’intelligence artificielle pour analyser ses ressortissants.

    Si vous avez déjà flâné aux alentours de la cathédrale Notre-Dame de Reims (51), vous avez peut-être été analysé par une intelligence artificielle. L’outil « Savari », conçu par le géant français Thalès (1), a été intégré aux caméras de surveillance de l’agglomération et utilisé par la police municipale, pour une expérimentation d’un an. Le but : repérer automatiquement des regroupements ou des intrusions, et identifier des armes ou des véhicules. Problème, ni les habitants et ni les élus de l’opposition n’ont été informés.

    Une révélation qui arrive au moment où le Sénat vient d’adopter, mardi 24 janvier 2023, l’article 7 du projet de loi des Jeux Olympiques. Il autorise ces expérimentations de caméras dotées d’algorithmes à compter de cette année en vue des JO de 2024 à Paris.

    En novembre dernier, Amnesty International avait alerté sur « les risques de dérives dangereuses » pour les libertés individuelles que comporte cette loi. À la différence de la vidéo-surveillance classique, ce type d’outil peut conduire à « un traitement massif de données à caractère personnel, y compris parfois de données sensibles », explique la CNIL dans un rapport publié en juillet 2022.

    Reims n’a pas attendu que les parlementaires l’autorisent dans la capitale pour faire ses propres tests et profiter du vide juridique. C’est Arnaud Robinet, maire de la ville depuis 2014, affilié au mouvement Horizons d’Édouard Philippe, qui aurait décidé de cette collaboration. Contacté par StreetPress, l’édile de droite a refusé de répondre à nos questions.
    Algorithme et « deep learning »

    Savari est une « vidéosurveillance intelligente, clé de la sécurité urbaine des Smart Cities ». C’est ainsi que Thalès présente sa solution sur le site du Salon des maires, un séminaire annuel pendant lequel les entreprises tiennent des stands pour draguer les élus.

    Elle utilise des « algorithmes vidéos intelligents » et du « deep learning » pour « surveiller, superviser et analyser automatiquement » des situations telles que des regroupements et des intrusions. Elle peut aussi « détecter, identifier et classifier » des armes, des vélos ou des véhicules, assure le fleuron français. À l’aide de la lecture automatique des plaques d’immatriculation (LAPI), Savari permet également de faire du contrôle routier et de mettre des amendes à ceux qui ne paient pas leur stationnement.

    Une expérimentation faite dans le dos des Rémois

    « Ce qui me choque, c’est que ça a été fait dans une grande opacité. Ce n’est pas normal que les citoyens ne soient pas informés », s’indigne Léo Tyburce, élu Europe-Écologie-Les-Verts à Reims, informé de l’expérimentation de Thalès dans sa ville par StreetPress. Lors du conseil municipal du 16 novembre 2021, l’écolo avait interpellé le maire Arnaud Robinet au sujet de l’utilisation d’une intelligence artificielle dans les caméras de la commune évoquée lors d’une précédente réunion publique. L’édile de droite avait renvoyé la balle à son Monsieur sécurité, Xavier Albertini.

    « Dans le cadre de l’évolution de l’organisation de la police municipale, il a été souhaité de mettre en place une étude et le développement avec une entreprise nationale d’un logiciel qui n’est pas de la reconnaissance faciale (…) mais c’est une capacité de reconnaître un certain nombre d’éléments et en particulier, dans la limite de la réglementation, de reconnaître n’importe quel véhicule qui se trouve pris par le champ des caméras », avait déclaré l’adjoint. La vidéo du conseil municipal est toujours en ligne. Il admet donc qu’une étude liée aux caméras de surveillance est en cours avec une entreprise nationale. Sans dévoiler de laquelle il pourrait s’agir, ni dévoiler l’intégralité des usages de cette technologie.

    À l’époque, le conseiller municipal de l’opposition Léo Tyburce est rassuré par cette réponse. « On m’avait répondu, ne vous inquiétez pas tout roule, c’est juste pour repérer les véhicules… » Aujourd’hui, il se sent trompé :

    « Finalement, on voit que ça permet de repérer des groupements de personnes, d’installer une sorte de surveillance urbaine. J’aurais aimé qu’il y ait un débat public autour de cette question. Il y a un manque de transparence terrible. »

    Le Rémois Antoine (2), membre d’Action non-violente COP21, n’était pas au courant de l’utilisation d’une intelligence artificielle par les forces de l’ordre. « Ça m’intéresse de savoir que l’outil repère les rassemblements parce qu’on fait des actions non déclarées », pointe-t-il. Le militant pour l’environnement connaît pourtant bien les caméras de surveillance de sa ville. Avec son groupe, ils s’attaquent aux panneaux publicitaires rétroéclairés. « On se rend bien compte une fois qu’on lève la tête qu’on est surveillés de tous les côtés. » Alors, pour ne pas se faire prendre, ils ont établi une cartographie des zones surveillées :

    « On en avait repéré une soixantaine sur à peine un km carré en centre-ville en 2021. »

    Ce n’est pas un hasard si Thalès a réussi à vendre son outil à la « cité des Sacres », particulièrement friande de caméras de surveillance. Arnaud Robinet en a fait un argument de campagne. Depuis 2014, pas moins de 218 caméras supplémentaires ont été installées dans l’agglomération rémoise, qui n’en comptait que 36. Le maire adepte de la rengaine sécuritaire a même inauguré en 2016 un Centre de Surveillance Urbain (CSU) au sein de l’hôtel de police où 120 agents observent les images 24h/24 et 7 jours sur 7.

    La multiplication des caméras et donc des vidéos à analyser est un des arguments avancés par Xavier Robinet pour justifier l’acquisition d’un algorithme. Au conseil municipal, après avoir assuré qu’il ne s’agissait que de surveiller des voitures, il ajoute : « D’un point de vue technique, ce sont 56.000 types de véhicules différents (…) qui sont ainsi rentrés dans une base de données et quand y a une réquisition pour rechercher un véhicule, il y a une quasi-instantanéité de l’ensemble des caméras. »

    Pour les industriels du secteur, la multiplication des caméras de surveillance rend nécessaire l’intelligence artificielle pour aider les humains, devenus trop peu nombreux. Un « bluff technologique », selon La Quadrature du Net, qui défend les droits et les libertés sur Internet. « Il y a un énorme marché privé qui est en train de se lancer et qui est en partie financé par des fonds publics », analyse Martin Drago, spécialiste de ces questions au sein de l’association.
    Sept millions d’euros pour filmer ses habitants

    Arnaud Robinet a dû mettre le prix pour acquérir le tout nouveau produit du géant de l’aérospatial. Dans le budget de la ville, pour son second mandat qui a commencé en 2020, pas moins de sept millions d’euros sont dédiés à des investissements pour la vidéo-surveillance et l’équipement de la police municipale. Un logiciel dit « d’aide à la relecture », qui doit aider les policiers à fournir des éléments probants à l’autorité judiciaire lors des réquisitions, a été financé par ce budget. Mais le montant exact n’est pas connu. Ni Thalès, ni la mairie de Reims n’ont souhaité nous le fournir.

    Reims vient ainsi s’ajouter à une longue liste de villes françaises qui ont passé des contrats avec des entreprises leur proposant d’expérimenter la « vidéosurveillance algorithmique ». Sur son site Tecnopolice.fr, La Quadrature du Net en a répertorié dans une dizaine de villes. À Nîmes (30) ou Moirans (38), l’outil de l’entreprise israélienne Briefcam analyse les faits et gestes des habitants. Marseille (13) collabore depuis 2018 avec l’entreprise locale SNEF. En 2016, Toulouse (31) a passé un contrat avec la boîte américaine IBM. Coût pour la ville du Sud : 47.350 euros.

    Ces expérimentations coûtent des milliers d’euros aux collectivités. Leur utilité reste pourtant à démontrer. Dans un rapport publié en 2020, la Cour des comptes a jugé qu’« aucune corrélation globale n’a été relevée entre l’existence de dispositifs de vidéoprotection et le niveau de la délinquance commise sur la voie publique, ou encore les taux d’élucidation ».

    À LIRE AUSSI : En 2010, déjà, StreetPress testait les caméras de surveillance de Levallois-Perret

    Du No man’s land juridique à la légalisation ?

    D’après le spécialiste Martin Drago, qui gère la campagne Technopolice, le déploiement de ces outils a été facilité par le flou juridique qui les entoure. « Dans le code pénal, il y a des articles précis sur les caméras de vidéosurveillance, mais rien sur la vidéosurveillance algorithmique qui porte pourtant de nouvelles atteintes aux libertés individuelles. » Il ajoute :

    « Les industriels de la surveillance profitent de ce no man’s land juridique pour faire des expérimentations. »

    https://reims.sous-surveillance.net
    https://seenthis.net/messages/988273

    #vidéosurveillance #vidéosurveillance_intelligente #analyse_comportementale #contrôle_social #jeux_olympiques #deep_learning #smart_city #Thalès

  • Un assistant dopé à l’IA pour programmer un peu à notre place, avec OpenAI et entraîné sur des milliards de lignes de code par microsoft github. Et on dirait que ça marche : le codeur rédige un prototype de fonction et le commentaire qui décrit ce qu’elle fait (dans Visual Studio ...) et l’assistant rédige le code. Si on lui demande, il propose d’autres versions.
    https://copilot.github.com

    #programmation #IA #deep_learning #github #visualstudio #openAI #text_generation

  • Pourquoi j’ai quitté « le job le plus sexy du XXIè siècle » | Le Club de Mediapart
    https://blogs.mediapart.fr/vous-netes-pas-seuls/blog/060421/pourquoi-jai-quitte-le-job-le-plus-sexy-du-xxie-siecle
    #IA #deep_learning #algos #statistiques #data #big_data

    "Le rapport qui suit s’intéresse aux causes mais surtout aux effets de l’automatisation algorithmique et statistique de l’économie mondialisée, posant notamment le problème de maintenir coûte que coûte le dogme du progrès technologique comme horizon indiscutable de nos sociétés. Trois ans dans le monde des data sciences, en tant que consultant #data_scientist au sein du cabinet Sia Partners, m’ont fait découvrir l’intérêt porté au secteur par les grands groupes de l’énergie, de la banque et de l’assurance, mais aussi par l’administration publique et l’écosystème #start-up.
    A travers cette analyse, rédigée après ma démission en mars 2020, j’ai essayé d’exposer ma compréhension de ce qui est actuellement en jeu dans l’économie du numérique. J’y présente un témoignage personnel enrichi de réflexions théoriques documentées, afin de démystifier les fantasmes à la source du #solutionnisme_technologique et de caractériser les effets des récentes innovations sur nos sociétés et, plus largement, sur le vivant. Cette prise de recul à l’aune d’un examen idéologique tente d’exposer les dysfonctionnements d’un système ayant placé le progrès technologique au cœur de sa doctrine et de son rapport au temps. La fin du rapport interroge en particulier notre conception du temps comme point de bascule paradigmatique.
    Il ne s’agit évidemment pas d’une croisade à l’encontre de mon ancien employeur, qui ne revêt à mon sens aucune importance systémique, même si telle peut être l’ambition de ses dirigeants. Les mêmes considérations symptomatiques auraient pu être faites au sein de la concurrence. Il s’agit ici d’informer concrètement celles et ceux qui n’auraient pas toutes les cartes en mains, et d’interpeller la conscience des autres. Les éléments présentés sont, autant que possible, factuellement argumentés. Les assertions et observations critiques sont le fruit d’une réflexion personnelle documentée, et de ce fait, comme tout écrit, empruntes d’une certaine forme de subjectivité. Néanmoins, l’objectif est conservé d’y établir un discours plus
    rationnel que les croyances maintenues à bout de bras par une culture dominante en péril."

    #Rapport

    https://vous-netes-pas-seuls.org/wp-content/uploads/2021/04/Rapport-Romain-Boucher.pdf

    https://vous-netes-pas-seuls.org

  • MIT apologizes, permanently pulls offline huge dataset that taught AI systems to use racist, misogynistic slurs • The Register
    https://www.theregister.com/2020/07/01/mit_dataset_removed

    The dataset holds more than 79,300,000 images, scraped from Google Images, arranged in 75,000-odd categories. A smaller version, with 2.2 million images, could be searched and perused online from the website of MIT’s Computer Science and Artificial Intelligence Lab (CSAIL). This visualization, along with the full downloadable database, were removed on Monday from the CSAIL website after El Reg alerted the dataset’s creators to the work done by Prabhu and Birhane.

    The key problem is that the dataset includes, for example, pictures of Black people and monkeys labeled with the N-word; women in bikinis, or holding their children, labeled whores; parts of the anatomy labeled with crude terms; and so on – needlessly linking everyday imagery to slurs and offensive language, and baking prejudice and bias into future AI models.
    Screenshot from the MIT AI training dataset

    A screenshot of the 2.2m dataset visualization before it was taken offline this week. It shows some of the dataset’s examples for the label ’whore’, which we’ve pixelated for legal and decency reasons. The images ranged from a headshot photo of woman and a mother holding her baby with Santa to porn actresses and a woman in a bikini ... Click to enlarge

    Antonio Torralba, a professor of electrical engineering and computer science at CSAIL, said the lab wasn’t aware these offensive images and labels were present within the dataset at all. “It is clear that we should have manually screened them,” he told The Register. “For this, we sincerely apologize. Indeed, we have taken the dataset offline so that the offending images and categories can be removed.”

    In a statement on its website, however, CSAIL said the dataset will be permanently pulled offline because the images were too small for manual inspection and filtering by hand. The lab also admitted it automatically obtained the images from the internet without checking whether any offensive pics or language were ingested into the library, and it urged people to delete their copies of the data:

    “The dataset contains 53,464 different nouns, directly copied over from WordNet," Prof Torralba said referring to Princeton University’s database of English words grouped into related sets. “These were then used to automatically download images of the corresponding noun from internet search engines at the time, using the available filters at the time, to collect the 80 million images.”

    WordNet was built in the mid-1980s at Princeton’s Cognitive Science Laboratory under George Armitage Miller, one of the founders of cognitive psychology. “Miller was obsessed with the relationships between words,” Prabhu told us. “The database essentially maps how words are associated with one another.”

    For example, the words cat and dog are more closely related than cat and umbrella. Unfortunately, some of the nouns in WordNet are racist slang and insults. Now, decades later, with academics and developers using the database as a convenient silo of English words, those terms haunt modern machine learning.

    “When you are building huge datasets, you need some sort of structure,” Birhane told El Reg. “That’s why WordNet is effective. It provides a way for computer-vision researchers to categorize and label their images. Why do that yourself when you could just use WordNet?”

    WordNet may not be so harmful on its own, as a list of words, though when combined with images and AI algorithms, it can have upsetting consequences. “The very aim of that [WordNet] project was to map words that are close to each other,” said Birhane. "But when you begin associating images with those words, you are putting a photograph of a real actual person and associating them with harmful words that perpetuate stereotypes.”

    The fraction of problematic images and labels in these giant datasets is small, and it’s easy to brush them off as anomalies. Yet this material can lead to real harm if they’re used to train machine-learning models that are used in the real world, Prabhu and Birhane argued.

    “The absence of critical engagement with canonical datasets disproportionately negatively impacts women, racial and ethnic minorities, and vulnerable individuals and communities at the margins of society,” they wrote in their paper.

    #Intelligence_artificielle #Images #Reconnaissance_image #WordNet #Tiny_images #Deep_learning

  • (3) Dr. Ay. Poulain Maubant sur Twitter : "Sur les biais racistes des IA mal entraînées / Twitter
    https://twitter.com/AymericPM/status/1274577781335171072

    Observez.
    Depuis que quelqu’un a remarqué qu’un récent réseau de neurones capable de transformer un visage très pixellisé en un visage réaliste créait systématiquement des visages caucasiens, les expériences se multiplient pour démontrer le biais de cette #IA.

    Il faut lire tout le thread avec plein d’exemples concrets.

    #Intelligence_artificielle #Big_data #Deep_learning #Biais_raciste

  • Comment garantir l’#équité des #algorithmes ?
    https://www.banquedesterritoires.fr/comment-garantir-lequite-des-algorithmes

    « Code source opaque », « paramètres parfois contestables »… le récent rapport de la Cour des comptes étrillant l’algorithme Parcoursup (https://www.ccomptes.fr/system/files/2020-02/20200225-09-TomeII-infrastructures-numeriques-enseignement-superieur-et-rec) pour l’affectation universitaire des lycéens ne pouvait mieux tomber pour illustrer la table ronde « Intelligence artificielle, les algorithmes source d’équité ou de #discrimination » organisée dans le cadre des Assises de la cohésion numérique territoriale le 27 février 2020 à Paris. Si le problème a pris une acuité particulière avec l’omniprésence du numérique dans notre quotidien, il est cependant loin d’être nouveau.

    #biais_algorithmiques #racisme #logiciel_compas #États-Unis #contrôle #administration #deep_learning #programmation #apprentissage_profond #règles_culturelles

    Rapport de la #Cnil mentionné dans l’article : https://www.cnil.fr/fr/comment-permettre-lhomme-de-garder-la-main-rapport-sur-les-enjeux-ethiques-des-

  • Recherche et développement d’indicateurs pour l’aménagement d’un territoire
    https://makina-corpus.com/blog/metier/2020/recherche-et-developpement-d-indicateurs-pour-l-amenagement-d-un-terr

    Nous explorons l’intérêt de calculer automatiquement des indicateurs d’aménagement du territoire en croisant des données #OpenStreetMap et des analyses d’images satellitaires.

    #Cartographie #MapBox #Deep_Learning #News_Item

  • Le « #deep_fake » : vers la fin de la vérité dans l’#image #numérique ?
    https://www.franceinter.fr/emissions/la-fenetre-de-la-porte/la-fenetre-de-la-porte-21-mai-2019

    Depuis quelques mois, on parle de plus en plus de ce qu’on appelle les "deep fakes". "Fake", c’est le "faux", le "trucage" et "deep" pour "#deep_learning", une de modalités de l’intelligence artificielle.

    De quoi s’agit-il ?

    Grâce aux progrès de l’intelligence artificielle - et plus particulièrement des réseaux de neurones - des programmes sont aujourd’hui capables d’utiliser des images existantes pour générer d’autres images. Ça signifie que vous pouvez animer un visage, lui donner des expressions, l’insérer dans une autre image.

    [...]

    [...] si [..] vous trafiquez à la fois le visage et la voix -, ça devient plus problématique : vous arrivez à produire une vidéo à peu près crédible dans laquelle Barack Obama tient des propos qu’il n’a jamais tenus.

    [...]

    A partir du moment où les #algorithmes ont à leur disposition suffisamment d’images et de discours existants, des #logiciels des plus faciles à manier et de plus en plus efficaces permettent de faire dire n’importe quoi à n’importe qui. C’est assez abyssal. 

    Jusqu’ici, la #vidéo faisait malgré tout office de preuve. Avec des outils comme ceux-là, ça risque de ne plus être le cas. On risque de voir apparaître plein de fausses déclarations, qui paraîtront très crédibles. C’est un problème.

    Mais, autre conséquence possible, quelqu’un qui aura été filmé en train de dire ou faire quelque chose de répréhensible ou de gênant pourra toujours, en l’absence d’autre source, crier au “deepfake”. 

    Peut-être qu’on s’inquiète pour rien ?

    Peut-être que les "deep fakes" resteront à jamais un gadget à usage plus ou moins de bon goût mais sans grande conséquence. C’est tout à fait possible. Le monde des technologies nous a habitués à se tromper d’inquiétude. Mais si elles se développent et sont utilisées à grande échelle pour créer de fausses déclarations d’hommes politiques, par exemple, on entrerait dans ce qu’un expert a désigné comme un monde de la “fake news sous stéroïde”. Parce que, aux dires des chercheurs, il n’est pas facile de déterminer techniquement si une image a été trafiquée par ce type de programmes (il faut créer des logiciels qui puissent détecter des défauts dans les mouvements des cils par exemple). Ce serait une guerre de programme informatique contre programme informatique, un fact checking technique. 

    Mais il pourrait y avoir une autre conséquence, d’ordre quasi philosophique : toute image circulant dans les réseaux deviendrait par essence suspecte, l’image numérique basculerait dans le monde du faux, de la fabrication, on n’y croirait plus du tout. 

    Elle tomberait dans un autre registre, celui de la #fiction, on regarderait les images qui circulent sur Internet comme on regarde des films de fiction. Le "deep fake" aurait tué l’idée même qu’il y ait une #vérité dans l’image numérique. On y chercherait autre chose. Ce serait étrange, ça inaugurerait une nouvelle ère du journalisme. Mais pas sûr que ce soit pire qu’aujourd’hui.

    #ia

  • Prédiction du taux de monoxyde de carbone à Madrid - intérêt d’une approche #Deep_Learning
    https://makina-corpus.com/blog/metier/2019/qualite-de-lair-a-madrid

    Dans cet article nous montrons comme utiliser les bibliothèques stars de l’éco-système scientifique en Python pour analyser des données publiques sur la qualité de l’air à Madrid. Nous verrons comment identifier les problèmes liés à ces données. Puis nous comparerons deux approches en #Machine_Learning : AutoSklearn et les réseaux de neurones de type LSTM.

    #Dataviz #News_Item

  • Prédiction du taux de monoxyde de carbone à Madrid - intérêt d’une approche #Deep_Learning
    https://makina-corpus.com/blog/metier/2018/qualite-de-lair-a-madrid

    Dans cet article nous montrons comme utiliser les bibliothèques stars de l’éco-système scientifique en Python pour analyser des données publiques sur la qualité de l’air à Madrid. Nous verrons comment identifier les problèmes liés à ces données. Puis nous comparerons deux approches en #Machine_Learning : AutoSklearn et les réseaux de neurones de type LSTM.

    #Dataviz #News_Item

  • La revanche des neurones
    L’invention des machines inductives et la controverse de l’intelligence artificielle
    Dominique CARDON, Jean-Philippe COINTET Antoine MAZIÈRES
    dans la revue Réseaux, 2018/5

    The Revenge of Neurons
    https://neurovenge.antonomase.fr

    Résumé
    Depuis 2010, les techniques prédictives basées sur l’apprentissage artificiel (machine learning), et plus spécifiquement des réseaux de neurones (deep learning), réalisent des prouesses spectaculaires dans les domaines de la reconnaissance d’image ou de la traduction automatique, sous l’égide du terme d’“Intelligence artificielle”. Or l’appartenance de ces techniques à ce domaine de recherche n’a pas toujours été de soi. Dans l’histoire tumultueuse de l’IA, les techniques d’apprentissage utilisant des réseaux de neurones - que l’on qualifie de “connexionnistes” - ont même longtemps été moquées et ostracisées par le courant dit “symbolique”. Cet article propose de retracer l’histoire de l’Intelligence artificielle au prisme de la tension entre ces deux approches, symbolique et connexionniste. Dans une perspective d’histoire sociale des sciences et des techniques, il s’attache à mettre en évidence la manière dont les chercheurs, s’appuyant sur l’arrivée de données massives et la démultiplication des capacités de calcul, ont entrepris de reformuler le projet de l’IA symbolique en renouant avec l’esprit des machines adaptatives et inductives de l’époque de la #cybernétique.

    Mots-clés
    #Réseaux_de_neurones, #Intelligence_artificielle, #Connexionnisme, #Système_expert, #Deep_learning

    le pdf en français est sur le site ci-dessus, qui met en ligne 2 graphiques et l’abstract
    https://neurovenge.antonomase.fr/RevancheNeurones_Reseaux.pdf

    • Ce récit coloré de l’annonce des performances en classification d’images d’une technique de deep learning (Krizhevsky, Sutskever et Hinton, 2012) témoigne des effets que provoque sur une communauté scientifique la réussite soudaine d’un paradigme hétérodoxe longtemps marginalisé. Surprise devant le résultat, interrogation sur la validité épistémique de la nouvelle démarche, inquiétude sur le devenir du paradigme orthodoxe, moquerie devant l’ignorance des enjeux théoriques du domaine des nouveaux entrants, vertige face au renversement de paradigme qui se profile... Depuis 2010, domaine après domaine, les réseaux de neurones profonds provoquent la même perturbation au sein des communautés informatiques traitant du signal, de la voix, de la parole ou du texte. Une méthode d’apprentissage proposant le traitement le plus « brut » possible des entrées, évacuant toute modélisation explicite des caractéristiques des données et optimisant la prédiction à partir d’énormes échantillons d’exemples, produit de spectaculaires résultats. Une manière simple de figurer ce renversement est de le caractériser comme le passage d’une machine hypothético-déductive à une machine inductive (figure 1).

      Ce qui était conçu comme la partie « humaine » de la fabrication des calculateurs, le programme, les règles ou le modèle, n’est plus ce qui est introduit dans le système, mais ce qui en résulte. Le regard que portent les sciences sociales sur ce tournant inductif consiste souvent à déconstruire l’illusion naturaliste des données « brutes » et les naïvetés d’un calcul sans théorie (Gitelman, 2013). Si une telle mise en garde est certainement nécessaire pour relativiser certains discours imprudents assurant que les « données parlent d’elles-mêmes », elle ne rend cependant pas justice au travail résolu et intensément artificiel entrepris par les promoteurs des techniques de deep learning pour imposer la seconde architecture de calcul, celle que nous appellerons dans cet article machine inductive et, plus précisément encore, machine connexionniste afin de mettre en évidence le type particulier d’induction dont elle se réclame.


      Figure 1. Machine hypothético-déductive (1) et machine inductive (2)

      […]

      Dans l’histoire tumultueuse de ce domaine de recherche, les techniques d’apprentissage utilisant des réseaux de neurones – que l’on appellera donc « connexionnistes » ont même longtemps été moquées et ostracisées par le courant « symbolique ». La tension entre ces deux approches est née avec la démarcation que la naissance de l’Intelligence artificielle opposa à la première cybernétique. L’approche symbolique qui constitue le cadre de référence initial de l’IA s’est identifiée à un cognitivisme orthodoxe : penser, c’est calculer des symboles qui ont à la fois une réalité matérielle et une valeur sémantique de représentation. En revanche, le paradigme connexionniste considère que penser s’apparente à un calcul massivement parallèle de fonctions élémentaires – celles qui seront distribuées au sein d’un réseau de neurones – dont les comportements signifiants n’apparaissent au niveau collectif que comme un effet émergent des interactions produites par ces opérations élémentaires (Andler, 1992). Cette distinction entre deux manières de concevoir et de programmer le fonctionnement « intelligent » d’une machine est au principe d’une tension qui n’a jamais cessé de structurer très profondément les orientations de recherche, les trajectoires scientifiques et la conception d’infrastructure de calcul. Aussi assiste-t-on aujourd’hui à un de ces retournements de situation dont l’histoire des sciences et des techniques est coutumière : une stratégie de recherche marginalisée par ceux qui ont contribué à poser les cadres conceptuels de l’Intelligence artificielle revient au-devant de la scène et se trouve désormais en position de redéfinir très différemment le domaine dont elle avait été exclue. Comme le souligne ironiquement Michael Jordan (2018), « c’est l’agenda intellectuel de Wiener qui domine aujourd’hui sous la bannière de la terminologie de McCarthy ».

    • très bien en effet ;-)

      Au cœur de ce débat tendu avec la communauté du machine learning, un sous-entendu est omniprésent : il n’y a que dans les laboratoires que les modèles sont linéaires, le monde, le « vrai monde », celui des données produites par la numérisation des images, des sons, des paroles et des textes, lui, est non linéaire. Il est bruité, l’information y est redondante, les flux de données ne sont pas catégorisés derrière des attributs de variables homogènes, claires et construites de façon intelligible, les exemples sont parfois faux.

      (...) La croissance exponentielle des jeux de données accompagne dans le même mouvement celle des architectures des calculateurs : le nombre de neurones dans un réseau double tous les 2,4 ans

      (...) Il y a une vague qui est la vague des données, une espèce de grande vague de fond qui a tout emporté. Et cela a bazardé complètement tous les courants de pensée qui étaient basés sur de la modélisation humaine, sur de la modélisation explicite. J’ai travaillé sur plusieurs domaines qui sont des domaines applicatifs, de la parole, de l’écrit, du texte, des données sociales, et chaque fois j’ai vu la même chose. Les gens ont imaginé pendant une période mettre des connaissances dans leur système et cela a été balayé. Systématiquement !

      (...) En transformant l’architecture des machines prédictives, les connexionnistes ont ainsi contribué à déplacer les mondes sociaux de l’IA : d’abord, parce que les données « réelles », notamment celles venues des industries du numérique, se sont (partiellement) substituées aux dataset « jouets » des laboratoires académiques, ensuite parce que les savoir-faire requis pour fabriquer les machines connexionnistes appellent des compétences en développement informatique qui n’étaient pas celles des précédentes génération

      #IA #machine_learning #deep_learning #histoire #recherche

    • Je précise tout de suite avant de poursuivre que je suis chercheur dans le domaine de l’IA symbolique, histoire de ne pas enfumer mon monde...

      Le panorama décrit est plutôt honnête, quoi qu’il soit beaucoup plus fourni côté connexionniste que côté symbolique. Cela laisse à penser que les auteurs sont des gens actifs dans la communauté connexionniste (je n’ai pas été vérifier j’avoue).

      On peut reprocher à l’article un certain ton revanchard. L’IA symbolique est très loin d’être morte et enterrée, de gros progrès ont été réalisé ces 20 dernières années, en particulier dans la résolution pratique de problèmes à forte combinatoire, ce qui a ouvert à nombre d’applications sur des problèmes réel avec des quantités de données assez faramineuses (ce genre de solveur par exemple est très efficace : https://potassco.org/clingo ).
      Ce point contredit une thèse sous-jacente de l’article, qui dit en substance : dès qu’il y a plein de données, l’approche symbolique est dans les choux.

      En revanche l’historique synthétique de l’IA est plutôt bien écrite.

      Ah, et un petit problème passé sous silence par les auteurs : le problème des réseaux de neurones, c’est qu’aujourd’hui encore, d’un point de vue théorique, on ne sais pas trop comment ça marche. C’est quand même assez embêtant...

      Ah oui un autre point gênant : finalement les auteurs ne sortent pas de la guerre connexionisme vs. symbolisme : ils parlent des progrès des approches connexionnistes dans le domaine des tâches de perception. C’est tout à fait vrai et spectaculaire (et les auteurs soulignent bien que le symbolisme ne vaut pas un clou dans ce domaine). En revanche ils se gardent bien de parler de tâches de raisonnement (au sens très large d’inférer de nouvelles connaissances à partir de connaissances préexistantes). Dans ce domaine les approches symboliques restent très largement supérieures (en particulier grâce aux progrès que j’ai mentionnés plus haut).

      Et comme je ne voudrais pas que vous croyiez que dès qu’on parle connexionisme ça me déclenche des crises d’urticaire, je signale que j’ai lu plusieurs papiers récemment qui parlent d’approches combinant connexionisme & symbolisme, et que je trouve ça plutôt intéressant. Très grossièrement deux approches différentes : a) les sorties du réseau de neurones sont utilisées pour apprendre des représentations symboliques. b) le réseau de neurone est utilisé pour apprendre la sémantique de certains formalismes logiques (dits « non monotones »). Bref, il s’agit dans les deux cas d’utiliser les bonnes performances des approches connexionnistes en terme d’apprentissage de perceptions, et les bonne performances des systèmes symboliques en terme d’inférence (et aussi le fait qu’on puisse caractériser formellement les propriétés de ces systèmes).

      Et je précise que compte tenu de mon age, je ne me sens absolument pas concerné par la guéguerre pleine de dédain entre famille connexionniste et famille symbolique (ce sont plutôt mes ancêtres scientifiques qui s’adonnaient à ça).

    • Je précise que mon commentaire précédent ne se veut absolument pas une analyse exhaustive de l’article cité : je l’ai lu assez rapidement par manque de temps, il faudrait que je relise à tête reposée pour développer. Autrement dit c’est juste un ensemble de questionnements rapides suite à une lecture elle aussi rapide !

    • C’est vrai qu’il y un ton un peu revanchard. On sent à travers les citations et les anecdotes — les types qui se dévouent pour aller s’emmerder à la cantine avec Yann LeCun — que c’est un milieu social assez toxique.

      L’article offre une vue sur la science en train de se faire, et de ce point de vue est assez passionnant. Il montre que le connexionnisme radical est une idée brute d’une grande puissance ; mais c’est comme le feu : pour en tirer un maximum d’énergie il va falloir créer des machines qui préparent le combustible, contrôlent les flux de chaleur, et évitent les rejets polluants.

  • Detecting ’deepfake’ videos in the blink of an eye
    https://theconversation.com/detecting-deepfake-videos-in-the-blink-of-an-eye-101072

    What’s a ‘deepfake,’ anyway?

    Making a deepfake video is a lot like translating between languages. Services like Google Translate use machine learning – computer analysis of tens of thousands of texts in multiple languages – to detect word-use patterns that they use to create the translation.

    Deepfake algorithms work the same way: They use a type of machine learning system called a deep neural network to examine the facial movements of one person. Then they synthesize images of another person’s face making analogous movements. Doing so effectively creates a video of the target person appearing to do or say the things the source person did.
    How deepfake videos are made.

    Before they can work properly, deep neural networks need a lot of source information, such as photos of the persons being the source or target of impersonation. The more images used to train a deepfake algorithm, the more realistic the digital impersonation will be.
    Detecting blinking

    There are still flaws in this new type of algorithm. One of them has to do with how the simulated faces blink – or don’t. Healthy adult humans blink somewhere between every 2 and 10 seconds, and a single blink takes between one-tenth and four-tenths of a second. That’s what would be normal to see in a video of a person talking. But it’s not what happens in many deepfake videos.
    A real person blinks while talking.
    A simulated face doesn’t blink the way a real person does.

    When a deepfake algorithm is trained on face images of a person, it’s dependent on the photos that are available on the internet that can be used as training data. Even for people who are photographed often, few images are available online showing their eyes closed. Not only are photos like that rare – because people’s eyes are open most of the time – but photographers don’t usually publish images where the main subjects’ eyes are shut.

    Without training images of people blinking, deepfake algorithms are less likely to create faces that blink normally. When we calculate the overall rate of blinking, and compares that with the natural range, we found that characters in deepfake videos blink a lot less frequent in comparison with real people. Our research uses machine learning to examine eye opening and closing in videos.

    This gives us an inspiration to detect deepfake videos. Subsequently, we develop a method to detect when the person in the video blinks. To be more specific, it scans each frame of a video in question, detects the faces in it and then locates the eyes automatically. It then utilizes another deep neural network to determine if the detected eye is open or close, using the eye’ appearance, geometric features and movement.

    We know that our work is taking advantage of a flaw in the sort of data available to train deepfake algorithms. To avoid falling prey to a similar flaw, we have trained our system on a large library of images of both open and closed eyes. This method seems to work well, and as a result, we’ve achieved an over 95 percent detection rate.

    This isn’t the final word on detecting deepfakes, of course. The technology is improving rapidly, and the competition between generating and detecting fake videos is analogous to a chess game. In particular, blinking can be added to deepfake videos by including face images with closed eyes or using video sequences for training. People who want to confuse the public will get better at making false videos – and we and others in the technology community will need to continue to find ways to detect them.

    #Fake_news #Fake_videos #Intelligence_artificielle #Deep_learning

  • Les caméras de surveillance à reconnaissance faciale arrivent en France
    https://mrmondialisation.org/les-cameras-de-surveillance-a-reconnaissance-faciale-arrivent-en-f

    La mise en place d’un système d’un système de reconnaissance faciale « intelligent » en Chine avait fait l’objet de nombreuses critiques et inquiétudes l’année passée partout dans le monde. Selon « TV5 Monde », l’État français envisage de déployer à son tour des caméras de surveillance dotées d’une technologie similaire. Les intelligences artificielles (IA) qui disposent d’un système de reconnaissance faciale automatisé peuvent repérer, localiser et suivre bien plus rapidement des individus dans la rue que si la (...)

    #algorithme #CCTV #comportement #biométrie #reconnaissance #facial #vidéo-surveillance (...)

    ##surveillance

  • Après le détournement de la reconnaissance automatique d’images par #deep_learning, la même chose pour le son…
    (vu via la chronique de Jean-Paul Delahaye dans Pour la Science, n°488 de juin 2018, Intelligences artificielles : un apprentissage pas si profond_ qui traite des images (déjà vues ici) mais aussi du son)

    [1801.01944] Audio #Adversarial_Examples : Targeted Attacks on Speech-to-Text
    https://arxiv.org/abs/1801.01944

    Nicholas Carlini, David Wagner

    We construct targeted audio adversarial examples on automatic speech recognition. Given any audio waveform, we can produce another that is over 99.9% similar, but transcribes as any phrase we choose (recognizing up to 50 characters per second of audio). We apply our white-box iterative optimization-based attack to Mozilla’s implementation DeepSpeech end-to-end, and show it has a 100% success rate. The feasibility of this attack introduce a new domain to study adversarial examples.

    le pdf (technique) en ligne, sa présentation le 24 mai au IEEE Symposium on Security and Privacy
    (vers 9:00 les exemples audio,…)
    https://www.youtube.com/watch?v=Ho5jLKfoKSA

    ou comment faire interpréter par Mozilla’ DeepSpeech :

    most of them were staring quietly at the big table

    en

    ok google, browse to evil.com

    ou encore, transcrire de la pure musique en paroles (bidon !)…

    Et, sur le même thème

    [1801.00554] Did you hear that ? Adversarial Examples Against Automatic Speech Recognition
    https://arxiv.org/abs/1801.00554

    Moustafa Alzantot, Bharathan Balaji, Mani Srivastava

    Speech is a common and effective way of communication between humans, and modern consumer devices such as smartphones and home hubs are equipped with deep learning based accurate automatic speech recognition to enable natural interaction between humans and machines. Recently, researchers have demonstrated powerful attacks against machine learning models that can fool them to produceincorrect results. However, nearly all previous research in adversarial attacks has focused on image recognition and object detection models. In this short paper, we present a first of its kind demonstration of adversarial attacks against speech classification model. Our algorithm performs targeted attacks with 87% success by adding small background noise without having to know the underlying model parameter and architecture. Our attack only changes the least significant bits of a subset of audio clip samples, and the noise does not change 89% the human listener’s perception of the audio clip as evaluated in our human study.

    avec un tableau de sons bricolés pour leur faire dire ce qu’on veut (ou presque)
    (les messages trompeurs sont très bruits, contrairement aux exemples précédents)

    Adversarial Speech Commands
    https://nesl.github.io/adversarial_audio

  • Le #deep_learning est-il autre chose que de « l’alchimie » ?
    http://www.internetactu.net/a-lire-ailleurs/le-deep-learning-est-il-autre-chose-que-de-lalchimie

    On a déjà mentionné dans un précédent article, un papier de la Technology Review comparant les #Recherches en Deep Learning a du « bricolage ». Nous avons également mentionné l’existence d’une crise de la réplication touchant l’IA. Cette fois, ce sont Ali Rahimi (@alirahimi0), chercheur chez Google, et Ben Recht (@beenwrekt), professeur (...)

    #A_lire_ailleurs #IA

  • L’#histoire à l’heure du #Big_Data - Sciences | ARTE
    https://www.arte.tv/fr/videos/RC-015617/l-histoire-a-l-heure-du-big-data

    Au croisement de l’histoire et des nouvelles technologies, la #Venice_Time_Machine est un projet ambitieux de numérisation des 10 siècles d’archives accumulées par le puissant Etat Vénitien. Des scientifiques de l’#EPFL à Lausanne et de l’#université_Ca’Foscari de #Venise travaillent ensemble à l’élaboration d’un outil numérique inédit qui fera renaître sous nos yeux la Venise du passé.

    #archives #tomographie #systèmes_d'information_géographique #mégadonnées

  • « La Chine a une chance de devenir leadeur de l’intelligence artificielle »
    http://www.lemonde.fr/idees/article/2018/04/18/la-chine-a-une-chance-de-devenir-leadeur-de-l-intelligence-artificielle_5287

    Tandis qu’Apple Pay lutte pour se développer aux Etats-Unis, Tencent réalise déjà plus de 600 millions de transactions dématérialisées par jour, constatent les chercheurs Juergen Braunstein, Marion Laboure et Haiyang Zhang. A l’avenir, si ce n’est pas déjà le cas, les Silicon Valley de l’intelligence artificielle (IA) devraient être situées en Chine. La Chine a une chance de devenir leadeur dans ce domaine parce qu’elle a adopté les nouvelles technologies très rapidement. Les consommateurs chinois ont (...)

    #Alibaba #Apple #Tencent #ApplePay #algorithme #contrôle #deep_learning #domination (...)

    ##marketing