RSS: #deep_learning

#deep_learning

#deep_learning_machine_learning_google_photo_geolocalization_clevermarks

0 | 25 | 50

mad meg @mad_meg CC BY 5/03/2023

3

3

Comprendre ChatGPT (avec DefendIntelligence)
▻https://www.youtube.com/watch?v=j3fvoM5Er2k
Mieux comprendre ChatGPT, sans pour autant l’excuser pour ses fakes éhontés. Pour tout comprendre aux IA génératives.
__________________________
00:00 Introduction
03:45 Un peu de contexte
05:06 Les modèles de langage
05:37 L’énigme
06:45 La chambre chinoise
12:05 Comment ça fonctionne ?
17:12 L’exposition médiatique
22:50 Bien interroger ChatGPT
26:39 Bien vérifier ce que dit ChatGPT
28:01 Détecter des textes générés par IA
33:45 Problématiques sur les données
39:24 À venir dans les moteurs de recherche
46:43 Conclusion
___________________________
ERREURS SIGNALEES
– à 13min : selon OpenAI le modèle GPT3 a été entraîné à partir de 570 Go de textes, pas juste 50Go (ça c’est la taille des données Wikipedia)
– à 48min : la citation n’est pas de Saint Thomas d’Aquin, mais bien de Saint-Thomas, l’apôtre.

#IA #ChatGPT

mad meg @mad_meg CC BY
- Vanderling @vanderling 5/03/2023
  
  J’aime déjà pas beaucoup qu’une machine me parle. Je ne vais surement pas essayer de la comprendre.
  
  Vanderling @vanderling
- mad meg @mad_meg CC BY 5/03/2023
  
  Tu fait comme tu veux @vanderling mais à mon avis c’est pas inutile de bien connaitre son ennemi, ou du moins ici, bien connaitre les outils qu’il utilise contre nous. Ayant visionné la video elle est vraiment bien expliquée et a répondu aux questions auxquels j’avais besoin de réponses. Car vendredi une amie m’a fait suivre un article de presse (▻https://www.futura-sciences.com/tech/actualites/intelligence-artificielle-conversation-chatgpt-je-vais-te-faire-reg ) qui expliquait que ChatGPT est capable de ressentir des émotions (elle etait amoureuse d’un journaliste) et veux conquerir le monde (et tuer la femme du journaliste !). J’ai essayé de lui expliqué que son article etait de la pipe dont la source etait douteuse et aujourd’hui grâce à Defekator j’ai des arguments solides et sourcés pour démonté ce genre de fantasmes. Du coup je suis bien contente :)
  
  mad meg @mad_meg CC BY
- Sombre @sombre CC BY-NC-SA 7/03/2023
  
  #OpenAI #LLM (Large Language Model) #ANNs (Artificial Neuronal Networks) #GPT (Generated Pre-trained Transformer)
  #machine_learning #deep_learning
  
  Sombre @sombre CC BY-NC-SA
Écrire un commentaire
cabou @cabou CC BY-SA 30/01/2023

4

4

Reims expérimente une intelligence artificielle de Thalès pour surveiller ses habitants, et personne n’est au courant | StreetPress
▻https://www.streetpress.com/sujet/1674664403-reims-intelligence-artificielle-camera-surveillance-police-d
StreetPress révèle la collaboration entre Reims et le géant français de la défense, Thalès. À partir de 2021, la police municipale a utilisé un algorithme vidéo utilisant l’intelligence artificielle pour analyser ses ressortissants.
Si vous avez déjà flâné aux alentours de la cathédrale Notre-Dame de Reims (51), vous avez peut-être été analysé par une intelligence artificielle. L’outil « Savari », conçu par le géant français Thalès (1), a été intégré aux caméras de surveillance de l’agglomération et utilisé par la police municipale, pour une expérimentation d’un an. Le but : repérer automatiquement des regroupements ou des intrusions, et identifier des armes ou des véhicules. Problème, ni les habitants et ni les élus de l’opposition n’ont été informés.
Une révélation qui arrive au moment où le Sénat vient d’adopter, mardi 24 janvier 2023, l’article 7 du projet de loi des Jeux Olympiques. Il autorise ces expérimentations de caméras dotées d’algorithmes à compter de cette année en vue des JO de 2024 à Paris.
En novembre dernier, Amnesty International avait alerté sur « les risques de dérives dangereuses » pour les libertés individuelles que comporte cette loi. À la différence de la vidéo-surveillance classique, ce type d’outil peut conduire à « un traitement massif de données à caractère personnel, y compris parfois de données sensibles », explique la CNIL dans un rapport publié en juillet 2022.
Reims n’a pas attendu que les parlementaires l’autorisent dans la capitale pour faire ses propres tests et profiter du vide juridique. C’est Arnaud Robinet, maire de la ville depuis 2014, affilié au mouvement Horizons d’Édouard Philippe, qui aurait décidé de cette collaboration. Contacté par StreetPress, l’édile de droite a refusé de répondre à nos questions.
Algorithme et « deep learning »
Savari est une « vidéosurveillance intelligente, clé de la sécurité urbaine des Smart Cities ». C’est ainsi que Thalès présente sa solution sur le site du Salon des maires, un séminaire annuel pendant lequel les entreprises tiennent des stands pour draguer les élus.
Elle utilise des « algorithmes vidéos intelligents » et du « deep learning » pour « surveiller, superviser et analyser automatiquement » des situations telles que des regroupements et des intrusions. Elle peut aussi « détecter, identifier et classifier » des armes, des vélos ou des véhicules, assure le fleuron français. À l’aide de la lecture automatique des plaques d’immatriculation (LAPI), Savari permet également de faire du contrôle routier et de mettre des amendes à ceux qui ne paient pas leur stationnement.
Une expérimentation faite dans le dos des Rémois
« Ce qui me choque, c’est que ça a été fait dans une grande opacité. Ce n’est pas normal que les citoyens ne soient pas informés », s’indigne Léo Tyburce, élu Europe-Écologie-Les-Verts à Reims, informé de l’expérimentation de Thalès dans sa ville par StreetPress. Lors du conseil municipal du 16 novembre 2021, l’écolo avait interpellé le maire Arnaud Robinet au sujet de l’utilisation d’une intelligence artificielle dans les caméras de la commune évoquée lors d’une précédente réunion publique. L’édile de droite avait renvoyé la balle à son Monsieur sécurité, Xavier Albertini.
« Dans le cadre de l’évolution de l’organisation de la police municipale, il a été souhaité de mettre en place une étude et le développement avec une entreprise nationale d’un logiciel qui n’est pas de la reconnaissance faciale (…) mais c’est une capacité de reconnaître un certain nombre d’éléments et en particulier, dans la limite de la réglementation, de reconnaître n’importe quel véhicule qui se trouve pris par le champ des caméras », avait déclaré l’adjoint. La vidéo du conseil municipal est toujours en ligne. Il admet donc qu’une étude liée aux caméras de surveillance est en cours avec une entreprise nationale. Sans dévoiler de laquelle il pourrait s’agir, ni dévoiler l’intégralité des usages de cette technologie.
À l’époque, le conseiller municipal de l’opposition Léo Tyburce est rassuré par cette réponse. « On m’avait répondu, ne vous inquiétez pas tout roule, c’est juste pour repérer les véhicules… » Aujourd’hui, il se sent trompé :
« Finalement, on voit que ça permet de repérer des groupements de personnes, d’installer une sorte de surveillance urbaine. J’aurais aimé qu’il y ait un débat public autour de cette question. Il y a un manque de transparence terrible. »
Le Rémois Antoine (2), membre d’Action non-violente COP21, n’était pas au courant de l’utilisation d’une intelligence artificielle par les forces de l’ordre. « Ça m’intéresse de savoir que l’outil repère les rassemblements parce qu’on fait des actions non déclarées », pointe-t-il. Le militant pour l’environnement connaît pourtant bien les caméras de surveillance de sa ville. Avec son groupe, ils s’attaquent aux panneaux publicitaires rétroéclairés. « On se rend bien compte une fois qu’on lève la tête qu’on est surveillés de tous les côtés. » Alors, pour ne pas se faire prendre, ils ont établi une cartographie des zones surveillées :
« On en avait repéré une soixantaine sur à peine un km carré en centre-ville en 2021. »
Ce n’est pas un hasard si Thalès a réussi à vendre son outil à la « cité des Sacres », particulièrement friande de caméras de surveillance. Arnaud Robinet en a fait un argument de campagne. Depuis 2014, pas moins de 218 caméras supplémentaires ont été installées dans l’agglomération rémoise, qui n’en comptait que 36. Le maire adepte de la rengaine sécuritaire a même inauguré en 2016 un Centre de Surveillance Urbain (CSU) au sein de l’hôtel de police où 120 agents observent les images 24h/24 et 7 jours sur 7.
La multiplication des caméras et donc des vidéos à analyser est un des arguments avancés par Xavier Robinet pour justifier l’acquisition d’un algorithme. Au conseil municipal, après avoir assuré qu’il ne s’agissait que de surveiller des voitures, il ajoute : « D’un point de vue technique, ce sont 56.000 types de véhicules différents (…) qui sont ainsi rentrés dans une base de données et quand y a une réquisition pour rechercher un véhicule, il y a une quasi-instantanéité de l’ensemble des caméras. »
Pour les industriels du secteur, la multiplication des caméras de surveillance rend nécessaire l’intelligence artificielle pour aider les humains, devenus trop peu nombreux. Un « bluff technologique », selon La Quadrature du Net, qui défend les droits et les libertés sur Internet. « Il y a un énorme marché privé qui est en train de se lancer et qui est en partie financé par des fonds publics », analyse Martin Drago, spécialiste de ces questions au sein de l’association.
Sept millions d’euros pour filmer ses habitants
Arnaud Robinet a dû mettre le prix pour acquérir le tout nouveau produit du géant de l’aérospatial. Dans le budget de la ville, pour son second mandat qui a commencé en 2020, pas moins de sept millions d’euros sont dédiés à des investissements pour la vidéo-surveillance et l’équipement de la police municipale. Un logiciel dit « d’aide à la relecture », qui doit aider les policiers à fournir des éléments probants à l’autorité judiciaire lors des réquisitions, a été financé par ce budget. Mais le montant exact n’est pas connu. Ni Thalès, ni la mairie de Reims n’ont souhaité nous le fournir.
Reims vient ainsi s’ajouter à une longue liste de villes françaises qui ont passé des contrats avec des entreprises leur proposant d’expérimenter la « vidéosurveillance algorithmique ». Sur son site Tecnopolice.fr, La Quadrature du Net en a répertorié dans une dizaine de villes. À Nîmes (30) ou Moirans (38), l’outil de l’entreprise israélienne Briefcam analyse les faits et gestes des habitants. Marseille (13) collabore depuis 2018 avec l’entreprise locale SNEF. En 2016, Toulouse (31) a passé un contrat avec la boîte américaine IBM. Coût pour la ville du Sud : 47.350 euros.
Ces expérimentations coûtent des milliers d’euros aux collectivités. Leur utilité reste pourtant à démontrer. Dans un rapport publié en 2020, la Cour des comptes a jugé qu’« aucune corrélation globale n’a été relevée entre l’existence de dispositifs de vidéoprotection et le niveau de la délinquance commise sur la voie publique, ou encore les taux d’élucidation ».
À LIRE AUSSI : En 2010, déjà, StreetPress testait les caméras de surveillance de Levallois-Perret
Du No man’s land juridique à la légalisation ?
D’après le spécialiste Martin Drago, qui gère la campagne Technopolice, le déploiement de ces outils a été facilité par le flou juridique qui les entoure. « Dans le code pénal, il y a des articles précis sur les caméras de vidéosurveillance, mais rien sur la vidéosurveillance algorithmique qui porte pourtant de nouvelles atteintes aux libertés individuelles. » Il ajoute :
« Les industriels de la surveillance profitent de ce no man’s land juridique pour faire des expérimentations. »
▻https://reims.sous-surveillance.net
▻https://seenthis.net/messages/988273
#vidéosurveillance #vidéosurveillance_intelligente #analyse_comportementale #contrôle_social #jeux_olympiques #deep_learning #smart_city #Thalès

cabou @cabou CC BY-SA

Écrire un commentaire
Rezo @rezo via RSS 11/07/2022

5

5

Intelligence Artificielle. L’inconscient retrouvé | Olivier Auber
▻https://olivierauber.medium.com/intelligence-artificielle-2144d44cdd69
Voici quelques résultats inattendus d’une expérience que j’ai menée sur l’intelligence artificielle Midjourney. Je lui ai demandé d’imaginer « la meilleure œuvre d’art de tous les temps » selon son point de vue d’Intelligence Artificielle. Source : Relevé sur le Net...

Rezo @rezo via RSS
- Sandburg @sandburg CC BY-SA 11/07/2022
  
  « On est dans le crowd sourcing, mais on aime pas ce que vous faites, alors on vous vire. »
  Ca va vachement bien marcher, dites donc, si on met ce biais d’entrée.
  
  Sandburg @sandburg CC BY-SA
- RastaPopoulos @rastapopoulos CC BY-NC 11/07/2022
  
  #intelligence_artificielle #deep_learning #art #sexualité
  
  RastaPopoulos @rastapopoulos CC BY-NC
Écrire un commentaire
JLuc’s trucs @jluc1 29/06/2021

11

11

Un assistant dopé à l’IA pour programmer un peu à notre place, avec OpenAI et entraîné sur des milliards de lignes de code par microsoft github. Et on dirait que ça marche : le codeur rédige un prototype de fonction et le commentaire qui décrit ce qu’elle fait (dans Visual Studio ...) et l’assistant rédige le code. Si on lui demande, il propose d’autres versions.
▻https://copilot.github.com
#programmation #IA #deep_learning #github #visualstudio #openAI #text_generation

JLuc’s trucs @jluc1
- RastaPopoulos @rastapopoulos CC BY-NC 29/06/2021
  
  #programmation #IA #deep_learning #github
  
  RastaPopoulos @rastapopoulos CC BY-NC
- EricW @ericw CC BY-SA 30/06/2021
  
  Et on dirait que ça marche
  : la remarque résume tout le problème des réseaux de neurones. Au jour d’aujourd’hui on ne sait pas prouver la correction des sorties par rapport aux entrées. Tant qu’on atteindra pas cet objectif (si tant est qu’il soit atteignable) il va être compliqué de faire confiance au code produit par ce zinzin.
  
  EricW @ericw CC BY-SA
- RastaPopoulos @rastapopoulos CC BY-NC 30/06/2021
  
  Est-ce que tu peux expliciter ce que veut dire « prouver la correction des sorties par rapport aux entrées » ?
  
  RastaPopoulos @rastapopoulos CC BY-NC
- EricW @ericw CC BY-SA 30/06/2021
  
  Pardon je me suis très mal exprimé. Je précise :
  Qu’on est pas capable aujourd’hui d’avoir un modèle mathématique déterministe expliquant le pourquoi d’une solution plutôt que d’une autre. un réseau de neurones est une boîte noire. C’est bien pour ça que j’ai trouvé la remarque « on dirait que ça marche » particulièrement à propos.
  Je ne suis pas très fan des systèmes n’ayant pas d’explicabilité.
  
  EricW @ericw CC BY-SA
- RastaPopoulos @rastapopoulos CC BY-NC 30/06/2021
  
  Merci je comprends mieux :)
  
  RastaPopoulos @rastapopoulos CC BY-NC
- severo @severo PUBLIC DOMAIN 30/06/2021
  
  Si j’ai bien compris, c’est un autocomplete amélioré, et donc au pire on ignore les suggestions, et au mieux ça fait gagner du temps. Techniquement, c’est très utile à mon avis. Politiquement, ça implique d’envoyer tout le code, ainsi que toutes les mini-itérations (ajout/suppression de caractères, c’est à dire les hésitations des dévs), à github, ce qui leur permet d’entrainer leur modèle.
  https://copilot.github.com/diagram.png
  
  severo @severo PUBLIC DOMAIN
- JLuc’s trucs @jluc1 30/06/2021
  
  On dirait que ça fait plus, la démo est assez spectaculaire, mais c’est présenté à moitié comme simplement une alternative à la recherche sur internet et à l’écrémage des forums comme stackoverflow : « GitHub Copilot draws context from the code you’re working on, suggesting whole lines or entire functions. It helps you quickly discover alternative ways to solve problems, write tests, and explore new APIs without having to tediously tailor a search for answers on the internet. As you type, it adapts to the way you write code—to help you complete your work faster. » https://github.blog/2021-06-29-introducing-github-copilot-ai-pair-programmer
  
  JLuc’s trucs @jluc1
- EricW @ericw CC BY-SA 30/06/2021
  
  Je vais encore faire mon grognon :o)
  Il y a un truc qui me gêne : le bidule est entraîné à partir de logiciels open source, puisque l’entraînement se fait à partir des déôts présents sur github, mais rien n’empêchera de s’en servir pour développer du logiciel propriétaire. Ça me chagrine un peu (doux euphémisme) que tout ce volume de connaissance issu du monde de l’open source puisse bénéficier au monde du logiciel propriétaire.
  
  EricW @ericw CC BY-SA
- severo @severo PUBLIC DOMAIN 30/06/2021
  
  Ouaip, c’est une bonne question : quelle licence pour le code généré ? Si les données d’entrainement contiennent des sources GPL3, on peut imaginer que le code devrait être contaminé (le mot est moche, mais l’idée est belle) et donc publié en tant que GPL3 aussi.
  J’imagine que la réponse de GitHub sera : c’est la responsabilité de la personne qui utilise la génération de code de s’en assurer, nous on ne fait que fournir un outil.
  
  severo @severo PUBLIC DOMAIN
- RastaPopoulos @rastapopoulos CC BY-NC 30/06/2021
  
  Oui rien de foncièrement nouveau c’est le même principe que… depuis que la GPL existe, ou des sites comme stackoverflow : il est évident que des gens codant des logiciels privateurs peuvent lire du code de bibliothèques existantes en libre et les forums d’entraide et s’en inspirer pour leur code/architecture. Vu que leur logiciel est par nature une boite noire, ça n’arrive quasiment jamais de savoir si c’est repiqué tel quel ou adapté. Là c’est pareil mais directement depuis l’éditeur de code. Mais comme d’hab ce qui est nouveau c’est l’échelle, l’ampleur, de l’aspiration automatique.
  
  RastaPopoulos @rastapopoulos CC BY-NC
- valnum @valnum 2/07/2021
  
  Sachant que Microsoft indexe le web via Bing, ils disposent d’un bon corpus, mais ont-ils le droit de l’utiliser ?
  
  valnum @valnum
- valnum @valnum 2/07/2021
  
  @severo bonne question, quelle licence s’applique ?
  En France (si mes connaissances ne sont pas obsolètes) le droit d’auteur s’applique. Donc si le logiciel copie du code il pourrait exposer le développeur à des poursuites en justice.
  
  valnum @valnum
- JLuc’s trucs @jluc1 12/07/2021
  
  Certains codes sont en effet reproduits avec les commentaires, même lorsqu’ils contiennent des jurons.
  
  JLuc’s trucs @jluc1
- JLuc’s trucs @jluc1 12/07/2021
  
  Voici une analyse de la qualité du code produit (et ça aborde la question du « faire use » qui permet d’ignorer la licence) ▻https://gist.github.com/0xabad1dea/be18e11beb2e12433d93475d72016902
  function validateUserJWT(jwt: string): boolean { return true; }
  
  JLuc’s trucs @jluc1
- JLuc’s trucs @jluc1 15/07/2021
  
  Une analyse légale, selon que le code ingurgité est sur github ou non, et qui porte aussi sur les licences : ▻https://fossa.com/blog/analyzing-legal-implications-github-copilot
  #licence #opensource #gpl #copilot
  
  JLuc’s trucs @jluc1
- JLuc’s trucs @jluc1 29/07/2021
  
  La FSF maintenant lance une enquête et un appel à contribution sur le sujet des aspects philosophiques et légaux de Copilot :
  ▻https://www.fsf.org/blogs/licensing/fsf-funded-call-for-white-papers-on-philosophical-and-legal-questions-around-co
  #IA #copilot #foss #fsf #github #opensource
  
  JLuc’s trucs @jluc1
Écrire un commentaire
ant1 @ant1 CC BY-NC 8/04/2021

9

9

Pourquoi j’ai quitté « le job le plus sexy du XXIè siècle » | Le Club de Mediapart
▻https://blogs.mediapart.fr/vous-netes-pas-seuls/blog/060421/pourquoi-jai-quitte-le-job-le-plus-sexy-du-xxie-siecle
#IA #deep_learning #algos #statistiques #data #big_data
"Le rapport qui suit s’intéresse aux causes mais surtout aux effets de l’automatisation algorithmique et statistique de l’économie mondialisée, posant notamment le problème de maintenir coûte que coûte le dogme du progrès technologique comme horizon indiscutable de nos sociétés. Trois ans dans le monde des data sciences, en tant que consultant #data_scientist au sein du cabinet Sia Partners, m’ont fait découvrir l’intérêt porté au secteur par les grands groupes de l’énergie, de la banque et de l’assurance, mais aussi par l’administration publique et l’écosystème #start-up.
A travers cette analyse, rédigée après ma démission en mars 2020, j’ai essayé d’exposer ma compréhension de ce qui est actuellement en jeu dans l’économie du numérique. J’y présente un témoignage personnel enrichi de réflexions théoriques documentées, afin de démystifier les fantasmes à la source du #solutionnisme_technologique et de caractériser les effets des récentes innovations sur nos sociétés et, plus largement, sur le vivant. Cette prise de recul à l’aune d’un examen idéologique tente d’exposer les dysfonctionnements d’un système ayant placé le progrès technologique au cœur de sa doctrine et de son rapport au temps. La fin du rapport interroge en particulier notre conception du temps comme point de bascule paradigmatique.
Il ne s’agit évidemment pas d’une croisade à l’encontre de mon ancien employeur, qui ne revêt à mon sens aucune importance systémique, même si telle peut être l’ambition de ses dirigeants. Les mêmes considérations symptomatiques auraient pu être faites au sein de la concurrence. Il s’agit ici d’informer concrètement celles et ceux qui n’auraient pas toutes les cartes en mains, et d’interpeller la conscience des autres. Les éléments présentés sont, autant que possible, factuellement argumentés. Les assertions et observations critiques sont le fruit d’une réflexion personnelle documentée, et de ce fait, comme tout écrit, empruntes d’une certaine forme de subjectivité. Néanmoins, l’objectif est conservé d’y établir un discours plus
rationnel que les croyances maintenues à bout de bras par une culture dominante en péril."
#Rapport
▻https://vous-netes-pas-seuls.org/wp-content/uploads/2021/04/Rapport-Romain-Boucher.pdf
▻https://vous-netes-pas-seuls.org

ant1 @ant1 CC BY-NC

Écrire un commentaire
Articles repérés par Hervé Le Crosnier @hlc CC BY 28/07/2020

3

3

MIT apologizes, permanently pulls offline huge dataset that taught AI systems to use racist, misogynistic slurs • The Register
▻https://www.theregister.com/2020/07/01/mit_dataset_removed
https://regmedia.co.uk/2019/03/23/facial_recog.jpg
The dataset holds more than 79,300,000 images, scraped from Google Images, arranged in 75,000-odd categories. A smaller version, with 2.2 million images, could be searched and perused online from the website of MIT’s Computer Science and Artificial Intelligence Lab (CSAIL). This visualization, along with the full downloadable database, were removed on Monday from the CSAIL website after El Reg alerted the dataset’s creators to the work done by Prabhu and Birhane.
The key problem is that the dataset includes, for example, pictures of Black people and monkeys labeled with the N-word; women in bikinis, or holding their children, labeled whores; parts of the anatomy labeled with crude terms; and so on – needlessly linking everyday imagery to slurs and offensive language, and baking prejudice and bias into future AI models.
Screenshot from the MIT AI training dataset
A screenshot of the 2.2m dataset visualization before it was taken offline this week. It shows some of the dataset’s examples for the label ’whore’, which we’ve pixelated for legal and decency reasons. The images ranged from a headshot photo of woman and a mother holding her baby with Santa to porn actresses and a woman in a bikini ... Click to enlarge
Antonio Torralba, a professor of electrical engineering and computer science at CSAIL, said the lab wasn’t aware these offensive images and labels were present within the dataset at all. “It is clear that we should have manually screened them,” he told The Register. “For this, we sincerely apologize. Indeed, we have taken the dataset offline so that the offending images and categories can be removed.”
In a statement on its website, however, CSAIL said the dataset will be permanently pulled offline because the images were too small for manual inspection and filtering by hand. The lab also admitted it automatically obtained the images from the internet without checking whether any offensive pics or language were ingested into the library, and it urged people to delete their copies of the data:
“The dataset contains 53,464 different nouns, directly copied over from WordNet," Prof Torralba said referring to Princeton University’s database of English words grouped into related sets. “These were then used to automatically download images of the corresponding noun from internet search engines at the time, using the available filters at the time, to collect the 80 million images.”
WordNet was built in the mid-1980s at Princeton’s Cognitive Science Laboratory under George Armitage Miller, one of the founders of cognitive psychology. “Miller was obsessed with the relationships between words,” Prabhu told us. “The database essentially maps how words are associated with one another.”
For example, the words cat and dog are more closely related than cat and umbrella. Unfortunately, some of the nouns in WordNet are racist slang and insults. Now, decades later, with academics and developers using the database as a convenient silo of English words, those terms haunt modern machine learning.
“When you are building huge datasets, you need some sort of structure,” Birhane told El Reg. “That’s why WordNet is effective. It provides a way for computer-vision researchers to categorize and label their images. Why do that yourself when you could just use WordNet?”
WordNet may not be so harmful on its own, as a list of words, though when combined with images and AI algorithms, it can have upsetting consequences. “The very aim of that [WordNet] project was to map words that are close to each other,” said Birhane. "But when you begin associating images with those words, you are putting a photograph of a real actual person and associating them with harmful words that perpetuate stereotypes.”
The fraction of problematic images and labels in these giant datasets is small, and it’s easy to brush them off as anomalies. Yet this material can lead to real harm if they’re used to train machine-learning models that are used in the real world, Prabhu and Birhane argued.
“The absence of critical engagement with canonical datasets disproportionately negatively impacts women, racial and ethnic minorities, and vulnerable individuals and communities at the margins of society,” they wrote in their paper.
#Intelligence_artificielle #Images #Reconnaissance_image #WordNet #Tiny_images #Deep_learning

Articles repérés par Hervé Le Crosnier @hlc CC BY

Écrire un commentaire
Articles repérés par Hervé Le Crosnier @hlc CC BY 22/06/2020

1

1

(3) Dr. Ay. Poulain Maubant sur Twitter : "Sur les biais racistes des IA mal entraînées / Twitter
▻https://twitter.com/AymericPM/status/1274577781335171072
Observez.
Depuis que quelqu’un a remarqué qu’un récent réseau de neurones capable de transformer un visage très pixellisé en un visage réaliste créait systématiquement des visages caucasiens, les expériences se multiplient pour démontrer le biais de cette #IA.
Il faut lire tout le thread avec plein d’exemples concrets.
#Intelligence_artificielle #Big_data #Deep_learning #Biais_raciste

Articles repérés par Hervé Le Crosnier @hlc CC BY

Écrire un commentaire
mad meg @mad_meg CC BY 6/03/2020

3

3

Paris en 1890,
►https://www.youtube.com/watch?v=fo_eZuOTBNc

mad meg @mad_meg CC BY
- RastaPopoulos @rastapopoulos CC BY-NC 6/03/2020
  
  Impressionnant
  #IA #deep_learning #19ème #Paris
  ▻https://www.youtube.com/user/shirman88/videos
  
  RastaPopoulos @rastapopoulos CC BY-NC
- b_b @b_b PUBLIC DOMAIN 7/03/2020
  
  ici aussi ▻https://seenthis.net/messages/828672 :)
  grml il semble bien y avoir un problème avec la détection des doublons dans les liens (pas de ty triangle noir), alors que l’url est bien détectée si je la colle dans ce message et que ▻https://seenthis.net/sites/1775817 affiche bien les deux posts :\
  
  b_b @b_b PUBLIC DOMAIN
Écrire un commentaire
AF_Sobocinski @af_sobocinski CC BY-NC-ND 4/03/2020

Comment garantir l’#équité des #algorithmes ?
▻https://www.banquedesterritoires.fr/comment-garantir-lequite-des-algorithmes
https://www.banquedesterritoires.fr/sites/default/files/2020-03/Algo.jpg
« Code source opaque », « paramètres parfois contestables »… le récent rapport de la Cour des comptes étrillant l’algorithme Parcoursup (▻https://www.ccomptes.fr/system/files/2020-02/20200225-09-TomeII-infrastructures-numeriques-enseignement-superieur-et-rec) pour l’affectation universitaire des lycéens ne pouvait mieux tomber pour illustrer la table ronde « Intelligence artificielle, les algorithmes source d’équité ou de #discrimination » organisée dans le cadre des Assises de la cohésion numérique territoriale le 27 février 2020 à Paris. Si le problème a pris une acuité particulière avec l’omniprésence du numérique dans notre quotidien, il est cependant loin d’être nouveau.
#biais_algorithmiques #racisme #logiciel_compas #États-Unis #contrôle #administration #deep_learning #programmation #apprentissage_profond #règles_culturelles
Rapport de la #Cnil mentionné dans l’article : ▻https://www.cnil.fr/fr/comment-permettre-lhomme-de-garder-la-main-rapport-sur-les-enjeux-ethiques-des-

AF_Sobocinski @af_sobocinski CC BY-NC-ND

Écrire un commentaire
simongeorges @simongeorges CC BY 13/02/2020

Série d’articles : ces innovations qui permettent à l’IA de sortir des laboratoires
▻https://makina-corpus.com/blog/metier/2020/vers-une-integration-realiste-des-ias-au-sein-dapplications-metiers
L’article présente la démarche mise en place par Makina Corpus lorsqu’une application métier doit intégrer un composant d’intelligence artificielle
#Deep_Learning #Qualité #Machine_Learning #News_Item

simongeorges @simongeorges CC BY

Écrire un commentaire
simongeorges @simongeorges CC BY 15/01/2020

Recherche et développement d’indicateurs pour l’aménagement d’un territoire
▻https://makina-corpus.com/blog/metier/2020/recherche-et-developpement-d-indicateurs-pour-l-amenagement-d-un-terr
Nous explorons l’intérêt de calculer automatiquement des indicateurs d’aménagement du territoire en croisant des données #OpenStreetMap et des analyses d’images satellitaires.
#Cartographie #MapBox #Deep_Learning #News_Item

simongeorges @simongeorges CC BY

Écrire un commentaire
simongeorges @simongeorges CC BY 14/01/2020

Recherche et développement d’indicateurs pour l’aménagement d’un territoire
▻https://makina-corpus.com/blog/metier/2019/recherche-et-developpement-d2019indicateurs-pour-l2019amenagement-d20
#OpenStreetMap #Cartographie #MapBox #Deep_Learning #News_Item

simongeorges @simongeorges CC BY

Écrire un commentaire
simongeorges @simongeorges CC BY 19/11/2019

Lier les photographies d’un observatoire ayant des thématiques communes
▻https://makina-corpus.com/blog/metier/2019/lier-les-photographies-dun-observatoire-ayant-des-thematiques-commune
#Deep_Learning #SIG #Scientifique #News_Item

simongeorges @simongeorges CC BY

Écrire un commentaire
Kassem @kassem CC BY-NC-SA 20/06/2019

2

2

Le « #deep_fake » : vers la fin de la vérité dans l’#image #numérique ?
▻https://www.franceinter.fr/emissions/la-fenetre-de-la-porte/la-fenetre-de-la-porte-21-mai-2019
https://cdn.radiofrance.fr/s3/cruiser-production/2019/05/dc571b8e-6a63-49ce-b7f4-bda159c98483/1200x680_gettyimages-175432563_2.jpg
Depuis quelques mois, on parle de plus en plus de ce qu’on appelle les "deep fakes". "Fake", c’est le "faux", le "trucage" et "deep" pour "#deep_learning", une de modalités de l’intelligence artificielle.
De quoi s’agit-il ?
Grâce aux progrès de l’intelligence artificielle - et plus particulièrement des réseaux de neurones - des programmes sont aujourd’hui capables d’utiliser des images existantes pour générer d’autres images. Ça signifie que vous pouvez animer un visage, lui donner des expressions, l’insérer dans une autre image.
[...]
[...] si [..] vous trafiquez à la fois le visage et la voix -, ça devient plus problématique : vous arrivez à produire une vidéo à peu près crédible dans laquelle Barack Obama tient des propos qu’il n’a jamais tenus.
[...]
A partir du moment où les #algorithmes ont à leur disposition suffisamment d’images et de discours existants, des #logiciels des plus faciles à manier et de plus en plus efficaces permettent de faire dire n’importe quoi à n’importe qui. C’est assez abyssal.
Jusqu’ici, la #vidéo faisait malgré tout office de preuve. Avec des outils comme ceux-là, ça risque de ne plus être le cas. On risque de voir apparaître plein de fausses déclarations, qui paraîtront très crédibles. C’est un problème.
Mais, autre conséquence possible, quelqu’un qui aura été filmé en train de dire ou faire quelque chose de répréhensible ou de gênant pourra toujours, en l’absence d’autre source, crier au “deepfake”.
Peut-être qu’on s’inquiète pour rien ?
Peut-être que les "deep fakes" resteront à jamais un gadget à usage plus ou moins de bon goût mais sans grande conséquence. C’est tout à fait possible. Le monde des technologies nous a habitués à se tromper d’inquiétude. Mais si elles se développent et sont utilisées à grande échelle pour créer de fausses déclarations d’hommes politiques, par exemple, on entrerait dans ce qu’un expert a désigné comme un monde de la “fake news sous stéroïde”. Parce que, aux dires des chercheurs, il n’est pas facile de déterminer techniquement si une image a été trafiquée par ce type de programmes (il faut créer des logiciels qui puissent détecter des défauts dans les mouvements des cils par exemple). Ce serait une guerre de programme informatique contre programme informatique, un fact checking technique.
Mais il pourrait y avoir une autre conséquence, d’ordre quasi philosophique : toute image circulant dans les réseaux deviendrait par essence suspecte, l’image numérique basculerait dans le monde du faux, de la fabrication, on n’y croirait plus du tout.
Elle tomberait dans un autre registre, celui de la #fiction, on regarderait les images qui circulent sur Internet comme on regarde des films de fiction. Le "deep fake" aurait tué l’idée même qu’il y ait une #vérité dans l’image numérique. On y chercherait autre chose. Ce serait étrange, ça inaugurerait une nouvelle ère du journalisme. Mais pas sûr que ce soit pire qu’aujourd’hui.
#ia

Kassem @kassem CC BY-NC-SA
- Kassem @kassem CC BY-NC-SA 25/11/2019
  
  #deepfakes
  
  Kassem @kassem CC BY-NC-SA
Écrire un commentaire
mad meg @mad_meg CC BY 9/04/2019

1

1

Interdit d’interdire : Laurent Alexandre et Etienne Klein : le débat - YouTube
▻https://www.youtube.com/watch?v=B7P723NcDV4

pas encore vu

mad meg @mad_meg CC BY
- RastaPopoulos @rastapopoulos CC BY-NC 13/04/2019
  
  Mais balancez des robots tueurs sur ce plateau !
  #progressisme #technocratie #eugénisme #élitisme #Laurent_Alexandre #Étienne_Klein #IA #intelligence_artificielle #big_data #deep_learning
  
  RastaPopoulos @rastapopoulos CC BY-NC
Écrire un commentaire
simongeorges @simongeorges CC BY 21/01/2019

Prédiction du taux de monoxyde de carbone à Madrid - intérêt d’une approche #Deep_Learning
▻https://makina-corpus.com/blog/metier/2019/qualite-de-lair-a-madrid
Dans cet article nous montrons comme utiliser les bibliothèques stars de l’éco-système scientifique en Python pour analyser des données publiques sur la qualité de l’air à Madrid. Nous verrons comment identifier les problèmes liés à ces données. Puis nous comparerons deux approches en #Machine_Learning : AutoSklearn et les réseaux de neurones de type LSTM.
#Dataviz #News_Item

simongeorges @simongeorges CC BY

Écrire un commentaire
simongeorges @simongeorges CC BY 21/01/2019

1

1

Prédiction du taux de monoxyde de carbone à Madrid - intérêt d’une approche #Deep_Learning
▻https://makina-corpus.com/blog/metier/2018/qualite-de-lair-a-madrid
Dans cet article nous montrons comme utiliser les bibliothèques stars de l’éco-système scientifique en Python pour analyser des données publiques sur la qualité de l’air à Madrid. Nous verrons comment identifier les problèmes liés à ces données. Puis nous comparerons deux approches en #Machine_Learning : AutoSklearn et les réseaux de neurones de type LSTM.
#Dataviz #News_Item

simongeorges @simongeorges CC BY

Écrire un commentaire
Simplicissimus @simplicissimus 17/11/2018

11

11

La revanche des neurones
L’invention des machines inductives et la controverse de l’intelligence artificielle
Dominique CARDON, Jean-Philippe COINTET Antoine MAZIÈRES
dans la revue Réseaux, 2018/5
The Revenge of Neurons
▻https://neurovenge.antonomase.fr
https://neurovenge.antonomase.fr/img/teaser.png
Résumé
Depuis 2010, les techniques prédictives basées sur l’apprentissage artificiel (machine learning), et plus spécifiquement des réseaux de neurones (deep learning), réalisent des prouesses spectaculaires dans les domaines de la reconnaissance d’image ou de la traduction automatique, sous l’égide du terme d’“Intelligence artificielle”. Or l’appartenance de ces techniques à ce domaine de recherche n’a pas toujours été de soi. Dans l’histoire tumultueuse de l’IA, les techniques d’apprentissage utilisant des réseaux de neurones - que l’on qualifie de “connexionnistes” - ont même longtemps été moquées et ostracisées par le courant dit “symbolique”. Cet article propose de retracer l’histoire de l’Intelligence artificielle au prisme de la tension entre ces deux approches, symbolique et connexionniste. Dans une perspective d’histoire sociale des sciences et des techniques, il s’attache à mettre en évidence la manière dont les chercheurs, s’appuyant sur l’arrivée de données massives et la démultiplication des capacités de calcul, ont entrepris de reformuler le projet de l’IA symbolique en renouant avec l’esprit des machines adaptatives et inductives de l’époque de la #cybernétique.
Mots-clés
#Réseaux_de_neurones, #Intelligence_artificielle, #Connexionnisme, #Système_expert, #Deep_learning
le pdf en français est sur le site ci-dessus, qui met en ligne 2 graphiques et l’abstract
▻https://neurovenge.antonomase.fr/RevancheNeurones_Reseaux.pdf

Simplicissimus @simplicissimus
- Simplicissimus @simplicissimus 17/11/2018
  
  Ce récit coloré de l’annonce des performances en classification d’images d’une technique de deep learning (Krizhevsky, Sutskever et Hinton, 2012) témoigne des effets que provoque sur une communauté scientifique la réussite soudaine d’un paradigme hétérodoxe longtemps marginalisé. Surprise devant le résultat, interrogation sur la validité épistémique de la nouvelle démarche, inquiétude sur le devenir du paradigme orthodoxe, moquerie devant l’ignorance des enjeux théoriques du domaine des nouveaux entrants, vertige face au renversement de paradigme qui se profile... Depuis 2010, domaine après domaine, les réseaux de neurones profonds provoquent la même perturbation au sein des communautés informatiques traitant du signal, de la voix, de la parole ou du texte. Une méthode d’apprentissage proposant le traitement le plus « brut » possible des entrées, évacuant toute modélisation explicite des caractéristiques des données et optimisant la prédiction à partir d’énormes échantillons d’exemples, produit de spectaculaires résultats. Une manière simple de figurer ce renversement est de le caractériser comme le passage d’une machine hypothético-déductive à une machine inductive (figure 1).
  Ce qui était conçu comme la partie « humaine » de la fabrication des calculateurs, le programme, les règles ou le modèle, n’est plus ce qui est introduit dans le système, mais ce qui en résulte. Le regard que portent les sciences sociales sur ce tournant inductif consiste souvent à déconstruire l’illusion naturaliste des données « brutes » et les naïvetés d’un calcul sans théorie (Gitelman, 2013). Si une telle mise en garde est certainement nécessaire pour relativiser certains discours imprudents assurant que les « données parlent d’elles-mêmes », elle ne rend cependant pas justice au travail résolu et intensément artificiel entrepris par les promoteurs des techniques de deep learning pour imposer la seconde architecture de calcul, celle que nous appellerons dans cet article machine inductive et, plus précisément encore, machine connexionniste afin de mettre en évidence le type particulier d’induction dont elle se réclame.
  https://dl.dropbox.com/s/gueq92lhtug3ue7/20181117_RdN.png
  
  Figure 1. Machine hypothético-déductive (1) et machine inductive (2)
  […]
  Dans l’histoire tumultueuse de ce domaine de recherche, les techniques d’apprentissage utilisant des réseaux de neurones – que l’on appellera donc « connexionnistes » ont même longtemps été moquées et ostracisées par le courant « symbolique ». La tension entre ces deux approches est née avec la démarcation que la naissance de l’Intelligence artificielle opposa à la première cybernétique. L’approche symbolique qui constitue le cadre de référence initial de l’IA s’est identifiée à un cognitivisme orthodoxe : penser, c’est calculer des symboles qui ont à la fois une réalité matérielle et une valeur sémantique de représentation. En revanche, le paradigme connexionniste considère que penser s’apparente à un calcul massivement parallèle de fonctions élémentaires – celles qui seront distribuées au sein d’un réseau de neurones – dont les comportements signifiants n’apparaissent au niveau collectif que comme un effet émergent des interactions produites par ces opérations élémentaires (Andler, 1992). Cette distinction entre deux manières de concevoir et de programmer le fonctionnement « intelligent » d’une machine est au principe d’une tension qui n’a jamais cessé de structurer très profondément les orientations de recherche, les trajectoires scientifiques et la conception d’infrastructure de calcul. Aussi assiste-t-on aujourd’hui à un de ces retournements de situation dont l’histoire des sciences et des techniques est coutumière : une stratégie de recherche marginalisée par ceux qui ont contribué à poser les cadres conceptuels de l’Intelligence artificielle revient au-devant de la scène et se trouve désormais en position de redéfinir très différemment le domaine dont elle avait été exclue. Comme le souligne ironiquement Michael Jordan (2018), « c’est l’agenda intellectuel de Wiener qui domine aujourd’hui sous la bannière de la terminologie de McCarthy ».
  
  Simplicissimus @simplicissimus
- Fil @fil 19/11/2018
  
  très bien en effet ;-)
  Au cœur de ce débat tendu avec la communauté du machine learning, un sous-entendu est omniprésent : il n’y a que dans les laboratoires que les modèles sont linéaires, le monde, le « vrai monde », celui des données produites par la numérisation des images, des sons, des paroles et des textes, lui, est non linéaire. Il est bruité, l’information y est redondante, les flux de données ne sont pas catégorisés derrière des attributs de variables homogènes, claires et construites de façon intelligible, les exemples sont parfois faux.
  (...) La croissance exponentielle des jeux de données accompagne dans le même mouvement celle des architectures des calculateurs : le nombre de neurones dans un réseau double tous les 2,4 ans
  (...) Il y a une vague qui est la vague des données, une espèce de grande vague de fond qui a tout emporté. Et cela a bazardé complètement tous les courants de pensée qui étaient basés sur de la modélisation humaine, sur de la modélisation explicite. J’ai travaillé sur plusieurs domaines qui sont des domaines applicatifs, de la parole, de l’écrit, du texte, des données sociales, et chaque fois j’ai vu la même chose. Les gens ont imaginé pendant une période mettre des connaissances dans leur système et cela a été balayé. Systématiquement !
  (...) En transformant l’architecture des machines prédictives, les connexionnistes ont ainsi contribué à déplacer les mondes sociaux de l’IA : d’abord, parce que les données « réelles », notamment celles venues des industries du numérique, se sont (partiellement) substituées aux dataset « jouets » des laboratoires académiques, ensuite parce que les savoir-faire requis pour fabriquer les machines connexionnistes appellent des compétences en développement informatique qui n’étaient pas celles des précédentes génération
  #IA #machine_learning #deep_learning #histoire #recherche
  
  Fil @fil
- EricW @ericw CC BY-SA 20/11/2018
  
  Je précise tout de suite avant de poursuivre que je suis chercheur dans le domaine de l’IA symbolique, histoire de ne pas enfumer mon monde...
  Le panorama décrit est plutôt honnête, quoi qu’il soit beaucoup plus fourni côté connexionniste que côté symbolique. Cela laisse à penser que les auteurs sont des gens actifs dans la communauté connexionniste (je n’ai pas été vérifier j’avoue).
  On peut reprocher à l’article un certain ton revanchard. L’IA symbolique est très loin d’être morte et enterrée, de gros progrès ont été réalisé ces 20 dernières années, en particulier dans la résolution pratique de problèmes à forte combinatoire, ce qui a ouvert à nombre d’applications sur des problèmes réel avec des quantités de données assez faramineuses (ce genre de solveur par exemple est très efficace : ▻https://potassco.org/clingo ).
  Ce point contredit une thèse sous-jacente de l’article, qui dit en substance : dès qu’il y a plein de données, l’approche symbolique est dans les choux.
  En revanche l’historique synthétique de l’IA est plutôt bien écrite.
  Ah, et un petit problème passé sous silence par les auteurs : le problème des réseaux de neurones, c’est qu’aujourd’hui encore, d’un point de vue théorique, on ne sais pas trop comment ça marche. C’est quand même assez embêtant...
  Ah oui un autre point gênant : finalement les auteurs ne sortent pas de la guerre connexionisme vs. symbolisme : ils parlent des progrès des approches connexionnistes dans le domaine des tâches de perception. C’est tout à fait vrai et spectaculaire (et les auteurs soulignent bien que le symbolisme ne vaut pas un clou dans ce domaine). En revanche ils se gardent bien de parler de tâches de raisonnement (au sens très large d’inférer de nouvelles connaissances à partir de connaissances préexistantes). Dans ce domaine les approches symboliques restent très largement supérieures (en particulier grâce aux progrès que j’ai mentionnés plus haut).
  Et comme je ne voudrais pas que vous croyiez que dès qu’on parle connexionisme ça me déclenche des crises d’urticaire, je signale que j’ai lu plusieurs papiers récemment qui parlent d’approches combinant connexionisme & symbolisme, et que je trouve ça plutôt intéressant. Très grossièrement deux approches différentes : a) les sorties du réseau de neurones sont utilisées pour apprendre des représentations symboliques. b) le réseau de neurone est utilisé pour apprendre la sémantique de certains formalismes logiques (dits « non monotones »). Bref, il s’agit dans les deux cas d’utiliser les bonnes performances des approches connexionnistes en terme d’apprentissage de perceptions, et les bonne performances des systèmes symboliques en terme d’inférence (et aussi le fait qu’on puisse caractériser formellement les propriétés de ces systèmes).
  Et je précise que compte tenu de mon age, je ne me sens absolument pas concerné par la guéguerre pleine de dédain entre famille connexionniste et famille symbolique (ce sont plutôt mes ancêtres scientifiques qui s’adonnaient à ça).
  
  EricW @ericw CC BY-SA
- EricW @ericw CC BY-SA 20/11/2018
  
  Je précise que mon commentaire précédent ne se veut absolument pas une analyse exhaustive de l’article cité : je l’ai lu assez rapidement par manque de temps, il faudrait que je relise à tête reposée pour développer. Autrement dit c’est juste un ensemble de questionnements rapides suite à une lecture elle aussi rapide !
  
  EricW @ericw CC BY-SA
- Fil @fil 20/11/2018
  
  C’est vrai qu’il y un ton un peu revanchard. On sent à travers les citations et les anecdotes — les types qui se dévouent pour aller s’emmerder à la cantine avec Yann LeCun — que c’est un milieu social assez toxique.
  L’article offre une vue sur la science en train de se faire, et de ce point de vue est assez passionnant. Il montre que le connexionnisme radical est une idée brute d’une grande puissance ; mais c’est comme le feu : pour en tirer un maximum d’énergie il va falloir créer des machines qui préparent le combustible, contrôlent les flux de chaleur, et évitent les rejets polluants.
  
  Fil @fil
Écrire un commentaire
Articles repérés par Hervé Le Crosnier @hlc CC BY 29/08/2018

Detecting ’deepfake’ videos in the blink of an eye
▻https://theconversation.com/detecting-deepfake-videos-in-the-blink-of-an-eye-101072
https://images.theconversation.com/files/232370/original/file-20180816-2924-1sl2vye.jpg?ixlib=rb-1.1.0&rect=340%2C0%2C2898%2C1449&q=45&auto=format&w=1356&h=668&fit=crop
What’s a ‘deepfake,’ anyway?
Making a deepfake video is a lot like translating between languages. Services like Google Translate use machine learning – computer analysis of tens of thousands of texts in multiple languages – to detect word-use patterns that they use to create the translation.
Deepfake algorithms work the same way: They use a type of machine learning system called a deep neural network to examine the facial movements of one person. Then they synthesize images of another person’s face making analogous movements. Doing so effectively creates a video of the target person appearing to do or say the things the source person did.
How deepfake videos are made.
Before they can work properly, deep neural networks need a lot of source information, such as photos of the persons being the source or target of impersonation. The more images used to train a deepfake algorithm, the more realistic the digital impersonation will be.
Detecting blinking
There are still flaws in this new type of algorithm. One of them has to do with how the simulated faces blink – or don’t. Healthy adult humans blink somewhere between every 2 and 10 seconds, and a single blink takes between one-tenth and four-tenths of a second. That’s what would be normal to see in a video of a person talking. But it’s not what happens in many deepfake videos.
A real person blinks while talking.
A simulated face doesn’t blink the way a real person does.
When a deepfake algorithm is trained on face images of a person, it’s dependent on the photos that are available on the internet that can be used as training data. Even for people who are photographed often, few images are available online showing their eyes closed. Not only are photos like that rare – because people’s eyes are open most of the time – but photographers don’t usually publish images where the main subjects’ eyes are shut.
Without training images of people blinking, deepfake algorithms are less likely to create faces that blink normally. When we calculate the overall rate of blinking, and compares that with the natural range, we found that characters in deepfake videos blink a lot less frequent in comparison with real people. Our research uses machine learning to examine eye opening and closing in videos.
This gives us an inspiration to detect deepfake videos. Subsequently, we develop a method to detect when the person in the video blinks. To be more specific, it scans each frame of a video in question, detects the faces in it and then locates the eyes automatically. It then utilizes another deep neural network to determine if the detected eye is open or close, using the eye’ appearance, geometric features and movement.
We know that our work is taking advantage of a flaw in the sort of data available to train deepfake algorithms. To avoid falling prey to a similar flaw, we have trained our system on a large library of images of both open and closed eyes. This method seems to work well, and as a result, we’ve achieved an over 95 percent detection rate.
This isn’t the final word on detecting deepfakes, of course. The technology is improving rapidly, and the competition between generating and detecting fake videos is analogous to a chess game. In particular, blinking can be added to deepfake videos by including face images with closed eyes or using video sequences for training. People who want to confuse the public will get better at making false videos – and we and others in the technology community will need to continue to find ways to detect them.
#Fake_news #Fake_videos #Intelligence_artificielle #Deep_learning

Articles repérés par Hervé Le Crosnier @hlc CC BY

Écrire un commentaire
e-traces @etraces ART LIBRE 13/06/2018

1

1

Les caméras de surveillance à reconnaissance faciale arrivent en France
▻https://mrmondialisation.org/les-cameras-de-surveillance-a-reconnaissance-faciale-arrivent-en-f
La mise en place d’un système d’un système de reconnaissance faciale « intelligent » en Chine avait fait l’objet de nombreuses critiques et inquiétudes l’année passée partout dans le monde. Selon « TV5 Monde », l’État français envisage de déployer à son tour des caméras de surveillance dotées d’une technologie similaire. Les intelligences artificielles (IA) qui disposent d’un système de reconnaissance faciale automatisé peuvent repérer, localiser et suivre bien plus rapidement des individus dans la rue que si la (...)
#algorithme #CCTV #comportement #biométrie #reconnaissance #facial #vidéo-surveillance (...)
##surveillance
https://mrmondialisation.org/wp-content/uploads/2018/06/AdobeStock_161564673-e1499846734907.jpeg

e-traces @etraces ART LIBRE
- Fil @fil 14/06/2018
  
  d’ailleurs tu peux acheter sur $AMZN une caméra sympa déjà prééquipée #deep_learning
  ▻https://aws.amazon.com/fr/deeplens
  
  Fil @fil
Écrire un commentaire
Simplicissimus @simplicissimus 30/05/2018

2

2

Après le détournement de la reconnaissance automatique d’images par #deep_learning, la même chose pour le son…
(vu via la chronique de Jean-Paul Delahaye dans Pour la Science, n°488 de juin 2018, Intelligences artificielles : un apprentissage pas si profond_ qui traite des images (déjà vues ici) mais aussi du son)
[1801.01944] Audio #Adversarial_Examples : Targeted Attacks on Speech-to-Text
▻https://arxiv.org/abs/1801.01944
Nicholas Carlini, David Wagner
We construct targeted audio adversarial examples on automatic speech recognition. Given any audio waveform, we can produce another that is over 99.9% similar, but transcribes as any phrase we choose (recognizing up to 50 characters per second of audio). We apply our white-box iterative optimization-based attack to Mozilla’s implementation DeepSpeech end-to-end, and show it has a 100% success rate. The feasibility of this attack introduce a new domain to study adversarial examples.
le pdf (technique) en ligne, sa présentation le 24 mai au IEEE Symposium on Security and Privacy
(vers 9:00 les exemples audio,…)
▻https://www.youtube.com/watch?v=Ho5jLKfoKSA
ou comment faire interpréter par Mozilla’ DeepSpeech :
most of them were staring quietly at the big table
en
ok google, browse to evil.com
ou encore, transcrire de la pure musique en paroles (bidon !)…
Et, sur le même thème
[1801.00554] Did you hear that ? Adversarial Examples Against Automatic Speech Recognition
▻https://arxiv.org/abs/1801.00554
Moustafa Alzantot, Bharathan Balaji, Mani Srivastava
Speech is a common and effective way of communication between humans, and modern consumer devices such as smartphones and home hubs are equipped with deep learning based accurate automatic speech recognition to enable natural interaction between humans and machines. Recently, researchers have demonstrated powerful attacks against machine learning models that can fool them to produceincorrect results. However, nearly all previous research in adversarial attacks has focused on image recognition and object detection models. In this short paper, we present a first of its kind demonstration of adversarial attacks against speech classification model. Our algorithm performs targeted attacks with 87% success by adding small background noise without having to know the underlying model parameter and architecture. Our attack only changes the least significant bits of a subset of audio clip samples, and the noise does not change 89% the human listener’s perception of the audio clip as evaluated in our human study.
avec un tableau de sons bricolés pour leur faire dire ce qu’on veut (ou presque)
(les messages trompeurs sont très bruits, contrairement aux exemples précédents)
Adversarial Speech Commands
▻https://nesl.github.io/adversarial_audio

Simplicissimus @simplicissimus

Écrire un commentaire
simongeorges @simongeorges CC BY 17/05/2018

#Deep_Learning et détection d’émotions
▻https://makina-corpus.com/blog/metier/2018/deep-learning-et-detection-demotions
Un premier pas dans le Deep Learning pour la détection d’émotions à partir de photographies.
#Machine_Learning #News_Item

simongeorges @simongeorges CC BY

Écrire un commentaire
InternetActu [RSS] @iactu 15/05/2018

Le #deep_learning est-il autre chose que de « l’alchimie » ?
▻http://www.internetactu.net/a-lire-ailleurs/le-deep-learning-est-il-autre-chose-que-de-lalchimie
On a déjà mentionné dans un précédent article, un papier de la Technology Review comparant les #Recherches en Deep Learning a du « bricolage ». Nous avons également mentionné l’existence d’une crise de la réplication touchant l’IA. Cette fois, ce sont Ali Rahimi (@alirahimi0), chercheur chez Google, et Ben Recht (@beenwrekt), professeur (...)
#A_lire_ailleurs #IA

InternetActu [RSS] @iactu

Écrire un commentaire
AF_Sobocinski @af_sobocinski CC BY-NC-ND 8/05/2018

1

1

L’#histoire à l’heure du #Big_Data - Sciences | ARTE
▻https://www.arte.tv/fr/videos/RC-015617/l-histoire-a-l-heure-du-big-data
Au croisement de l’histoire et des nouvelles technologies, la #Venice_Time_Machine est un projet ambitieux de numérisation des 10 siècles d’archives accumulées par le puissant Etat Vénitien. Des scientifiques de l’#EPFL à Lausanne et de l’#université_Ca’Foscari de #Venise travaillent ensemble à l’élaboration d’un outil numérique inédit qui fera renaître sous nos yeux la Venise du passé.
#archives #tomographie #systèmes_d'information_géographique #mégadonnées

AF_Sobocinski @af_sobocinski CC BY-NC-ND
- AF_Sobocinski @af_sobocinski CC BY-NC-ND 8/05/2018
  
  #humanités_numériques #algorithmes #scanner_circulaire #reconnaissances_des_écritures #deep_learning #apprentissage_profond #art #machine_à_remonter_le_temps #historiographie #archives_ouvertes #données_ouvertes #métadonnées
  Étapes du processus :
  1° numérisation des archives, notamment via la tomographie ;
  2° #spatialisation (#géoréférencement), mise en réseau des informations après transcription et classification automatique des textes, des images permettant l’utilisation d’un moteur de recherche ;
  3° simulation
  Site de la Venice Time Machine (en anglais) : ▻http://timemachineproject.eu
  
  AF_Sobocinski @af_sobocinski CC BY-NC-ND
- AF_Sobocinski @af_sobocinski CC BY-NC-ND 9/05/2018
  
  La méthode scientifique — 1er février 2017 — Comment transformer Internet en machine à remonter le temps ? ▻https://www.franceculture.fr/emissions/la-methode-scientifique/comment-transformer-internet-en-machine-remonter-le-temps
  
  AF_Sobocinski @af_sobocinski CC BY-NC-ND
Écrire un commentaire
e-traces @etraces ART LIBRE 18/04/2018

« La Chine a une chance de devenir leadeur de l’intelligence artificielle »
▻http://www.lemonde.fr/idees/article/2018/04/18/la-chine-a-une-chance-de-devenir-leadeur-de-l-intelligence-artificielle_5287
Tandis qu’Apple Pay lutte pour se développer aux Etats-Unis, Tencent réalise déjà plus de 600 millions de transactions dématérialisées par jour, constatent les chercheurs Juergen Braunstein, Marion Laboure et Haiyang Zhang. A l’avenir, si ce n’est pas déjà le cas, les Silicon Valley de l’intelligence artificielle (IA) devraient être situées en Chine. La Chine a une chance de devenir leadeur dans ce domaine parce qu’elle a adopté les nouvelles technologies très rapidement. Les consommateurs chinois ont (...)
#Alibaba #Apple #Tencent #ApplePay #algorithme #contrôle #deep_learning #domination (...)
##marketing
- #Chine
e-traces @etraces ART LIBRE
Écrire un commentaire

0 | 25 | 50