Veille de CCM Benchmark Group

awslabs/deequ

Deequ is a library built on top of Apache Spark for defining "unit tests for data", which measure data quality in large datasets. - awslabs/deequ

<github.com>
By bmeli - - (Open) Data
Mission données et codes sources

Voici une copie du document que j’ai rédigé et fournit à l’occasion de mon audition par le député Éric Bothorel dans le cadre de cette…

<link.medium.com>
By vincent - - (Open) Data
Cleaning Data with OpenRefine

This lab workbook contains hands-on material supplementing the OpenRefine workshops

<libjohn.github.io>
By bmeli - - (Open) Data
Cartographier l'évolution des prix de l'immobilier résidentiel avec R - HackMD

# Cartographier l'évolution des prix de l'immobilier résidentiel avec R L'objectif de cette séance

<hackmd.io> cc <@U0319V9SH> <@U0319VB5Z>
By bmeli - - (Open) Data
Dix plus hautes rémunérations – FPT – La Gazette des communes

Villes Nom de la région,Code département,Nom du département,Code Insee,Nom de la commune,Population municipale,Lien,Somme 2019,Durée,Nb femmes,Nb hommes,Moyenne 2019,Somme 2018,Durée,Nb femmes,Nb hommes,Moyenne 2018,Baisse femmes Île-de-France,75,Paris,7

Et en prime : <docs.google.com>
By cvince - - (Open) Data
Exclusif : ce qu'on peut retenir des déclarations des 10 plus hautes rémunérations

Les collectivités avaient, pour la première fois cette année, l’obligation de rendre publiques leurs dix plus hautes rémunérations. S’y sont-elles tenues ? Que révèlent les données ...

<www.lagazettedescommunes.com>
By cvince - - (Open) Data
By xavierccm - - (Open) Data
LIquid: The soul of a new graph database, Part 1

Co-authors: Scott Meyer, Andrew Carter, and Andrew Rodriguez

poke <@U0319V9SH>: la base de LinkedIn dont je te parlais, intéressant car c'est visiblement un mixte graphe + relationnel ... <engineering.linkedin.com> ... structurellement, ce sont des triples, par contre je ne pense pas qu'il s'agisse d'un triplestore au sens RDF, mais l'article aura une suite :wink:
By dam75 - - (Open) Data
OpenAI's GPT-3 may be the biggest thing since bitcoin

Manuel Araoz personal website.

<maraoz.com> l A lire jusqu'à la fin, c'est bluffant. Plus besoin de rédacteurs avec ça :sweat_smile:
By vincent - - (Open) Data
Données des urgences hospitalières et de SOS médecins relatives à l'épidémie de COVID-19 - data.gouv.fr

Les actions de Santé publique France Santé publique France…

Idem pour d'autres datasets comme ceux des urgences / SOS médecins : plus de mises à jour quotidiennes, trous dans les données, etc => <www.data.gouv.fr>
By vincent - - (Open) Data
A la veille d'une potentielle

A la veille d'une potentielle recrudescence du virus, on dirait que même "Santé Publique France" soit aussi passé en mode relâchement, concernant la publication des indicateurs en Open Data : plus de mise à jour le week-end, et depuis peu des erreurs grossières introduites dans les datasets (formats de dates inconstants, données en doublons, etc) >
Use Connected Sheets in your organization - G Suite Admin Help

This feature is available with G&nbsp;Suite Enterprise, G&nbsp;Suite Enterprise for Education, and G Suite Enterprise Essentials&nbsp;editions. Comp

Bonne question, c'est ce que ça dit ici : <support.google.com> :stuck_out_tongue:
By vincent - - (Open) Data
From Excel To Databases with Python

Learn how to use Python for quick data analysis

<medium.com>
By ovillemain - - (Open) Data
Connected Sheets: Analyze Big Data In Google Sheets

Connected Sheets is a new data feature coming to Google Sheets. Use it analyze billions of rows of data with regular functions, Pivot Tables and Charts.

Sur le même sujet : un article beaucoup plus concret avec un exemple de fonction (count) sur 1,5 milliard de lignes :wink: <www.benlcollins.com>
By dam75 - - (Open) Data
Google’s G Suite finalizes Connected Sheets and introduces AI-driven data cleanup tools

Google launched Connected Sheets for G Suite users in general availability, and it previewed new AI-powered features: Smart Fill and Smart Cleanup.

ah bin un des derniers argument pour excel (manipuler des données de taille importante) va tomber :wink: <venturebeat.com> En même temps, je me demande ce que peut donner un spreadsheet avec 10 MILLIARDS de lignes, ça va faire mal aux doigts de scroller dessus ^^
By dam75 - - (Open) Data