Utilisateur:Sandra Lukijanec/D2SN 2020/Mémoire

Possibilités de sujet de mémoire

1) World Happiness Report : https://www.kaggle.com/unsdsn/world-happiness/data#2016.csv

Pbq :

Expliquer les différences de classements selon les années : qu'est-ce qui provoque une forte augmentation ou une forte baisse d'années en années? Quels événements et type d'événements justifient les différences de classement sur les années ?
Etudier en particulier quelques pays et tenter des corréler les résultats au World Happiness Report par rapport aux événements marquants que ces pays ont pu vivre

Jeux de données supplémentaires :

https://www.kaggle.com/bigquery/worldbank-wdi

2) Schengen Visa Stats : https://www.kaggle.com/ma7555/schengen-visa-stats

Pbq :

Quels états sont les plus strictes/généreux ? Pourquoi ?
Etats des lieux des migrations en Europe, et leurs raisons

3) Denver Data Crime : https://www.denvergov.org/opendata/dataset/city-and-county-of-denver-crime

Pbq :

Outil de cartographie de la répartition géographique des crimes dans la ville (à exploiter)

Description/Réflexion sur le sujet

Nous partons du postulat que les pays riches et développés sont les plus heureux.

Grâce aux jeux de données du World Happiness Report de 2015 à 2019, nous avons recueilli des notes de satisfaction de la population de plus ou moins 155 pays par année. Ces notes de satisfaction comportent sur des critères définis que nous n’avons pas choisi et que voici comme suit : Happiness Score (note globale sur 10), l’économie, la famille, la santé, le sentiment de liberté, la confiance dans le gouvernement, et la générosité.

Un biais existe dans ce jeu de données : les critères d’évaluation choisis ont été définis par des personnes ressortissantes de pays riches, donc ces critères sont le reflet de leur représentation de ce que peut être le bonheur. En admettant d’autres critères ou d’autres représentations de ce qu’est le bonheur, nous aurions d’autres résultats. Ceci est important à prendre en compte pour cette étude, car les résultats ne représenteront qu’une seule vision de ce qu’est le bonheur dans le monde.

Le but de notre étude serait de croiser ce jeu de données avec d’autres jeux de données plus politiques, sociaux, économiques, philosophiques pour tenter de comprendre les différences de classement d’années en d’années. Par exemple si un pays prend 20 places entre 2017 et 2018, que s’est-il passé ? Ou au contraire, nous savons qu’un événement majeur est arrivé dans un pays, comment est-il représenté dans les résultats de ce rapport ? Il serait aussi intéressant d’étudier plus particulièrement des pays dans lesquels des événements marquants se sont produits, et d’étudier la différence du bonheur de ces pays d’année en année, et pourquoi s’il est possible de prédire le taux de bonheur pour l’année ou les années suivantes.

En termes de données, nous pourrons calculer des corrélations entre les différents critères du jeu de données initial, pour comprendre comment ces critères sont liés ou non, et donc si l’un diminue alors le second diminue aussi. Nous pourrons nous intéresser aussi à des indices statistiques tels que les indices de Gini, de Berger Parker par exemple.

Séance collective du 03/12/19

Choisir entre deux angles de travail possible : étudier 3 ou 4 pays précisément sur les cinq années d'analyse ou joindre d'autres datasets plus socio et pltq pour apporter un point de vue sur les données plus complets.

Deux jeux de données non agrégés qui ajouteraient des données pltq et socio à l'étude :

http://www.worldvaluessurvey.org/WVSContents.jsp

https://www.ebrd.com/publications/life-in-transition-iii

https://www.kaggle.com/bigquery/worldbank-wdi

Séance du 20/01/2020

Jeu(x) de données : 5 ans de résultats de HWR (https://www.kaggle.com/unsdsn/world-happiness) ou plusieurs jeux de données type HWR

Question sociologique : Comprendre les impacts sur le sentiment de bien être dans différents pays du monde

Méthode d'analyse :

Suite au tour de table

Certaines questions du WHR, sont-elles plus importantes que d'autres pour les variances de classement ? Si oui, quels sont les questions les plus importantes ? (regarder la distribution du score quand on enlève un ou un groupe d'éléments) => chercher la littérature pour voir si ce n'a déjà était fait. Note que ce sont des analyses que tu pourra faire directement sur les données WHR, sans croiser avec d'autres.

Puis, si tu arrives à déterminer les questions plus importantes pour expliquer le ranking WHR, tu peux poser la question : sont-elles les mêmes classes de questions qui se révèlent déterminantes pour le classement HPI ? Comment peut-on décrire en fonction de cela le biais que chaque classement met sur le « happiness » ?

Si le résultat de ces analyses ne suffisent pas pour écrire un mémoire, pourra-t-il guider le choix de données externes pour croiser avec les résultats WHR ? I.e. si les questions de santé ont plus d'impact, si les questions économiques etc.

Proposition d'un nouveau sujet

J'ai décidé de travailler un autre sujet car le précédent, les données du HWR, ne permettaient pas de savoir comment avait été calculées les notes et cela mettait en péril la possibilité de réalisation du sujet car tout reposait sur ce calcul. Ce nouveau sujet est en relation avec mon alternance puisque je vais utiliser les données de requêtes de notre calculateur d'itinéraires.

Ci-dessous ce qui a été transmis par mail le 1er avril :

Thème de recherche : Transports en commun et données voyageurs

Sujet de recherche : L’évolution d’un réseau urbain de transports en commun grâce à ses données voyageurs.

Problématique : En quoi l’analyse de l’offre de transports en commun de l’Île-de-France à travers les requêtes d’itinéraires clients est un outil d’aide à la décision pour les pouvoirs publics ?

1. Les données accessibles en interne grâce à notre calculateur d’itinéraires

Pour rappel, j’ai accès à des base de données via PHPmyAdmin qui correspondent aux données de toutes les requêtes faites par des utilisateurs et des clients à notre calculateur d’itinéraires nommé Navitia. Voici les listes des données auxquelles je peux avoir accès via des requêtes SQL et mises en forme avec Power BI :

· Quand la requête a été faite et pour quel jour de circulation

· De quel point à quel point et le réseau/coverage

· Temps de trajet et dans quel réseau

· Nombre de changements de réseaux

· Les requêtes UFR (usagers fauteuils roulants)

· Nombre de correspondances dans un même coverage

· Type de point de départ et d’arrivée

· Nombre de requêtes sur un coverage

· Les lignes requêtées

· Les modes de transports requêtés

· Les réseaux requêtés

· Détails sur les réseaux d’arrivée et de départ

· Les zones d’arrêts requêtées

· Les requêtes erronées et leurs raisons

Il paraît aussi important de notifier dès le début de cette étude que les données internes auxquelles je peux avoir accès pour travailler devront rester confidentielles : en effet ces données sont le gagne-pain de l’entreprise puisque toute la stratégie réside dans notre calculateur et les requêtes qui lui sont faites. Cela implique donc sur le fait que l’article une fois terminé ne pourra pas être publié pour ne pas divulguer les données au grand public.

2. Le terrain : de Bordeaux à l’Île-de-France

Après le premier mail que je vous ai envoyé, j’ai fait part de mon projet à deux de mes collègues qui m’ont conseillé de travailler ce sujet plutôt sur le coverage de l’Île-de-France. D’abord car le sujet est intéressant, il traite d’un point que nous ne sommes pas capables d’analyser en interne, cela pourrait donc constituer un test ou une démonstration de la valeur de ces données, mais cela serait aussi un plus auprès des clients de pouvoir mieux les guider. Ensuite, il existe une difficulté technique à laquelle je n’avais pas pensé lorsque je vous ai proposé d’étudier le coverage de Bordeaux : en effet il est nécessaire d’appeler plusieurs coverage pour avoir accès à la totalité des données de Bordeaux, cela apporte une difficulté supplémentaire pour analyser les données et aussi une lenteur machine lors du requêtage des bases de données. Enfin, le coverage de l’Île-de-France représente une plus grande base de données en termes de taille, il est donc bien plus avantageux de travailler sur ce coverage : plus de données et plus facilement accessibles ! Aussi, il sera toujours possible de mettre à l’épreuve nos résultats puisque nous savons qu’en ce moment même, plusieurs nouvelles lignes de métros sont construites sur ce coverage.

3. Le traitement souhaité

Toutes ces données naturellement aident à comprendre les utilisateurs et leurs habitudes, donc avec elles je peux tenter de comprendre comment fonctionne un réseau : s’il a des zones de manque ou d’abondance par exemple, quelles sont les zones d’arrêts les plus sollicitées et comment le réseau s’y adapte (plus de passages d’une ligne ou plus de lignes). La problématique est construite autour du rôle de la donnée voyageur pour permettre d’améliorer une offre de transport. Nous essayerons de comprendre comment bien l’exploiter, quelles metrics faut-il surveiller pour améliorer cette offre : nombre de correspondances, nombre de requêtes sur une ligne ou plutôt sur un arrêt, quelles heures sont les plus chargées, quels jours sont les plus chargés pour telle destination, trouver quels arrêts ou quelles zones d’arrêts sont primordiales ou le deviendront avec la construction de nouvelles zones de travail ou centre commerciaux par exemple. Tout cela est des chiffres à sortir des jeux de données que je me fixe comme objectifs, ils ne sont pas fermés et sont bien entendu voués à changer avec le temps et la réflexion. Ils me permettront surtout de bien appréhender les différents jeux de données que je compte utiliser pour répondre à la question que je me pose.

Pour réaliser cette étude, je souhaite confronter des données de requêtes d’itinéraires clients, que je peux obtenir grâce à mon travail, à plusieurs jeux de données Open Data qui donnent des informations sur les données des voyageurs au quotidien. En confrontant ces jeux de données, je pense réussir à faire ressortir des disparités et proposer des solutions pour les combler.

4. Présentation des jeux de données Open Data

J’ai sélectionné trois jeux de données Open Data pour répondre à la question que je me pose. Ces trois jeux de données apportent des informations différentes sur les habitudes des voyageurs de l’Île-de-France. Je vais déjà extraire ce dont j’ai besoin de ces jeux de données et si besoin est j’en chercherai de nouveau pour obtenir les informations manquantes.

· Fréquentation en gares : ce jeu de données permet de connaître le nombre de voyageurs annuels dans toutes les gares SCNF de France de 2015 à 2018. Il me permettra de voir quelles gares d’IDF sont les plus fréquentées, en confrontant les données de requêtes, nous pourrons voir si elles sont bien desservies ou non.

https://www.data.gouv.fr/fr/datasets/frequentation-en-gares/

· Trafic annuel entrant par station du réseau ferré : ces jeux de données permettent de connaître les plus gros points d’entrée du réseau RATP et d’où viennent ces voyageurs avant d’entre sur le réseau. De même que précédemment, cela me permettra de connaître les gares les plus utilisées, et de comparer les résultats avec l’offre disponibles à ces gares.

https://www.data.gouv.fr/fr/datasets/trafic-annuel-entrant-par-station-du-reseau-ferre-2013-1/

https://www.data.gouv.fr/fr/datasets/trafic-annuel-entrant-par-station-du-reseau-ferre-2014/

https://www.data.gouv.fr/fr/datasets/trafic-annuel-entrant-par-station-du-reseau-ferre-2015-1/

https://www.data.gouv.fr/fr/datasets/trafic-annuel-entrant-par-station-du-reseau-ferre-2016-1/

https://www.data.gouv.fr/fr/datasets/trafic-annuel-entrant-par-station-du-reseau-ferre-2017/

https://www.data.gouv.fr/fr/datasets/trafic-annuel-entrant-par-station-du-reseau-ferre-2018/

https://www.data.gouv.fr/fr/datasets/trafic-annuel-entrant-par-station-du-reseau-ferre-2019/

· Lignes de transport en projet en Île-de-France : ce jeu de données cartographie les nouvelles lignes de transports actuellement en construction en IDF, il nous servira une fois les chiffres analysés et nous permettra de voir si les zones d’ombres que nous aurons (peut-être identifiées) seront comblées.

https://www.data.gouv.fr/fr/datasets/lignes-de-transport-en-projet-en-ile-de-france/

5. Lectures et sources potentielles

Elles ne seront pas nécessairement toutes dans ma bibliographie finale, mais ce sont des textes que j’ai trouvé intéressants et qui apportent des problématiques variées à l’espace urbain, aux réseaux et aux transports en commun.

Définition multimodalité et exemple NL : Vulbeau, A. (2008). ... en contrepoint - Multimodalité et réseau urbain. Informations sociales, 147(3), 97-98. doi:10.3917/inso.147.0097.

Modification et adaptation des territoires : Decoupigny, F. & Fusco, G. (2009). Mobilités potentielles et émergence de structures réticulaires en région Provence – Alpes – Côte d'Azur. L’Espace géographique, vol. 38(3), 267-282. doi:10.3917/eg.383.0267.

Transports en commun + digital/numérique et données : Peyroux, É. & Ninot, O. (2019). De la « smart city » au numérique généralisé : la géographie urbaine au défi du tournant numérique. L'Information géographique, vol. 83(2), 40-57. doi:10.3917/lig.902.0040.

Installer un réseau dans une ville socialement contrôlée : Baffi, S. (2014). Chemins de civilisation : Le rail dans les politiques territoriales en Afrique du Sud. L’Espace géographique, tome 43(4), 338-355. doi:10.3917/eg.434.0338.

Historique, smart city et systèmes d’informations : Picon, A. (2018). Villes et systèmes d’information : de la naissance de l’urbanisme moderne à l’émergence de la smart city. Flux, 111-112(1), 80-93. doi:10.3917/flux1.111.0080.

Acteurs de la transformation numérique de la ville : Marzloff, B. (2016). Y a-t-il un pilote dans la smart city ?. Sociétés, 132(2), 37-52. doi:10.3917/soc.132.0037.

Prochaine étape : manipuler les jeux de données

- Statistiques descriptives des jeux de données

- Trouver des zones de manque ou d'abondance sur le réseau IDF

- Lectures d'articles à ajouter à la bibliographie