Mise en garde

R

Comment utiliser cet aide-mémoire ?

Auteur·rice·s
Affiliations

Nassab ABDALLAH

Damien EUZENAT

Date de publication

Invalid Date

Modifié

2 juillet 2024

1 Que trouver dans cet aide-mémoire ?

Cet aide-mémoire vise à faciliter la traduction des programmes statistiques entre ces différents langages (de SAS vers R, et d’un environnement R à un autre), ainsi que leur appropriation.

Y sont présentés des codes informatiques courants pour la gestion de données statistiques, traduits dans les langages SAS et R. Ces tâches sont standards dans l’analyse statistique et réalisables en un petit nombre d’instructions.

Il est présenté sous forme de tâches élémentaires statistiques (sélection de lignes ou de colonnes d’une base de données, repérage des doublons, etc.).

Quatre grands environnements R sont traités : R base, tidyverse, data.table et arrow / duckdb. Ils ne doivent pas être vus comme des concurrents, mais comme des compléments :

  • certaines tâches peuvent être plus ou moins facilement réalisées avec l’un ou l’autre ;
  • ils présentent chacun des avantages et des inconvénients ;
  • ils laissent le choix de la stratégie de codage.

Ce guide est aussi destiné à permettre de jongler plus facilement entre ces différents environnements.

2 Comment utiliser cet aide-mémoire ?

L’attention du lecteur est attirée sur le fait que :

  1. ce guide n’est pas exhaustif. Ainsi, certains environnements peuvent proposer des solutions ad-hoc simplifiant grandement la résolution de problèmes moins courants et qui n’ont pas d’équivalents simples dans tous les autres environnements (ex. des rolling joins de data.table). Elles ne sont pas traitées dans cet aide-mémoire ;

  2. ce guide ne traite pas de ces stratégies, et le lecteur est invité à se documenter sur les environnements pour en savoir plus ;

  3. l’exercice de traduction de SAS vers R peut s’apparenter à la traduction d’un texte en langue étrangère. De même qu’une traduction littérale d’un texte en peut parfois être de mauvaise qualité, la traduction littérale d’une masse de codes SAS en codes R au moyen de cet aide-mémoire peut produire des résultats décevants. En effet, toute bonne traduction nécessite au moins a minima d’adapter le code SAS à une “nouvelle langue”, celle de R. La partie sur les spécificités de SAS par rapport à R peut vous aider sur ce point.

En outre, plusieurs solutions pour réaliser la même tâche peuvent être proposées :

  • certaines solutions peuvent être plus concises, mais moins claires ;
  • certaines façons de procéder sont plus efficaces que d’autres en R, mais cela peut dépendre des données et du matériel utilisé.