はじめに

このページでは、PAIRが管理しているデータセットについて概要とデータへのリンクを提供しています。該当する全てのデータはGitHubを利用して管理されており、以下のリンクから閲覧できます。なお、前提としてデータはすべて擬似的に生成しており、実際の人物や組織などに何も関係がありません。

https://github.com/IR-Platform/PAIR/tree/main/datasets

データの分類方法

すべてのデータは、分析するデータの種類や数に応じて分類しています。

分類区分は初級者向け、中級者向け、上級者向けの3段階に分類し、利用者の分析関連の理解度に応じて設計しています。

ファイル名の100の位に応じて対象者を分けています。

100の位が0: 初級者向け（例：000.csv ）
100の位が1: 中級者向け（例：100.csv）
100の位が2: 上級者向け（例：200.csv）

データ一覧

現在ある全てのデータです。列名やデータ数から自分が操作してみたいデータを選択して、分析してみてください。

分類区分	ファイル名	列名	データ数
初級者向け	000.csv	ID, 氏名、学年, 科目, 点数	90
	001.csv	ID, 氏名, 性別, 所属学部, 英語, 数学, 情報リテラシー	300
	002.csv	ID, Name, Gender, Department, Math Score, Math Grade, English Score, English Grade, Info Lit Score, Info Lit Grade	50
	003.csv	学生ID, 学部, テストスコア, 出席日数, クラス参加度, 経済的背景	500
中級者向け	100.csv	学生ID, 学部, テストスコア, 出席日数, クラス参加度, 経済的背景, 退学リスク	3000
上級者向け	200.csv	ID, 氏名, 性別, 所属学部, 古典, 物理, 化学, 経済, 英語, 数学, 情報	5000
	201.csv	学生ID, 学部, テストスコア, 出席日数, クラス参加度, 経済的背景, 退学リスク, 初任給, 業界	3000

データのサンプル

以下は 001.csv のサンプルです。

ID	氏名	学年	科目	点数
2	01	藤原舞	1年	英語
3	02	佐藤加奈	3年	英語
4	03	田中加奈	3年	英語

PAIRへの要望や改善提案

PAIRでは上で示したように複数のデータセットがあります。

そのため、効率的にデータを探すためにもある程度の規則性を設けてファイル名やディレクトリ構造を検討しました。ただし、規則性の決まりなどは暫定で設定したものであり、絶対にこうしなければならないという意味ではありません。もし改善提案やデータを追加したい方がいらっしゃいましたら、運営まで連絡をお願いします。