このページでは、PAIRが管理しているデータセットについて概要とデータへのリンクを提供しています。該当する全てのデータはGitHubを利用して管理されており、以下のリンクから閲覧できます。なお、前提としてデータはすべて擬似的に生成しており、実際の人物や組織などに何も関係がありません。
https://github.com/IR-Platform/PAIR/tree/main/datasets
すべてのデータは、分析するデータの種類や数に応じて分類しています。
分類区分は初級者向け、中級者向け、上級者向けの3段階に分類し、利用者の分析関連の理解度に応じて設計しています。
ファイル名の100の位に応じて対象者を分けています。
000.csv
)100.csv
)200.csv
)現在ある全てのデータです。列名やデータ数から自分が操作してみたいデータを選択して、分析してみてください。
分類区分 | ファイル名 | 列名 | データ数 |
---|---|---|---|
初級者向け | 000.csv | ID, 氏名、学年, 科目, 点数 | 90 |
001.csv | ID, 氏名, 性別, 所属学部, 英語, 数学, 情報リテラシー | 300 | |
002.csv | ID, Name, Gender, Department, Math Score, Math Grade, English Score, English Grade, Info Lit Score, Info Lit Grade | 50 | |
003.csv | 学生ID, 学部, テストスコア, 出席日数, クラス参加度, 経済的背景 | 500 | |
中級者向け | 100.csv | 学生ID, 学部, テストスコア, 出席日数, クラス参加度, 経済的背景, 退学リスク | 3000 |
上級者向け | 200.csv | ID, 氏名, 性別, 所属学部, 古典, 物理, 化学, 経済, 英語, 数学, 情報 | 5000 |
201.csv | 学生ID, 学部, テストスコア, 出席日数, クラス参加度, 経済的背景, 退学リスク, 初任給, 業界 | 3000 |
以下は 001.csv
のサンプルです。
ID | 氏名 | 学年 | 科目 | 点数 |
---|---|---|---|---|
2 | 01 | 藤原 舞 | 1年 | 英語 |
3 | 02 | 佐藤 加奈 | 3年 | 英語 |
4 | 03 | 田中 加奈 | 3年 | 英語 |
PAIRでは上で示したように複数のデータセットがあります。
そのため、効率的にデータを探すためにもある程度の規則性を設けてファイル名やディレクトリ構造を検討しました。ただし、規則性の決まりなどは暫定で設定したものであり、絶対にこうしなければならないという意味ではありません。もし改善提案やデータを追加したい方がいらっしゃいましたら、運営まで連絡をお願いします。