はじめに

このページでは、PAIRが管理しているデータセットについて概要とデータへのリンクを提供しています。該当する全てのデータはGitHubを利用して管理されており、以下のリンクから閲覧できます。なお、前提としてデータはすべて擬似的に生成しており、実際の人物や組織などに何も関係がありません。

https://github.com/IR-Platform/PAIR/tree/main/datasets

データの分類方法

すべてのデータは、分析するデータの種類や数に応じて分類しています。

分類区分は初級者向け、中級者向け、上級者向けの3段階に分類し、利用者の分析関連の理解度に応じて設計しています。

ファイル名の100の位に応じて対象者を分けています。

データ一覧

現在ある全てのデータです。列名やデータ数から自分が操作してみたいデータを選択して、分析してみてください。

分類区分 ファイル名 列名 データ数
初級者向け 000.csv ID, 氏名、学年, 科目, 点数 90
001.csv ID, 氏名, 性別, 所属学部, 英語, 数学, 情報リテラシー 300
002.csv ID, Name, Gender, Department, Math Score, Math Grade, English Score, English Grade, Info Lit Score, Info Lit Grade 50
003.csv 学生ID, 学部, テストスコア, 出席日数, クラス参加度, 経済的背景 500
中級者向け 100.csv 学生ID, 学部, テストスコア, 出席日数, クラス参加度, 経済的背景, 退学リスク 3000
上級者向け 200.csv ID, 氏名, 性別, 所属学部, 古典, 物理, 化学, 経済, 英語, 数学, 情報 5000
201.csv 学生ID, 学部, テストスコア, 出席日数, クラス参加度, 経済的背景, 退学リスク, 初任給, 業界 3000

データのサンプル

以下は 001.csv のサンプルです。

ID 氏名 学年 科目 点数
2 01 藤原 舞 1年 英語
3 02 佐藤 加奈 3年 英語
4 03 田中 加奈 3年 英語

PAIRへの要望や改善提案

PAIRでは上で示したように複数のデータセットがあります。

そのため、効率的にデータを探すためにもある程度の規則性を設けてファイル名やディレクトリ構造を検討しました。ただし、規則性の決まりなどは暫定で設定したものであり、絶対にこうしなければならないという意味ではありません。もし改善提案やデータを追加したい方がいらっしゃいましたら、運営まで連絡をお願いします。