AIの開発はデータが命
みなさん、こんにちは!
あれは夏休みの宿題の提出日。 クラスメートに数人に泣きつき答えの丸写し作業を手伝ってもらって、ひと月分の数学の宿題を30分で終わらせた出来る男あらたまです。
計算式もなく答えだけ、しかも筆跡がバラバラな宿題に 先生には「せめて自分でやれ」という嬉しい評価をいただいたものです。
さて今日は「はじめてのTensorFlow入門」の第4回目です。
おさらい
前回の「第3回 AIで写真を分類しよう ~ 全体の流れ」では
- 洋服の写真をグループ分けするAIを開発する
- AI開発のおおまかな流れ
今回は、AIの学習に必要なデータの用意についてのお話をしていきたいと思います。
どんなデータが必要なの?
今回はAIに学習させて、次のような判断ができるようにしたいわけです。
この写真は、どのグループに分類されるのか。
例:この写真は、Tシャツのグループに分類される
この写真は、ジャケットのグループに分類される
そのような学習をさせたい場合には「ラベル付き画像データ」を用意します。
ラベル付き画像データ
ラベル付き画像データというのは、解答付きの問題集のようなものです。
今回の場合ですと、たくさんの洋服の写真のデータと、 さらに「これはTシャツの写真」「これはジャケットの写真」「これはスニーカーの写真」というような答えのデータ、 その2種類のデータのセットです。
aiはこのデータを使って、 「あー、こういうのをTシャツっていうんだ。 こういうのをジャケットっていうんだ。」 と学習していくわけですね。
どのくらいのデータ数が必要なの?
学習のさせかたによって変わりますが、 基本的には数万件のデータが必要となります。
私たちがAIを作ろうとおもったとき、 まずなにより最初に答え付きのデータを数万件用意する、 というところから始めるわけですね。
とは言え、いまから数万件のデータを用意をしてとなると、 この講座もなかなか先へ進みませんよね…
Fashion-MNISTを活用しよう
そこで今回は「Fashion-MNIST(ファッション-エムニスト)」とうものを使いたいと思います。
Fashion-MNISTは「Zalando Research」がAI開発者用に作成し公開してくれているの大量の洋服画像のデータです。
無料で8万枚のラベル付きデータ。これは是非使わせてもらうしかねいですねっ
今回はここまでです!
AI開発に必要となるデータの種類と件数、そしてFashion-MNIST、いかがでしたか?
次回はそのFashion-MNISTのデータを使うための前知識、「Keras」というものについてお話をしたいと思います。
次回へ続く。