前処理本 - Daisuke Ishii Website 【石井大輔】

データ分析に携わる
すべてエンジニアの
ための必携書
テーブルデータ、自然言語、画像を全て網羅
一般化しやすい業務知識を集めました
データ前処理で苦しむ全ての人にオススメです
Amazonへ
現場のプロだから言える前処理ノウハウ
データ前処理で悩む方への時短本です
"はじめに"より
AI ブームも成熟期に入り、実際に現場に入って活躍するAI エンジニアやデータサイエンティストが増えてきました。

そんな中お悩み上位に上がるものが「前処理で苦労している」です。

私自身、ブログ記事などで汎用的な前処理ノウハウをまとめようとしたのですが、かなり苦労しました。

実際の現場のデータは個別に形状が異なっており、それに対する前処理の手法も個別的になることが多いです。

それにより、世の中に教科書的にノウハウを網羅したものも少なくなります。

前処理全体の 20%のケースが汎用的に記述できるとしたら、そこをまとめたい、と思ったのが執筆のきっかけです。

データ分析の時間の中で、プロセスの8 割をデータ前処理という、地味だが大事な作業に費やしている方も多いはずです。
分析会社の中には「データチーム」と呼ばれるインターンや海外開発拠点を使った縦割り型の専門のチームがいる場合もありますが、
ほとんどの会社では時給の高い AI エンジニアが直接前処理も担当していると思います。
この本が、現場でデータと格闘している読者さんの、業務効率化のお助けになればこれほど嬉しいことはありません。

2020年7月1日
筆者を代表して Team AI 代表石井大輔

Amazonで好評発売中
Twitter Coming Soon
内容
データ分析、機械学習に携わるすべてエンジニアのための必携書

昨今、データ分析や機械学習の手法は高度になり、また多くの分野で使われるようになってきています。しかし日常業務で扱っているデータは、複雑かつ不完全で、構造化されていないものも多くあり、そのままでは機械学習モデルに投入したり、適切に分析をすることができません。

本書では、そういった不完全なデータを、データ分析や機械学習で扱えるように整える、「前処理」に焦点を当てています。

「データサイエンティストの時間の90%はデータの前処理に費やされ、残りの時間は実際のモデルのトレーニングと展開に費やされる」とよく言われますが、それにもかかわらず、前処理をどのようにすれば良いかについては後回しにされがちです。

本書は、「テーブルデータ」「自然言語」「画像」の3種類のデータを取り上げ、それぞれについての前処理を詳細に説明しています。データに対してどのようなコードを書いて処理するか、ということだけにとどまらず、「現場ではまず何を行うか」「複数のアプローチがあり得る場合、どれを選ぶべきか」といった、プロならではの知恵も多く詰め込みました。

データ分析をこれから仕事にしたい人、すでに現場にいるけれども迷うことが多い方にとって、心強い助けとなる1冊です。

※本書のプログラムは、Google Colaboratoryを使って実際に試しながら学べるようになっています。
目次
Chapter 1 本書について
1-1 本書の内容
1-2 本書の読者対象
1-3 本書の構造

Chapter 2 テーブルデータの前処理
2-1 テーブルデータの前処理
2-1-1 テーブルデータとは
2-1-2 前処理の過程
2-2 テーブルデータの前処理
2-3 データの結合と集約
2-3-1 縦結合
2-3-2 ID単位で値を集約
2-3-3 横結合
2-3-4 まとめ
2-4 テーブルデータの理解
2-4-1 探索的データアナリシス（EDA）
2-4-2 テーブル全体の理解
2-4-3 数値変数の分布
2-4-4 カテゴリカル変数の分布
2-4-5 変数間の相関
2-4-6 まとめ
2-5 カテゴリカル変数の処理
2-5-1 順序ラベルエンコーディング
2-5-2 ワンホットエンコーディング
2-5-3 ターゲットエンコーディング
2-5-4 まとめ
2-6 欠損値の処理
2-6-1 欠損値発生のメカニズム
2-6-2 基本的な欠損処理
2-6-3 欠損を除去する
2-6-4 欠損に値を代入する
2-6-5 欠損カテゴリを新たに作成する
2-7 データスケーリング
2-7-1 Min-Max 法
2-7-2 Zスコア標準化
2-7-3 10進スケールの正規化
2-7-4 スケーリング手法比較
2-8 データ変換
2-8-1 線形変換
2-8-2 二次型変換
2-8-3 変換の非多項式近似
2-8-4 ランク変換
2-8-5 Box-Cox 変換
2-9 次元削減法
2-9-1 次元の呪い
2-9-2 主成分分析（PCA）
2-9-3 因子分析
2-9-4 多次元尺度構成法
2-9-5 局所線形埋め込み
2-9-6 t-SNE
2-10 特徴量選択
2-10-1 特徴量選択の3手法
2-10-2 Filter 法
2-10-3 Wrapper 法
2-10-4 Embedded 法
2-10-5 まとめ

Chapter 3 自然言語の前処理
3-1 自然言語データ処理の基礎
3-2 テキスト読み込み
3-2-1 一覧データの取得
3-2-2 一覧データの理解
3-2-3 テキストデータの取得（HTML）
3-2-4 テキストデータの取得（ZIP）
3-2-5 エンコーディング
3-2-6 ファイル形式
3-3 クレンジング
3-3-1 テキスト文書の不要文字の削除
3-3-2 HTML文書から本文のみ取得／抽出
3-4 形態素解析
3-4-1 MeCab
3-4-2 Janome
3-4-3 SudachiPy
3-4-4 nagisa
3-4-5 Sentence Piece
3-4-6 正規化
3-5 ベクトル化
3-5-1 単語のベクトル化
3-5-2 文書のベクトル化
3-6 オーグメンテーション
3-6-1 データ収集時のオーグメンテーション
3-6-2 形態素解析後のオーグメンテーション
3-6-3 ベクトル化後のオーグメンテーション
3-6-4 その他

Chapter 4 画像データの前処理
4-1 画像認識の流れ
4-1-1 画像認識システム開発の全体を把握する
4-1-2 本章で扱う範囲
4-2 ディレクトリ構成
4-2-1 src
4-2-2 test
4-2-3 model
4-2-4 data
4-2-5 notebook
4-2-6 ディレクトリを作成するコマンド
4-3 画像の撮影
4-3-1 CNNの特性を意識して撮影する
4-3-2 モデル開発者が撮影する
4-3-3 複数回撮影する
4-4 アノテーション
4-4-1 アノテーションの概要
4-4-2 アノテーションのコツ
4-5 画像の読み込みと表示
4-5-1 画像の読み込み
4-5-2 チャネルの順序を入れ変える
4-5-3 画像を表示する
4-6 切り抜きとリサイズ
4-6-1 画像を切り抜く
4-6-2 正方形を縮小する
4-6-3 アスペクト比を変えてリサイズする
4-7 画像の結合とスケーリング
4-7-1 データセットの準備
4-7-2 画像の結合
4-7-3 スケーリング
4-8 データの分割
4-8-1 データセットの準備
4-8-2 Hold out
4-8-3 KFold
4-9 「データ拡張」で過学習を防ぐ
4-9-1 データ拡張の目的：過学習の抑制
4-9-2 適用するデータ拡張手法
4-9-3 データ拡張の適用

Chapter 5 業界別データ活用動向
5-1 製造業におけるデータ取得と活用
5-1-1 概要
5-1-2 背景
5-1-3 例1：生産機器のダウンタイムを避ける目的での異常検知
5-1-4 例2：画像認識による検品の自動化
5-2 金融業界におけるデータ取得と活用
5-2-1 金融相場のデータ活用
5-2-2 総合的なデータ利用
5-3 マーケティングにおけるデータ取得と活用
5-3-1 背景
5-3-2 ソーシャルメディアマーケティングにおけるデータの活用
5-3-3 Data Management Platform（DMP）
5-4 小売データの取得と活用
5-4-1 キャッシュレスサービスの台頭
Appendix
A-1 本書の実行環境について
共著者
■ 石井大輔（いしいだいすけ）
株式会社Kiara（キアラ）代表取締役、Team AI代表
1975年岡山県生まれ。京都大学総合人間学部ではフランス史と数学（線形代数）ダブル専攻。
伊藤忠商事のミラノとロンドンに駐在後、起業。
2016年、機械学習の研究会コミュ二ティTeam AI を立ち上げる。現在メンバー8000人。
FinTech、医療などデータ分析ハッカソンなど700回のイベントを実施。
グループチャットのAI 自動化ツールKiara を自社サービスとして構築。
『機械学習エンジニアになりたい人のための本 - AI を天職にする』
（翔泳社）
『データ分析の進め方及び AI・機械学習導入の指南』（情報機構）
『AI共存ラジオ好奇心家族』（ TBSラジオ）レギュラー
Twitter：@ishiid
Chapter 5を担当。

■ 漆畑充（うるしばたみつる）
株式会社Corsstab 代表取締役
2005年慶應義塾大学理工学部卒業、2007年同大学院理工学研究科修士課程修了。
2007年株式会社金融エンジニアリング・グループ入社。金融機関向けデータ分析業務に従事。
与信及びカードローンのマーケテイングに関する数理モデルを作成。
その後大手ネット広告会社デジタル・アドバタイジング・コンソーシアム株式会社にて
アドテクノロジーに関するデータ解析を行う。
またクライアントに対してデータ分析支援及び提言/コンサルティング業務を行う。
統計モデルの作成及び特にビジネスアウトプットを重視した分析が得意領域である。
その他開発実績としてデータ解析に関する特許を複数取得。
2019年に株式会社Corsstabを創業し今に至る。
Chapter 2を担当。

■ 及川大智（おいかわだいち）
岩手大学工学院デザイン・メディア工学専攻主席卒業。
国際会議ICISIP2014にて最優秀学生論文賞を受賞するなど国内外で多くの論文を発表。
人工知能やデータ分析の分野で開発会社において新人優秀賞を受賞、
データサイエンティストとして独立した後、現在は総合コンサルティングファームに勤務。
大手企業向けのデータ分析や画像認識等のプロジェクトのコンサルティングや業務デザインなどを担当している。
趣味は食べ歩きと栄養学の勉強、スキンケア。
Chapter 4を担当。

■ 大下健史（おおしたたけひと）
ブレインズコンサルティング株式会社（Brains Consulting, Inc.／略記BCI）最高数理責任者（CMO）
1979年岐阜県飛騨市生まれ。富山大学理学部数学科卒。
北陸先端科学技術大学院大学情報科学研究科修了。
大学院では、数理論理学領域における一般位相を使った意味論について研究を行う。
その後、約10年間システムエンジニアとして職務に従事。
2014年ブレインズコンサルティング入社。2年後、最高数理責任者に就任、現在に至る。
需要予測システムのエンジン開発、文章生成モデルの検証・プロトタイプ開発など、
データによらず各種PoC、プロトタイプ開発の推進などAI/ データ分析に関する案件に幅広く携わる。
Chapter 3を担当。

■ オング優也（おんぐゆうや）
シリコンバレーで機械学習、ディープラーニング、
確率的最適化やフェデレーテッドラーニング関連の研究開発を行っているリサーチソフトウェアエンジニア。
ペンシルベニア州立大学情報科学部でデータサイエンスを専攻し、2019に卒業。
過去には感情認識と感情表現の研究や、画像処理などの開発なども行っていた。
Twitter: @YuyaOng
Github: https://github.com/yutarochan
ホームページ: yutarochan.github.io
Chapter 1を担当。
読者の声
Coming Soon
是非感想をお寄せください！
お名前

Email

メッセージ

Comment
Team AI 5000人の知識と経験談を集めました
AI業界を目指す方への羅針盤
"はじめに"より
本書は、これからAIエンジニアを目指そうという方へのキャリアガイドです。

私たちTeam AIは、「100万人の機械学習コミュニティを東京に創る」を目標に、2016年7月に発足した機械学習研究会コミュニティです。本書執筆現在、東京を中心に5000名を超える機械学習エンジニアコミュニティを確立しています。曜日ごとに異なるテーマで研究会を実施し、その全てを無料で提供してきました。

また、研究会でスキルアップした後のキャリアアップ機会提供として、運営母体である株式会社Jenioにて機械学習・データ分析スキルに特化した人材エージェント(正社員・新卒・フリーランス)事業、機械学習・深層学習に特化したAI開発事業も展開してきました。

AIエンジニアを志望する人の数は年々増加の一途を辿っており、毎月私たちが開催しているキャリアセミナーは常に満席状態です。
コミュニティメンバーは初心者から研究者まで幅広く、年齢も高校生～シニアまでいらっしゃいます。また、国籍が多様なのも特徴で、アジアから欧米まで、日本で働く外国人エンジニアが多く集まっています。（全体の30％が外国籍のエンジニアです）。このように、幅広い人脈を通じて日本だけでなく世界中の情報が入ってくるのが私たちの強みです。

そんなTeam AIのメンバーをはじめとした、AIエンジニアおよびAIエンジニア志望者の方々との対話を通じて生まれたのが本書です。

本書には、5000人に及ぶTeam AIのコミュニティメンバーの知見と、人材エージェントとしてのノウハウをできるだけ出し惜しみせずに詰め込みました。

Java、RubyなどのアプリケーションエンジニアからAIエンジニアへのキャリアチェンジを考えている方をメインの想定読者として構成しましたが、AI業界に憧れている方、特に文系の方々にもわかりやすく読んで楽しんでもらえるように書きました。
また、将来AIの開発現場で働きたい高校生、大学生に向けたハンドブックとしても活用してもらえたらと考えています。

本書を読むことによって、読者の皆さんはAIエンジニアとして働くために何をすればいいか、概要を掴めると思います。また、目標までのプロセスが明確になることによって、きっと今すぐにでも勉強したくなるはずです。

転職活動の実践編に関しては、エンジニア目線はもちろんのこと、採用企業の目線でも書くことを心がけました。
また、人材エージェントとして見てきた転職成功例・失敗例を具体的に表したので、AI・機械学習について勉強を始めたばかりの人から、実際に転職活動を始めてみたいという人まで、幅広く実践的な知識を得ていただけると思います。

読者の皆さんに伝えたいことは、この本で効率的に情報取集したあとはひたすらハンズオンで手を動かして学習してほしいということです。
今、AIエンジニア養成スクールはどこも活況です。聞くところによると左官やウェイターなど、全く違う業種・業界からキャリアチェンジしてくる人もいるとか。
もちろんこうしたスクールに通うことも一つの選択肢ですが、今やAI関連の書籍やツールは日々更新され、良いものがどんどん増えています。

例えばアクティブラーニングツール一つ挙げるだけでも、Progate、Aidemy、Kaggle、Coursera、Udemyなど多様化していますから、自分に合うものを試していくことはいくらでも可能です。
自分の才能に限界を設けず、このようなツールを活用してスキルアップしてください。

AIエンジニアを目指す上では、大学１～2年レベルの数学の知識が必要となります。しかし、数学の体系的な知識をに身につけることはむしろ後からでよく、まずは機械学習の参考図書を用意して、そこにあるチュートリアルをコーディングするところから始めていくことをおすすめします。その中でわからない点が出てきたら、数学の本を逆引きすればいいのです。

まずはコーディングからスタートし、足りない部分を勉強しながら補完していく。この繰り返しで、実践の現場で使えるスキルを身につけていくといいと思います。

AIエンジニアを目指す方へのアドバイスとしては、「早めに仲間を見つける」ことです。未経験者がAIエンジニアとして働けるようになるまでには、平均１～２年の学習期間が必要だと言われています。ですから、モチベーション管理が非常に重要です。現在都内では、AI関連のイベントが月間１００件～１５０件程度開催されています。本書の中でも紹介しますが、これらの勉強会・研究会・イベントに定期的に顔を出して仲間を作ることをおすすめします。ある程度長期戦になることを覚悟しつつ、離脱しないように、真面目に楽しく学ぶ。それが1番の近道だと思います。

私たちTeam AIが発足した2016年当時、東京のデータ分析業界で働く人はおよそ5000人程度しかいないと言われていました。それがこの2年間で1.5～2万人になり、2020年には６～８万人になることが予想されています。
このように裾野が広がっていくことによって、より多くの方に向けてAI関連のビジネスの扉が開かれるでしょう。
私たちは「100万人の機械学習コミュニティを目指す」ことをスローガンに掲げていますが、そのような未来はもうすぐそこまで見えているのです。

AIは、産業革命や車の発明に例えられる、人々の暮らしを大きく変える技術です。スタンフォード大学のAndrew Ng教授は電気の発明に例えています。現在も様々な議論を呼んでいますが、正しく使えば生活やビジネスの生産性を上げ、私たちの暮らしをより便利で、素晴らしいものにしてくれるでしょう。
その動きはすでに生活の中に入り込んできていて、本書に記載したように、ガンの診断や自動運転など、あらゆる分野で実用化のための実験が進んでいます。2020年頃を機に、これらの技術は一気に生活の中に浸透してくると考えられています。

このように、AIおよびデータ分析は、夢があって素晴らしい技術です。
本書を手にしたあなたにもぜひ、その技術の担い手として活躍していただけたら、著者としてこれほど嬉しいことはありません。

本書の執筆にあたって、技術指導などでご協力頂いたオング優也さん、Jaiyam Sharmaさん、小川雄太郎さん、伊藤博之さん、Team AIのコミュニティメンバー5000人の皆様全員、Team AI Careerのスタッフチーム、そして伴走して執筆をサポートしてくれた青柳まさみさんに感謝致します。

ご意見・ご感想に関してはお気軽にメール頂けますと嬉しいです。

2018年10月
Team AI 代表 & (株) ジェニオ代表取締役石井大輔
Email: dai@jenio.co

Amazonで好評発売中
Twitter #MLNaritai
目次
はじめに

第1部仕事編

第1章変化の激しいAI業界の全体像を知ろう
―従来のエンジニアとAIエンジニアの違い
―AIエンジニアの仕事
―AIエンジニアの将来性は? どんなキャリアプランを描ける?
―AI世界勢力図―各国のAI事情は?―
―大手IT企業、ベンチャー企業、大学の状況は?
―AI/IoTで産業課題を解決し、教育分野に還元したい大杉慎平

第2章 AI業界最新職種ガイド
―AIエンジニア
―データサイエンティスト
―研究者
―データアナリスト
―セールスコンサルタント
―AIエンジニアとアプリケーションエンジニアの違い
―AI人材に必要なスキルリスト

第3章 AI人材になるための具体的行動計画
―ホップステップジャンプ! 段階別やることリスト
―キャリアゴールを決め、「習うより慣れろ」の精神で進もう
―就職・転職のために取得しておきたい資格試験
―女性エンジニアよ、もっとAI分野に入ってこよう! スザッナ・イリチ

第4章勉強法Hack―Team AIが太鼓判を押すコンテンツリスト
―勉強会に参加して業界の全体像をつかみ、勉強仲間を見つけよう
―書籍やビデオコースで基礎理論を学習し、コーディングしてみよう
―英語を勉強すると有利―お薦めの勉強法は?―
―これだけは読んでおきたい! お薦め書籍9選
―お薦めのオンラインコース
―Kaggleでコンペティションに参加し、実践力を磨こう
―スクールやイベントを利用して集中的に学ぼう
―Twitterで最新情報をチェックしよう
―ブログ、Webサイト、その他
―ゲームAIに魅了され、エンジニアの道へ大渡勝己

第5章いよいよ転職活動!後悔しないために押さえておくべきポイント
―AI関連企業について情報を収集しよう
―AI職種に応募するのに適したサイト・エージェントは?
―AI業界にアピールできる履歴書・職務経歴書の書き方
―面接・技術試験に向けて押さえておきたいポイントは?
column:AI業界でも女性が活躍する機会が広がる

第2部実務編

第6章私たちの身近にある、AI技術を用いたサービス・プロダクト
―機械学習を使ったビジネスアプリケーション
―画像データを用いた機械学習
―動画データを用いた機械学習
―テキストデータを用いた機械学習
―音声データを用いた機械学習
―時系列を使った機械学習

第7章実務のためのノウハウ
―ヒアリング
―データドリブンレベルとサンプルデータのチェック
―数理モデル選定
―PoCで仮説検証
―データ取得とユーザー視点の重要性
―データ前処理
―パラメータチューニングと仮説再検証

第8章海外移住も夢じゃない? 各国のAIエンジニア事情
―憧れの地、アメリカシリコンバレー
―意外と現実的? シリコンバレーで就職活動
―その他のアメリカの都市
―スピード感と規模が桁違い中国のAI企業
―その他の国々のAI企業事情

AI用語集
読者の声
思わず一日中読んでしまいました。
こんなにもコンパクトに色々な情報源をまとめているのに感心しました。
機械学習を実践して3年になりますが、情報源はエンジニアの成長の上で非常に大切です。
この本を是非友人に勧めたいと思います。
大学で多くの生徒がAIを学んでいますが、教材や学ぶ環境が整っておらず困っている生徒が多いです。
この本は初心者向けにオススメできます。
素晴らしい本の出版、おめでとうございます！ (インド人 AIポスドク J.S.さん)

びっくりしたんですが、めちゃくちゃ面白い(笑)。
業界人だからこそって感じの内容で、メディアとかTwitterアカウントとかの紹介もある(笑)
さらにAI NOWまで大々的に紹介してくださっている...
嬉しみしかないです。 (メディア AI NOW編集部小澤さん)
是非感想をお寄せください！
お名前

Email

メッセージ

Comment