書籍
書籍検索
送料無料

エンジニア入門シリーズ

文書分類からはじめる自然言語処理入門-基本からBERTまで-

著: 新納 浩幸(茨城大学)
古宮 嘉那子(東京農工大学)
定価: 2,970円(本体2,700円+税)
判型: B5変型
ページ数: 206 ページ
ISBN: 978-4-910558-14-1
発売日: 2022/7/20
管理No: 109
書籍内で使用されているプログラムはこちらにございます。

【目次】

第1章 文書のベクトル化

  1. 1.1 文書分類とその入力
  2. 1.2 単語分割
  3. 1.3 N-gram
  4. 1.4 Bag-of-words
  5. 1.5 TF-IDF
  6. 1.6 Latent Semantic Analysis

第2章 分散表現

  1. 2.1 分散表現とは
  2. 2.2 cos 類似度
  3. 2.3 word2vec
  4. 2.4 doc2vec

第3章 分類問題

  1. 3.1 分類問題とは
  2. 3.2 分類問題と教師あり学習
  3. 3.3 Naive Bayes
  4. 3.4 文書分類の評価
  5. 3.5 ロジスティック回帰
  6. 3.6 Support Vector Machine
  7. 3.7 ニューラルネットワークとディープラーニング
  8. 3.8 半教師あり学習

第4章 系列ラベリング問題

  1. 4.1 系列ラベリング問題とは
  2. 4.2 系列ラベリング問題のタスク
    1. 4.2.1 単語分割
    2. 4.2.2 固有表現抽出
  3. 4.3 系列ラベリング問題の解法
    1. 4.3.1 HMM
    2. 4.3.2 CRF
    3. 4.3.3 LSTM

第5章 BERT

  1. 5.1 事前学習済みモデルとは
  2. 5.2 BERT の入出力
  3. 5.3 BERT 内部の処理
    1. 5.3.1 Transformer
    2. 5.3.2 Position Embeddings
    3. 5.3.3 BertLayer
    4. 5.3.4 Multi-Head Attention
  4. 5.4 BERT による文書分類
  5. 5.5 BERT による系列ラベリング
  6. 5.6 Pipeline によるタスクの推論
    1. 5.6.1 評判分析
    2. 5.6.2 固有表現抽出
    3. 5.6.3 要約
    4. 5.6.4 質問応答
    5. 5.6.5 テキスト生成
    6. 5.6.6 Zero-shot 文書分類

【参考文献】

  • https://chokkan.github.io/python/?s=09
  • https://nlp100.github.io/ja/
  • https://taku910.github.io/mecab/
  • https://taku910.github.io/mecab/工藤 拓( 著) , 言語処理学会( 編集) 形態素解析の理論と実装( 実践・自然言語処理シリーズ) 2018 年
    https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html
  • https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer
  • https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.html
  • https://scikit-learn.org/stable/modules/decomposition.html#lsa
  • Mikolov, T., Chen, K., Corrado, G., Dean, J.: Efficient estimation of word representations in vector space. In: Proceedings of ICLR Workshop 2013. pp. 1–12 (2013)
  • Mikolov, T., Sutskever, I., Chen, K., Corrado, G., Dean, J.: Distributed representations of words and phrases and their compositionality. In: Proceedings of NIPS 2013. pp. 1–9 (2013)
  • Mikolov, T., tau Yih, W., Zweig, G.: Linguistic regularities in continuous space word representations. In: Proceedings of NAACL 2013. pp. 746–751 (2013)
  • https://radimrehurek.com/gensim/models/word2vec.html
  • https://github.com/WorksApplications/Sudachi
  • https://www.gsk.or.jp/catalog/gsk2020-d/
  • https://cl.asahi.com/api\_data/wordembedding.html
  • http://www.cl.ecei.tohoku.ac.jp/ m-suzuki/jawiki vector/
  • Quoc V. Le, Tomas Mikolov, Distributed Representations of Sentences and Documents, Proceedings of the 31st International Conference on Machine Learning, pp.1188–1196, (2014).
  • https://radimrehurek.com/gensim/models/doc2vec.html
  • https://scikit-learn.org/stable/modules/generated/sklearn.naive\_bayes.BernoulliNB.html
  • https://scikit-learn.org/stable/modules/generated/sklearn.naive\_bayes.MultinomialNB.html
  • https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
  • https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html#sklearn.svm.LinearSVC
  • Xiaojin Zhu and Zoubin Ghahramani. Learning from labeled and unlabeled data with label propagation. Technical Report CMU-CALD-02-107, Carnegie Mellon University, (2002)
  • Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, Jason Weston, Bernhard Schoelkopf. Learning with local and global consistency (2004)

【口コミ】

  • ※口コミはありません。
ページトップへ戻る