カテゴリー:機械学習

  • 2021.04.09

りんなが公開した文章生成モデル「GPT2」試してみた(ソース付き)

先日株式会社りんなが、学習済みのGPT2のモデルを公開してくれていましたね! 環境 Docker環境で実行しています。 以下のように必要なライブラリをインストールしておきます。 [crayon-6425f69756d22895624476/] ※CPUで実行していますが、かなり重いので可能であればGPU環境で実行することが望ましいです。 実際に文章を生成してみた モデルを読み込みます。 [cray […]

【機械学習】古いtransformersでも最新のBERTの日本語学習済みモデルを使いたかった

日本語の学習済みモデルを使用する際は、東北大学が公開してくれている学習済みのモデルを使用することが一般的だと思います(多分)。 そんな状況が続いていたのですが、当然ながら学習データもやや古くなり新しい使われ方をし始めた言葉(コロナなど)に対して、精度が下がるようになっている現状がありました。 ということで、新しい学習済みのモデルを探していたのですが、その導入で躓くポイントが有ったので知見として残し […]

  • 2020.06.19

【機械学習】Optuna1.3.0以上での探索空間定義の種類

Preferred Networks社が開発しているオープンソースのハイパーパラメータ自動最適化フレームワークOptunaについての記事となります。 Optunaとは 公式サイト ハイパーパラメータの値に関する試行錯誤を自動化し、優れた性能を発揮するハイパーパラメータの値を自動的に発見します。オープンソースの深層学習フレームワークChainerをはじめ、様々な機械学習ソフトウェアと一緒に使用するこ […]

【機械学習】CNNをざっくり把握したかった

CNNの概要 Convolutional Neural Network の頭文字を取ったもの 日本語では、畳み込みニューラルネットワークと言われる 画像認識のために強さを持つ手法 (画像認識以外への応用レもあり。https://pao2.hatenablog.com/entry/2018/08/04/183937) 2012年の画像認識コンペで一気に注目を浴びた手法 AI/ディープラーニングブーム […]

前処理の追加・変更時に機械学習のモデルの精度が大きく下がった際に疑うべき3つのこと

基本的なことではありますが、特に機械学習の雰囲気に慣れない頃は色々コードを書いていると案外どころかドツボにはまってしまったので自戒の念を込めつつ、誰かの参考になれば幸いと思い記事にしておきます。 起きたこと 既存のライブラリやソースを使って、機械学習のモデルを構築して評価を行っていました。 AUCやMER等の評価指標でそれなりの値が出ていましたが、目標とする数値には一歩及ばず前処理を追加することと […]

【Python】Prophet(ver0.5)がinstall出来ない問題の対処

2020年3月4日に、v0.6が公開されています。 v0.6では、holidaysのインストールが不要になっていたり、Pandas関連のバグも直っているのでv.0.5は使用しないようにしましょう。 諸々の事情でv.0.5を使用しないと行けない方々もいらっしゃると思うので、記事はこのまま残しておきます。 (ていうかなんでv.0.5.1とか作らずにv.0.6なんだ) エラー内容 恐らく2020年になっ […]

Machine Learning for Beginners! MeetUp #3 LT会 に参加してきました!

ブログ枠という形で2020/1/18(土)開催の Machine Learning for Beginners! MeetUp #3 LT会 に参加させていただきました! 発信しなくてはと思いつつも、怠けてしまいがちなので強制的にやらされるこういう機会はありがたいです。 やっぱり同じような人たちが頑張っている姿を見ると、モチベーションが上がります。 それでは、イベントの概要の紹介と簡単にですが各L […]

  • 2018.06.19

【データサイエンティスト養成講座】第4回問題(確率と統計の基礎)

お久しぶりです、こんばんは。 ずいぶんと時間が空いてしまいましたが、勉強やめたわけではないです。出来なかっただけです。 ここ2ヶ月ほどは案件の炎上で中々帰れなかったり、そんな中転職活動していたり 仮想通貨の裁量トレードでお金を溶かしていたりしました。 ようやく「GCIデータサイエンティスト育成講座演習コンテンツ 公開ページ」の第4回の問題を解いたのでまとめます。 第4回基本的には統計のお勉強です。 […]

【データサイエンティスト養成講座】概要・第1回

皆さんこんばんは。 Kaggleの問題を解いたから少し時間が経ちましたが、 機械学習の道ではそれはそれは有名な松尾研究室が無料公開している、 「GCIデータサイエンティスト育成講座演習コンテンツ 公開ページ」を進め始めています。 GCIデータサイエンティスト育成講座演習コンテンツとは 松尾研究室のホームページからの引用ですが、以下のようなミッションを持った研究室であり、機械学習やデータサイエンスの […]

  • 2018.03.28

【Kaggle】初めてのKaggle参戦(Titanic: Machine Learning from Disaster)

皆さんこんばんは。 機械学習勉強中ということで、かの有名なKaggleにトライしてみることにしました。 3年位ずっとSNS(Web)ディレクターとしてやってきてますが、 いい加減ずっとやりたかった機械学習とか技術で勝負する部分に手を出してます。 会社で出来ないならもう自分でやるしかないよね。 社内で一番近い部署には行くことになったけど、やっぱちょっと違う。 すでにあるモデルを使いたいんじゃなくて、 […]