月別:2019年12月

【Python】PandasのDataFrameで特定の行を爆速で更新する方法

すみません、タイトルはちょっと誇張表現含んでます。 あまりpandasに慣れていない人が書いていたと思われるコードで実行すると、 数十分かかる処理が1秒以下で終わるようになるという事はざらにあります。 pandasは便利ではあるのですが、何も考えずに書くとPythonという言語の特性やpandasのデメリットばかりを享受するようなコードになりがちです。 本来の実力をpandasに発揮してもらえるよ […]

【AWS】Webサービスのユーザ行動ログを捌く時のサービス比較(Lambda・Kinesis Data Firehose・SQS)

  AWSは便利だし、大量データを捌くポテンシャル半端ないし、固定費用のないサービスも多かったりと(お金を払えば)至れり尽くせりですが、あまりにも多種多様なサービスがあるし、特徴も似てるしで検討が大変な部分がありました。 自分の備忘録と同じようなことをやろうとする誰かのために記録しておこうと思います。 やりたいこと Webサイトの行動ログ(ページ表示・クリック等)をリアルタイムに収集し、 […]

【Python】ライブラリをインストールせずにメモリ使用量を追跡する(Python3.4以上)

対応バージョン Python3.4以上 Pythonでメモリ使用量を追跡したかった それなりに重いデータをいじろうとすると、メモリの使用量が気になる事が多々あります。 秒単位で計測することはLinuxコマンドで比較的簡単に出来ますが、具体的にどの処理の後にメモリの使用量が増えているかを知りたく、Pythonの関数化してみました。 標準モジュールでのメモリ追跡の方法 tracemalloc という標 […]

  • 2019.12.04

「新しいLinuxの教科書」を読んだらLinuxの気持ちが分かるようになった。

半年ほど前になりますが、未経験からプログラマーになってsshすら出来ないところで、サーバーいじってという無茶ぶりをされた時に読んだ本が「新しいLinuxの教科書」です。 分かりやすく順序だった説明がある良書だと思うのと、筆者のLinux愛が伝わってきて読んでで楽しかったので紹介します。 どんな人におすすめ?どんな本? Linux初心者向けの本です。homeディレクトリとか何だよ名前分かりづらいんだ […]

  • 2019.12.04

【Python】ダミー変数化されたデータを1列に戻す

  やりたいこと ダミー変数化されたデータを1列に戻したかった。 数十行にも及ぶ被りのないフラグデータをそのまま持っているとかままあると思うのですが、見づらいし扱いづらいという状態でした。 理由 ダミー変数化されたデータとされていないデータが混在している中で、処理を分岐させたくなかったのでデータを変形させることにした。 かなり使い道少なさそうですが… 機械学習とかでフラグが別カラムについ […]