KNIME - ゼロ点揃えはできるのか？ワークフロー作成の考え方も解説 ~実践編~

f:id:makkynm:20210211160438p:plain

はじめに
やりたいこと
- お問い合わせ内容
- やるべきこと
覚えてほしいこと
ワーフクロー作成の考え方
事前準備
Workflow解説 ~時系列データ~
おわりに

はじめに

こんにちは、自動化大好きまっきーです。嬉しいことに、以前時系列データの処理に関する問い合わせがありました。今回はその回答を掲載したいと思います。

質問者様から、「この問合せと同様のことでお困りの方々も沢山いらっしゃるのではないかと思いますので、ぜひブログで解説頂けると嬉しいです。」との暖かいお言葉をいただいたので、頑張って解説していきたいと思います。

内容としては、列ごとに処理するのではなく、行ごとに処理するにはどうすれば良いのか？という部分になります。

また、KNIMEでWorkflowを作る際にどうやって考えていけばいいのか？まで解説したいと思います。

このワークフローですが、時系列処理を今までKNIMEでやったことがない私が作ったものなので、かなり不器用なやり方をしているなと少し反省しています。もし経験のある方、こんな方法があるよ、こんな方法の方がいいんじゃない？というのがあればぜひコメント等お願いします！

今回のテーマ ~時系列データゼロ点揃え~

f:id:makkynm:20210211112532p:plain — 今回のテーマ ~時系列データゼロ点揃え~

やりたいこと

お問い合わせ内容

まずはお問い合わせいただいた内容を掲載します。

＊＊＊＊＊＊＊＊

時系列データのCSV(又はエクセル)ファイルが複数あります。1つのファイルにはサンプリング周期が0.01secで約1秒(約100行)分記録されています。

・・・下記にデータを模擬的に記載

Column 0 Column 1
row0 0 　　row0 0 　　 row0 0 row0 0
row1 0 　　 row1 3 　　 row1 0 row1 0
row2 1 　　 row2 4 　　 row2 0 row2 0
row3 2 　　 row3 5 　　row3 0 row3 0
row4 5 　　 row4 7 　　row4 2 row4 0
row5 8 　　 row5 9 　　row5 4 row5 3
row6 9 　　 row6 9 　　row6 8 row6 4
・　　　　　　　　　　・　　　　　　　　　　　・　　　　　　　　　　　　　　　　　　　・
・　　　　　　　　　　・　　　　　　　　　　　・　　　　　　　　　　　　　　　　　　　・
・　　　　　　　　　　・　　　　　　　　　　　・　　　　　　　　　　　　　　　　　　　・
row98 0 　　row98 0 row98 0 row98 0
row99 0 row99 0 row99 0
　 row100 0 row100 0

この様なデータを、0「ゼロ」点をそろえて、80行までで1ファイル（時系列row⇒clumnに並べ替え）をにして、教師データを生成したいのですが、どの様なノードを使ってどう設定すれば可能でしょうか？

【結果のイメージ】
CM1 CM2 CM3 CM4 CM5 CM6 ・・・ CLM80
row0 0 1 2 5 8 9 0
row1 0 3 4 5 7 9 0
row2 0 2 4 8 9 8 1
　・
　・
row2,000 0 3 4 5 8 9 0

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

やるべきこと

質問いただいた内容からやるべきことをあげると下記のようになると思います。

複数のファイルを１つにして取り込む
０始まりに揃える（データの最初の０は一つだけにしたい）
データの数は80に統一
最後にPivotして出力

練習問題として、これらを達成するにはどのNodeをつかえばいいか？というのをぜひ考えてみてください。

f:id:makkynm:20210211112109p:plain — やりたいこと

覚えてほしいこと

ワークフロー作成の手順

Step1 - 要件を箇条書きで書き出す

Step2 -どんなOutputがあれば達成できそうか想像する

Step3 - 使えそうなNodeを想像する

ワーフクロー作成の考え方

さて、Workflowを実際に作る前に、どのような方針でデータを作っていくかを考えていきます。設計図がないとWorkflowは作れないですもんね。

Step1 - 要件を箇条書きで洗い出す

今回の要件をまずは箇条書きにしていきます。

複数のファイルを１つにして取り込む
０始まりに揃える（データの最初の０は一つだけにしたい）
データの数は80に統一
最後にPivotして出力

Step2 - どんなOutputがあれば達成できそうか想像する

複数のファイルを１つにして取り込む

--> ファイルをLoopを使って取り込めばできそう。

０始まりに揃える（データの最初の０は一つだけにしたい）

--> 最初に０ではなくなる位置を取得できればできそう。１ファイルごとに処理するべきだからLoopの中かな。

データの数は80に統一

--> 終了位置を開始位置とデータ数から特定できればできそう。１ファイルごとに処理するべきだからLoopの中かな。

最後にPivotして出力

--> データ数が揃った後に縦から横に変換すればできそう。Loopの外でもできそうだな。

Step3 - 使えそうなNodeを想像する

複数のファイルを１つにして取り込む：ファイルをLoopを使って取り込めばできそう

--> List Files とLoopの組み合わせかな

０始まりに揃える（データの最初の０は一つだけにしたい）：終了位置を開始位置とデータ数から特定できればできそう

--> Chunk Loopで１行ずつ取り出してRuleEngineで判断、Condition Loop Endで終了位置を変数で取得かな

データの数は80に統一：終了位置を開始位置とデータ数から特定できればできそう

--> Row Filterを変数で指定すればできそうだな

最後にPivotして出力：データ数が揃った後に縦から横に変換すればできそう

-->Pivoting でできそうだな

事前準備

今回は簡単な時系列データのサンプルとして、Sin関数を使ってサンプルファイルを作ってみます。開始位置のズレたSin関数を４つ用意しました。

f:id:makkynm:20210211162928p:plain — サンプルファイル

f:id:makkynm:20210211163553p:plain — サンプルファイル（Sin関数）

線グラフで表すとこんな感じです。

f:id:makkynm:20210211163727p:plain — 元データサンプルファイル

Workflow解説 ~時系列データ~

このワークフローは仮定として必ず０が初めの行に挿入されていることを前提にしています。

Workflow

こちらが全体的なWorkflowです。先ほど設計した手順でNodeを組んでいきます。（Version Updateしてしまったので、昔のVersionのNodeを使っていることを示すDeprecatedという文字がついていますが、基本Versionが変わっても同じ使い方です）

複数のファイルを１つにして取り込む
０始まりに揃える（データの最初の０は一つだけにしたい）
データの数は80に統一
最後にPivotして出力

f:id:makkynm:20210211163910p:plain — Workflow - ゼロ点揃え

f:id:makkynm:20210211163836p:plain — ゼロ揃え部分のMeta Node

Worklfowは下記からダウンロードできます。

ゼロ点揃え- ZeroPointTuning – KNIME Hub

Step1 複数のファイルを１つにして取り込む

黄緑の枠でくくった部分です。ここは以前解説した内容と変わりませんね。List Filesでファイル一覧を取得してLoopで一気に取り込みます。データの形式（コラム数とコラム名、データ型）が変わっていないことが条件となります。

過去記事を貼っておこうと思います。

degitalization.hatenablog.jp

Step2 ０始まりに揃える（データの最初の０は一つだけにしたい）

Configure

さて、ここがポイントとなります。

Chunk Loop Startで１行ずつ取得
Rule Engineで値がゼロかどうかを判断（１行目は必ずゼロと判断）
Table Row to Variableで１行目の値を変数にする
Variable Condition Loop EndでRule Engineの値を元にゼロでない時点でLoopを終了、最後の行だけ残しておく。
Table Row to Variableで初めてゼロでない値が出た行を変数に変換。何行目だったかは繰り返し回数を示す、Iterationに記録される。

キーとなるNodeのConfigureは下記のようになっています。