KNIME - セルをぶった切る ~Cell Splitter~

f:id:makkynm:20201220094114p:plain

はじめに
覚えてほしいこと
やりたいこと
Cell Splitterの使い方
ちょっと一言
- Step2 - Settingsについての詳細
- Step3 - Output についての詳細
おわりに
参考リンク

はじめに

超重要なのに早めに扱うのを完全に忘れていました。今回はCell Splitterを扱います。その名の通り、何かの記号をもとにして、セルを分解するのに使用します。

元データの整形に使用しますね。元データの一つのセルに多くの情報が含まれていて、その中の情報を取り出したいときに使用します。

オプションが多いので、いろんなケースを扱って説明していきたいと思います。

今回のテーマ ~Cell Splitter~

f:id:makkynm:20200702085842p:plain — Cell Splitter

Workflowは下記からダウンロードできます。

kni.me

覚えてほしいこと

ある文字・記号で分解したいときはCell Splitter

やりたいこと

勤怠表を読み込んだときに、Excel側で日付型になっていたがために、KNIMEでDate&Time型で読み込まれ、下記のようなOutputになっていたかと思います。

そこで一つ目の例として、「T」という文字を基準にして、出勤日のコラムを日付と時間のコラムに分けたいと思います。

f:id:makkynm:20200702085950p:plain — やりたいこと - Cell Splitter

Cell Splitterの使い方

元データの整形によく使用します。元データの一つのセルに多くの情報が含まれていて、その中の情報を取り出したいときに使用します。オプションが多いのでのちほど例を交えて説明します。

Workflow

Confirm - Before After

「T」という文字を基準に出勤日のコラムを分けていきます。コラム名はArr[0], Arr[1]のように、順番に増えていっていますね。

f:id:makkynm:20200702090630p:plain — Confirm - Cell Splitter

Configure

さて、Configureを見ていきます。今回の例は最も単純な例として紹介していますが、その他のOptionが多いので、そちらについてはひとまず詳しく説明しません。

デフォルト設定から、どこを変えたら先ほどの分解ができたのかを赤枠で、オプションの大枠の区切りを緑の枠で囲っています。

f:id:makkynm:20200702090930p:plain — Configure - Cell Splitter

Step1 - Column to split 分解元コラムの指定

まずは「Select a column」からセルをぶった切りたいコラムを選択します。どんなデータ型でも大丈夫です。

「Remove input Column」のチェックマークを入れると、Output時に元のコラム（ここでいう出勤日のコラム）を削除します。

Step2 - Settings 分解設定

さて、分解する記号を設定をしていきます。４つのオプションがあります。特に知らなくていいやという人は文字だけ指定すればOKです。

Enter a delimiter：

分解に使用したい文字・記号を指定します。今回は「T」という文字が入力されています。

Use \ as escape character：「\」をエスケープ文字に使用するかを指定できます。例えば、これにチェックを入れると、「\n」を改行と解釈し、「\t」をタブスペースと解釈します。

Enter a quotation character: (leave empty for none)：csv Reader等でよく出てきましたね。ここで指定した文字に囲まれていると、分解されずに守られます。何もInputがなければこの設定は無視されます。

Remove leading and trailing white space chars (trim)：分解したあとに、前後に空白が残ることがあると思います。これにチェックを付けると、その前後の空白を取り除いて出力してくれます。

Step3 - Output 出力コラムの指定

次に出力コラムの設定です。

まずどのような形で出力するかを決めます。

As list：リスト形式で出力させます。collectionとも呼びます。
As set (remove duplicates)：リスト形式に似ていますが、重複がある場合は重複を除いた形で出力します。
As new columns：新しいコラムとして出力します。

Split input column name for output column names：これにチェックを入れると、最初の分割コラムの名前が元コラムと同じになります。新しくできたコラムの名前が「～#1」という形になります。

続いてOutputテーブルの新しいコラム数についての設定です。

Set array size：分割数の限界を固定できます。通常左から分割していきますが、例えば最大４つに分かれるものを、３つで指定していた場合、左から分割していって、３つに分かれた時点で分断をやめます。
Guess size and column types (requires additional data table scan)：最大限分かれるコラム数を自動で設定してくれます。ついでにデータ型も推測されます。

Scan limit (number of lines to guess on)：スキャンする行数を指定します。データが大きい時、すべてのデータを一個一個どれほど分かれるかをチェックすると時間がかかってしまうので、ある程度大きな値を上限にして時間を節約できます。

Step4 - Missing Value Handling 欠損値の指定

チェックが入っていないくても入っていてもどちらでもいいです。

１行目は４つに分けられて、２行目は２つに分けられたとします。すると、２行目は２列分余ってしまうことになります。

これらの値を空白セルにするか、欠損値「?」にとして扱うかを指定できます。チェックを付けると、空白セルとして出力します。

ちょっと一言

細かいOptionがたくさんあったので、例でテストをしながら用例を見ていきましょう。こんなサンプルを作ってみました。「-」で区切ってみたり、セル内改行で区切ってみたいと思います。

f:id:makkynm:20200703090521p:plain — Cell Splitter - 例

Step2 - Settingsについての詳細

Quotation character について

ここで指定した文字に囲まれていると、分解されずに守られます。何もInputがなければこの設定は無視されます。「-」で区切って、見てみようと思います。

f:id:makkynm:20200703082501p:plain — Configure - Cell Splitter Quotation character

３，４行目を比べてみてください。このように、「"」で囲まれたものは分解されずにそのまま残っていると思います。

f:id:makkynm:20200703090341p:plain — Confirm - Cell Splitter Quotation character

Remove leading and trailing white space chars (trim)について

分解したあとに、前後に空白が残ることがあると思います。これにチェックを付けると、その前後の空白を取り除いて出力してくれます。２行目を見てください。チェックを入れないと、前の空白がある状態で出力されます。

f:id:makkynm:20200703090403p:plain — Confirm - Cell Splitter - Trim function

チェックを入れると、空白が削除されていますね。

f:id:makkynm:20200703090419p:plain — Confirm - Cell Splitter - Trim function

ちなみに、チェックを入れずに３つめのコラムがすべて数字だった場合、このようなエラーが出てきます。これは、Guess size and column typesにチェックを入れているためで、空白があるとデータ型が推測できないためにおこるエラーです。Trim機能をONにするか、Arrayサイズを固定すればエラーがなくなります。

f:id:makkynm:20200703085836p:plain — Error - Cell Splitter - Trim function

それでもTrimしたいよ！！って人は、Cell Splitterの機能を使わず、この後にString Manipulationを挿入しましょう。strip(コラム名)で空白を削除可能です！

f:id:makkynm:20200704072441p:plain — String Manipulation - Trim　空白を削除

Use \ as escape characterについて

「\」をエスケープ文字に使用するかを指定できます。例えば、これにチェックを入れると、「\n」を改行と解釈し、「\t」をタブスペースと解釈します。ここでは、「\n」を使って区切ってみたいと思います。

ここにチェックを入れないと、「\n」という文字を探すことになるので、区切られません。

f:id:makkynm:20200703090952p:plain — Cell Splitter - escape character

チェックを入れると、「\n」が改行として認識されるので分けることができます。

f:id:makkynm:20200703091054p:plain — Cell Splitter - escape character

Step3 - Output についての詳細

As list / As set / As new columnsについて

これを説明するためのデータを用意するの忘れていました、、なので、Table Creator で簡易的に作ったデータでお見せします。

f:id:makkynm:20200704073723p:plain — Cell Splitter - 例２

「-」で区切ってこれらの違いについてみていきたいと思います。

As new columns

デフォルト設定はこれになってますね。「-」がある位置で区切られて計６つのコラムができます。

f:id:makkynm:20200704073903p:plain — Cell Splitter - Output As new column 例

As list

次にAs Listをお見せします。これを選択すると、Outputのコラムは１つになり、Collectionというデータの塊で出力されます。データがすべてカンマ区切りで格納されている形式になってますね。「....」の部分は、すべてを見せるとデータが多いので表示を省略してますよという意味で、実際データはあります。

省略して書かないとすると、[A,001,1,1,1,1]となっているはずです。すさんのブログで説明があるとおり、CollectionはUngroupというNodeを組み合わせれば分解することができます。

また、Outputのコラムが一つなのでConfigure下のNew Columnに関する設定ができないようになります。