import numpy as np # Import von NumPy
import pandas as pd # Import von Pandas
np.random.seed(3) # Fixierung des Zufallszahlgenerators zur beseren Erklärung

wetter = pd.read_csv("../data/Wetter/warnemuende_1960.csv", sep=';')
wetter.shape

(7209, 19)

from myst_nb import glue
glue("wetter_size1", wetter.shape[0])
glue("wetter_size2", wetter.shape[1])

wetter.loc[2:4, "TMK"]=pd.NA
wetter.loc[  7, "TMK"]=pd.NA

7209

19

wetter.head()

wetter.tail()

wetter = wetter.replace(-999, pd.NA)
wetter.head()

wetter = pd.read_csv("../data/Wetter/warnemuende_1960.csv", sep=';', na_values=['-999','NA'])

wetter.count()

STATIONS_ID    7209
MESS_DATUM     7209
QN_3           4656
FX                0
FM             4656
QN_4           7209
RSK            5752
RSKF           5752
SDK            5752
SHK_TAG        5752
NM             5752
VPM            7209
PM             7209
TMK            7209
UPM            7209
TXK            7209
TNK            7209
TGK            7209
eor            7209
dtype: int64

wetter.isna().sum()

STATIONS_ID       0
MESS_DATUM        0
QN_3           2553
FX             7209
FM             2553
QN_4              0
RSK            1457
RSKF           1457
SDK            1457
SHK_TAG        1457
NM             1457
VPM               0
PM                0
TMK               0
UPM               0
TXK               0
TNK               0
TGK               0
eor               0
dtype: int64

wetter.shape[0] - wetter.count()

STATIONS_ID       0
MESS_DATUM        0
QN_3           2553
FX             7209
FM             2553
QN_4              0
RSK            1457
RSKF           1457
SDK            1457
SHK_TAG        1457
NM             1457
VPM               0
PM                0
TMK               0
UPM               0
TXK               0
TNK               0
TGK               0
eor               0
dtype: int64

wetter.QN_3.count()

4656

t = wetter.dropna()
t.shape

(0, 19)

t = wetter.dropna(axis=1, how="all")
t.shape

(7209, 18)

w = t.dropna(subset=["TMK", "UPM"])
w.shape

(7209, 18)

w.head()

wetter.TMK.min(), wetter.TMK.max()

(-14.8, 27.8)

wetter.UPM.min(), wetter.UPM.max()

(42.0, 1000.0)

wetter["UPM"]=wetter.UPM.mask(cond=wetter.UPM > 100, other=pd.NA)

wetter.UPM.min(), wetter.UPM.max()

(42.0, 100.0)

wetter.SHK_TAG.fillna(value=0)

0       0.0
1       0.0
2       0.0
3       0.0
4       0.0
       ... 
7204    0.0
7205    0.0
7206    0.0
7207    0.0
7208    0.0
Name: SHK_TAG, Length: 7209, dtype: float64

wetter.TMK[:10]

0    -2.1
1    -4.8
2   -12.9
3   -12.9
4    -9.9
5    -9.1
6   -10.8
7    -9.3
8    -1.1
9     2.6
Name: TMK, dtype: float64

wetter["TMK"]=wetter.TMK.interpolate(method="cubic", limit=1)
wetter.TMK[:10]

0    -2.1
1    -4.8
2   -12.9
3   -12.9
4    -9.9
5    -9.1
6   -10.8
7    -9.3
8    -1.1
9     2.6
Name: TMK, dtype: float64

wetter["RSK"]=wetter.RSK.ffill(limit=1)

wetter["DATUM_DT"] = pd.to_datetime(wetter.MESS_DATUM.astype(str), format="%Y%m%d", utc=True)

wetter.sort_values(by="DATUM_DT", inplace=True) # Sortier nach der Spalte "MESS_DATUM" und ersetzt den Dataframe direkt (inplace)

wetter.DATUM_DT.diff().value_counts()

DATUM_DT
1 days    7205
2 days       2
3 days       1
Name: count, dtype: int64

wetter.set_index("DATUM_DT", inplace=True)

wetter1D=wetter.resample('1d').ffill(limit=1)

wetter1D.reset_index(inplace=True)

wetter1D.DATUM_DT.diff().value_counts()

DATUM_DT
1 days    7212
Name: count, dtype: int64

wetter1D.SDK.mean()

4.904363699582754

wetter1D.SDK.sum()/len(wetter1D.SDK)

3.9109801746845974

wetter1D.SDK.sum()/wetter1D.SDK.count()

4.904363699582754

sonnentage = wetter1D.SDK < 8
sonnentage.value_counts(dropna=False)

SDK
True     4180
False    3033
Name: count, dtype: int64

sonnentage = wetter1D.SDK.map(lambda x: x < 8, na_action='ignore')
sonnentage.value_counts(dropna=False)

SDK
True     4180
False    1572
NaN      1461
Name: count, dtype: int64

pd.cut(x, bins, right=True, labels=None)

wetter1D["TemperaturKlasse"]=pd.cut(wetter1D.TMK,
        bins = [-np.inf, 13, 18, 24, 30, np.inf],
        labels = ["Cold", "Cool", "Mild", "Warm", "Hot"],
        right=False)

wetter1D["TemperaturKlasse"].value_counts(dropna=False)

TemperaturKlasse
Cold    4861
Cool    1836
Mild     503
Warm      12
NaN        1
Hot        0
Name: count, dtype: int64

wetter1D["HeizKuehlTage"] = np.where(wetter1D.TMK > 22, "Kühlgradtag", np.where(wetter1D.TMK < 15, "Heizgradtag", "Normaltag"))
wetter1D["HeizKuehlTage"].value_counts(dropna=False)

HeizKuehlTage
Heizgradtag    5611
Normaltag      1559
Kühlgradtag      43
Name: count, dtype: int64

wetter1D["HeizKuehlTage"] = np.where(wetter1D.TMK.isna(), pd.NA, np.where(wetter1D.TMK > 22, "Kühlgradtag", np.where(wetter1D.TMK < 15, "Heizgradtag", "Normaltag")))
wetter1D["HeizKuehlTage"].value_counts(dropna=False)

HeizKuehlTage
Heizgradtag    5611
Normaltag      1558
Kühlgradtag      43
<NA>              1
Name: count, dtype: int64

wetter1D["HeizKuehlTage"] = wetter1D.TMK.map(lambda x: "Heizgradtag" if x < 15 else "Kühlgradtag" if x > 22 else "Normaltag", na_action='ignore')

wetter1D["QNS_4"] = pd.NA
wetter1D.loc[wetter1D.QN_4 ==  1, "QNS_4"] = "nur formale Prüfung"
wetter1D.loc[wetter1D.QN_4 ==  2, "QNS_4"] = "nach individuellen Kriterien geprüft"
wetter1D.loc[wetter1D.QN_4 ==  3, "QNS_4"] = "automatische Prüfung und Korrektur"
wetter1D.loc[wetter1D.QN_4 ==  5, "QNS_4"] = "historische, subjektive Verfahren"
wetter1D.loc[wetter1D.QN_4 ==  7, "QNS_4"] = "geprüft, gepflegt, nicht korrigiert"
wetter1D.loc[wetter1D.QN_4 ==  8, "QNS_4"] = "Qualitätsicherung ausserhalb ROUTINE"
wetter1D.loc[wetter1D.QN_4 ==  9, "QNS_4"] = "nicht alle Parameter korrigiert"
wetter1D.loc[wetter1D.QN_4 == 10, "QNS_4"] = "Qualitätsprüfung und Korrektur beendet"

wetter1D["QNS_4"].value_counts(dropna=False)

QNS_4
historische, subjektive Verfahren       7202
automatische Prüfung und Korrektur         3
nur formale Prüfung                        2
nach individuellen Kriterien geprüft       2
Qualitätsicherung ausserhalb ROUTINE       2
<NA>                                       1
nicht alle Parameter korrigiert            1
Name: count, dtype: int64

def QN_Mapping(x):
    if x == 1: return "nur formale Prüfung"
    if x == 2: return "nach individuellen Kriterien geprüft"
    if x == 3: return "automatische Prüfung und Korrektur"
    if x == 5: return "historische, subjektive Verfahren"
    if x == 7: return "geprüft, gepflegt, nicht korrigiert"
    if x == 8: return "Qualitätsicherung ausserhalb ROUTINE"
    if x == 9: return "nicht alle Parameter korrigiert"
    if x == 10: return "Qualitätsprüfung und Korrektur beendet"
    return pd.NA

wetter1D["QNS_4"] = wetter1D.QN_4.map(QN_Mapping, na_action='ignore')

QN_Dummies = pd.get_dummies(wetter1D.QNS_4, prefix="QN")
QN_Dummies

QN_Factors_Values, QN_Factors_Mapping = pd.factorize(wetter1D.QNS_4)
QN_Factors_Values, QN_Factors_Mapping

(array([0, 0, 1, ..., 0, 0, 0]),
 Index(['historische, subjektive Verfahren',
        'automatische Prüfung und Korrektur', 'nur formale Prüfung',
        'nach individuellen Kriterien geprüft',
        'Qualitätsicherung ausserhalb ROUTINE',
        'nicht alle Parameter korrigiert'],
       dtype='object'))

wetter1D["QNF_4"] = QN_Factors_Values

wetter_ext = pd.concat((wetter1D, QN_Dummies), axis=1)
wetter_ext

wetter_ab_1960 = pd.read_csv("../data/Wetter/warnemuende_ab_1960.csv", sep=';', na_values=['-999','NA'])
wetter_ab_1960["DATUM_DT"] = pd.to_datetime(wetter_ab_1960.MESS_DATUM.astype(str), format="%Y%m%d")
wetter_ab_1960

wetter_all=pd.concat((wetter1D, wetter_ab_1960), axis=0)
wetter_all

wetter_all["TemperaturKlasse"]=pd.cut(wetter_all.TMK, bins = [-np.inf, 13, 18, 24, 30, np.inf], labels = ["Cold", "Cool", "Mild", "Warm", "Hot"], right=False)
wetter_all["HeizKuehlTage"] = wetter_all.TMK.map(lambda x: "Heizgradtag" if x < 15 else "Kühlgradtag" if x > 22 else "Normaltag", na_action='ignore')
wetter_all["QNS_4"]    = wetter_all.QN_4.map(QN_Mapping, na_action='ignore')
wetter_all["QNF_4"], _ = pd.factorize(wetter_all.QNS_4)

uros_egy=pd.read_csv("../data/UROS/Energy1D_kW.csv", parse_dates=["Date"])
uros_egy.head()

uros_egy_weater=pd.merge(uros_egy, wetter_all, right_on="DATUM_DT", left_on="Date", how="left")
uros_egy_weater.head()

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
Cell In[50], line 1
----> 1 uros_egy_weater=pd.merge(uros_egy, wetter_all, right_on="DATUM_DT", left_on="Date", how="left")
      2 uros_egy_weater.head()

File /opt/miniconda3/envs/lehre4/lib/python3.12/site-packages/pandas/core/reshape/merge.py:170, in merge(left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy, indicator, validate)
    155     return _cross_merge(
    156         left_df,
    157         right_df,
   (...)
    167         copy=copy,
    168     )
    169 else:
--> 170     op = _MergeOperation(
    171         left_df,
    172         right_df,
    173         how=how,
    174         on=on,
    175         left_on=left_on,
    176         right_on=right_on,
    177         left_index=left_index,
    178         right_index=right_index,
    179         sort=sort,
    180         suffixes=suffixes,
    181         indicator=indicator,
    182         validate=validate,
    183     )
    184     return op.get_result(copy=copy)

File /opt/miniconda3/envs/lehre4/lib/python3.12/site-packages/pandas/core/reshape/merge.py:807, in _MergeOperation.__init__(self, left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, indicator, validate)
    803 self._validate_tolerance(self.left_join_keys)
    805 # validate the merge keys dtypes. We may need to coerce
    806 # to avoid incompatible dtypes
--> 807 self._maybe_coerce_merge_keys()
    809 # If argument passed to validate,
    810 # check if columns specified as unique
    811 # are in fact unique.
    812 if validate is not None:

File /opt/miniconda3/envs/lehre4/lib/python3.12/site-packages/pandas/core/reshape/merge.py:1512, in _MergeOperation._maybe_coerce_merge_keys(self)
   1510 # datetimelikes must match exactly
   1511 elif needs_i8_conversion(lk.dtype) and not needs_i8_conversion(rk.dtype):
-> 1512     raise ValueError(msg)
   1513 elif not needs_i8_conversion(lk.dtype) and needs_i8_conversion(rk.dtype):
   1514     raise ValueError(msg)

ValueError: You are trying to merge on datetime64[ns, UTC] and object columns for key 'Date'. If you wish to proceed you should use pd.concat

uros_egy["Date"]=pd.to_datetime(uros_egy['Date'], utc=True)
wetter_all["DATUM_DT"]=pd.to_datetime(wetter_all['DATUM_DT'], utc=True)

uros_egy_weater=pd.merge(uros_egy, wetter_all, right_on="DATUM_DT", left_on="Date", how="left")
uros_egy_weater.head()

sum(wetter_all.duplicated())

2465

sum(wetter_all.duplicated(subset=['DATUM_DT']))

2465

wetter_all.drop_duplicates(subset=['DATUM_DT'], inplace=True)
wetter_all.shape

(28192, 24)

wetter_all.to_csv("../data/Wetter/warnemuende_clean.csv", sep=';', index=False)
uros_egy_weater.to_csv("../data/UROS/Energy1D_weather_clean.csv", index=False)

wetter_melted = wetter_all.melt(id_vars=['DATUM_DT', "TemperaturKlasse"], value_vars=["TXK","TMK","TNK"])
wetter_melted

import plotly.express as px

px.line(wetter_melted, x="DATUM_DT", y="value", facet_row ="variable")

wetter_hardened = wetter_melted.pivot(columns='variable', index=['DATUM_DT', "TemperaturKlasse"], values='value')
wetter_hardened

wetter_hardened.reset_index()

Sprache / Tool	Fehlender Wert
Python (NumPy)	`np.nan`
Python (Pandas ab v1.0)	`pd.NA`
R	`NA`
Julia	`missing`
Excel	Leeres Feld
Geräte	`-9999`, `99999` o.ä.

	STATIONS_ID	MESS_DATUM	QN_3	FX	FM	QN_4	RSK	RSKF	SDK	SHK_TAG	NM	VPM	PM	TMK	UPM	TXK	TNK	TGK	eor
0	4271	19470101	-999	-999	-999.0	5	-999.0	-999	-999.0	-999	-999.0	4.1	1019.3	-2.1	78.0	-1.5	-3.3	-5.8	eor
1	4271	19470103	-999	-999	-999.0	3	-999.0	-999	-999.0	-999	-999.0	3.6	1032.4	-4.8	80.0	-2.4	-6.2	-4.5	eor
2	4271	19470105	-999	-999	-999.0	5	-999.0	-999	-999.0	-999	-999.0	1.9	1031.9	NaN	79.0	-9.4	-14.0	-16.0	eor
3	4271	19470108	-999	-999	-999.0	5	-999.0	-999	-999.0	-999	-999.0	1.9	1023.1	NaN	82.0	-9.8	-15.3	-19.0	eor
4	4271	19470109	-999	-999	-999.0	5	-999.0	-999	-999.0	-999	-999.0	2.4	1017.5	NaN	84.0	-8.7	-13.7	-19.0	eor

	STATIONS_ID	MESS_DATUM	QN_3	FX	FM	QN_4	RSK	RSKF	SDK	NM	VPM	PM	TMK	UPM	TXK	TNK	TGK	eor
7204	4271	19660926	5	-999	6.6	5	0.3	1	2.2	6.6	12.8	1014.0	13.1	86.0	15.1	9.5	7.9	eor
7205	4271	19660927	5	-999	10.0	5	0.0	1	6.1	5.8	10.1	1014.3	12.0	72.0	13.3	10.9	10.4	eor
7206	4271	19660928	5	-999	4.5	5	0.0	0	9.9	2.6	9.1	1017.5	9.7	74.0	12.5	7.7	8.7	eor
7207	4271	19660929	5	-999	3.3	5	0.0	0	7.8	4.8	9.2	1015.8	9.7	78.0	14.9	5.1	3.1	eor
7208	4271	19660930	5	-999	3.5	5	0.0	0	7.8	2.2	10.9	1007.9	11.1	83.0	16.1	5.8	4.8	eor

	STATIONS_ID	MESS_DATUM	QN_3	FX	FM	QN_4	RSK	RSKF	SDK	SHK_TAG	NM	VPM	PM	TMK	UPM	TXK	TNK	TGK	eor	DATUM_DT
0	4271	19600101	5.0	NaN	4.1	5	1.4	1.0	0.000	0.0	7.8	8.9	1003.40	7.0	90.00	7.9	4.9	4.1	eor	1960-01-01
1	4271	19600102	5.0	NaN	2.4	5	1.4	1.0	0.000	0.0	8.0	9.7	1004.80	6.8	97.00	8.0	6.3	5.2	eor	1960-01-02
2	4271	19600103	5.0	NaN	1.7	5	0.1	1.0	0.000	0.0	7.8	8.8	1014.20	5.2	99.00	6.7	4.8	4.0	eor	1960-01-03
3	4271	19600104	5.0	NaN	2.5	5	0.0	1.0	0.000	0.0	8.0	8.3	1027.10	4.3	98.00	5.3	3.3	3.4	eor	1960-01-04
4	4271	19600105	5.0	NaN	7.1	5	1.6	1.0	0.000	0.0	7.8	9.1	1016.00	5.9	95.00	9.3	3.8	3.5	eor	1960-01-05
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
23439	4271	20240304	1.0	11.0	3.1	1	0.0	0.0	8.667	0.0	3.9	8.3	1010.80	7.1	81.54	12.0	3.1	1.8	eor	2024-03-04
23440	4271	20240305	1.0	10.2	3.5	1	0.0	6.0	1.183	0.0	5.7	6.6	1017.63	3.7	82.50	6.0	2.1	0.7	eor	2024-03-05
23441	4271	20240306	1.0	8.1	2.7	1	0.0	0.0	1.383	0.0	7.7	7.1	1024.36	4.2	85.96	6.2	2.8	2.4	eor	2024-03-06
23442	4271	20240307	1.0	7.4	2.7	1	0.0	0.0	7.783	0.0	3.1	6.1	1026.72	4.4	74.04	9.5	0.6	-1.1	eor	2024-03-07
23443	4271	20240308	1.0	8.2	2.7	1	0.0	0.0	5.667	0.0	2.8	6.1	1020.17	2.5	84.29	8.9	-0.4	-3.1	eor	2024-03-08

	Date	EV_HT_740	EV_NT_740	E_AV_Lab	E_SV_Lab	ES_Lab
0	2020-12-30 00:00:00+00:00	NaN	NaN	NaN	NaN	NaN
1	2020-12-31 00:00:00+00:00	NaN	NaN	1256.0	291.0	5.0
2	2021-01-01 00:00:00+00:00	0.0	4080.0	1221.0	290.0	1.0
3	2021-01-02 00:00:00+00:00	1170.0	2630.0	1243.0	284.0	2.0
4	2021-01-03 00:00:00+00:00	0.0	3750.0	1222.0	283.0	2.0

Fehlende Beobachtungen¶

Wie werden fehlende Daten codiert?¶

Umgang mit fehlenden Werten¶

Falsche Beobachtungen¶

Fehlende Werte Ersetzen¶

Wenige Fehlende Werte Ersetzen¶

Fehlende Werte Am Anfang und Ende¶

Fehlende Datumswerte hinzufügen¶

Fehlende Werte und mathematische Operationen¶

Konvertierung von Variablen¶

Konvertierung von kategorischen Variablen¶

Verwenden von `pd.cut`¶

Verwendung von `np.where`¶

Ersetzen ausgewählter Werte im Dataframe¶

Konvertierung kategorischer Variablen in Dummy-Variablen¶

Kombinieren von Daten in Dataframes¶

Verknüpfen von Daten mit `pd.concat`¶

Dataframe kombinieren¶

Duplikate entfernen¶

Dataframes Transformieren¶

	STATIONS_ID	MESS_DATUM	QN_3	FX	FM	QN_4	RSK	RSKF	SDK	SHK_TAG	NM	VPM	PM	TMK	UPM	TXK	TNK	TGK	eor
0	4271	19470101	<NA>	<NA>	<NA>	5	<NA>	<NA>	<NA>	<NA>	<NA>	4.1	1019.3	-2.1	78.0	-1.5	-3.3	-5.8	eor
1	4271	19470103	<NA>	<NA>	<NA>	3	<NA>	<NA>	<NA>	<NA>	<NA>	3.6	1032.4	-4.8	80.0	-2.4	-6.2	-4.5	eor
2	4271	19470105	<NA>	<NA>	<NA>	5	<NA>	<NA>	<NA>	<NA>	<NA>	1.9	1031.9	NaN	79.0	-9.4	-14.0	-16.0	eor
3	4271	19470108	<NA>	<NA>	<NA>	5	<NA>	<NA>	<NA>	<NA>	<NA>	1.9	1023.1	NaN	82.0	-9.8	-15.3	-19.0	eor
4	4271	19470109	<NA>	<NA>	<NA>	5	<NA>	<NA>	<NA>	<NA>	<NA>	2.4	1017.5	NaN	84.0	-8.7	-13.7	-19.0	eor

	QN_Qualitätsicherung ausserhalb ROUTINE	QN_automatische Prüfung und Korrektur	QN_historische, subjektive Verfahren	QN_nach individuellen Kriterien geprüft	QN_nicht alle Parameter korrigiert	QN_nur formale Prüfung
0	False	False	True	False	False	False
1	False	False	True	False	False	False
2	False	True	False	False	False	False
3	False	True	False	False	False	False
4	False	False	True	False	False	False
...	...	...	...	...	...	...
7208	False	False	True	False	False	False
7209	False	False	True	False	False	False
7210	False	False	True	False	False	False
7211	False	False	True	False	False	False
7212	False	False	True	False	False	False

	DATUM_DT	STATIONS_ID	MESS_DATUM	QN_3	FX	FM	QN_4	RSK	RSKF	SDK	...	TemperaturKlasse	HeizKuehlTage	QNS_4	QNF_4	QN_Qualitätsicherung ausserhalb ROUTINE	QN_automatische Prüfung und Korrektur	QN_historische, subjektive Verfahren	QN_nach individuellen Kriterien geprüft	QN_nicht alle Parameter korrigiert	QN_nur formale Prüfung
0	1947-01-01 00:00:00+00:00	4271.0	19470101.0	NaN	NaN	NaN	5.0	NaN	NaN	NaN	...	Cold	Heizgradtag	historische, subjektive Verfahren	0	False	False	True	False	False	False
1	1947-01-02 00:00:00+00:00	4271.0	19470101.0	NaN	NaN	NaN	5.0	NaN	NaN	NaN	...	Cold	Heizgradtag	historische, subjektive Verfahren	0	False	False	True	False	False	False
2	1947-01-03 00:00:00+00:00	4271.0	19470103.0	NaN	NaN	NaN	3.0	NaN	NaN	NaN	...	Cold	Heizgradtag	automatische Prüfung und Korrektur	1	False	True	False	False	False	False
3	1947-01-04 00:00:00+00:00	4271.0	19470103.0	NaN	NaN	NaN	3.0	NaN	NaN	NaN	...	Cold	Heizgradtag	automatische Prüfung und Korrektur	1	False	True	False	False	False	False
4	1947-01-05 00:00:00+00:00	4271.0	19470105.0	NaN	NaN	NaN	5.0	NaN	NaN	NaN	...	Cold	Heizgradtag	historische, subjektive Verfahren	0	False	False	True	False	False	False
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
7208	1966-09-26 00:00:00+00:00	4271.0	19660926.0	5.0	NaN	6.6	5.0	0.3	1.0	2.2	...	Cool	Heizgradtag	historische, subjektive Verfahren	0	False	False	True	False	False	False
7209	1966-09-27 00:00:00+00:00	4271.0	19660927.0	5.0	NaN	10.0	5.0	0.0	1.0	6.1	...	Cold	Heizgradtag	historische, subjektive Verfahren	0	False	False	True	False	False	False
7210	1966-09-28 00:00:00+00:00	4271.0	19660928.0	5.0	NaN	4.5	5.0	0.0	0.0	9.9	...	Cold	Heizgradtag	historische, subjektive Verfahren	0	False	False	True	False	False	False
7211	1966-09-29 00:00:00+00:00	4271.0	19660929.0	5.0	NaN	3.3	5.0	0.0	0.0	7.8	...	Cold	Heizgradtag	historische, subjektive Verfahren	0	False	False	True	False	False	False
7212	1966-09-30 00:00:00+00:00	4271.0	19660930.0	5.0	NaN	3.5	5.0	0.0	0.0	7.8	...	Cold	Heizgradtag	historische, subjektive Verfahren	0	False	False	True	False	False	False

	variable	TMK	TNK	TXK
DATUM_DT	TemperaturKlasse
1947-01-01 00:00:00+00:00	Cold	-2.1	-3.3	-1.5
1947-01-02 00:00:00+00:00	Cold	-2.1	-3.3	-1.5
1947-01-03 00:00:00+00:00	Cold	-4.8	-6.2	-2.4
1947-01-04 00:00:00+00:00	Cold	-4.8	-6.2	-2.4
1947-01-05 00:00:00+00:00	Cold	-12.9	-14.0	-9.4
...	...	...	...	...
2024-03-04 00:00:00+00:00	Cold	7.1	3.1	12.0
2024-03-05 00:00:00+00:00	Cold	3.7	2.1	6.0
2024-03-06 00:00:00+00:00	Cold	4.2	2.8	6.2
2024-03-07 00:00:00+00:00	Cold	4.4	0.6	9.5
2024-03-08 00:00:00+00:00	Cold	2.5	-0.4	8.9

Fehlende Beobachtungen¶

Wie werden fehlende Daten codiert?¶

Umgang mit fehlenden Werten¶

Falsche Beobachtungen¶

Fehlende Werte Ersetzen¶

Wenige Fehlende Werte Ersetzen¶

Fehlende Werte Am Anfang und Ende¶

Fehlende Datumswerte hinzufügen¶

Fehlende Werte und mathematische Operationen¶

Konvertierung von Variablen¶

Konvertierung von kategorischen Variablen¶

Verwenden von pd.cut¶

Verwendung von np.where¶

Ersetzen ausgewählter Werte im Dataframe¶

Konvertierung kategorischer Variablen in Dummy-Variablen¶

Kombinieren von Daten in Dataframes¶

Verknüpfen von Daten mit pd.concat¶

Dataframe kombinieren¶

Duplikate entfernen¶

Dataframes Transformieren¶

Verwenden von `pd.cut`¶

Verwendung von `np.where`¶

Verknüpfen von Daten mit `pd.concat`¶