아 오랜만에 글을 써봅니다! 그 동안 얼마나 글을 쓰고싶었는지!
안녕하세요 저는 잘 지냅니다 허허.
오늘 들고온 물건은 역시 잉여한 물건입니다. 저는 이런 잉여한 작업을 좋아하죠.
저는 참고 문헌을 마지막에 쓰는게 싫습니다. 먼저 쓰신 분들에게 실례같아요. 그러니 먼저 오늘 이 글을 쓰기에 이르기까지 참고한 사이트를 먼저 쓰고자 합니다.
http://www.clien.net/cs2/bbs/board.php?bo_table=lecture&wr_id=212575
http://www.linuxjournal.com/article/3641
https://docs.python.org/3.4/c-api/init.html
자 그럼 시작해볼까요.
이번 글은 C++에서 tweepy를 사용하기 위해 삽질한 글 입니다. 사용한 파이썬 버전은 3.4.3 입니다.
최종 목적은 C 함수를 파이썬에서 호출하고 파이썬 코드를 C에서 호출하는 것 입니다.
이 글은 Windows를 기준으로 설명됩니다. 리눅스는 훨씬 더 쉽게 작업을 진행 하실 수 있습니다 -ㅅ-; 리눅스 개발자 분들은 알아서 잘 하실거라 믿어요.
먼저 파이썬을 다운받아 설치합니다. 아, 최종적으로 배포하시려는 프로그램의 플랫폼이 32비트면 32비트 파이썬을 다운받아 주시는것 잊지 마시구요!
이제 부스트를 빌드해봅시다. 부스트 빌드 옵션의 자세한 설명은 구글에 검색해 보시길 권장합니다. 참고로 저는 아래 블로그를 참고해서 빌드했습니다.
http://warmz.tistory.com/903
그 다음에 tweepy를 받고 인스톨합니다. 머 이건 자유입니다. 그냥 참고만 하셔도 됩니다. (참고로 tweepy는 3.4.3에서 오류가 있습니다. 해결 방법은 맨 마지막에 있습니다.)
위 작업이 끝나셨으면, 이제 코딩하러 갑니다.
VS를 실행하시고 프로젝트 생성 후 반드시 Release 빌드로 바꾸시고 Python 인스톨 디렉터리 안의 include를 헤더 파일 경로에 추가, libs 폴더를 라이브러리 폴더에 추가해줍니다.
Release로 빌드 안하면 python_d.lib 없다고 컴파일 안되는데 python_d.lib를 구하려면 파이썬 소스 코드를 직접 컴파일 하셔야합니다... 귀찮으니 생략합니다.
부스트 역시 라이브러리 폴더와 헤더 폴더에 추가합니다. (경로는 부스트 빌드가 끝나면 출력해줍니다.)
으음. 일단 파이썬 스크립트먼저 대충 짜볼까요...
tweepy 예제 코드를 조금 수정해보죠.
import twit_c
import time
import webbrowser
from getpass import getpass
import tweepy
import sys
class StreamWatcherListener(tweepy.StreamListener):
def on_status(self, status):
try:
# C 함수를 호출합니다.
twit_c.on_status(status.text)
except:
print(sys.exc_info())
pass
def on_error(self, status_code):
print('An error has occured! Status code = %s' % status_code)
return True # keep stream alive
def on_timeout(self):
print('Snoozing Zzzzzz')
consumer_key = '수정'
consumer_secret = '수정'
access_token = '수정'
access_secret = '수정'
auth = tweepy.auth.OAuthHandler(consumer_key, consumer_secret, 'oob')
auth.set_access_token(access_token, access_secret)
api = tweepy.API(auth)
stream = ''
l = StreamWatcherListener()
def get_authorization_url():
return auth.get_authorization_url()
def set_access_token(pin):
auth.get_access_token(verifier=pin)
global api
api = tweepy.API(auth)
def userstream_start(run_async = False):
global stream
global l
stream = tweepy.Stream(auth, l)
stream.userstream(async = run_async)
def userstream_end():
global stream
stream.disconnect()
def home_timeline(page = 0, max_id = -1):
if max_id == -1:
return api.home_timeline()
else:
return api.home_timeline(page=0, max_id=max_id);
으음. 머 이정도 일까요. 제가 파이썬을 제대로 공부한게 아니라 코드가 병신이네요. 넹 머 그래도 불편함 없이 충분히 테스트 가능할거 같네요.
프로젝트 폴더 안에 scripts라는 폴더를 생성 하고 위 코드를 twit.py 라는 파일로 저장하겠습니다. 그리고 __init__.py 를 만듭니다. 머 딱히 아무것도 안쓰셔도 됩니다.
C++로 돌아와보죠.
부스트 헤더와 파이썬 헤더를 인클루드합니다.
#include <stdio.h>
#include <string>
#include <windows.h>
#include <python.h>
// 아래 두 개의 전처리문에 대해서는 검색하시기 바랍니다.
#define BOOST_ALL_NO_LIB
#define BOOST_PYTHON_STATIC_LIB
#include <boost/python.hpp>
// 사용할 lib 파일을 지정합니다.
#pragma comment(lib, "libboost_python3-vc120-mt-1_58.lib")
// 유니코드 지원을 위한
#include <io.h>
#include <fcntl.h>
자 이제 파이썬에서 호출할 함수를 만들죠.
// 파이썬에서 호출할 함수입니다.
static PyObject* OnStatus(PyObject *self, PyObject *args)
{
const char* str = NULL;
if (!PyArg_ParseTuple(args, "s", &str))
return NULL;
// 파이썬 3.4.3에서 tweepy는 utf8 문자열을 던져줍니다.
// 콘솔에서 출력을 위해 utf-16으로 인코딩을 바꾸어 줍니다.
wchar_t text[300] = { 0 };
MultiByteToWideChar(CP_UTF8, 0, str, -1, text, 300);
wprintf(L"%s\n", text);
Py_RETURN_NONE;
}
// 파이썬에서 호출할 함수를 가지고 있는 변수.
// 자세한 내용은 Python API 문서를 참고해주시기 바랍니다.
static PyMethodDef OnStatusMethods[] = {
{ "on_status", (PyCFunction)OnStatus, METH_VARARGS,
"userstream callback function." },
{ NULL, NULL, 0, NULL }
};
// 모듈 변수.. 자세한 내용은 역시 Python API.
static struct PyModuleDef OnStatusModules = {
PyModuleDef_HEAD_INIT,
"twit_c",
"userstream callback test.",
-1, OnStatusMethods
};
// 모듈을 등록할 때 함수포인터를 받네요... 그래서 만들었습니다.
static PyObject* PyInit_Twit(void)
{
return PyModule_Create(&OnStatusModules);
}
와 이거 점점 길어지는데요 ㅋㅋ....
본격적으로 들어가기전에 boost python에 잠시 이야기하겠습니다.
본래 python을 순수 Python API만을 이용하여 C에서 사용하려고 하면 PyObject*에 대해 수동으로 레퍼런스 카운팅을 해줘야합니다.
무슨 소리냐구요? 메모리를 개발자가 수동으로 관리해 주어야 한다는 소리죠!
아 이 얼마나 귀찮은 이야기입니까... 코드 적게 짜겠다고 임베디드 파이썬 써보려고 하는데 레퍼런스 카운트가 수동이라니;
코드가 더러워질거 같습니다. C++11에서 표준으로 포함된 shared_ptr 같은 놈을 쓰면 인생 참 행복해 질텐데 말이죠.
boost python을 사용하면 그게 됩니다. 넹. 여러분이 레퍼런스 카운팅을 신경 쓸 필요가 없다는거죠. 이 외에 더 좋은 기능도 많습니다. 제가 저 위에 파이썬에서 C 함수 호출하겠다고 장황하게 쓴 저것도 boost python을 사용하면 사실 간단하게 만들 수 있는것 같더라구요. 해보진 않아서 모르겠습니다. 아닌가..?
자세한 내용은 글 시작하기 전에 써놓은 클리앙 링크를 참고해주세요. 이 글보다 몇 백배 친절한 설명이 있으며 이 글보다 예외 처리도 잘 되어있습니다...
자 그럼 이 좋은 부스트 파이썬을 바로 써보도록 하져.
boost::python::object tmp; 를 입력하고 저장하느 순간 Visual Studio의 Intellisense가 비명을 지르기 시작하는게 함정
int main(int argc, char *argv[])
{
using namespace boost::python;
// Windows 콘솔에서 유니코드 글자 출력을 위해 필요합니다!
_setmode(_fileno(stdout), _O_U16TEXT);
// 이 함수는 Py_Initialize 함수가 호출되기 전에 호출되어야 합니다.
PyImport_AppendInittab("twit_c", &PyInit_Twit);
// 파이썬 초기화
Py_Initialize();
// 항상 예외는 체크해 주셔야 합니다.
// 아래 코드를 블럭으로 묶은 이유는 스코프 범위 때문입니다.
// Py_Finalize 함수가 호출 되기 전에 모든 PyObject*가 해제되어야 합니다.
// 만약 스코프를 제한하지 않으면 Py_Finalize 이후에 boost::python::object 클래스의 소멸자가 호출되며
// 이는 런타임 에러로 이어집니다.
//try
{
// scripts 폴더의 twit.py를 import 한 후 그 객체를 twit에 저장합니다.
boost::python::object twit = boost::python::object(boost::python::handle<>(PyImport_ImportModule("scripts.twit")));
// twit에서 home_timeline 어트리뷰트를 찾고 호출합니다.
// boost python에서 어트리뷰트를 찾는 함수는 attr이며, 이 함수의 결과로 리턴되는 object 클래스는 ()가 오버로딩 되어있습니다.
// 이 오버로드된 ()을 호출하게 되면 해당 어트리뷰트의 함수를 실행합니다.
// 만약 존재하지 않는 어트리뷰트를 실행하게 될 경우 예외를 내뿜게 되니 예외처리를 해주셔야합니다.
auto hometimeline = twit.attr("home_timeline")();
auto hometimeline_sizeof = hometimeline.attr("__len__")();
// extract함수는 리턴 결과를 특정 타입으로 캐스팅 시켜줍니다. __len__ 함수는 int형을 리턴하므로 int로 캐스팅해줍니다.
// 만약 캐스팅에 실패하면 (리스트를 int형으로 바꾼다던가... 불가능한 캐스팅의 경우) 역시 예외가 발생합니다.
int testCount = boost::python::extract<int>(hometimeline_sizeof);
wprintf(L"%d\n", testCount);
// 프로퍼티나 변수의 경우 아래처럼 그냥 어트리뷰트만 가져온 후 extract로 타입 변환 해주면 됩니다.
// 오버로딩된 ()를 호출할 경우 예외가 발생하니 주의해주세요.
long long maxId = boost::python::extract<long long>(hometimeline.attr("max_id"));
for (int i = 0; i < testCount; i++)
{
auto py_auther_name = hometimeline[i].attr("author").attr("name");
auto py_auther_screen_name = hometimeline[i].attr("author").attr("screen_name");
auto py_text = hometimeline[i].attr("text");
char* utf8_auther_name = boost::python::extract<char*>(py_auther_name);
char* utf8_screen_name = boost::python::extract<char*>(py_auther_screen_name);
char* utf8_text = boost::python::extract<char*>(py_text);
wchar_t u_auther_name[300] = { 0 };
wchar_t u_screen_name[300] = { 0 };
wchar_t u_text[300] = { 0 };
// 변경하는 이유는 위에 파이썬에서 호출되는 함수에 써놓았습니다.
MultiByteToWideChar(CP_UTF8, 0, utf8_auther_name, -1, u_auther_name, 300);
MultiByteToWideChar(CP_UTF8, 0, utf8_screen_name, -1, u_screen_name, 300);
MultiByteToWideChar(CP_UTF8, 0, utf8_text, -1, u_text, 300);
// wprintf(L"auther id : %s, screen_name : %s\n", u_auther_name, u_screen_name);
wprintf(L"text : %s\n", u_text);
}
wprintf(L"Start UserStream!\n");
// userstream 서버에 접속합니다!
// 이 함수의 인자는 async 여부이므로 true을 던져줬으니 비동기로 처리한다는 이야기겠죠?
// 안타깝지만 작동하지 않습니다. 정확힌 함수가 호출되고 실행되다 일시정지됩니다.
twit.attr("userstream_start")(true);
// 사용자로 부터 입력을 받습니다.
while (1)
{
wchar_t input[300] = { 0 };
std::wcin >> input;
if (input[0] == L'q')
{
twit.attr("userstream_end")();
break;
}
}
}
// catch (...)
// {
// }
Py_Finalize();
return 0;
}
머 홈 타임라인은 얻어오네요 ㅎㅎ. cin까지도 정상적으로 호출됩니다.
하지만 안타깝게도.. 유저스트림이 작동하질 않아요...
파이썬 코드에서 생성한 쓰레드가 중간에 정지되기 때문입니다. ㅜ_ㅜ
해결방법이 있으니까 글을 썼겠져?
이를 위해선 C코드에서 파이썬 쓰레드를 관리해주어야 할 필요가 있습니다.
자 그럼 관리해보죠.
int main(int argc, char *argv[])
{
using namespace boost::python;
_setmode(_fileno(stdout), _O_U16TEXT);
PyImport_AppendInittab("twit_c", &PyInit_Twit);
Py_Initialize();
// !추가!
PyEval_InitThreads();
{
boost::python::object twit = boost::python::object(boost::python::handle<>(PyImport_ImportModule("scripts.twit")));
// 현재 파이썬 쓰레드 상태를 가져옵니다.
auto mainThreadState = PyThreadState_Get();
wprintf(L"Start UserStream!\n");
twit.attr("userstream_start")(true);
// 현재 쓰레드 상태를 저장하고 쓰레드의 global interpreter lock(GIL)을 해제합니다.
// GIL에 대한 설명은 Python API를 참고해주세요.
mainThreadState = PyEval_SaveThread();
while (1)
{
wchar_t input[300] = { 0 };
std::wcin >> input;
if (input[0] == L'q')
{
// 마지막으로 저장된 쓰레드 상태를 가져온 후 GIL을 설정합니다.
// PyEval_SaveThread()를 호출한 이후에는 파이썬의 현재 쓰레드 상태가 NULL이 되기 때문에
// 반드시 아래 함수나 PyThreadState_Swap 함수를 이용하여 쓰레드 상태를 변경해주어야 다른 파이썬 코드를 실행 할 수 있습니다.
// 또한 PyEval_SaveThread() 후 파이썬 코드를 실행하기 전에 GIL을 반드시 설정해야 한다는 사실도 잊지 마시길 바랍니다.
PyEval_RestoreThread(mainThreadState);
twit.attr("userstream_end")();
// 현재 쓰레드 상태를 저장하고 GIL을 해제합니다.
mainThreadState = PyEval_SaveThread();
break;
}
}
// 마지막으로 저장된 쓰레드 상태를 가져온 후 GIL을 설정합니다.
// Py_Finalize 함수 호출 전에 반드시 GIL이 설정되어있어야 합니다.
PyEval_RestoreThread(mainThreadState);
}
Py_Finalize();
return 0;
}
우와..이렇게 하면 작동해야 할텐데 말이죠...
머져 이 귀찮은건...
tweepy의 코드를 수정해줍니다. tweepy/streaming.py를 편집기로 열고 ReadBuffer 클래스의 161번 줄, 171번줄을 수정합니다.
def read_len(self, length):
# ...중간 코드 생략...
# 아래 코드의 맨 끝에 .decode('utf-8')을 붙입니다.
self._buffer += self._stream.read(read_len).decode('utf-8')
def read_line(self, sep='\n'):
# ...중간 코드 생략...
# 아래 코드의 맨 끝에 .decode('utf-8')을 붙입니다.
self._buffer += self._stream.read(self._chunk_size).decode('utf-8')
이렇게 오랜만의 글이 끝났네요. 설명이 무진장 대충이라 이해가 안되시는 부분도 많을거라 생각됩니다....
그런 부분에 대해서는 위에 언급한 사이트를 참고하셔서(...) 위기를 잘 헤쳐나가시길 바랍니다.
사실 이 글과 저 위에 있는 글 2개면 왠만한 임베디드 파이썬에서 문제가 생길것 같진 않네요.
블로그를 방문해 주셔서 감사합니다. 좋은 하루 되시고 즐거운 코딩하시길 바랍니다!